基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一).doc
文本预览下载声明
基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一)
十一、多重星型模式
从“进阶技术”开始,已经通过增加列和表扩展了数据仓库,在进阶技术(五) “快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)。有了这两个事实表的数据仓库就是一个标准的双星型模式。
本节将在现有的维度数据仓库上再增加一个新的星型结构。与现有的与销售关联的星型结构不同,新的星型结构关注的是产品业务领域。新的星型结构有一个事实表和一个维度表,用于存储数据仓库中的产品数据。
1. 一个新的星型模式
下图显示了扩展后的数据仓库模式。
模式中有三个星型结构。sales_order_fact表是第一个星型结构的事实表,与其相关的维度表是customer_dim、product_dim、date_dim和sales_order_attribute_dim表。month_end_sales_order_fact表是第二个星型结构的事实表。product_dim和month_dim是其对应的维度表。第一个和第二个星型结构共享product_dim维度表。第二个星型结构的事实表和月份维度数据分别来自于第一个星型结构的事实表和date_dim维度表。它们不从源数据获得数据。第三个星型模式的事实表是新建的production_fact表。它的维度除了存储在已有的date_dim和product_dim表,还有一个新的factory_dim表。第三个星型结构的数据来自源数据。
执行下面的脚本建立第三个星型模式中的新表和对应的源数据表。
[sql] view plain copy 在CODE上查看代码片派生到我的代码片
-- 在MySQL源库上建立工厂表和每日产品表
USE source;
CREATE TABLE factory_master (
factory_code INT,
factory_name CHAR(30),
factory_street_address CHAR(50),
factory_zip_code INT(5),
factory_city CHAR(30),
factory_state CHAR(2)
);
alter table factory_master add primary key (factory_code);
CREATE TABLE daily_production (
product_code INT,
production_date DATE,
factory_code INT,
production_quantity INT
);
ALTER TABLE daily_production ADD FOREIGN KEY (factory_code)
REFERENCES factory_master(factory_code) ON DELETE CASCADE ON UPDATE CASCADE ;
ALTER TABLE daily_production ADD FOREIGN KEY (product_code)
REFERENCES product(product_code) ON DELETE CASCADE ON UPDATE CASCADE ;
alter table daily_production add primary key (product_code,production_date,factory_code);
-- 在Hive的rds库上建立相应的过渡表
USE rds;
CREATE TABLE factory_master (
factory_code INT,
factory_name VARCHAR(30),
factory_street_address VARCHAR(50),
factory_zip_code INT,
factory_city VARCHAR(30),
factory_state VARCHAR(2)
);
CREATE TABLE daily_production (
produ
显示全部