数据仓库开发模型.pptx
第二章数据仓库开发模型
参考课件:
2.1数据仓库的开发模型
现实世界
张三
客户
客户与产品
概念世界
特性
个体
整体
整体间联系
逻辑世界
属性
实体
同质实体
异质实体
计算机世界
列(字段、数据项)
记录
表文件
数据库
信用
现实世界是存在于现实之中的各种客观事物。
概念世界是现实情况在人们头脑中的反应。
逻辑世界是人们为为将存在于自己头脑中的概念模型转换到计算机中的实际的物理存储过程中的一个计算机逻辑表示模式。
计算机世界则是指现实世界中的事物在计算机系统中的实际存储模式。
图2.1现实与不同模型的变化联系
现实世界
概念模型
逻辑模型
物理模型
数据仓库
元数据模型
数据粒度模型和聚集模型
图2.2数据模型关系图
数据仓库的设计是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。
元数据模型作为数据仓库的灵魂自始自终伴随着数据仓库的开发、实施与使用。
数据粒度模型和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。
2.2数据仓库的概念模型
数据仓库模型的概念:数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本,以此为工具来确认数据仓库的设计者是否已经正确的了解数据仓库最终用户的信息需求。
数据仓库与操作型数据库一样,也存在高层模型(ERD,实体关系层)、中层模型(DIS,逻辑层)和低层模型(物理层)3个层次数据模型。
02
在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的企业数据模型——ER图(ERD)。这是一种描述组织业务概况的蓝图,包括整个组织系统中各个部门的业务处理及其业务处理数据。
01
数据仓库概念模型
图2.3企业数据模型
财务部门
销售收入帐
应收帐
应付帐
成本帐
销售部门
销售计划
销售合同
销售统计
人事部门
员工业绩记录
员工技能情况
员工薪酬表
财务
人事
销售
…….
……..
…..
企业数据模型
STEP4
STEP3
STEP2
STEP1
在实际设计中用于数据仓库设计的概念模型与业务数据处理系统的三级数据模型仍然具有一定的差距。
数据类型的差距:数据仓库的概念模型只包含用户所感兴趣的分析数据、描述数据和细节数据。
数据的历史变迁性:数据仓库的概念模型扩充了关键字结构,增加了事件属性并作为关键字的一部分。
数据的概括性:数据仓库的概念模型中还增加了一些基本数据所导出的衍生数据用于管理决策分析,这些在业务处理系统中是不存在的。
由于传统的实体关系图无法表述数据仓库中所需要的用户所感兴趣的分析数据、描述数据和细节数据的关系,因此将ERD中的实体分成指标实体(事实实体)、维实体和详细类别实体(引用实体)。
指标实体处于概念模型的中心,是数据仓库活动的中心。往往最后形成数据仓库中的实体-事实表。在现实世界中则是业务处理或者某一事件(例如,销售、服务等)。
指标实体
维度表
维实体在数据仓库中主要用于对实体指标的过滤和重新组织提供指导。
详细类别表
详细类别实体在数据仓库中也用物理数据库表示,通常与现实世界中的某一个实体相对应。
实例:P95、P96
规范的数据模型
数据仓库的数据
普通数据库系统的数据
长期的框架
短期的框架
静态
快速变化
数据通常是汇总的
记录级的访问
特殊查询访问
标准查询访问
定期更新
实时更新
数据驱动
事件驱动
表2-1数据仓库的数据与普通的数据库系统的数据之间的对比
星型模型
ER数据模型作为一种数据仓库的设计基础,在实际应用中存在很多缺点。
实际应用中,数据仓库的实体绝不会是对等的。
星型数据模型是最常用的数据仓库结构模式。
产品
供应商
订单
客户
发货
图2.5一个简单的ERD
维度表
01
维度表
02
维度表
03
维度表
04
维度表
05
事实表
06
图2.6星型模型的结构示意图
07
雪花模型
维度表
维度表
维度表
详细类别表
详细类别表
事实表
图2.7雪花模型的结构示意图
维度表
维度表
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
state_or_province
country
location
SalesFactTable
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_k