数据仓库与OLAP.pdf
文本预览下载声明
数据仓库与OLAP
郑国禹
zhengguoyu@126.com
黑龙江科技学院 计算机学院
什么是数据仓库
以1992年W H Inmon出版
《Building the Data
Warehouse》为标志,数
据仓库发展速度很快。W.
H .Inmon被誉为数据仓库
之父。
W. H. Inmon对数据仓库所
下的定义:数据仓库是面向
主题的、集成的、稳定的、
随时间变化的数据集合,用
以支持管理决策的过程。
事务型处理
事务型处理:即操作型处理,是指对数据库的
联机操作处理OLTP。事务型处理是用来协助
企业对响应事件或事务的日常商务活动进行处
理。它是事件驱动、面向应用的,通常是对一
个或一组记录的增、删、改以及简单查询等
(大量、简单、重复和例行性)。
在事务型处理环境中,数据库要求能支持日常
事务中的大量事务,用户对数据的存取操作频
率高而每次操作处理的时间短。
分析型处理
分析型处理:用于管理
人员的决策分析,例如
DSS 、 EIS(经理信息系
统 )和多维分析等。它
帮助决策者分析数据以
察看趋向、判断问题。
分析型处理经常要访问
大量的历史数据,支持
复杂的查询。
分析型处理过程中经常
用到外部数据,这部分
数据不是由事务型处理
系统产生的,而是来自
于其他外部数据源。
数据库系统的局限性
1、数据库适于存储高度结构化的日常事务细节数据,
而决策型数据多为历史性、汇总性或计算性数据,
多表现为静态数据,不需直接更新,但可周期性刷
新。
2、决策分析型数据是多维性,分析内容复杂。
3、在事务处理环境中,决策者可能并不关心具体的
细节信息,在决策分析环境中,如果这些细节数据
量太大一方面会严重影响分析效率,另一方面这些
细节数据会分散决策者的注意力。
数据库系统的局限性
4、当事务型处理环境和分析型处理环境在同一
个数据库系统中,事务型处理对数据的存取操
作频率高,操作处理的时间短,而分析型处理
可能需要连续运行几个小时,从而消耗大量的
系统资源。
5、决策型分析数据的数据量大,这些数据有来
自企业内部的,也有来自企业外部的。来自企
业外部的数据又可能来自不同的数据库系统,
在分析时如果直接对这些数据操作会造成分析
的混乱。对于外部数据中的一些非结构化数据,
数据库系统常常是无能为力。
多库系统的限制
可用性:源站点或通信网络故障将导致系统瘫
痪, 源站点不能通过网络在线联入多库系统。
响应速度:全局查询多级转换和通信传输, 延
迟和低层效率影响响应速度。
系统性能:总体性能取决于源站点中性能最低
的系统, 影响系统性能的发挥;
系统开销:每次查询要启动多个局部系统, 通
信和运行开销大。
实施数据仓库的条件
数据积累已达到一定规模
面临激烈的市场竞争
在IT方面的资金能得到保障
操作型数据与分析型数据
操作型数据与分析型数据区别
数据仓库的发展
自从NCR公司为Wal Mart建立了第一个数据仓库。
1996年,加拿大的IDC公司调查了62家实现了数据仓库的
欧美企业,结果表明:数据仓库为企业提供了巨大的收益。
早期的数据仓库大都采用当时流行的客户/服务器结构。
IBM的实验室在数据仓库方面已经进行了10多年的研究,
并将研究成果发展成为商用产品。
其他数据库厂商在数据仓库领域也纷纷提出了各自的解决
方案。
BI系统VS决策盲点
某大型国有企业老总当他查看近十年企业的生产和运
营数据时,手边得到了各种各样不同的数据报表。这些数
据报表大致可以分成两种类型:一种是两年前、即ERP上
线之前的,这是一些简单、杂乱而又
显示全部