文档详情

数据挖掘第三章(参照韩家伟的书).ppt

发布:2017-07-06约1.82万字共86页下载文档
文本预览下载声明
数据仓库与OLAP技术 数据挖掘:概念与技术 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社 第3章 数据仓库与OLAP技术 中文幻灯片制作:范明 第3章: 数据仓库与OLAP技术 什么是数据仓库? 多维数据模型 数据仓库的系统结构 数据仓库实现 从数据仓库到数据挖掘 什么是数据仓库 什么是数据仓库 不同的定义 是一个决策支持数据库, 它与组织的操作数据库分离地维护 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数据分析提供坚实的平台, 支持信息处理. 数据仓库是一种信息环境, 它将各种应用系统集成在一起, 提供了企业信息的完整概括, 为灵活的、交互的数据分析提供坚实的平台, 为决策提供支持. W. H. Inmon的定义: 数据仓库是 面向主题的(subject-oriented), 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程 建立数据仓库(Data warehousing): 构造和使用数据仓库的过程 数据仓库的特征 面向主题的 (subject-oriented) 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日常操作和事务处理. 数据仓库排除对于决策无用的数据, 提供特定主题的简明视图 集成的 (integrated) 通常, 构造数据仓库是将多个异种数据源, 如关系数据库、一般文件和联机事务处理记录, 集成在一起 使用数据清理和数据集成技术, 确保命名约定、编关键字结构、属性度量等的一致性 当数据装入数据仓库时, 数据将被转换 数据仓库的特征(续) 时变的 (time-variant) 数据存储从历史的角度 (例如过去5-10年) 提供信息. 操作数据库数据: 当前值数据 数据仓库中的关键结构, 隐式或显式地包含时间元素 非易失的 (nonvolatile) 数据仓库总是物理地分离存放数据; 这些数据源于操作环境下的应用数据 由于这种分离, 数据仓库不需要事务处理、恢复和并发控制机制.通常, 它只需要两种数据访问操作: 数据的初始化装入和数据访问 如何使用数据仓库中的信息 数据仓库用于商务决策活动, 包括 增加顾客关注 包括分析顾客购买模式, 如喜爱买什么、购买时间、预算周期、消费习惯 根据季度、年和地区的营销情况比较, 重新配置产品和管理产品的投资, 调整生产策略 分析运营情况和查找利润源 管理顾客关系、进行环境调整、管理公司资产开销 数据仓库和异种数据库 传统的异种数据库集成 在异种数据库上建立一个包装程序(wrappers)或中介程序(mediators) 查询驱动的方法 当查询提交给一个站点时, 使用元数据词典将查询转换成所涉及的异种站点上的相应查询, 查询的结果被集成为一个全局回答的集合 复杂的信息过滤, 对资源的竞争 数据仓库 更新驱动的, 高性能 来自异种信息源的数据被预先集成并存储在数据仓库中, 直接用于查询和分析 数据仓库 vs. 操作数据库 OLTP (on-line transaction processing, 联机事务处理) 传统关系 DBMS的主要任务 日常事务处理: 购买, 库存, 银行, 制造, 工资单, 注册, 记帐等. OLAP (on-line analytical processing, 联机分析处理) 数据仓库系统的主要任务 数据分析和决策制定 数据仓库 vs. 操作数据库(续) 不同的特点 (OLTP vs. OLAP): 用户和系统的面向性: 顾客 vs. 市场 OLTP是面向顾客的, 用于办事员、客户、和信息技术专业人员的事务和查询处理 OLAP是面向市场的, 用于知识工人 (包括经理、主管、和分析人员) 的数据分析 数据内容: 当前的, 细节的 vs. 历史的, 合并的 OLTP系统管理当前数据 这种数据太琐碎, 很难用于决策 OLAP系统管理大量历史数据, 提供汇总和聚集机制, 并在不同的粒度级别上存储和管理信息 这些特点使得数据更容易用于决策 数据仓库 vs. 操作数据库(续) 数据库设计: ER + 应用 vs. 星形 + 主题 OLTP系统采用ER数据模型和面向应用的数据库设计 OLAP系统通常采用星形或雪花模型和面向主题的数据库设计 视图: 当前的, 局部的 vs. 进化的, 集成的 OLTP系统主要关注一个企业或部门内部的当前数据, 而不涉及历史数据或不同组织的数据 OLAP系统常常跨越数据库模式的多个版本. OLAP系统还处理来自不同组织的信息, 集成多个数据存储的信息 由于数据量巨大, OL
显示全部
相似文档