文档详情

第3章数据仓库系统的设计与开发讲述.ppt

发布:2017-04-03约1.15万字共60页下载文档
文本预览下载声明
数据仓库与数据挖掘 数据仓库与数据挖掘 第3章 数据仓库系统的设计与开发 3.1 概述 收集和分析业务需求 建立数据模型和数据仓库的物理设计 定义数据源 选择数据仓库技术和平台 从操作型数据库中抽取、清洗及转换数据到数据仓库 选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件 更新数据仓库 3.1.2数据仓库系统的生命周期 3.1.3建立数据仓库系统的思维模式 自底向上(Bottom-Up) 3.1.4数据仓库数据库的设计步骤 MS SQL Server 2005的数据仓库架构 3.2.1分析组织的业务状况及数据源结构 了解和理解组织的业务状况,对于企业来说,也就是要熟悉企业的生产经营流程,同时初步获取在这些流程中的分析需求,为最终确定用户需求做好准备 。 3.2.2 组织需求调研和收集分析需求 对用户需求调研结果的分析 对用户需求调研结果的分析 信息包图的建立 信息包图的建立 设计基于主题域的概念模型 3.2.4利用星型图设计数据仓库的逻辑模型 根据分析需求与信息包图制作星型图或雪花图 确定主题的属性组 事实表及其特征 粒度的选择与设计步骤 关于数据仓库的聚合模型(上卷) 关于数据仓库的分割处理 维表 维表(续) 常用维度的设计模式 3.2.5数据仓库的物理模型设计 物理模型设计的主要工作 物理模型设计的主要工作(续) 物理存储结构设计的原则 数据仓库索引设计的特殊性 存储优化与存储策略 3.3 使用SQL Server 2005建立多维数据模型 在SQL Server 2005数据库环境中安装数据仓库组件、示例和工具 利用示例数据仓库(AdventureWorks DW)环境及帮助系统学习 3.3.2基于SQL Server 2005示例数据库的多维数据模型 创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集 部署“销售分析示例”项目 浏览已部署的多维数据集 提高多维数据集的可用性和易用性 度量:客户发生事件或动作的事实记录,业务事实是对某个特定事件的度量,是各个维度的交点。 客户打电话-度量包括通话时长、通话次数、通话费用等。 客户购买商品-度量包括购买次数、购买商品的金额、购买商品的数量等。 事实表:在星型模式或雪花模式中用来记录业务事实并作相应指标统计的表。 事实表的特征: (1)记录数量很多。 (2)事实表中除了度量变量外,其他字段都是维表或者中间表(对于雪花模式)的关键字(外键)。 (3)如果事实相关的维度很多,则事实表的字段数也会比较多。 事实表的类型与设计 事实表包含两部分: 由主键和外键所组成的键部分 事实或度量指标 度量指标具有可加性(或可平均等)、半加法性和非加法性特征。 例如:账目余款反映某个时间点的数据。 (1)按照地点和商品等大多数维度进行累加; (2)对于时间维度,将一年中每个月的账目余款进行累加毫无意义的。 按照事实表中度量的可加性情况,将事实表及其包含的事实分为4种类型: (1)事务事实。以组织事件的单一事务为基础,通常只包含事实的次数。 例如:银行的ATM提款机的提款次数,使用某种服务的次数等。 (2)快照事实。以组织在某一特定时间的特殊状态为基础,即只有在某一段时间内才出现的结果。 (3)线性项目事实。用来储存关于企业组织经营项目的详细信息。包括表现与企业相关的个别线性项目的所有度量条件,如销售数量、销售金额、成本和运费等数值数据,也就是关键性能指标。 (4)事件事实。表示事件发生与否及一些非事实本身具备的细节。它所表现的是一个事件发生后的状态变化。 例如:哪些产品在促销期间内没有卖出(有还是没有)。 事实表的类型与设计(续) 派生事实的种类: 可以用同一事实表中的其他事实计算得到 非加法性事实-例如各种商品的利润率 事实表的类型与设计(续) 调查确定可能的基本事实和派生事实。 对所有事实按照功能或某种方式排序,以删除重复的事实,确认那些基于不同准则但具有相同性质的派生事实。 再次确定事实表模型,检查基本事实是否包含在模型中。 事实表模型的设计: 粒度 指数据仓库中数据单元的详细程度和级别。 数据仓库中数据的级别 ※ 早期细节级 ※ 当前细节级 ※ 轻度综合级 ※ 高度综合级 数据越详细,粒度就越小,级别也就越低;数据综合度越高,粒度就越大,级别也就越高。 1)粒度的不同选择会导致逻辑模型的差异 如果Adventure Works
显示全部
相似文档