文档详情

第2章数据仓库的设计.ppt

发布:2017-04-27约2.42千字共42页下载文档
文本预览下载声明
第二章 数据仓库的设计;2.1 数据仓库设计方法概述;◆系统设计目标不同 DB:事务处理性能(主要是事务处理响应时间)是主要目标 DW:建立一个全局的数据环境,保证数据的四个基本特征,数据全局一致性,实现对数据的全局管理和控制 ;◆系统设计的方法和步骤不同 DB:业务过程和规则比较规范(如库存管理、采购业务管理等),有独立的收集需求和分析需求的阶段。一般采用生命周期法。 DW:面向的管理人员一般不能对分析的需求作出规范说明,需求分析贯穿整个过程。 ;数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成: 数据仓库规划分析阶段 数据仓库设计实施阶段 数据仓库的使用维护阶段 这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。;;2.2 数据仓库设计的三级模型 ; ;DW数据模型与OLTP数据模型区别: (1)不包含纯操作型数据 (2)扩充了主键结构,增加了时间属性 (3)增加大量的导出数据; 顾客变动信息;二、逻辑模型 目前数据仓库还是建立在关系数据库基础上的,所以在数据仓库中采用的逻辑模型就是关系模型,主题以及主题之间的联系都是通过关系来表示。 关系模型概念简单、清晰、用户易懂,并且有严格的数学基础和关系数据理论。 表示方法:关系模式即 关系名(属性1,属性2,…) ;三、物理模型 物理模型:逻辑模型在数据仓库中的实现,如物理存取方式,数据存储结构,数据存放位置,存储分配等。 设计物理模型考虑因素:I/O存取时间、空间利用率、维护代价等。 考虑到数据仓库中的数据量大而且操作单一等特点,可采用一些提高数据仓库性能的技术,如:合并表、引入冗余、生成导出数据、建立广义索引等。 ;四、高级模型、中级模型和低级模型;联接数据组:本主题域与其他主题域的联系,体现E-R模型中的“联接”,一般是一个主题的公共码键。 其余三组数据组的划分依据不同程度的数据稳定性, 基本数据组 二级数据组 类型数据组 以顾客主题为例: 顾客号、顾客名、性别等信息,是基本不变的,可以列为基本数据组,主码一般列入基本数据组; 顾客住址、文化程度、电话等虽然也基本稳定,但是存在变化的可能,列为二级数据组; 顾客的购物记录是经常变化的,列入类型数据组。 ;2.3 提高数据仓库的性能 ;(2)根据估算出的数据行,来确定是否要划分粒度。一般情况下,如果一年内数据行数超过100,000,就应该考虑粒度的划分 。;1996年 ;数据量:数据量的大小是决定是否进行数据分割的主要因素,如果数据量小,可以不进行分割或者选择单一标准分割成较小的分片 ;三、合并表(归并表) 为了解决一些例行的分析处理而采用的技术。 如果某些例行的查询经常设计到多个表的数据项,在查询的时候需要多表的联接操作,如果这几个表分散在不同的物理块中,联接的开销会很大。 为了节约I/O开销,把这些表的记录混合放在一起,降低联接操作的代价 ;;四、广义索引 广义索引也是为了提高数据仓库中数据访问速度而采用的一种索引技术。主要是处理一些最值问题。 如作为销售主管,可能会问:这个月销售量最差的是那种产品?可以把这些最差的商品的名称或记录的存放地址单独列在一个索引文件中,这就是“广义索引”。;2.4 数据仓库设计步骤;一、概念模型设计 概念模型设计所要完成的工作: 界定系统边界 确定主要的主题域及其内容 ;要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? ;3、“商场”实例系统边界的设计;要进行以上分析所需要的数据: 商品的销售数据 商品的采购数据 商品的库存数据 顾客信息 供应商信息;(2)确定主要的主题域 根据分析的要求,可以确定数据仓库的三个主要主题:商品、供应商、顾客;主题的描述;二、技术准备工作;2. 技术环境准备 网络; 所采用的操作系统; 进出数据仓库的界面(主要是数据查询和分析工具); 管理数据仓库的软件。如 DBMS;对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中 。;2、 粒度层次划分 粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据仓库的粒度划分,可以通过估算数据的总行数来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。 ;3、确定数据分割策略 要选择适当的数据分割的标准,一般要考虑以下几??面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。 数据量的大小是决定是否进行数据分割和如何分割的主要因素; 数据分
显示全部
相似文档