文档详情

2011年第2次课 数据仓库new.ppt

发布:2017-06-06约1.17万字共80页下载文档
文本预览下载声明
第2章 数据仓库 数据仓库体系结构 粒度 是指数据仓库的数据单位中保存数据的细化或综合程度的级别 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 粒度影响数据仓库中数据量的大小 粒度问题是设计数据仓库的一个重要方面 双重粒度 在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻度综合),做分析 数据仓库的数据组织 第2章 数据仓库 数据仓库体系结构 第2章 数据仓库 分割 是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率。是粒度之后的第二个主要设计问题 两个层次的分割 系统层:DBMS,一种定义 应用层:开发者,多种定义 多种分割的标准 日期:最常用的 地理位置 组织单位…... 第2章 数据仓库 数据仓库体系结构 数据仓库的数据组织 第2章 数据仓库 数据仓库体系结构 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持: 数据仓库内容的描述; 定义数据抽取和转换; 基于商业事件的抽取调度; 描述数据同步需求; 衡量数据质量指标 元数据对数据仓库功能的支持: (一) 数据仓库内容的描述 描述数据仓库中的各种复杂关系; (1) I/O对象:支持数据仓库I/O操作的各种对象。例如,装入到数据仓库中的源系统文件及可被用户访问表的数据均为I/O对象。元数据要描述该I/O对象的定义、类型、状态、存档(刷新)周期以及引发初始存档的事件。 (2) 关系:两个I/O对象之间的关联。这种关联分为一对一、一对多和多对多三种类型。在实际工作中,一般只考虑两种类型。即一对一和一对多的关系,多对多可以用多个一对多来表示。 (3)关系成员 描述每个关系中I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(是一对一还是一对多)及约束条件(是必须满足还是可选关系)。 第2章 数据仓库 数据仓库元数据管理 (4)关系关键字 描述两个I/O对象是如何建立关联的。每个关系都是通过I/O对象 的关键字来建立的,元数据要指明建立每个关系相应对象的关键字。 (5)域分配 将实际数据元素与I/O对象的某个域相关联。除了常规的域特征外,还 要说明每个域的所属源系统及访问日期。这两个特征对数据仓库都是非常重要的 (6)数据元素 描述数据仓库中基本单元(字段级)的特征。这些特征包括定义、类 型、长度、值域标识等。数据元素要能支持多媒体的大二进制对象。 元数据描述了数据仓库中有什么数据及数据间的关系,它们是用户使用和系 统管理数据仓库的基础。基于这种组织的元数据可以开发出各种通用的用户接 口,用来支持用户从数据仓库中获取数据。用户可以提出所需的表,系统从中选 择表并得到表之间的关系,重复这个过程直到用户得到他们希望的数据。不仅 如此,系统还有对某一特殊表(I/O对象)及域信息的描述功能。用这种形式组织 的元数据有利于数据仓库的扩充,因此不必修改已存在的软件就可在数据仓库 中增加新表。 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持 (一)数据仓库内容的描述:描述数据仓库中的各种复杂关系 (二)定义数据抽取和转换 第2章 数据仓库 数据仓库元数据管理 元数据对数据仓库功能的支持 从源系统数据到数据仓库中目标数据的转移是一项复杂工作,其工作量占整个 数据仓库开发的80%。这里主要涉及到以下两个问题: (1) 抽取工作间的复杂关系,一个抽取要经过许多步骤 获取:从外部或内部源数据系统中获取对决策支持系统用户有用的数据。 过滤:过滤掉不需要的内容(如上次抽取后一直没有改变的数据)。 验证:从DSS用户的角度验证数据的质量。 融合:将本次抽取的数据与数据仓库中的数据进行融合; 综合:对数据进行综合,生成概要级数据。 装载:把新数据装入到数据仓库中。 存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量。 (2)源数据与目标数据之间的映射是一种复杂的多对多关系。元数据要能够描述这些限制 所带来的一系列问题。这组元数据要定义的内容有以下几点: 抽取工作:描述每个抽取工作,并为其标识源系统。每一抽取都应有一个刷新类型代码, 一般有四种刷新类型,包括全仓库替换、全仓库附加、更新替换、更新追加。另外对每 一抽取都要明确其刷新周期(两次抽取之间的间隔)和初始触发事件(系统环境中激活第一 次抽取的事件)。 抽取工作步:定义抽取工作中的
显示全部
相似文档