数据仓库复习.doc
文本预览下载声明
数据仓库数据的四个基本特征: ( 数据仓库的数据是面向主题的 ( 数据仓库的数据是集成的 ( 数据仓库的数据是不可更新的( 数据仓库的数据是随时间不断变化(数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的(时变的)、不可修改的(非易失的)数据集合,用于支持管理决策。)
数据仓库的技术要求:大量数据的组织和清理、复杂分析的高性能体现、对提取出来的数据进行集成、对进行高层决策的最终用户的界面支持。
数据库与数据仓库比较
对比内容 数据库 数据仓库 数据内容 当前值 历史的、存档的、归纳的、计算的数据 数据目标 面向日常业务操作,重复处理 面向主题域,管理决策分析应用 数据特性 动态变化,按字段更新 静态,不可直接更新,只能定时添加、刷新 数据结构 高度结构化,适合操作计算 简单,适合分析 数据访问量 有许多事务,每个事务只访问少量的数据 有的事务可能需要访问大量数据 使用频率 高 中到低 数据操作需求 操作需求事先可知道,系统可按预计的工作量进行优化 操作需求事先不知道,永远不知道下一步用户要做什么 响应时间 以秒为单位计算 以秒、分钟甚至小时为计算单位
事务处理环境不适宜DSS应用的原因: 事务处理和分析处理的性能特性不同、 数据集成问题、 历史数据问题、数据的综合问题
数据仓库中的关键概念:1、外部数据源 2、数据提取/数据抽取 ,数据仓库按主题从业务数据库提取相关数据的过程。3、数据清洗, 企业建立很多不同的数据库 数据的不一致将错误的、不一致的数据在进入数据仓库之前予以更正或 删除,以免影响DSS决策的正确性。4、数据转化 把源数据的数据格式转换成统一的数据格式的过程5、数据加载 把清洗后的数据装入数据仓库的过程6、ETL——用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。6、数据集市 小型的、面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集。(独立型和从属型)
数据粒度:粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小,级别也就越低:数据综合度越高,粒度就越大,级别也就越高。事务级数据的粒度最小,它是汇总型数据的数据源。在数据仓库中粒度是不是越大越好。粒度是对数据仓库中的数据综合程度高低的一个度量。粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。因此,粒度应在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。
数据分割:数据分割是指把数据分散存储到各自的物理单元中去,以便它们能独立地处理,提高数据处理效率及数据处理的灵活性。对数据分割的目的:易于实现数据仓库的重构/重组、能够自由地建立数据库索引、便于对数据进行顺序扫描、易于实现数据仓库的监控和恢复。设计数据分割最重要的是选择适当的分割标准,一般要考虑下面几方面因素:数据量 的大小是决定是否进行数据分割和如何分割的主要因素、数据分析处理的实际情况,不同的主题内数据分割的标准不同、选择用于数据分割的标准应当简单易行、进行数据分割设计时,更重要的是将数据分割标准与粒度的划分策略统一起来。
数据仓库的数据组织形式: 1)简单堆积文件:将每日由DB中提取并加工的数据逐天积累地存储起来2)简单直接文件:按某个时间周期的数据库快照存储。3)定期综合文件: 数据存储单位分为日、周、月、季、年等几个级别,定期进行综合存储 优点:存储量小\”缺点:细节在综合中丢失\4)连续文件:通过比较两个连续的简化直接文件的不同,生成另一个连续文件。
数据仓库的数据追加: 1)时标方法:若数据含有时标,则对新插入或更新的数据记录加更新时的时标,只需根据时标即可判断。即给(数据库)中的数据增加一个时间标记,当检索到新的时间标记时,把带有新时间标记的记录作为数据仓库的数据追加内容。2)前后映象文件比较法:在上次抽取DB数据到DW之后及本次将抽取DB数据之前,对DB分别作一次快照,比较两幅快照的不同,从而确定实现DW追加的数据。缺点: 数据库数据量大时,全数据库比较无法做到。3)DELTA文件:从应用程序中记录修改了哪些数据,形成DELTA文件,作为数据追加内容。它由应用生成,记录了应用所改变的所有内容。利用DELTA文件效率较高,但使用不普遍。(很难使所有应用程序都支持DELTA文件功能)4)日志文件:由数据库服务器详细记录数据操作,形成数据库日志文件,通过分析数据库日志文件,获取数据变化情况,得到数据追加内容。日志文件是DB固有机制,即不影响OLTP性能,还有DELTA文件优点,是最可取的技术。
数据仓库系统的层次结构: 数据仓库系统(DWS)就是对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理
显示全部