第4章数据仓库的数据获取与管理报告.ppt
文本预览下载声明
* * 第4章 数据仓库的数据获取与管理 4.1 数据仓库的数据获取 4.2 数据仓库的数据管理 4.3 数据仓库的系统管理 1. 数据仓库的数据获取 1.1 ETL工具 1.2 数据质量 1.3 数据变换 1.4 数据清理 1.5 数据集成 1.6 聚集和概括 1.7 装载数据 1.1 ETL工具 Extraction, Transformation , Load 确保同步策略 转换的标准化 有专门的ETL工具 1.2 数据质量 数据是准确的 数据符合它的类型和取值要求 数据具有完整性和少冗余 数据是集成的和一致的 数据是及时的,且遵循业务规则 1.3 数据变换 数据类型和度量单位转换 时间/日期格式转换 字段解码—弥补不同部门之间领域知识的不足;可以用元数据加深对它的理解 1.4 数据清理 有效值检查—范围检验,枚举清单,字段对比 重新格式化—例如地址信息,度量单位信息 1.5 数据集成 字段级简单映射—最常见 通用标识符问题—分阶段隔离和调和 目标元素多来源—确立某系统主导地位 数据丢失问题—平滑曲线;权衡风险 衍生数据/计算数据—冗余;简化查询 增加时间标记 数据集成(注意时标) 1.6 聚集和概括 集成时,去除不必要的细节—这样的细节往往对分析没有用处 在使用数据的过程中,不断去除过时的细节—虽然这些细节曾经有用 业务系统 数据库快照 数据的综合度 1.7 装载数据 按索引对文件进行排序 数据存储类型转换—如二进制向ASCII码转变 数据统计—对装载的情况统计,对细节数据汇总 2. 数据仓库的数据管理 2.1 数据仓库和数据集市实施的常见问题 2.2 脏数据的产生和清理 2.3 休眠数据处理 2.4 元数据管理 2.1 数据仓库和数据集市实施的常见问题 应用程序结果缺少统一性 决策分析的可用性差 系统可用性差 数据可用性差—分析趋势和占用空间的矛盾 低性能 2.2 脏数据的产生和清理 2.2.1 脏数据的产生 2.2.2 脏数据的清理 2.2.1 脏数据的产生 定义的多余数据;不合转换规则的无用数据 不匹配、不兼容、无法统一的数据 输入的数据已经过期 对数据质量的新要求使得一些数据成为脏数据 2.2.2 脏数据的清理 对定义的多余数据;不合转换规则的无用数据直接清理 对不匹配、不兼容、无法统一的数据寻找数据源及意义然后统一 对输入过期数据,进行汇总等处理后清理 2.3 休眠数据处理 2.3.1 休眠数据的概念 2.3.2 休眠数据的产生与查找 2.3.3 删除休眠数据 2.3.1 休眠数据的概念 D: 总数据量 n: 使用数据次数 d:每次使用数据平均量 m: 一次查询平均重复使用某数据次数 D1: 休眠数据 休眠率: 2.3.2 休眠数据的产生与查找 输入了过多的近期基本数据 过多增加了不必要的综合数据 过多的用于预测的历史数据 监视用户查询的SQL语句 监视返回给用户的查询结果数据集 2.3.3 删除休眠数据 直接删除用户不访问的数据 通过数据访问模型删除休眠数据 对休眠数据归档存储 邻线存储—介于在线存储和离线存储之间的存储方式 2.4 元数据管理 2.4.1 评估元数据的价值 2.4.2 管理元数据 2.4.1 评估元数据的价值 应用程序中使程序员了解数据的结构和关系 描述数据源,描述数据转换,终端的商业属于导航 获取和使用数据—价值最大的用途 2.4.2 管理元数据 支持企业范围内的体系结构 基于知识库的方法 元数据的配置管理 支持开放的元数据交换标准 元数据的动态交换和同步
显示全部