数据仓库–ETL开发流程.ppt
文本预览下载声明
NCR-DW2_ 张雷勇 上海天正软件公司 谢谢聆听! * * 数据仓库-ETL开发流程 ETL开发 准备工作 ETL开发 SDM设计 ETL开发 脚本开发 ETL开发 脚本自测 ETL开发 流程图 议程 ETL开发 提交物 议程 ETL上线包示例模板 ETL开发模板统一和规范 ETL开发 依赖关系配置 ETL开发流程图 ETL开发 准备工作 主要任务: – 确定开发所需资源是否具备 输入: PDM变更完成,提交 CASENO实体DDL.DDL 完备实施方案,提交 CASENO实施方案计划表.doc 输出: 无 ETL开发 SDM设计 主要任务: – 完成SDM设计开发 – 按照SDM开发规范,确定实体加载策略,变更内容,变更记录,能够真实准确反应模型设计 输入: SPDB-EDW-LDM.ER1(模型设计-逻辑模型成果) 变更实体表定义语句(模型设计-物理模型成果) 实施方案计划表.doc 输出: SPDB-DW-ETL-数据映射表(SDM)-主题.xls ETL开发 脚本开发 主要任务: – 初始脚本开发 – 周期脚本开发 – 变更历史数据处理脚本开发 – 变更相关代码表开发 输入: SPDB-DW-ETL-数据映射表(SDM)-主题.xls SPDB-EDW-LDM.ER1 实施方案计划表.doc 实体DDL.DDL 输出: 初始/周期/数据处理/代码表脚本/SQL PERL 文件 ETL开发 脚本自测 主要任务: – 开发人员自测初始脚本 – 开发人员自测周期脚本 – 开发人员自测数据处理脚本 – 开发人员自测代码表脚本 – 开发人员自测依赖关系脚本 输入: 初始/周期/数据处理/代码表脚本 输出: 自测文档.XLS 初始/周期/数据处理/代码表脚本LOG日志文件 ETL开发 依赖关系配置 主要任务: – 完成 SPDB-PDM-依赖关系配置 – 根据依赖关系配置生成知识库变更SQL – 填写主要参考:SPDB-依赖关系填写规范.doc 输入: CASENO-依赖关系配置.xls 输出: CASENO-依赖关系SQL.PL CASENO-依赖关系SQL.LOG ETL开发提交物 主要任务: – 进行上线资源整合工作 输入: 初始,周期脚本和数据处理脚本 变更视图脚本 view_ddl.pl 变更代码表脚本 code_sql.pl 变更初始化脚本 init.pl SPDB-PDM-依赖关系配置.xls 特殊上线步骤说明 输出: CASENO上线包 CASENO上线包上线步骤 CASENO上线包脚本运行LOG日志 ETL开发上线包示例 主要任务: – 主要介绍上线包结构和实施步骤 图示如下: 实施步骤: 上线影响资源备份 上线知识库变更操作 上线初始化 上线变更操作 上线临时资源清理操作 上线回滚操作 ETL开发上线包示例(续) 主要任务: – 主要介绍上线包文件组成 图示如下: ETL开发模板统一和规范 主要任务: 统一初始和周期开发脚本模板 统一数据处理变更脚本模板 统一应用开发脚本模板 统一SQL PERL 文件脚本模板 统一上线资源出口 统一SDM设计文档模板 规范SDM填写 规范数据类型转换 规范历史数据处理 规范脚本测试和自测 规范依赖关系配置 说明: 统一开发设计模板就是为了杜绝因为文件不统一导致的上线错误,各种规范主要为了保证开发质量。 数据模型分为两种类型: 一种是独立于任何计算机系统实现的,如实体联系模型,这类模型完全不涉及信息在计算机系统中的表示,只是用来描述某个特定组织所关心的信息结构,因而又被称作“概念数据模型”。 另一类数据模型则是直接面向数据库中数据逻辑结构的,例如有关系、网状、层次、面向对象等模型。这类模型涉及到计算机系统,一般又称为“基本数据模型”或“结构数据模型”。
显示全部