数据仓库ETL实施方案(78页PPT).ppt
数据仓库-ETL实施方案
为什么需要ETLETL过程ETL策略与实施方法ETL工具ETL开发流程规范ETL数据质量管理ETL成功实施案例分析
为什么需要ETL为什么需要ETLETL在数据仓库体系结构中位ETL在数据仓库中的地位ETL与数据模型
为什么需要ETL为什么要做ETL,而不是直接利用数据?这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难。数据加载到中央数据仓库和一些特定的数据集市中提供动态查询(ADHoc)提供分析提供数据挖掘的数据源仓库数据源于多个系统,数据一致性问题主要多个源业务系统可能存在对统一个编码解释和类型等等问题,数据整合方便进一步的数据分析和挖掘。
为什么需要ETL“Vertical”BusinessAnalysisOperationsLegalFinanceMarketingDistributed(DataMarts)OperationsLegalFinanceMarketingEmployeesEquipmentMovementsLocationsExpensesCustomersCentralized(Enterprise)“Horizontal”BusinessAnalysis
ETL在数据仓库体系结构中位置ETL1ETL2
ETL在数据仓库中的地位ETL无法直接体现数据仓库的价值数据仓库的应用越多、越复杂,对ETL的要求越高ETL是整个数据仓库的“地基”成功的数据仓库必须有成功的ETL的支持数据抽取对源系统影响最小能够灵活变动适应源系统的改变高效的数据加载和数据转换能够根据业务人员的需求在规定的时间窗口内完成ETL能够满足动态数据仓库对ETL的需求
ETL与数据模型
ETL过程ETL方法ETL六大本质ETL数据整合全过程ETL规划ETL设计ETL物理体系架构ETL体系结构ETL优化ETL异常原因和处理方法
ETL方法E-数据抽取历史数据:来自介质或数据库,批量处理增量数据:来自相关系统,每日抽取T-数据转换格式转换数据清洗……ETL方式E-T-LE-L-TE-T-L-T(Teradata强大的并行处理能力)L-数据加载历史数据:一次性批量加载增量数据:每日加载,自动
ETL六大本质本质一过程ETL的过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程。其中元数据采集和流程控制非常重要。本质二分类ETL工具都是价格昂贵,能够处理海量数据的家伙,针对不同的需求,主要是从转换规则的复杂度和数据量大小来看主要分4类:交互式运行环境;专门编码型的;代码生成器型的;最后还有一种类型叫做数据集线器,顾名思义,他就是像Hub一样地工作。本质三转化ETL过程最复杂的部分就是T,T研究过程主要有宏观输入输出(大小交,大大交,站着进来,躺着出去,聚集等等);微观规则(直接映射,字段运算,参照转换,字符串处理,空值判断,日期转换等等)。
ETL六大本质(续)本质四数据质量“不要绝对的数据准确,但要知道为什么不准确。”这是我们在构建BI系统是对数据准确性的要求。常见导致数据质量的问题:数据格式错误;数据一致性;业务逻辑的合理性.ETL过程中对数据准确性产生重大影响有:规则描述错误;ETL开发错误;人为处理错误。本质五质量保证提到ETL数据质量问题,这是无法根治的,只能采取特定的手段去尽量避免,而且必须要定义出度量方法来衡量数据的质量是好还是坏。首先,必须有一个对质量的度量方法,什么是高质什么是低质,不能靠感官感觉;其次,建立数据验证框架,主要包括提高前端,提供架构和规范流程。本质六元数据慢谈元数据体现是一种抽象,哲学家从古至今都在抽象这个世界,力图找到世界的本质。抽象不是一层关系,它是一种逐步由具体到一般的过程。
ETL数据整合全过程
加载策略合理提高整体加载时间满足业务分析需求时间窗口设计合理数据抽取数据整合数据清洗简单,方便,灵活采用自动化工具动态调度和监控支持ETL服务器扩展开发工具运行平台转化加载策略ETL规划
ETL设计与数据仓库体系结构设计ETL设计是数据仓库体系结构设计的一部分ETL设计需要考虑的几个方面:数据仓库同各业务系统的网络连接网络速度各个时段的负载网络安全各业务系统的数据处理周期各个源系统的数据库平台、应用软件及操作系统各业务系统的数据量峰值及数据抽取与转换能力