文档详情

ESB在数据仓库建设中的应用.doc

发布:2017-04-02约4.06千字共5页下载文档
文本预览下载声明
企业数据仓库系统建设的需求 目前大多数企业根据自己的业务特点和办公的需要,建立了一大批各自的业务处理系统和企业办公自动化系统,积累了大量的业务数据。这些业务信息系统为提高企 业的工作效率,减少重复性的工作起到了积极的作用,为企业的发展做出了巨大贡献。但是这些系统的数据随着时间和业务的发展而不断膨胀,同时数据分布在不同 的系统平台上,具有多种存储形式。随着市场竞争的加剧,信息对于企业的生存和发展起着愈来愈重要的作用。管理人员常常希望能够通过对组织中的大量数据进行 分析,了解业务的发展趋势,而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息。 为此,建立基于数据仓库的商务智能系统,为企业的发展决策提供有根有据的事实支持。数据仓库是指面向主题的、一致的、不同时间的、稳定的数据集合,用于支 持经营管理中的决策支持过程。数据仓库系统是通过对生产经营过程涉及的销售、库存、生产、采购等业务财务数据、市场行情、竞争对手等外部数据进行收集、管 理、处理、分析,进而给出综合分析结果的计算机信息处理系统。 2、ETL技术 构建数据仓库的一个关键核心技术是数据集成和迁移。现在,一般是以ETL(以抽取、转换、加载)集成迁移工具实现。ETL作为数据仓库构建的核心和灵魂, 它能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。 ETL是在数据迁移过程中进行数据抽取(extract)、转换(transform)和加载(load)的过程。ETL过程的主要目的就是以最小代价将面向日常业务操作的数据转化为面向数据仓库存储的决策支持型数据。传统的方法是手动编写SQL语 句和相对应的程序来实现数据抽取转换工作。这种方法对技术人员的专业水平要求很高,又要求对业务方面有足够的了解。传统方式实现的抽取转换工作在经历了一 段时间后会造成SQL语句的数量急剧增加,系统会逐渐变得难以维护,模块难以复用。因此采用通用成熟的ETL工具来实现对业务系统中数据的集中,可以提高 复用维护的简易性,减少设计抽取转换流程的难度,使技术人员把精力放在业务上而非实现的细节上。 ETL工具的本质是数据转换器,它提供一种从源到目标系统转换数据的方法。这个功能传统上由程序员来完成,需要针对每一种数据源编写不同的数据抽取和装载的程序,效率极其低下。ETL工具提供一种通用的解决方案,它一般用图形化方式来生成用于数据转换装载的程序代码,即直观高效地生成一个专用的数据转换器,从而减少了70%一80%的工作。 ETL过程可分为三步:首先是从数据源(底层的业务系统)中,将所需要的数据抽取出来;然后转换为目标数据存储的数据格式;最后将转换后的数据加载到数据仓库中,为了解决“脏数据”的数据质量问题,还会在数据转换步骤后加入数据清洗功能。ETL包括以下3个组成部分: 1)数据的抽取:指从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中提取数据的过程;数据抽取有完全抽取和增量式抽取。数据仓库中的数据很大一部份是用来反映历史情况的,抽取功能不只是简单的数据库导向的过程,更多是一个获取增量数据的过程。 2)数据的转换:指数据的转化(数据的合并、汇总、过滤、转换等)、数据的重新格式化和计算、关键数据的重新构建和数据总结、数据定位等。 3)数据的加载:跨网络、跨操作系统平台,将数据按照物理数据模型定义的表结构装入目标数据库中。3、应用协同SynchroESB实现ETL 3.1 SynchroESB的ETL功能概述 协同SynchroESB是以SOA架构为核心的企业服务总线(ESB),它是一个基于标准的、面向消息的、高度分布的、具有智能路由的系统整合平台。它 在JBI规范的基础上,实现了数据集成服务,包含了ETL相关组件,具有普通ETL工具所具有的功能。它又是一个开放的平台,用户可以编写自己的组件插入 到SynchroESB总线上,实现特定的功能。 SynchroESB的数据集成服务主要包括历史数据迁移、数据同步、数据合并、数据仓库等服务。 历史数据迁移:实现历史遗留数据的重用,将历史数据迁移到新的目标数据库中。 数据同步:实现分布的数据库中数据的上传、下载,保证分布数据库中的数据的一致性。 数据合并:实现不同应用的数据库中的个性化数据到统一结构的数据库中的数据的合并,包括清洗、转换等操作。 数据仓库:实现将分散的数据集中到统一的数据仓库中,并建立统一的数据模型来存储。 SynchroESB的ETL处理主要包括: 实现数据源的批量抽取、增量抽取、定时抽取,支持主流数据库、非结构化数据、平面文件等多种数据源,经过数据抽取后,将各种数据来源的数据在技术层面上实现X
显示全部
相似文档