ETL工具介绍.doc
文本预览下载声明
目录
1. 引言 3
1.1 编写目的 3
1.2 文档背景 3
1.3 预期读者 3
1.4 参考资料 3
2. ETL基本概念 3
2.1 ETL的定义 3
2.2 ETL的作用 4
2.3 ETL工具的功能 5
2.3.1 对平台的支持 5
2.3.2 对数据源的支持 5
2.3.3 数据转换功能 5
2.3.4 管理和调度功能 6
2.3.5 集成和开放性 6
2.3.6 对元数据的管理 6
3. 主流的ETL工具 7
3.1 一类是专业ETL厂商的产品 7
3.2 另一类是整体数据仓库方案供应商 7
3.3 还有一类是由开源提供的软件 7
4. 报表工具简介 8
5. 前端展现 8
6. 建行RIDE报表工具介绍 9
6.1 RIDE介绍 9
6.2 RIDE的应用 10
6.3 RIDE功能 10
引言
编写目的
本文介绍ETL的基本感念和功能,以及ETL目前主流工具,并对BI/DW架构的最后一个环节报表展示,给予介绍。
文档背景
预期读者
对数据挖掘感兴趣的人员。
参考资料
修改记录
表名 日期 修改内容 备注
ETL基本概念ETL的定义ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL包含了三方面,首先是“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。其次“转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。最后“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。 ETL的作用ETL所完成的工作主要包括三方面:首先,在数据仓库和业务系统之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据仓库;其次,用户的分析和应用也能反映出最新的业务动态,虽然ETL在数据仓库架构的三部分中技术含量并不算高,但其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中ETL部分往往也是牵扯精力最多的;第三,如果从整体角度来看,ETL主要作用在于屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接口,这也是构建数据仓库最重要的意义所在整个BI/DW系统由三大部分组成:数据集成、数据仓库和数据集市、多维数据分析。通常,商务智能运作所依靠的信息系统是一个由传统系统、不兼容数据源、数据库与应用所共同构成的复杂数据集合,各个部分之间不能彼此交流。从这个层面看:目前运行的应用系统是用户花费了很大精力和财力构建的、不可替代的系统,特别是系统的数据。而新建的商务智能系统目的就是要通过数据分析来辅助用户决策,恰恰这些数据的来源、格式不一样,导致了系统实施、数据整合的难度。此时,非常希望有一个全面的解决方案来解决用户的困境,解决数据一致性与集成化问题,使用户能够从已有传统环境与平台中采集数据,并利用一个单一解决方案对其进行高效的转换。这个解决方案就是ETL。 ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,其工作量要占整个项目的60%-80%,这是国内外专家从众多实践中得到的普遍共识。 ETL工具的功能 ETL工具的功能可以概括为以下几方面:对平台的支持、对数据源的支持、数据转换功能、管理和调度功能、集成和开放性、对元数据的管理。下面对ETL工具的功能分别展开介绍。对平台的支持随着各种应用系统数据量的飞速增长和对业务可靠性的要求不断提高,数据抽取工具面对的要求往往是将几十上百个GB的数据在有限的几个小时内完成抽取转换和装载,这种挑战势必要求抽取工具对高性能的硬件和主机提供支持。 因此,我们可以从数据抽取工具支持的平台的来判断其能否胜任你的环境,目前主流的平台包括SUN Solaris、 HP-UX、 IBM AIX、AS/400、 OS/390、Sco Unix、 Linux、 Windows等。 对数据源的支持对数据源支持的重要性不言而喻,因此这个指标必须仔细的考虑。首先你需要对项目中可能会遇到的各种数据源有清晰的认识,其次对各种工具提供的数据源接口类型也要有深入了解,比如,针对同一种数据库,使用通用的接口(如ODBC/JDBC)还是原厂商自己的专用接口,数据抽取效率
显示全部