数据仓库应用的信息集成方案db1.doc
文本预览下载声明
数据仓库应用的信息集成方案
1. 数据仓库走向信息集成概述 2
1.1. 数据仓库-20年的发展趋势 2
1.2. 信息集成 - 数据仓库架构的扩展 6
2. 信息集成扩展数据仓库方案 7
2.1. 灵活实时的数据访问 7
2.2. 访问非结构化内容 8
2.3. 联邦技术集成数据仓库/集市 8
2.4. 数据集中和联邦技术的综合应用 9
3. 在数据仓库中使用 IBM DB2 II 的样例 11
3.1. 通过数据仓库获取最新帐户信息 11
3.2. 供应链优化和商务活动监控 12
3.3. 高级信息系统 13
3.4. 政府机构数据中心的合理化 13
3.5. 信息集成对应用开发和数据库管理的价值 14
4. 总结 14
数据仓库走向信息集成概述
数据仓库正在改变,改变以因应新的商务需求。当然,原来对数据存储的许多要求仍然存在,比如要能带来商业价值,要使数据简洁和前后一致,要可以对信息随意分块、切片和挖掘。对数据仓库的新的基本要求涉及数据的时效性和可扩展性-其目的在于使企业级用户在需要时可以得到当前的、远程的或非结构化的数据。所有这些数据必须与用户过去通常通过数据仓库和数据中心提供的历史信息进行无缝集成。
这些要求是在过去几年中逐步显示出来的。IT 机构通常是通过创建运作数据存储 (ODS) 或干脆以更高的速度周期性地向数据仓库加载越来越多的数据,来满足对数据存储的新要求。然而,向数据仓库不断存入新的实时数据的方法成本很高,对大多数企业来说很不划算。而且有些数据(甚至可能是很重要的数据),由于它们的用法、大小或格式不适合于数据仓库或用户查询,因而不能或不需要保存在数据仓库中。
为了成功地满足这些需要,企业需要新的方法,不必首先将所有数据存入数据仓库就可以对信息进行集成和发送。这正是 IBM 信息集成观所要达到的目标。该目标旨在实现数据位置和格式对用户或应用程序的透明,使传统数据仓库的中央、本地访问与对远程数据的分布式访问可以统一在同一个基础架构内。
我们并不是要您舍弃您在数据仓库方面投入的所有设备和资金。实际上,从许多方面来说,信息集成都是您过去为建立和维护现有数据仓库所做努力的自然和合乎逻辑的延伸。
首先,本方案概述了数据仓库技术在过去 20 年里的发展历程。它向人们说明了为什么数据集成是数据仓库技术的基础,并进而阐述了为什么信息集成概念是数据仓库技术逻辑发展的必然结果。它还描述了对几近实时的数据和在数据仓库中进行一定程度的读/写操作的不断增长的需要,如何迫使传统数据仓库架构发生了改变。
然后,本方案将集中分析信息集成在分布式访问方面的内容,描述了这一技术如何对数据在本地、在有所规定、有所控制的环境下进行直接访问,从而满足这些新的商务需要。它还专门讨论了该联邦技术功能在哪些情况下适合和不适合使用的问题。
数据仓库-20年的发展趋势
当初企业需要数据仓库技术的原因是众所周知的。简单地说,就是利用数据仓库为最终用户提供可用和易懂的商业信息。虽然其中一些信息已经存在于企业的 IT 系统中,但显然还有巨量的原始数据在那里,并可以转换成有用的信息。
为满足这些商业需求,IBM 和其他公司一起于 20 世纪 80 年代中后期提出了现在已被广为接受的三层数据架构。但是,为什么要把数据分为那么多层呢?这里有两个基本原因。第一是出于性能上的考虑。如果允许最终用户的复杂查询运行于为其他目的而设计和优化的运作系统上,则这些查询可能会严重影响这些底层系统的性能。同时,最终用户查询的响应时间也可能很差。这便要求数据架构至少要分二个层次,一个在本质上为运作层,另一个为信息层。
采用三层架构的第二个原因是使多个业务观点建立在统一的信息基础之上。这里需要解释一下。首先,大家知道,由于其定义的时间和目的不同,各种运作系统看待世界的观点也不同。比如,一个系统对“客户”的定义可能与另一个系统的不同。记录集可能相互重叠,记录明细可能不一致。为了提供一个一致、全面的业务观点,首先要对基本运作系统数据进行协调,使之保持一致。这些经过协调一致的数据及其历史,以基本上标准化的形式存入商务数据仓库 (BDW) 中。虽然解决了一致性问题,但这些数据还不是企业需要的形式,也不具有查询的可操作性。数据架构的第三层,数据中心,要解决的就是此类问题。在这一层,经过协调的数据被进一步转换为支持最终用户对不同业务观点的需要,并且可以简便快捷地查询的信息集。
这种三层数据架构付出的明显代价之一是,在数据到达运作系统和出现在数据中心之间,造成了相当长的延迟时间。这在以前对大多数公司来说并无大碍。实际上,与过去常常要忍受的长达数周的数据协调时间框架相比,这种数据架构轻而易举就能实现的区区一天的时间延迟,会令许多公司窃喜不已。然而,20 世纪 90 年代出现的电子商务、客户关系管理
显示全部