数据仓库与数据挖掘(论文).doc
文本预览下载声明
数据仓库与数据挖掘
摘 要 本文介绍了数据仓库与数据挖掘的基本概念、特点和体系结构,讨论了数据挖掘的技术算法及数据仓库与数据挖掘的应用领域。
主题词 数据仓库 数据挖掘
一、引言
数据仓库技术的出现是由于决策支持系统发展的需要。它的提出是以关系数据库、并行处理、分布式技术以及INTERNET的飞速发展为基础,它是解决如何利用分散的异构环境数据源,及时得到准确的信息,解决信息技术(IT)在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。数据仓库的建立并不是要替代数据库,它是建立在一个比较全面和完善的信息应用基础之上的,用于支持高层决策的分析。而数据挖掘是为寻找未知的模式或趋势在数据仓库的细节数据中进行搜索的过程。它并不是让查询语言去找某些特定的事实,而是查看所有的事实,寻找具有某种含义深长的模式或关系来进行决策。
二、数据仓库(data warehouse)
1.数据仓库的涵义
W.H.Inmon在其所著的“Building the Data Warehouse”一书中给出了数据仓库的定义:数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据决策形式。从Inmon的定义,我们理解数据仓库具有如下特征:
(1)主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。
(2)数据进入数据仓库之前,必须经过加工与集成,对不同的数据来源进行统一数据结构和编码,将原始数据由面向应用转向面向主题。
(3)数据仓库中存储大量的历史数据,数据经集成进入数据仓库后是极少或根本不更新的。
(4)数据仓库的数据时限在5~10年,故数据的编码包含时间项,因此仓库要时变地收集数据。
(5)通常的数据仓库数据量为10GB级,相当于一般数据库100MB的100倍,大型数据仓库是一个TB级数据量。
(6)数据仓库支持OLAP(On-line Analytical Processing)、决策分析及数据挖掘,OLAP决策分析和数据挖掘给出数据仓库中数据的多维逻辑视图,包含交互式查询和对数据的分析,提供分析的建模功能,生成概括数据、聚集、层次,支持功能模型进行预测、趋势分析、统计分析操作。
2.数据仓库的结构组成
数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成(图1)。数据仓库系统以数据仓库为核心,通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息的提取,以满足决策的需要。下面我们分别介绍每一部分的基本功能:
数据源:是数据仓库中的数据来源,它主要来自操作型环境的数据库,包括一些产品数据、遗留数据、外部来源数据等。
数据管理:数据库中的数据在进入数据仓库以前,必须经过规范化处理,数据管理模块根据在数据中所描述的映射关系和各种整理规则,把来自不同数据源的数据转换到数据仓库中,对数据进行清洁、增强、变换、和加载的处理并且根据在元数据中所描述的较验规则和专家知识,消除数据的不一致性和不合理性。
目录信息:它通过提供一整套用来维护和观察仓库元数据的工具来实现技术用户和业务用户访问和利用数据仓库系统的能力。目录信息的主要元素有元数据管理员、技术元数据、业务元数据及信息导航。
数据集市和数据商场:数据集市和数据商场是为满足特定的数据需求而创建的数据仓库。它可以看作是全局数据仓库的一个子集,是对部门级的应用而建立的数据仓库。
分析与报表:要使数据仓库发挥其真正的作用,必须要有一个强有力的分析工具。数据分析与报表部分是从大量的数据中提取出原来未知的数据间相互关系,找出数据间潜在的模式,发现经营者可能忽略的信息,并为企业做出前摄的、基于知识的决策。它包括报表生成具、OLAP、数据挖掘、决策支持工具。这里比较重要的是OLAP和数据挖掘。OLAP建立在客户/服务器结构之上,支持多维数据分析,OLAP是由用户驱动的,在用户的指导下验证分析家设定一些假设。数据挖掘应用在数据上,并产生一些假设,当用户使用数据挖掘工具来挖掘数据时,是挖掘工具来进行开发。例如:分析家假设那些高负债和低收入的人有信用风险,他们可以用各种方式验证和反验证这些假设;而数据挖掘工具可以用来发现给予信用的风险因素,比较可能会发现具有高负债和低收入的人有信用风险,它还会发现一种分析家们难以置信的模式,如负债/收入与年龄所预示的风验。
元数据管理:元数据定义为“关于数据的数据”,元数据代表定义数据仓库对象的任何东西,无论是一个表、一个列、一个查询、一个商业规则,或者是数据仓库内部的数据转移。元数据基本有四类:第一类是关于数据仓库潜在数据来源的信息;第二类是关于数据模型的信息;第三类是业务数据与仓库数据结构间的映射;第四类元数据是仓库中信息的使用情况。
传输和基础结构:传输
显示全部