数据挖掘基本概念.doc
文本预览下载声明
1 数据挖掘的基本概念
随着数据库技术的不断发展及数据库管理系
统的广泛应用,数据库中存储的数据量急剧增
大,在大量数据背后隐藏着许多重要的信息,如
果能把这些信息从数据库中抽取出来,将为公司
创造很多潜在的利润。这种从海量数据库中挖掘
信息的技术,就称之为数据挖掘技术。美国SA S
软件研究所将数据挖掘定义为:“按照既定的业
务目标,对大量的企业数据进行探索、揭示隐藏
其中的规律性并进一步模型化的先进、有效的方
法[1]。”数据挖掘能够对将来的趋势和行为进行预
测,从而很好地支持人们的决策。比如,通过对
公司整个数据库系统的分析,数据挖掘可以回答
诸如“哪些客户最有可能购买我们公司的什么产
品,为什么?”等类似问题。数据挖掘还能够解
决一些很消耗人工时间的传统问题,因为它们能
够快速地浏览整个数据库,找出一些专家们不易
察觉的极有用的信息。数据挖掘的一般步骤如
下:问题理解和提出→数据准备→数据整理→建
立模型→评价和解释。
(1) 问题理解和提出:在开始数据挖掘之前
最基础的就是理解数据和实际的业务问题,在这
个基础之上提出问题,对目标有明确的定义。
(2) 数据准备:获取原始的数据,并从中抽取一
定数量的子集,建立数据挖掘库,其中一个问题
是,如果企业原来的数据仓库满足数据挖掘的要
求,就可以将数据仓库作为数据挖掘库。(3)
数据整理:由于数据可能是不完全的、有噪声
的、随机的,有复杂的数据结构,就要对数据进
行初步的整理,清洗不完全的数据,做初步的描
述分析,选择与数据挖掘有关的变量,或者转变
变量。(4) 建立模型:根据数据挖掘的目标和
数据的特征,选择合适的模型。(5) 评价和解
释:对数据挖掘的结果进行评价,选择最优的模
型,作出评价,运用于实际问题,并且要和专业
知识结合对结果进行解释。
以上的步骤不是一次完成的,可能其中某些
或者全部要反复进行。
2 粗糙集的基本概念
1982 年,波兰学者Z.Pawlak 提出了粗糙集
理论,它是一种刻划不完整性和不确定性的数学
工具,能有效地分析不精确、不一致(inconsistent)、不完整(incom plete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律[2]。粗糙集理论是建立在
分类机制基础上的,它将分类理解为在特定空间
上的等价关系,而等价关系构成了对该空间的划
分。粗糙集理论将知识理解为对数据的划分,每
一被划分的集合称为概念。粗糙集理论的主要思
想是利用已知的知识库,将不精确或不确定的知
识用已知知识库中的知识来(近似) 刻画。该理
论与其他处理不确定和不精确问题理论的最显著
的区别是它无需提供问题所需处理的数据集合之
外的任何先验信息,所以对问题的不确定性的描
述或处理可以说是比较客观的。
定义1 信息系统S 可表示为S = (U ,A ,V ,f),
其中U 是对象的非空有限集合,称为论域;A
是属性的非空有限集合;V =∪a∈A V a,V a 是属
性A 的值域, f:U×A →V 是一个信息函数,它
为每个对象的每个属性赋予一个信息值。如果属
性集A 可以分为条件属性集C 和决策属性集D ,
即C∪D = A ,C∩D =Ф,则该信息系统称为决
策系统或决策表,其中D 一般只含有一个属性。
定义2 在知识表达系统S 中,对于一属性集
P∈A ,对象x,y∈U ,二元等价关系IN D (P)= {
(x,y)∈U ×U |所有的a∈ P,f(x,a)= f(y,a)}称
为S 的不可分辨关系。不可分辨关系是一个等价
关系,通过一个不可分辨关系,可以得到一个决
策系统的划分。
定义3 给定信息系统S = (U ,A ),B ∈A ,
对B 中的属性a,如果IN D (B )≠ IN D (B - {a})
,则称属性a 是必要的(Indispensable),否则称a
是不必要的(D ispensable)。
3 粗糙集在数据挖掘中的应用
近年来,粗糙集理论在数据挖掘中的应用取
得了较大的进展,基于粗糙集理论的方法逐渐成
为数据挖掘主流方法之一。基于粗糙集理论的数
据挖掘系统一般都由数据预处理、基于粗糙集理
论或其扩展理论的数据约简、决策算法等组成。
其大概思想是:首先通过粗糙集对信息表中的数
据缺损进行处理;然后根据已定义的可辩识距
阵,通过属性简约算法对信息表中的数据进行属
性简约和知识发现;最后根据值约简等减少属性
和个体数目,最终提取规则并将之应用于新对象
的分类。
(1) 数据预处理在现实世界的很多情况
下,我们拿到的第一手数据都会存在噪音数据、
空缺数据和不一致性数据等我们不希望出现的数
据,甚至因为数据库过于强大,这样的数据多达
数千兆字节。因此,不得不去想一个问题:“怎
样处理数据才能提高数据的
显示全部