文档详情

数据挖掘综述_郑日军.pdf

发布:2021-09-25约3.18千字共1页下载文档
文本预览下载声明
信 息 化之窗 数据挖掘综述 □ 郑日军 (中国地质大学计算机学院 湖北 · 武汉 430074 ) 摘 要:随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据, 传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言 来分析庞大数据资料的“数据挖掘”(Data Mining )技术应运而生。本文主要介绍了数据挖掘的基本概念以 及数据挖掘的方法;本文对数据挖掘的应用及其发展前景也进行了描述。 关键词:数据挖掘过程 方法 中图分类号:TP39 文献标识码:A 文章编号:1007-3973 (2008 )10-082-01 1 引言 不满足用户的要求,需要重复上述挖掘过程重新进行挖掘。 随着信息技术迅速发展,数据库的规模不断扩大,从而 另外,由于数据挖掘是最终要面临用户的,因此,还需要对 产生了大量的数据。激增的数据背后隐藏着许多重要的信 所挖掘的知识进行解释,以一种用户易于理解的方式(如可 息,人们希望能够对其进行更高层次的分析,以便更好地利 视化方式)供用户所用。 用这些数据。为给决策者提供一个统一的全局视角,在许多 2.3 主要方法 领域建立了数据仓库。但大量的数据往往使人们无法辨别 目前数据挖掘的方法主要有以下几类:①分类分析分 隐藏在其中的能对决策提供支持的信息,而传统的查询、报 类就是提出一个分类函数或分类模型(即分类器),通过分 表工具无法满足挖掘这些信息的需求。因此,需要一种新的 类器将数据对象映射到某一个给定的类别中的过程。分类 数据分析技术处理大量数据,并从中抽取有价值的潜在知 的过程可以分为两步:第一步建立模型,用于描述给定的 识,数据挖掘(Data Mining )技术由此应运而生。数据挖掘 数据集合。通过分析由属性描述的数据集合来建立反映数 技术也正是伴随着数据仓库技术的发展而逐步完善起来 据集合特性的模型。这一步也称作有监督的学习,导出模型 的。 是基于训练数据集的,训练数据集是已知类标记的数据对 2 数据挖掘技术 象。第二步使用模型对数据对象进行分类。首先应该评估模 2.1 概念 型的分类准确度,如果模型准确度可以接受,就可以用它来 数据挖掘技术的产生和发展使得人们可以利用这些数 对未知类标记的对象进行分类。② 回归分析 回归就是预 据中挖掘出有用的、隐藏的商业和科学信息。通常普遍认同 测连续的值,因此它不同于分类(预测离散的值,即分类标 的一个十分广泛的数据挖掘定义是:从数据库中抽取隐含 号)。分类和回归是两类主要的预测问题。分类是对离散值 的、以前未知的、具有潜在应用价值的模型或规则等有用知 建模,回归是对连续值建模。常用的回归算法有线性方法、 识的复杂过程,是一类深层次的数据分析方法。 K- 近邻方法、人工神经网络方法、支持向量机方法等等。③ 2.2 过程 聚类分析 聚类就是将对物理或抽象对象的集合分组成为 数据挖掘过程包括很多处理阶段,其一般流程主要包 由类似的对象组成的多个簇的过程。聚类生成的组称为簇 括三个阶段:数据准备、数据挖掘、结果解释和评价。如图1 (Cluster ),簇是数据对象的集合。簇内部的任意两个对象之 所示的数据挖掘过程。 间具有较高的相似度,而属于不同簇的两个对象间具有较 高的相异度。相异度可以根据描述对象的属性值计算,对象 间的距离是最常采用的度量指标。④ 关联分析 即寻找给定
显示全部
相似文档