数据挖掘算法综述_张君枫.pdf
文本预览下载声明
年 月 第 期
2010 8 电 脑 学 习 4
数据挖掘算法综述
张君枫*
摘 要:本文主要对数据挖掘的常用算法进行综合研究和比较,分析各个算法的利弊与适用情况。
关键词:数据挖掘 分类 预测 聚类
中图分类号:TP301 文献标识码: A 文章编号:1002-2422 (2010)04-0120-03
Summary of Data Mining Algorithm
Zhang Junfeng
Abstract: The paper makes the comprehensive study of common data mining algorithms, and analyzes the advantages and dis-
advantages of the algorithms as well as applicable situations.
Keyword: Data Mining Classification Prediction Clustering
[3]
1 数据挖掘的主要研究内容 联规则挖掘算法的核心,也是计算量最大的部分 。
数据挖掘的任务是发现隐藏在数据中的模式,可以发 关联规则中最典型的是购物篮分析,在关联规则的分
[2] 析中有助于发现交易数据库中不同商品之间的联系,找出
现的模式分为两大类:描述型模式和预测型模式 。描述型
模式是对当前数据中存在的事实做规范描述,刻画当前数 顾客购买的行为模式。
据的一般特性;而预测型模式则是以时间为关键参数,对于 分类就是通过构造一个分类函数,把具有某些特征的
时间序列型数据,根据其历史和当前的值预测未来的值。 数据项划分到某个给定的类别上。分类由模型创建和模型
关联模式是反映一个事件和其他事件之间依赖或关联 使用两步组成,模型创建是指通过对训练数据集的学习来
的知识,其目的是为了生成部分数据的概要,寻找数据子集 建立分类模型;模型使用是指使用分类模型对测试数据和
之间关联关系与数据之间的派生关系,即在同一事件中出 新的数据进行分类。训练数据集中的数据带有类标号,通过
现的不同项之间的相关性。如果两项或多项属性之间存在 训练集的训练,使得使用分类函数可以把标号未知的数据
[4]
关联,那么就可以依据已知的属性值预测某一项的属性值。 正确的分类到其相
显示全部