数据挖掘中的分类算法综述_魏茂胜.pdf
文本预览下载声明
安全模型、算法与编程
数据挖掘中的分类算法综述
◆魏茂胜
摘要:随着网络数据爆炸式增长,数据库规模日益扩大,越来越多的人开始研究数据挖掘,作为数据挖掘中关键技术的分类算法也同
样受到了广泛关注。对数据挖掘中典型分类算法的总结和比较,有利于开发者高效地选择算法,也有利于研究者对算法改进提高。
关键词:数据挖掘;分类算法;综述
0 概述 定样本属于各个类别的概率,并且选择其中概率最大的类别作为
基于数据库的知识发现是伴随着人工智能和数据库的快速 该样本的确定类别。
发展而被提出的计算机技术,它通过某种算法从大量的数据中搜 朴素贝叶斯分类算法是应用最为广泛的一种基础贝叶斯算
索其中隐藏的有用信息,机器学习、模式识别、统计学、知识获 法,方法简单,运算速度快。但因为贝叶斯定理的成立依赖于严
取、智能数据库、专家系统和高性能计算等众多领域都与该技术 格的属性值独立性假设前提,而此假设前提在实际应用中常常是
息息相关[1] 。数据挖掘(Data Mining)是基于数据库的知识发现中的 错误的,因此这种分类算法的准确率会降低。其他降低独立性假
关键步骤,通常将其中的知识学习阶段称为数据挖掘。 设要求的贝叶斯算法相继被研究者提出,例如 TAN 算法[5] 。
分类(Classification)算法是数据挖掘的关键技术,它通过对数 1.3 遗传算法
据训练集的分析研究,发现分类规则,从而具备预测新数据类型 遗传算法是由生物进化理论演变而来的高效搜索和随机优
的能力。分类算法主要包括两个阶段:构建模型阶段:通过分析学 化算法,是自然科学和计算机算法相结合的一个重要突破。该算
习已知的训练数据集,训练并构建一个准确率可以接受的模型, 法借助自然进化原理,把求解问题的过程转变成根据染色体上的
该模型用于描述特定的数据类集;使用模型阶段:使用训练后的模 基因寻找适应度高的染色体的过程。该算法综合了定向搜素与随
型对未知的数据对象进行分类。目前许多分类算法已被各领域研 机搜索的优点从而具有良好的全局搜索能力,避免了大多数优化
究者提出,不同的分类算法适用于不同的情况,这使得开发者对 方法容易陷入局部最优的缺点。
分类算法的选择存在诸多困惑。本文介绍了几种经典的数据分类 与自然界相似,遗传算法求解问题时并不需要对该问题有所
算法,并分析了各自的特性,以便于开发者和研究者对分类算法 了解,它的任务只是对算法过程中产生的所有染色体进行评价,
的选择和研究。 然后根据适应度值的大小筛选染色体,其中适应度值高的染色体
1 分类算法 繁殖下一代的机会更大。染色体是遗传算法中由随机方式产生的
分类算法有很多,本文将重点介绍决策树、贝叶斯、遗传、 若干个数字编码,这些染色体组成了初始种群;适应度函数的作
人工神经网络、基于关联规则分类算法。 用是用数值大小来评价每个个体,适应度低的个体会被淘汰,适
1.1 决策树分类算法 应度高的个体参加遗传操作,通过交叉、变异等遗传操作后的染
决策树(Decision Tree)是由一系列节点和分支组成的树状图, 色体组成下一代新的种群。再对这个新种群进行下一轮进化直到
其中分支由节点和子节点组成。节点表示学习或决策过程中需要 得出最优解或达到最大的迭代次数。
考虑的属性,不同的分支则由不同的属性构成。利用某事例的属 1.4 人工神经网络算法
性值,从决策树的树根节点往下搜索,直至叶子节点,便可对该 神经网络是一种由许多神经元节点按照某些特定规则连接
事例进行学习,做出决策。学习或决策的最终结果由叶子节点表
显示全部