文档详情

数据挖掘算法综述_杨秀港.pdf

发布:2021-09-22约3.69千字共1页下载文档
文本预览下载声明
科技经济导刊 2019,27(05) . 166 . 产学研理论与实践 Technology and Economic Guide 数据挖掘算法综述 杨秀港 (太原理工大学,山西 太原 030024) [ 摘要 ] 目前,数据挖掘得到广泛的应用,作用的领域包括人工智能、统计学、数据库等等。基于数据挖掘的方法,数据挖掘可 以通过有效的方法找出对各行业有价值的信息,因此,数据挖掘在未来的发展会更加光明。主要对数据挖掘的常用算法进行综合 研究和比较并研究不同算法,分析各个算法的利弊与适用情况并指出其现存的问题,对数据挖掘未来的前景做一个简单的描述。 [ 关键词 ] 数据挖掘;分类算法;关联规则;聚类分析 [ 中图分类号 ]C37 [ 文献标识码 ]C  [ 文章编号 ] 2096-1995(2019)05-0166-01 1 数据挖掘概述 C4.5 决策树算法:C4.5 算法是决策树中一个经典的数据挖 数据挖掘就是指从大量的数据中自动搜索隐藏于其中的有 掘算法。该算法是基于决策树的算法,又比决策树算法更复杂。 特殊关系性的信息和知识的过程。面对现在海量的、不完整的、 它通过处理特征为连续值的数据,运用信息增益率来排除所选 模棱两可的数据,运用数据挖掘的算法对数据进行查找,找出 取的特征取值繁多的缺陷,它按照不同的剪枝标准进行排除, 人们所不知道的、有实用价值的信息,这一过程就是数据挖据 [1] 。 保证决策树的平衡。他运用 K 次迭代来交叉验证,从而在众多 找出隐含在数据中的相关模式是数据挖掘的任务,可以把数据 优解中选取最优值。 挖掘活动分为预测性数据挖掘和描述性数据挖掘两类。[2] 数据 4 聚类算法 挖掘的基本任务包括分类、回归、聚类、关联建模等。 面对众多的数据,将数据进行相应标准的划分或者划分成 2 关联规则的挖掘算法 若干簇或者组的形式,该过程称之为聚类。若干组都有各自共 在数据挖掘领域,关联规则的挖掘算法是研究数据挖掘算 同的特点,组与组之间又各不相同。聚类的目的就是将具有共 法中重要的方法,在医院中,金融行业中,互联网行业中都得 同特征的数据分为一类,以便对数据进行处理。 到了广泛地应用。关联规则的数据挖掘方法旨在找出各种数据 K-Means 算法:K-means 主要思想是对一个有 n 个对象的 之间的关系,从各种领域之间的关系确定各领域之间存在的依 数据集 , 构造 k 个分组 (kn), 每一个分组代表一个类。一个给 赖关系。 定的 K,第一步先要做的是运用一种初始的分组方式进行划分。 Apriori 算法:在关联规则频繁项集的基础上,进行相应 第二步则是通过重复迭代的过程来优化分组,使得最后分组的 的推算,从而得到了 Apriori 算法。Apriori 算法可以说是许多 结果达到最佳。 算法的鼻祖,因为数据挖掘的其他算法都是在这一算法的算法 EM 算法:EM 算法是一种迭代方法 , 算法的每一迭代包括 基础上进行相应的修改,从而衍生出各种数据挖掘的散发。在 两个步:第一步求期望 , 称为 E 步,第二步求极大值 , 称为 M 步 , Apriori 算法中,存在多个概念,包括项集、项集频率。首先所 主要用来计算后验分布的众数或极大似然估计。EM 算法的最 有项目的集合统称为项集,其中 A 个项目的集合用 A 一项集 大优点是简单和稳定。EM 算法的主要目的是提供一个简单的 来表示。在项集中会出现项集事务,项集事务的数量包含在项 迭代算法来计算极大似然估计。[6] 集出现的频率之中,是项
显示全部
相似文档