数据挖掘中聚类算法综述_刘维.pdf
文本预览下载声明
江苏商论 ·热点探讨· 2018.7
数据挖掘中聚类算法综述
刘 维
(河南牧业经济学院物流与电商学院,河南郑州450044 )
摘 要:大数据时代,如何对海量的数据进行有效的聚类、分析和预测,解决用户信息超载的问
题已成为重要的研究课题。 聚类算法作为数据挖掘的重要技术,已被广泛应用在数据分析、客户细
分、人工智能等领域。 本文在分析五类传统聚类算法的研究现状基础上,综述了一些新发展的聚类
算法。 归纳总结了已有聚类算法存在的问题,并从搜索引擎领域、个性化推荐领域与人工智能领域
三个方面探讨聚类算法的发展方向。
关键词:聚类算法;数据挖掘;数据分析;个性化推荐;人工智能
中图分类号: 文献标识码:
F713.36 A
DOI:10.13395/j.cnki.issn.1009-0061.2018.07.030
一、引言 很难对聚类进行严格意义上的划分。 本文将聚类算
聚类算法作为数据挖掘的重要技术,逐渐成为 法分为两类: 传统的聚类算法和新发展的聚类算
一种跨学科、跨领域的数据分析方法,它已被广泛 法。 传统的聚类算法主要分为基于划分的聚类(代
应用在数据分析、客户细分、人工智能等领域。 在电 表性算法有 -means 、 、 、 -modes 、 、
K PAM CLARA K EM
子商务领域,通过聚类来分析客户信息,从客户信 CLARANS 和ISODATA )、基于层次的聚类(代表性
息中挖掘潜在的知识,从而为企业的经营管理提供 算法有 、 、 和 )、 基于
BIRCH CURE ROCK Chameleon
决策支持。 在搜索引擎方面,通过聚类能够自动形 网格的聚类 (代表性算法有 、 、
CRIDCLUS STING
成相应类别的关键词,从而实现智能搜索。 在生物 Optigrid 、CLICK 和WaveCluster )、 基于密度的聚类
领域,对不同动植物的种类、特征与基因等进行不 (代表性算法有 DBSCAN 、OPTICAL DBCLASD 和
同的分类,从而获得不同层次结构的知识。 )与基于模型的聚类(代表性算法有: 、
DENCLUE EM
聚类, 就是将一个数据集合分成几个子集,每 COBWEB 、CLASSIT 和SOM )五种方法。 聚类新算法
个子集中的数据之间的相似性较大① 。 它是一种无 主要从样本的归属关系、样本的预处理、样本的相
监督学习方式,根据事物各自的特征,对被聚类的 似性度度量、样本的更新策略、高维样本聚类、其他
对象进行类别划分② 。 形式上,设定维空间的个数据 聚类等六个方面进行研究。
点, 根据数据点之间的相似度把个数据点分成个 (一)传
显示全部