文档详情

数据挖掘中聚类算法综述_刘维.pdf

发布:2021-09-25约3.77万字共6页下载文档
文本预览下载声明
江苏商论 ·热点探讨· 2018.7 数据挖掘中聚类算法综述 刘 维 (河南牧业经济学院物流与电商学院,河南郑州450044 ) 摘 要:大数据时代,如何对海量的数据进行有效的聚类、分析和预测,解决用户信息超载的问 题已成为重要的研究课题。 聚类算法作为数据挖掘的重要技术,已被广泛应用在数据分析、客户细 分、人工智能等领域。 本文在分析五类传统聚类算法的研究现状基础上,综述了一些新发展的聚类 算法。 归纳总结了已有聚类算法存在的问题,并从搜索引擎领域、个性化推荐领域与人工智能领域 三个方面探讨聚类算法的发展方向。 关键词:聚类算法;数据挖掘;数据分析;个性化推荐;人工智能 中图分类号: 文献标识码: F713.36 A DOI:10.13395/j.cnki.issn.1009-0061.2018.07.030 一、引言 很难对聚类进行严格意义上的划分。 本文将聚类算 聚类算法作为数据挖掘的重要技术,逐渐成为 法分为两类: 传统的聚类算法和新发展的聚类算 一种跨学科、跨领域的数据分析方法,它已被广泛 法。 传统的聚类算法主要分为基于划分的聚类(代 应用在数据分析、客户细分、人工智能等领域。 在电 表性算法有 -means 、 、 、 -modes 、 、 K PAM CLARA K EM 子商务领域,通过聚类来分析客户信息,从客户信 CLARANS 和ISODATA )、基于层次的聚类(代表性 息中挖掘潜在的知识,从而为企业的经营管理提供 算法有 、 、 和 )、 基于 BIRCH CURE ROCK Chameleon 决策支持。 在搜索引擎方面,通过聚类能够自动形 网格的聚类 (代表性算法有 、 、 CRIDCLUS STING 成相应类别的关键词,从而实现智能搜索。 在生物 Optigrid 、CLICK 和WaveCluster )、 基于密度的聚类 领域,对不同动植物的种类、特征与基因等进行不 (代表性算法有 DBSCAN 、OPTICAL DBCLASD 和 同的分类,从而获得不同层次结构的知识。 )与基于模型的聚类(代表性算法有: 、 DENCLUE EM 聚类, 就是将一个数据集合分成几个子集,每 COBWEB 、CLASSIT 和SOM )五种方法。 聚类新算法 个子集中的数据之间的相似性较大① 。 它是一种无 主要从样本的归属关系、样本的预处理、样本的相 监督学习方式,根据事物各自的特征,对被聚类的 似性度度量、样本的更新策略、高维样本聚类、其他 对象进行类别划分② 。 形式上,设定维空间的个数据 聚类等六个方面进行研究。 点, 根据数据点之间的相似度把个数据点分成个 (一)传
显示全部
相似文档