基于密度峰值的聚类算法优化研究.pdf
基于密度峰值的聚类算法优化研究
摘要
密度峰值聚类算法因其简单高效的特点而备受关注。该算法不仅能够适应
各种形状的数据集,还可以直观地确定类簇数目,并且参数唯一,具有很好的
鲁棒性。但随着研究的深入,密度峰值聚类算法的缺陷也逐渐显现出来,如存
在全局参数敏感,对截断距离的依赖性较高,不能实现聚类中心的自适应选取,
样本点分配错误容易引发多米诺骨牌效应以及对复杂数据集进行聚类时效果不
理想等问题。本文针对上述问题提出相应的改进策略。
针对密度峰值聚类算法在选择聚类中心时的主观性较强以及样本点的分配
容易出现连续错分等问题,提出一种基于共享有效近邻的密度峰值聚类算法。
首先,该算法结合k近邻思想进一步提出有效近邻,并给出新的局部密度的计
算方式;其次,结合有效近邻筛选潜在聚类中心,找出符合条件的样本点,实
现聚类中心的自适应选取;最后,提出共享有效近邻与样本点关联度的概念,
并根据关联度将剩余样本点分配到相应的簇中,提高聚类的准确度。通过在人
工数据集与真实数据集上进行实验对比,结果表明该算法不仅能够实现聚类中
心的自适应选取而且能得到较好的聚类结果。
针对密度峰值聚类算法计算局部密度的方式受输入参数影响较大以及对复
杂数据集进行聚类时效果不理想等问题,提出一种基于代表点与簇中心自适应
选择的密度峰值聚类算法。首先,该算法通过引入自然邻居实现样本点局部密
度的自适应计算,然后通过代表点刻画样本点的全局分布,提出新的代表点密
度代替局部密度;其次,提出新的聚类中心参数指标,并通过计算指标斜率的
方式来确定聚类中心;最后,提出两阶段分配策略以及密集点的概念,以提高
算法在分配剩余点时的效率与准确率。通过实验对比,结果表明该算法能够有
效地避免截断距离参数对局部密度的影响,并且在处理复杂数据集时得到的聚
类效果较好。
关键词k近邻;共享有效近邻;自然邻居;代表点;簇中心自适应
-I-
ResearchonOptimizationofClusteringAlgorithms
BasedonPeakDensity
Abstract
Thedensitypeakclusteringalgorithmisahighlyciteddensity-basedclustering
methodknownforitssimplicityandefficiency,distinguishingitfromother
clusteringalgorithms.Thisalgorithmcanrecognizedatasetsofanyshape,intuitively
determinethenumberofclusters,andhasuniqueparameters,whichmakesitrobust.
However,withthedeepeningofresearch,thedefectsofthedensitypeakclustering
algorithmgraduallyemerge,suchasbeingsensitivetoglobalparameters,havinga
highdependenceonthetruncationdistance,notbeingabletoautomatically
determinetheclusteringcenter,theerroneousallocationofsamplepointseasily
causingadominoeffect,andbeingunabletohandlecomplexdatasetswithuneven
density.Thisarticlesuggestspertinentstrategiesforaddressingtheaforem