基于自然邻域的密度峰值聚类算法研究.pdf
基于自然邻域的密度峰值聚类算法研究
摘要
聚类分析是一种常用的数据分析方法,用于将数据集中的个体或观察值根
据它们之间的相似程度分成不同的组或簇,以便更好地理解数据的结构和特征。
聚类分析可以帮助人们识别数据中的隐藏模式和趋势,从而为决策和问题解决
提供有价值的信息。在众多聚类算法中,密度峰值聚类算法(ClusteringbyFast
SearchandFindofDensityPeaks,DPC)因其计算简单、能更好的识别非球状簇等
优势,被广泛应用在众多领域。然而随着不断深入的研究,DPC算法存在一些
不足被发现,例如:需要根据经验人为选取截断距离的大小;聚类中心也依靠
人为选择,具有主观性;非中心点分配过于简单容易产生“多米诺效应”等。
因此,为了弥补上述提到的DPC算法的不足,本文提出了两种基于DPC的改
进算法,主要研究内容和方法如下:
针对DPC算法容易受到截断距离的干扰和容易产生连续分配错误的问题,
提出了一种基于自然邻域和分配的无参数密度峰聚类算法。该算法利用自然邻
域方法自适应的得到每个样本点的自然邻居集,通过自然邻居集计算样本局部
密度,从而解决了截断距离对聚类结果产生影响这一问题。然后计算共享近邻
的样本相似度,再利用最大类间方差对相似的大于一定阈值的样本进行分配,
直到所有样本都被分配。实验表明,提出的算法在无参数的情况下与其他算法
相比,在大部分数据集上各评价指标性能均有所提升。
针对DPC算法容易受到截断距离的干扰和需要人为选择聚类中心的问题,
提出了一种基于自然邻域和合并策略的密度峰值聚类算法。首先利用样本的自
然邻居计算样本的局部密度,排除了参数选择对密度计算的影响。其次,为了
避免人为选择聚类中心对聚类效果产生影响,根据原始密度峰值的基本假设,
排除一部分密度较低的噪声点对聚类中心选择的干扰,自动选择较多的初始聚
类中心。最后又利用自然邻域设计了一种融合策略,解决同一簇中多个聚类中
心的问题,提高聚类精度。在不同类型的数据集上进行对比实验,结果表明新
提出的算法在不同聚类评价指标下效果都得到了提升。
关键词密度峰值聚类;自然邻域;分配策略;融合策略;中心点选择
I
ResearchonDensityPeakClusteringAlgorithm
BasedonNaturalNeighborhoods
Abstract
Clusteranalysisisacommondataanalysismethodusedtoclassifyindividuals
orobservationsinadatasetintogroupsorclustersbasedonthedegreeofsimilarity
betweenthemtobetterunderstandthestructureandcharacteristicsofthedata.
Clusteranalysiscanhelponeidentifyhiddenpatternsandtrendsindata,whichcan
providevaluableinformationfordecision-makingandproblem-solving.Among
manyclusteringalgorithms,DensityPeaksClustering(ClusteringbyFastSearchand
FindofDensityPeaks,DPC)hasbeenwidelyusedinmanyfieldsduetoits
advantagesofsimplecomputationandbetteridentificationofnon-sphericalclusters.
However,withthedeepeningresearch,someshortcomingsofDPCalgorithmare
found,suchas:thesizeoftruncationdistanceneedstobechos