密度峰值聚类算法的改进和研究.pdf
摘要
摘要
聚类是通过对相似数据进行分类而获得有价值的信息,在大数据时代中有着举足
轻重的地位.密度峰值聚类(Clusteringbyfastsearchandfindofdensitypeaks,DPC)是
2014年提出的一种新型算法,由于其原理简单,只需要少量参数就能自动快速聚类,已
在数据分析,图像处理等众多领域中得到广泛的应用.然而,DPC算法的分配策略比较
d
敏感,局部密度和距离测量的信息不足,截断距离通常很难确定.本文针对该不足,提
c
出了以下研究内容:
(1).针对一步式分配策略的容错能力较差,局部密度和距离测量的信息不足,提出
了一种基于密度均值策略优化的密度峰值聚类算法.首先,通过引入共享最近邻重新定
义了数据点的局部密度;其次,根据密度均值将数据集划分为高密度区域和低密度区域,
对不同区域采用不同的分配策略,针对高密度区域的数据点采用自适应方法识别出聚
类中心,并使用与原密度峰值聚类相同的分配方法对该区域内的数据点进行分配,对低
密度区域内数据点则根据其k近邻数量进行聚类;最后,将该算法在不同的人工合成和
UCI数据集上进行实验验证,实验显示出聚类的效果有了显著提高.
(2).针对其截断距离的不确定和一步式分配策略不稳健等缺陷,提出了一种基于非
洲秃鹫优化算法改进的密度峰值聚类算法.首先,通过建立以评价指标Acc的目标函数,
利用非洲秃鹫优化算法强大的寻优能力对不确定的截断距离进行优化;其次,根据数据
集密度均值将其划分为高低不同的密度区域,并根据不同的分配策略对高密度区域和
低密度区域数据点分别进行聚类;最后,将该算法在合成和真实数据集上进行实验验证,
算法的聚类性能有了很大的提升,且对密度差异性较大的数据集划分也更加精确.
关键词:密度峰值聚类;密度均值;非洲秃鹫优化算法;分配策略;截断距离
论文类型:应用研究
I
目录
目录
第1章绪论1
1.1研究背景及意义1
1.2国内外研究现状1
1.2.1选取聚类簇中心2
1.2.2自动选取截断距离2
1.2.3改进分配策略2
1.2.4局部密度的计算方式3
1.3论文章节的结构安排4
第2章研究基础5
2.1密度峰值聚类算法和不足5
2.1.1密度峰值聚类算法(DPC)5
2.1.2DPC算法的不足6
2.2非洲秃鹫优化算法7
2.3聚类的各种评价指标9
第3章基于密度均值策略优化的密度峰值聚类算法13
3.1基于密度均值策略法划分不同区域数据点13
3.1.1自适应选取聚类中心14
3.1.2不同区域数据点的分配策略15
3.2本节算法16
3.2.1算法流程16
3.2.2算法复杂度分析17
3.3实验结果与分析17
3.3.1人工合成数据集17
3.3.2UCI真实数据集25
3.3.3算法的运行时间比较26
3.3.4参数分析27
3.3.5数据集的顺序敏感性分析27
3.3.6Friedman检验28
3.4本章小结29
第4章基于非洲秃鹫优化算法改进的密度峰值聚类31
4.1DPC-AVOA算法