文档详情

面向复杂数据的密度峰值聚类与聚类集成算法研究.pdf

发布:2025-06-09约25.78万字共页下载文档
文本预览下载声明

摘要

面向复杂数据的密度峰值聚类与聚类集成算法研究

摘要

对于给定未处理的复杂数据集,如何能够有效地获取所需信息,并前进行

合理的归类处理是数据挖掘领域中存在的关键性问题。近年来,密度峰值聚类

(DensityPeaksClustering,DPC)因其优异的划分能力和实用性一跃成为单一聚类算

法的新星。与此同时,聚类集成凭借其稳健且强大的共识能力获得了快速发展。

然而,目前的聚类方法在解决复杂聚类任务方面还具有一定的局限性,尤其是对

于大规模的、模糊性较强的以及划分存在高度不一致的复杂数据。针对上述问题,

本文深入分析DPC及聚类集成算法在面向这些复杂聚类任务时的不足,并出相

应的优化策略,具体内容归纳如下:

1.在单一聚类算法层面上,对面向大规模数据的密度峰值聚类算法进行研究。

针对原始DPC计算复杂度较高,导致在处理大规模数据集时需要花费高昂的计算

成本以及严重耗时问题,出基于稀疏搜索和K-d树的密度峰值聚类算法(Density

PeaksClusteringwithSparseSearchandK-dTree,SKTDPC)来改善DPC。具体地,

该算法利用K-d树来获得稀疏距离矩阵,代替了原始的满秩距离矩阵以加速局部

k

密度的计算。在相对距离的计算上,基于任意一个数据点的近邻集与局部密度

较大集的交集出一种稀疏搜索策略,并通过该策略加速获取相对距离。该模型

还利用二阶差分法来确定突变点的位置,使其能够自适应地确定聚类中心。实验

结果表明,SKTDPC模型在不降低甚至有所改善聚类精度的同时,能够有效降低

原始DPC的计算复杂度。特别是对于较大规模的数据集,聚类效率得到了更为显

著的升。

2.拓展到聚类集成层面上,从模糊算子的角度对面向具有不确定性复杂数据

的聚类集成模型进行研究。针对传统聚类集成框架具有较弱的处理模糊关系能力

和鲁棒性较差问题,发展一种模糊自洽式聚类集成(FuzzySelf-consistentClustering

Ensemble,FSCE)FSCE

模型。具体而言,与常规处理基聚类结果的方式不同,将基

聚类结果以缩放的哑变量表示作为原始数据新的特征属性。随后,给出一种可根

据实际问题的不确定性调节耦合强度的-模糊算子。在此基础上,从模糊算子

的角度重新审视对象间的模糊关系,并生成相应的关系矩阵。该矩阵有效地增强

FSCE

了模型对不确定性关系的处理能力。此外,模型通过为集成结果中的模糊对

象构建再分配策略而突破传统聚类集成框架的范式。经过全面的实验分析,证实

了FSCE模型具有优越的共识能力和鲁棒性。

3.对聚类集成模型的聚类效率进行研究。针对现有的关于不确定性的聚类集

成方法大多忽略不同属性样本点对于底层数据结构具有不同贡献以及聚类效率滞

-I-

哈尔滨理工大学理学博士学位论文

后问题,在上一章所发展的FSCE模型基础上,出两种基于等效粒度的高效式模

糊聚类集成(EfficientFuzzyClusteringEnsembleBasedonEquivalenceGranularity,

EFCEG)模型。具体地,通过基聚类结果矩阵将原始数据转换成缩放的哑变量特征

表示形式,并搜索具有等价关系的潜在等效粒度。该过程将模型从样本层面拓展

到等效粒度层面,以达到初始缩减数据规模和减少具有同样效用的样本点占用额

外运行时间的目的。随后,设计两种不同模式的稀疏

显示全部
相似文档