文档详情

基于图神经网络的聚类算法.pdf

发布:2025-06-13约15.19万字共85页下载文档
文本预览下载声明

摘要

摘要

最近几年,随着互联网的进一步发展和5G技术的逐步应用,地球上每天产生

的数据量越来越大,且数据之间的关联性也越来越强。为了能够高效地对这些数

据进行分析,数据聚类通常会作为处理这些数据的首要环节,因此人们对于数据

聚类的需求也越来越高。另一方面,随着图神经网络的初步成熟,越来越多的研

究者也开始使用这一工具来解决一些经典的图问题。

本文基于图神经网络技术,对图结构数据的聚类算法进行研究,并针对已有

的聚类模型进行改进。该模型由四个模块组成,它们分别是深度自编码器,图自

编码器,特征混合模块和聚类模块。其中,深度自编码器与图自编码器主要用于

提取数据集中的信息,特征混合模块主要用于实现深度自编码器和图自编码器的

信息交换,聚类模块不仅会用于生成最后的聚类结果,还会反作用于其他模块,使

它们生成更适合聚类的嵌入向量。本文在对模型的改进、设计与验证过程中,做

了如下工作:

1.本文将特征混合模块由单向混合方案改进为双向混合方案,实现深度自编

码器与图自编码器中信息的双向流通。同时本文基于注意力机制的思想,提出了

一种新的线性混合方案,该方案中混合参数由神经网络根据两个自编码器的输出

特征计算得出,这种方案使得模型能在不同的数据集上灵活地调整特征混合参数。

2.本文在聚类模块中提出了两种不同的损失函数,两种损失函数均通过软聚

类结果进行生成。第一种损失函数对原始模块度的定义进行了扩展,使模块度能

够用于带有概率的软聚类结果上;另一种损失函数则基于软标签的思想,通过利

用概率分布高次方归一化的运算,损失函数会在原有聚类结果的基础上,生成一

个更优质的聚类结果,使得模型在每次迭代过程中,其数据分布中向着最大概率

的方向上集中。

3.本文将改进后的模型与另外八种聚类算法在六个数据集上进行了对比实验,

并逐一验证了每个模块的改进对于聚类效果的提升。此外,本文还通过消融实验

验证了不同模块对于聚类效果的影响。

最后,实验结果表明本文改进的模型在所有数据集上均表现良好,并在其中

四个数据集上取得了最优结果,且每一个模块对于聚类效果均有所提升。

关键词:聚类算法,图神经网络,自编码器

I

ABSTRACT

ABSTRACT

Inrecentyears,withthefurtherdevelopmentoftheInternetandthegradualapplica-

tionof5Gtechnology,theamountofdataproducedeverydayontheearthisincreasing,

andthecorrelationbetweenthedataisgrowing.Inordertoanalyzethedataefficiently,

dataclusteringisusuallythefirststepofdataprocessing,sothedemandfordataclustering

isgettingbiggerandbigger.Ontheotherhand,withthematurationofGraphNeuralNet-

works,moreandmoreresearchersbegintousethesetoolstosolvesomeclassicalgraph

problems.

Basedongraphneuralnetworktechnology,thisthesisstudiestheclusteringalgorithm

ofgraphstructuredata,andimprovestheexistingclusteringmodel.Themodelconsists

offourmodules,namely,deepautoencoder,graphautoencoder,featuremixingmodule

andclusteringmodule.Amongthem,thedeep

显示全部
相似文档