基于自监督学习的属性图异常检测方法研究.pdf
基于自监督学习的属性图异常检测方法研究
研究生姓名:席鹏晖导师姓名:张师超
学科:软件工程研究方向:数据挖掘和深度学习年级:2021级
摘要
图结构数据是一种广泛使用的描述复杂系统的通用语言,可应用于社交网络、推
荐系统、生物信息学等领域。然而,在属性图异常检测中,检测异常数据是一个具有
挑战性的任务,因为通用的检测方法在处理非欧氏空间数据时效果有限,异常样本和
正常样本之间存在数量上的不平衡,且异常在图结构中违背了同质性假设。传统领域
的异常检测方法在处理上述问题时存在困难,并且在检测性能方面表现不佳。具体而
言,现有的异常检测方法主要集中在残差分析和社区发现等浅层技术上。然而,这些
浅层方法在训练过程中忽略了属性图复杂的结构信息,导致结果不理想且无法解释。
随着深度学习领域的发展,研究者们采用自编码器作为底层框架的深度学习方法。然
而,由于自编码器并非专门为异常检测任务设计,因此其检测性能仅能达到次优水平。
(1)为了识别更丰富的局部信息,在属性图异常检测领域,本文提出了一种新
型的局部信息识别方法。具体而言,为了利用上下文结构信息,首先通过从目标节点
生成不同的子图结构,构建对比学习表示法。同时,通过使用目标节点邻域信息的自
编码器来重建整个图,从而学习到更丰富的局部信息。此外,为了更好地理解复杂的
图结构,本研究采用异常分数估计来预测异常样本。通过邻域子结构和自编码器充分
学习邻域信息,提高了模型的异常检测性能。该研究在五个真实数据集上进行了广泛
的实验,结果展示了该模型在性能上的卓越表现。
(2)为了应对图数据错综复杂的拓扑结构、高维属性特征和类不平衡问题,本
文提出了一种用于属性图异常检测的双掩码自编码器模型。该模型旨在学习图网络更
好的潜在表示以进行异常检测任务。首先,通过随机掩码原始图数据的节点和连接,
生成一个新的掩码图结构。模型通过双自编码器学习图数据的潜在表示,其中一个自
编码器用于重建原始图数据,另一个用于重建掩码图数据,从而帮助识别属性图数据
中的异常节点。随后,为了从相关特征中捕获异常信息,模型采用随机再掩码策略,
利用掩码图中学习到的潜在表示。最后,利用从双自编码器学习到的潜在表示计算节
点的异常得分。与当前先进的五种方法相比,该模型能够提升属性图的异常检测性能。
关键词:图神经网络;图自监督学习;异常检测;对比学习;图自编码器
ResearchonAttributeGraphAnomalyDetectionMethodBased
onSelf-SupervisedLearning
Graduatestudent:PenghuiXi
Supervisor:ProfessorShichaoZhang
Major:SoftwareandEngineering
Researchdirection:DataminingDeepLearning
Grade:2021
Abstract
Graph-structureddataservesasauniversallanguagefordescribingcomplexsystems
andfindsapplicationsinvariousdomainssuchassocialnetworks,recommendationsystems,
andbioinformatics.However,detectinganomaliesinattributegraphsposesachallenging
task.General-purposedetectionmethodsexhibitlimitedeffectivenesswhendealingwith
non-Euclideanspatialdata,imbalancedratiosbetweennormalandanomaloussamples,and
violationsofhomogeneityassumptionsingrap