基于多层互信息和特征增强的科研合作网络链接预测研究.pdf
华中科技大学硕士学位论文
摘要
随着科技高速发展,科研合作日渐普遍。科研人员通过项目合作、文献合著等关
系构成的科研合作网络数据日渐庞大。对科研合作网络中潜在信息进行挖掘能够有
效促进科研人员之间的合作交流,为提升我国科研战略影响力、促进科研数字化转型
和智能融合创新提供重要支撑。随着近年来针对非欧数据的机器学习算法飞速发展,
链接预测技术成为了科研合作网络上数据挖掘的重要手段。但现今多数链接预测算
法只关注局部邻域结构信息,同时对少邻域节点的表达有所欠缺,从而导致了链接预
测效果不佳。
本文提出了特征增强的多层互信息最大化链接预测模型(FeatureAugmentation
andMulti-LevelInfomaxLearningforLinkPrediction,FAMIL),以实现科研合作网络
上的链接预测任务,本文的主要贡献如下:(1)提出了多层互信息最大化优化方法,
在模型中提出节点-子图级别和子图-全局级别两个层次的互信息并看作整体进行最
大化处理,实现了更精确的节点表达和全局信息的有效捕获。(2)论证了使用预训练
模型进行特征增强的可行性,并使用预训练的条件变分编码器生成节点特征以实现
数据特征增强从而提升少邻域节点的嵌入质量。(3)为了进一步提升链接预测精准
度,本文在FAMIL模型中加入了基于全连接网络的预测层来拟合预测得分函数。
本文在文献引用数据集和OGB基准数据集上选取了共5个公开数据集进行实验
以评估FAMIL模型的有效性。与基线模型及主流模型相比,FAMIL模型在各项评估
指标中均有不同程度的提升,证明了其链接预测能力的优越性。此外,本文还在真实
的科研合作网络上进行了链接预测实验,证明了该模型针对科研合作网络进行链接
预测的有效性和应用价值。
关键词:链接预测;图表示学习;图互信息;图数据增强;科研合作网络
I
华中科技大学硕士学位论文
Abstract
Withtherapiddevelopmentofscienceandtechnology,collaborationinscientific
researchisbecomingmorecommon.Thedataonscientificresearchcollaborationnetworks
formedbyresearchersthroughprojectcollaboration,co-authorshipinliteratureandother
relationshipsarebecomingmoreandmoreextensive.Miningthepotentialinformationin
thescientificresearchcollaborationnetworkcaneffectivelypromotecollaborationand
communicationamongresearchers,andmakeimportantcontributionstostrengtheningthe
influenceofscientificresearchinourcountry,promotingthedigitaltransformationof
research,andpromotingintelligentintegrationandinnovation.Withtherapiddevelopment
ofmachinelearningalgorithmsfornon-Euclideandatainrecentyears,linkprediction
technologyhasbecomeanimportantdataminingtoolforscientificresearchcollaboration
networks.Howeve