基于多元路径融合的lncRNA-疾病关联预测方法研究.pdf
基于多元路径融合的lncRNA-疾病关联预测方法研究
摘要
越来越多的证据表明,长链非编码RNA(lncRNA)在人类复杂疾病中发挥
着重要作用。然而,目前已知的与疾病相关联的lncRNA数量有限。为了降低
通过生物学实验发现疾病相关lncRNA的成本,开发计算方法来推断lncRNA与
疾病之间的潜在关联已经成为一个研究热点,这有助于研究lncRNA在疾病中
的作用机制以及探索疾病的新疗法。本文研究基于多元路径融合的方法进行
lncRNA与疾病的关联预测,主要的工作和贡献体现在以下两个方面:
(1)提出了一种基于元路径和注意力机制的lncRNA-疾病预测模型(The
LncRNA-DiseasePredictionModelBasedonMeta-Path,MPLDA)。首先,为了对
三种不同类型的节点及其复杂的边连接信息进行整合,MPLDA利用不同生物
信息构建了一个lncRNA-miRNA-疾病三层异构图。第二,基于两种相似性信息
视图采用注意力机制对其分配不同权重以获得lncRNA和疾病节点的相似性特
征表示。接着,基于异构网络定义不同的元路径,引入图注意机制用于聚合元
路径中的邻居节点信息,随后再次利用注意力机制自适应地学习不同元路径之
间的语义信息,从而能够更好地学习lncRNA和疾病目标节点的特征表示,有
助于提高模型的预测准确度。最后,利用全连接层来预测出每个lncRNA与疾
病的关联分数。实验结果表明,MPLDA模型在5折交叉验证方法下得到的AUC
值和AUPR值分别为94.97%和94.82%,与其他方法相比,MPLDA表现出更好
的预测性能。此外,案例研究结果也充分说明了MPLDA模型的有效性。
(2)提出了一种基于元路径自适应学习和多层感知机的lncRNA-疾病预测
方法(TheLncRNA-DiseasePredictionModelBasedonAdaptiveMeta-Path
Generation,AMPGLDA)。首先,AMPGLDA模型整合lncRNA、疾病和miRNA
之间的相似性信息、关联关系以及相互作用关系来构建lncRNA-疾病-miRNA异
构图,并通过主成分分析方法提取节点全局相似性特征。然后,AMPGLDA基
于异构图自适应地学习lncRNA与疾病之间的元路径,并从多个元路径中学习
lncRNA和疾病的特征表示。最后,AMPGLDA融合来自多个元路径的特征和
节点初始全局相似性特征,采用多层感知机来预测lncRNA和疾病的关联。
AMPGLDA模型在5折交叉验证方法下得到的AUC值和AUPR值分别为
99.28%和99.20%,性能优于几种先进的lncRNA-疾病关联预测模型。此外,三
-I-
种癌症上的案例研究表明AMPGLDA具有准确发现新的lncRNA-疾病关联的能
力。
关键词lncRNA-疾病关联预测;多元路径融合;注意力机制;多层感知机
-II-
ResearchonLncRNA-diseaseAssociationPrediction
MethodBasedonMultipleMeta-path
Abstract
Moreandmoreevidencesuggestsacrucialroleforlongnon-codingRNA
(lncRNA)incomplexhumandiseases.However,t