基于UMLS和通路数据的潜在语义分析技术的研究与实现-计算机技术专业论文.docx
文本预览下载声明
分类号U
分类号
U D C
密级 公 珏
Z毋庐夕擎
硕士研究生学位论文
基于UMLS和通路数据的潜在语义分析
技术的研究与实现
申请人: 尚美辰 学 号: 2131395
培养单位: 计算机科学技术学院 学科专业: 计算机技术 研究方向: 生物信息学 指导教师: 马吉权副教授 完成日期: 2015年5月11日
万方数据
中姗
中姗 IlYUllqll2llllql7ll J[1117l[1ll。Ul[IIllllllU7l[1llq2ll[I
中文摘要
在21世纪信息时代的浪潮中,随着高通量基因组技术的飞速发展,生物学领 域涌现出众多文献资料,很多文献内部存在着潜在语义,如果能有效的挖掘文献 中的潜在语义信息,对我们以后的生物学探索帮助很大。然而数据组织的异构性 和知识的不同表达形式对正确的解释生物实验结果提出了挑战,同义词和多义词 在完整的整合和准确的提取生物信息方面起到了极大的干扰作用。为了从文献中 挖掘基因之间的潜在关系,基于生物信息学和数据挖掘理论的潜在语义分析技术 迅速发展起来。本文首先利用UMLS整合从T-HOD网站中提取的I型糖尿病相关 基因,然后运用交叉影响分析技术将基因合成基因组,最后在潜在语义分析方法 中加入通路数据从而得到基因、基因组与疾病之间的相关程度,为疾病的预防、 诊断、治疗提供了必要的生物信息学参照,也为生物靶向制药提供了实验依据和 研制方向。
实验的数据来源于两方面,一方面是经过UMLS过滤的I型糖尿病相关基因, 另一方面是通路数据。UMLS是关于生物医学与人类健康领域的知识数据库,为 生物医学研究者提供最新的专业术语及相关概念。UMLS主要的两个功能是查询 生物术语,包括它的名称,ID,语义类型,定义,相关概念等等,另一个功能是 从文章中提取生物概念,这个过程主要运用了UMLS映射方法的核心
——-Metamap,文章摘要通过Mctamap预处理,能够准确的提取出生物概念,即 CUI(生物概念的lD),也可以添加选项选择想要提取的术语的特征。通路数据是 从iSubpathwayMiner系统中获取的,作为可信信息参与到算法中,用来提高算法 的准确性。iSubpathwayMiner系统是网络生物学资源,作为一种方便的接入点从公 共数据库收集生物通路信息。这里所有的数据获取都是免费的。
在实验中,通过参照通路数据的信息比较基因与疾病的关系排名,结果证明
用潜在语义分析方法挖掘基因、基因组与疾病的相关度是合理的。接着将加入通
万方数据
黑龙江大学硕士学位论文路数据与未加入通路数据的结果进行对比,与疾病关系越大的基因相似性分数增
黑龙江大学硕士学位论文
路数据与未加入通路数据的结果进行对比,与疾病关系越大的基因相似性分数增 加的越多,结果证明加入通路数据可以提高实验结果的准确度。另外,从基因与 疾病的关系排名上可以看出加入通路数据并没有覆盖原信息。
关键字:潜在语义分析,通路数据,一体化医学语言系统,定量交叉影响分析
万方数据
AbstractAbstract
Abstract
Abstract
In the wave of the information age of the 2 1 st century,with the rapid development of high-throughput genomic technology,biology areas emerged in large numbers of documents,there are a lot of latent semantic internal documents,if we can effectively
excavate the potential of semantic information in the literature,it will be great help for
the future of biological exploration.However,the heterogeneity of expression data organization and different forms of biology knowledge make a great challenge for the correct interpretation of the results of biological experiments,synonyms and polysemy in the integration and accurate extraction of biological information has played a great disturbance.In order to t印t
显示全部