美国国立生物技术信息中心NCBI的数据库资源.pdf
---.
美国国立生物技术信息中心(NCBI)的数据库资源
生命学院生物技术专业2002级周帅学号021402142
[摘要]除了提供GenBank核酸序列数据库以外,美国国家生物技术信息中心还提供对于
GenBank中数据的分析,检索资源,另外还通过其提供一系列的有价值的生物数据及信息。
NCBI数据的检索资源包括Entrez,PubMed,LocusLink以及Taxonomy浏览器。数据分析资源
包括BLAST,电子PC,开放阅读框寻觅器,序列提交工具,唯一人类基因序列集合,基因
同源物数据库,单核苷酸多态性数据库(dbSNP),人类基因组测序,人类基因组基因图谱,分
类学浏览器,人-鼠同源基因图谱,异常癌症基因组计划(CCAP),Entrez基因组,垂直同源基
因簇(COGs)数据库,反转录病毒基因分类工具,癌症基因组剖析计划(CGAP),基因表达连续
分析图谱(SAGEmap),综合性基因表达(GEO),在线孟德尔人类遗传(OMIM),三维蛋白质结
构的分子模型数据库(MMDB)以及保守序列数据库(CDD)。BLAST程序通过增加一些的应用程
序实现搜索某些特殊数据的最优化方式。所有的资源可以通过NCBI的首页得
到:.。
引言
作为美国国家卫生研究院(NIH)的国立医学图书馆(NLM)的一个分支,美国国家生
物技术信息中心(NCBI)成立于1988,其目标是发展新的信息学技术来帮助对那些控制健
康和疾病的基本分子和遗传过程的理解。除了提供由各个科研院所直接提供的GenBank核
酸序列数据库以外,NCBI还提供对于GenBank中数据检索系统和计算工具以帮助分析
GenBank的数据以及其他的NCBI提供的可利用的生物信息数据。
NCBI首页(.)所提供的可用数据涵盖了部分基因的代表性短序列、完整
的基因组、蛋白质结构以及一些遗传疾病的临床描述。NCBI提供了一系列的计算工具以帮
助分析各种类型的数据。总体来说,NCBI的整套数据库资源分为7大类:数据库检索系统,
,
相似序列检索程序基因序列分析数据库,染色体序列数据库,基因组分析数据库,基因表达与
显型分析数据库,以及蛋白质结构和建模数据库。
数据库检索工具
Entrez
Entrez是一个综合的数据库检索系统,可以通过三维蛋白质结构的分子模型数据库
(MMDB)搜索到DNA和蛋白质序列、基因组图谱、人类数据以及蛋白质结构并通过深入到
OMIM
NCBI的分类中的PubMed以及在线孟德尔人类遗传()搜索生物医学文献。Entrez中
的序列数据,尤其是蛋白质序列,是通过各种数据库资源(包括GenBank蛋白质翻译,蛋白
质鉴别数据库(4),SWISS-PROT(文本术语)(5),蛋白质研究基础,蛋白质数据库(6)以及数
据库参考序列(7))获得的,并且因此比单独的GenBank拥有更多的序列数据。PubMed主
--总结资料
---.
要包括联机医学文献分析和检索系统(MEDLINE)中的107,000,000多篇参考文献及其摘
要,它们了多于1100种网络中的可用刊物的论文全文。
Entrez可通过简单的检索条目进行序列文本或著书目录的搜索,加之大量的相关信息。
某些是简单对照,例如从一个序列到报道它的文章的摘要,从一个蛋白质序列到它的相应
DNA序列,或是从某一序列去其它序列。其余的则是基于序列或MEDLINE摘要中的相似性
进行搜索。这些预先计算的“