医学生物信息基础 第7讲 数据库(简).ppt
文本预览下载声明
生物医学信息学的重要 数据库 (简) 第一节 引言 一、生物信息学数据库产生背景 人类基因组计划(破译人类的遗传密码) 大规模基因测序: 每年2亿多个DNA序列碱基测定,100亿. 大型计算机的数据处理能力:数万亿次/秒 因特网的发展 生物信息学数据库 网络化资源共享化 第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少 对于第二部密码,目前则只能用统计学的方法进行分析 无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。 随着生物信息学 (Bioinformatics)发展,通过检索数据库进行核酸序列同源性检索,电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用,已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。 生物分子数据库应满足5个方面的需求 (1)时间性 (2)注释 (3)支撑数据 (4)数据质量 (5)集成性 生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快 数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置 《Nucleic Acids Research》杂志 四、生物信息学主要数据库分类Bioinformatics database 相关数据库及其主要分类 1. 核酸序列数据库 2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10.蛋白组资源 11.其他分子生物学数据库 12.细胞器官数据库 13.植物数据库 14.免疫学数据库 基因图谱数据库 核酸序列数据库 蛋白质序列数据库 大分子结构数据库等 国际著名的生物信息中心 NCBI National Center for Biotechnology Information (US)? EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK ) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia)? NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore) 生物信息学数据库的分类 (一)按生物分子种类、结构和功能分类 核酸序列数据库 蛋白质序列数据库 蛋白质结构数据库 基因组数据库 广义上讲,生物信息学数据库主要分为两大类,包括基本数据库和二级数据库。 基本数据库主要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结构等信息。 二级数据库则主要是对基本数据库进行分析、提炼加工后而形成,旨在使得基本数据库使用,例如,真核生物启动子数据(eukaryotic promoter database,EPD)和蛋白质序列库的共同结构和功能基序数据库 (PROSITE database)等。 生物分子数据库 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。 不同的分析方法产生不同应用范围的二级数据库,这类数据库在实践中往往更受重视。但是,如果要采用新的算法进行数据分析,那就必须从基本数据库出发进行考虑。 二级数据库也被用来进一步分析以形成新的数据库。 一个典型数据库记录通常包括两部分:原始(序列)数据和对这些数据进行的生物学意义的注释。这些注释和原始(序列)数据具有同等重要性。 人类基因组计划获得了大量的基因组序列数据,然而由于对这些数据进行生物学功能的注释远远落后自动测序仪每天所产生的大量序列数据,所以当进行序列同源性分析得到与这类缺乏注释的数据相关的信息时,其信
显示全部