5、生物信息数据库幻灯片.ppt
文本预览下载声明
第三章 生物信息数据库 人类基因组计划(Human Genome Project, HGP) 1990年启动,预计2003年完成。由美、日、德、法、英、中六国参加。测出人类约 3,000,000,000 碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的 1%。 模式生物基因组计划 酵母、线虫、果蝇、细菌共约50多种已完成,水稻等70余种正在进行。目前总量已达60亿碱基对! 已经完成全序列测定的基因组 Homo sapiens 智人 Escherichia coli大肠杆菌 Saccharomyces cerevisiae酿酒酵母 秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。 Drosophila melanogaster果蝇 Arabidopsis thaliana拟南芥 一、 引言 除了蛋白质序列数据之外,PIR还包含以下信息: 1 蛋白质名称、蛋白质的分类、蛋白质的来源; 2 关于原始数据的参考文献; 3 蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; 4 序列中相关的位点、功能区域。 PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 蛋白质 核酸 糖类 其它复合物 一种是隐式序列信息 implicit sequence PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。 5、蛋白质结构分类数据库 PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。 三个子数据库 4、蛋白质结构数据库 PDB(protein data bank) 1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB research collaboratory for structural biology 管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。 PDB的网址:/pdb 美国 PDBsum的网址:http://www.biochem.ucl.ac.uk/bsm/pdbsum PDB(Protein Data Bank) 一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 1、核酸序列数据库 国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index.html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/ GenBank DDBJ EMBL 核酸序列数据的增长趋势 (纵轴代表总的核酸序列长度,单位:百万bp) 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。 美国的核酸数据库GenBank〖Banson,D.A. et al. 1998 Nucleic Acids Res. 26, 1-7〗从1979年开始建设,1982年正式运行; 欧洲分子生物学实验室的EMBL数据库也于1982年开始服务 日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。 从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。 EMBL数据库序列记录随时间增长 568 27,248,475 EMBL数据库序列总长随时间增长 3.4?1010 5.8?105 EMBL2003年8月数据状况 Release 76 Division Entries Nucleotides 表达序列标签 ESTs 18,001,332 9,172,848,447 真菌 Fungi 81,533 124,814,006 基因组检测序列 GSSs 5,951,552
显示全部