文档详情

5、生物信息数据库幻灯片.ppt

发布：2016-12-10约8.99千字共81页下载文档

文本预览下载声明

第三章生物信息数据库人类基因组计划（Human Genome Project, HGP） 1990年启动，预计2003年完成。由美、日、德、法、英、中六国参加。测出人类约 3,000,000,000 碱基对的序列（相当于每页3,000个字母，共需100万页印完）。中国承担其中的 1%。模式生物基因组计划酵母、线虫、果蝇、细菌共约50多种已完成，水稻等70余种正在进行。目前总量已达60亿碱基对！已经完成全序列测定的基因组 Homo sapiens 智人 Escherichia coli大肠杆菌 Saccharomyces cerevisiae酿酒酵母秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。 Drosophila melanogaster果蝇 Arabidopsis thaliana拟南芥一、引言除了蛋白质序列数据之外，PIR还包含以下信息： 1 蛋白质名称、蛋白质的分类、蛋白质的来源； 2 关于原始数据的参考文献； 3 蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等； 4 序列中相关的位点、功能区域。 PDB中含有通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构蛋白质核酸糖类其它复合物一种是隐式序列信息 implicit sequence PDB的隐式序列即为立体化学数据，包括每个原子的名称和原子的三维坐标。 5、蛋白质结构分类数据库 PIR提供三种类型的检索服务: 一是基于文本的交互式查询，用户通过关键字进行数据查询。二是标准的序列相似性搜索，包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索等。三个子数据库 4、蛋白质结构数据库 PDB（protein data bank） 1. 目前最主要的蛋白质分子结构数据库； 2. 1970年代建立，美国Brookhaven国家实验室维护管理; 3. 1988年，由美国RCSB research collaboratory for structural biology 管理； 4. 以文本格式存放数据，包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等； 5. PDBsum数据库：PDB注释信息综合数据库，具有检索、分析、可视化的功能。 PDB的网址：/pdb 美国 PDBsum的网址：http://www.biochem.ucl.ac.uk/bsm/pdbsum PDB（Protein Data Bank）一种是显式序列信息（explicit sequence）在PDB文件中，以关键字SEQRES作为显式序列标记，以该关键字打头的每一行都是关于序列的信息。 1、核酸序列数据库国际上权威的核酸序列数据库（1）欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de （2）美国生物技术信息中心的GenBank /Web/Genbank/index.html （3）日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/ GenBank DDBJ EMBL 核酸序列数据的增长趋势（纵轴代表总的核酸序列长度，单位：百万bp）三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。美国的核酸数据库GenBank〖Banson,D.A. et al. 1998 Nucleic Acids Res. 26, 1-7〗从1979年开始建设，1982年正式运行；欧洲分子生物学实验室的EMBL数据库也于1982年开始服务日本于1984年开始建立国家级的核酸数据库DDBJ，并于1987年正式服务。从那个时候以来，DNA序列的数据已经从80年代初期的百把条序列，几十万碱基上升至现在的110亿碱基！这就是说，在短短的约18年间，数据量增长了近十万倍。 EMBL数据库序列记录随时间增长 568 27,248,475 EMBL数据库序列总长随时间增长 3.4?1010 5.8?105 EMBL2003年8月数据状况 Release 76 Division Entries Nucleotides 表达序列标签 ESTs 18,001,332 9,172,848,447 真菌 Fungi 81,533 124,814,006 基因组检测序列 GSSs 5,951,552

显示全部

相似文档