文档详情

第2章 生实物数据库介绍.ppt

发布:2020-11-24约1.82千字共95页下载文档
文本预览下载声明
2017.12.12; 数据库(database)是存储在某种存储介质上的相关数据的有组织的集合。 存储生物大分子信息数据的数据库称为分子生物学数据库(molecular biology database),也称生物信息学数据库(bioinformatics database)。 数据库,特别是分子生物学数据库,具有三个特征:(1)数据库是可以检索的,即具有检索(index)功能;(2)数据库应该是定时更新的,即不断有新版内容发布(release);(3)数据库是交叉引用的(cross-referenced),特别是在互联网时代,数据库应该通过超链接(hyperlinks)与其他数据库相连。;生物信息学数据库的分类:;一级数据库;二级数据库;生物信息学数据库;建立分子生物信息数据库的流程图;contents;2.1序列数据库;2.1.1三大核酸序列数据库;;/Genbank/genbankstats;GenBank收录的物种;GenBank中20种测序最多的物种(09年8月15日发布的第173.0版);Type of Record ;Type of Record ;What is an accession number?;GenBank; EMBL(欧洲分子生物学实验室,EMBL);EBI;EMBL; DDBJ(日本国家遗传学研究所,NIG);DDBJ;;示例;三大数据库之间的联系;国际核酸序列数据库协会;/ ; ;BioSino网页;2.1.2 两大蛋白质数据库;;(1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据。;SWISS-PROT; PIR蛋白质数据库;PIR;;UniProt数据库主页;2.2基因组数据库;NCBI中集成的Genome数据;人类基因组数据库;GDB网址 / ;既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。 数据内容: 限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…;AceDB网址 ;拟南芥基因组数据库;;家蚕基因组数据库;;水稻基因组数据库;;家鸡基因组数据库;;果蝇基因组数据库;;线虫基因组数据库;;玉米基因组数据库;;部分生物基因组计划网址;2.3结构数据库;PDB;2.3.2 PROSITE (蛋白质序列功能位点数据库);PROSITE;;2.3.3 SCOP;SCOP主页;;2.3.4 COG;COG;2.3.5 河北大学蛋白质数据库HPDB;2.4功能数据库;2.4.1京都基因和基因组百科全书(KEGG);KEGG; ;DIP;2.4.3 ASDB;2.4.4 TRRD;TRRD;2.4.5 TRANSFAC;从1994年开始,《核酸研究》(Nucleic Acid Research)杂志每年第一期为生物学数据库专集,介绍各种生物学数据库,这一期是免费的。 网址:/;2.5基本序列数据库注释及序列格式;EMBL标识字;示例;以GenBank中的一个水母绿色荧光蛋白基因为例;;;SWISS-PROT数据库种主要字段含义;ID;序列格式;但由于EMBL和GenBank数据格式较为复杂,所以为了分析方便出现了十分简单的FASTA格式。 FASTA格式又称Pearson格式,Pearson是FASTA的主要作者。该格式要求序列的标题行以大于号“”开头, “”后面一般是序列名称或序列描述,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条序列格式即将该格式连续列出即可。;;例2: insect sod1(序列名称或序列描述) TAGTTATGCC AGGATAAGTA GCAGGTTTGG TATAGTAACA GACTGAACCT ACCTAAAGGA(序列) insect sod2 (序列名称或序列描述) GGGGGGCCCCCCCTTTGGGGGTTTTTAATTTCCCCCCCCCCCTTTTAAAAAAA(序列);生物信息学中用到的其它格式还有许多,不同的格式有不同的要求,除前面讲的FASTA格式外,其它格式较难手工制作,需要时建议寻找格式转换软件。;;感谢您的关注
显示全部
相似文档