文档详情

生物信息学第二章分析报告.ppt

发布:2016-05-19约1.48万字共49页下载文档
文本预览下载声明
TrEMBL (Translation of EMBL):计算机注释的Swiss-Prot分支数据库,从EMBL库中的cDNA序列翻译得到的氨基酸序列数据库 * * * 1984年,美国国家医学研究基金会(NREF)正式启动蛋白质信息资源(Protein Information Resource, PIR)计划; 美国最主要的蛋白序列数据库; 非冗余、高质量注释、全面分类; PIR数据库按照数据的性质和注释层次分为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽。 * 1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。(已移至EBI) * SCOP(structural classification of protein)数据库是一个包含已有结构的蛋白质分类数据库,依据不同蛋白质的氨基酸组成的相似性及三级结构,详细描述已知结构蛋白质之间的功能及进化关系,SCOP数据库的构建除了使用计算机程序外,主要依赖于人工验证。 SCOP库则是由英国医学研究委员会Medical Research Council (MRC)的分子生物学实验室和蛋白质工程研究中心开发和维护,SCOP库则更倾向于依赖于专家经验的人工验证分类,虽然这种分类更加可信,但是在更新速度上却比CATH库要慢。尽管两者之间的分类方法有明显的差别,但对于哪些结构域应归为一类,这两个数据库在很大程度上还是一致的。 。CATH库由英国伦敦大学University College (UCL)开发和维护,它采用半自动的分类方法—计算机自动分类和专家经验结合—对结构域进行分类,结构角度 * * * * * * 这是比较简单而使用最多的序列格式。该格式只有两部分,序列文件的第一行是由大于符号“〉”打头的序列名称和基本性质简要文字说明;从第二行开始时为序列本 身,FASTA格式以“〉”起始标识号作为区别于其他数据库的特征,没有特殊的序列结束标志。序列只允许使用标准核苷酸符号或标准的氨基酸的单字母符号, 通常核苷酸符号大小写均可,而氨基酸一般用大写字母,有些程序对大小写有明确要求。文件中每一行不要超过80个字母,行中不留空位。FASTA格式还可以 用于多序列联配。 * 由美国犹他大学、深圳华大基因研究院等单位合作完成的鸽子基因组研究成果在《科学》杂志在线发表。该研究从分子层面揭示了家鸽的起源历史,并发现了鸽子羽冠多样性的遗传基础。 * 基于此次测序得到的基因组学数据,研究人员发现伊朗地区的鸽子与印度的鸽子存在很多遗传共性。研究人员认为,实际上主要的家鸽品种均起源于中东地区。此外,研究人员还分析了两种野鸽的基因组数据,发现它们在遗传水平方面均与赛鸽品种非常相似,支持了野鸽种群主要来源于赛鸽的观点。 * 表型-择偶 * 通过全基因组群体分析,研究人员发现EPhB2基因在鸽子的羽冠发育中起着开关基因的作用。该基因正常时,则没有羽冠;而当其携带发生突变的等位基因的纯合子时,则形成羽冠。除了从全基因组重测序得到的证据外,研究人员还对其他22个品种的61个具有羽冠的鸽子以及57个品种的69个没有羽冠的鸽子的EPhB2基因位点进行了基因型分析验证 * * PIR(protein information resource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据依据注释的质量分为4类。 分类名称 (Name) 说明 (Comment) 记录数 (Number of entries) PIR1 已分类、已注释 (Classified and annotated) 13572 PIR2 已注释(Annotated) 69368 PIR3 未核实(Unverified) 7508 PIR4 未翻译(Unencoded or untranslated) 196 PIR数据库的分类情况(Release 51.03) * PIR网址: / D)蛋白质结构数据库 PDB Protein DataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库 /pdb/ NCBI STRUCTU
显示全部
相似文档