蛋白质分析和蛋白质组学-哈医大《生物信息学基础》课件.ppt
文本预览下载声明
第十章、蛋白质分析和蛋白质组学 视角3和4的介绍: Gene Ontology (GO) Consortium Gene Ontology 成立的背景 本体(ontology) 计算机科学对自然世界认知的形式化的表示,既是可被计算机表示,解释和利用的知识的形式化的研究—即本体 。本体是结构化的领域知识,并可以被计算机解释和利用 。 实现对生命世界中这些概念理解上的共享,包括从不同的视角,不同的术语分类, 不同的主体( 人和机器)共享概念 --概念化的规范 Gene Ontology(GO)协会致力于这样一项工程:编辑一组动态的而又可控的词汇来描述基因和基因产物(主要是蛋白质)不同方面的性质。 所有这些蛋白质能做什么? “功能”太有局限性。 生物学家想知道:每个蛋白质能做什么,属于哪条细胞回路或者为什么细胞需要这个功能,以及在什么地方发生了这样的过程。 Gene Ontology的发起 芽殖酵母基因组数据库(SGD) 果蝇基因组数据库(drosophila genome database,简称FlyBase) 小鼠基因组信息数据库;(mouse genome information database,简称MGD/GXD) DAG Functional assignment of enzymes:the EC (Enzyme Commission) system 罗赛塔石碑 How many “gene fusions”? Perspective 2: Protein family,domains and motifs 为什么关注蛋白质家族? 基因重复 蛋白质同源序列和家族 在目前所有已知的数据库中均没有发现同源序列的蛋白质。 它的其他性质(如跨膜区结构域、磷酸化位点、预测出的二级结构等)也会给我们了解该蛋白质的结构或功能提供一些线索。 有直系同源序列或旁系同源序列的蛋白质。 这种蛋白质至少能找到一条同源序列,且两条序列存在具有显著相似性或显著特征的区域。这些有显著序列相似性或显著结构特征的区域有很多名称,如签名(signature)、结构域(domain)、模块(module)、模块元件(modular element)、折叠子(fold)、模体(motif)、模式(pattern)或重复(repeat)。 签名(signature) 签名(signatures)的概念很宽广,它确定一个蛋白质分类,可能指结构域(domain)、家族(family)或模体(motif)。仅考虑单独的一个蛋白质时,我们仅能得到很少一部分关于其结构和功能的信息;但是将它与相关序列比对找到保守部分后,从保守序列中可以推测出很多信息。签名主要可以分为两类,每一类签名都可以用各自的方法确定。 结构域(domain)是蛋白质中能折叠成特定三维结构的一段区域。结构域也能被称为模块。一组拥有相同结构域的蛋白被称为一个蛋白质家族。 模体(motif,或称指纹,fingerprint)是蛋白质序列中较短的保守区域。模体的长度一般是10—20个氨基酸残基,尽管实际中的模体有可能更长或更短。一些简单而常见的模体在一组蛋白质中发现并不意味着这组蛋白质是同源的,例如形成跨膜区结构域或保守磷酸化位点的模体。而另一些情况中,小的模体则是一个蛋白质家族的标志(如prosite)。 InterPro对相关术语的定义 SMART对相关术语的定义 结构域和motif 血清蛋白(581氨基酸):3个类似结构域,每个约180个氨基酸 胶原蛋白中存在着几十个有GXY三肽组成的重复片段 RNA聚合酶最大亚基C端结构域中有52个重复的六肽片段:[T/S]PTSP[N/T]. PrP(疯牛病):有四个连续对八肽:PHGG[G/S]WGQ 许多细胞内信号转导的蛋白质含有SH2肽段(与磷酸化丝氨酸/苏氨酸结合的肽段) 蛋白质motif 例子 在HIV-1 pol蛋白的天冬氨酸蛋白酶(aspartyl proteases)结构域中,天冬氨酸残基(asp)对酶的催化活性至关重要。天冬氨酸蛋白酶模体由12个氨基酸残基构成: [LIVMFGAC]-[LIVMTADN]-[LIVFSA]-D-[ST] -G-[STAV]-[STAPDENQ]-x-[LIVMFSTNC]-x-[LIVMFGTA]。 几乎所有的lipocalins中都可以找到一个短的模体GxW。PROSITE数据库定义的lipocalins的保守氨基酸模体是: [DENG]-x- [DENQGSTARK]-x(0,2)-[DENQARK]-[LIVFY]-{CP}-G-{C}-W-[FYWLRH]-x-[LIVMTA]。 模体 氨基酸残基修饰的模体 蛋白质细胞定位的模体
显示全部