文档详情

生物信息学第六章基因组学分析.ppt

发布:2017-10-01约1.31万字共79页下载文档
文本预览下载声明
原核生物基因组 基因结构 GC含量 基因密度 真核生物基因组 开放阅读框 GC含量 基因表达 转座 重复元件 真核基因密度;类比:文本和基因组 如果将生物体比做一套百科全书的话, 那么一条染色体就相当于百科全书中的一卷, 基因就相当于书中的语句, 而核苷酸则仅仅相当于字母。 要从基因组序列中破译出信息,就相当于要将大量排列在一起的字母分割成单词和句子,可惜的是基因组序列中并没有明显的“标点符号”,因此破译非常困难。 真核生物中问题更复杂 因为真核生物的基因组被大量仅包含很少或根本不包含重要信息的“垃圾DNA”打乱。 ;基因测序 DNA测序方法自20世纪80年代中期以来都没有本质上的突破。 测序中很少产生长度大于1000个核苷酸的连续片段。 因此,可以想象要确定一个典型的原核生物基因组的全部序列是一件怎样繁琐的任务???比如大肠杆菌的基因组由单一的环状染色体组成,长460万个碱基,为了得到全基因组序列,至少需要进行4600次测序反应。然而事实上需要更多次反应。;组装重叠群原理 由于现在还不能直接测定整个分子的序列,所以我们只能通过序列拼接来完成序列的测序任务。 先前测定的特异性片段(STS——序列标签位点、EST——表达序列标签等)有助于排列序列信息。 通过多次反应来检查重要的重叠区域。这些序列片段覆盖待测序列,并且序列片段之间也存在着相互覆盖或者重叠。 ;尽管实验和计算方面有很多困难,20世纪90年代中期以来,我们还是完成了60多种原核生物的基因组测序任务。包括支原体、大肠杆菌、幽门螺杆菌、枯草杆菌等。 The Institute of Genetic Research (TIGR)已经把细菌基因测序变成了类似工业化的操作。每年能完整的测定多种细菌的全基因组序列。信息在TIGR的网站上不断更新。 ;原核生物对刺激的响应能力对于生存至关重要。对原核生物而言,对刺激的响应总是涉及到基因表达水平的变化。 原核生物基因组的许多信息仅仅是为了维持细胞的基本功能。例如: (1)复制DNA(至少需要32种基因) (2)产生新蛋白质(需要100-150个基因) (3)获得、储存能量(至少需要30个基因) ; 我们需要区分出哪些基因表达而哪些基因不表达; 需要识别转录为RNA的DNA区域的起始和终止部位; 需要区分RNA中被核糖体翻译成蛋白质的区域的起始和终止部位;;许多基因的蛋白质产物需要与其他基因的蛋白质产物结合在一起才能发挥作用。原核生物中普遍存在一个现象,即多个功能相关的基因表达实际上共享一个启动子,这些功能相关的基因排列成的结构称为操纵子。 操纵子是转录的功能单位。很多功能上相关的基因前后相连成串,由一个共同的控制区进行转录的控制,包括结构基因以及调节基因的整个DNA序列。 主要见于原核生物的转录调控,如乳糖操纵子、阿拉伯糖操纵子、组氨酸操纵子、色氨酸操纵子等。 只有原核生物存在操纵子结构,真核生物不含操纵子。;原核生物RNA聚合酶 — 由几种不同的蛋白质组装成 (1)σ蛋白质:特异识别启动子核苷酸序列。 (2)β’(beta-prime)蛋白质 :实现与DNA模板的结合; (3)β蛋白质 :实现核苷酸之间的连接; (4)α蛋白质 :将亚单元结合在一起; β’、β和α蛋白在进化过程中非常保守,不同细菌的种类中具有很高的相似性。 σ保守性要差一些,不同的σ因子形成了不同的 RNA聚合酶。这是决定细胞开放和关闭基因表达的直接原因 ;大肠杆菌中的7个σ因子 ;识别启动子的能力大小直接关系着启动转录过程的难易。 一致序列:由特定σ因子识别的-35位和-10位序列; 本质上是含有相同σ因子的RNA聚合酶转录的基因的相应位置上最常出现的核苷酸片段。 上页表格中所示的序列便是大肠杆菌启动子区-35和-10位序列的一致性核苷酸序列。 基因的-35位和-10位序列与一致序列越匹配,RNA聚合酶就越有可能与启动子结合并开始转录。;单独的调控蛋白也可以帮助细菌基因在特定环境中的表达。而且其幅度和精度比不同的σ因子与一系列不同的启动子结合产生的影响还要大 乳糖操纵子的启动子可以被RNA聚合酶识别,但只能在富含乳糖和缺乏葡萄糖的环境中有效表达。 在乳糖操纵子调控中起主要作用的两个因子分别是: 负调控因子:乳糖抑制蛋白(pLacI) 正调控因子:cAMP受体蛋白 (CRP);当细胞中的乳糖含量较低时,乳糖抑制蛋白(pLacⅠ)与一个特殊的核苷酸序列结合(图中蓝色区域),这个序列被称作乳糖操纵子的操纵子序列。结合后充当了阻碍物,阻止了RNA聚合酶转录下游的编码序列。;pLacI蛋白也可以与乳糖特异性结合。
显示全部
相似文档