计算表观遗传学-哈医大《生物信息学基础》课件.ppt
文本预览下载声明
第一节 引言 一、 表观遗传学与计算表观遗传学 二、 计算表观遗传学的研究内容 三、 计算表观遗传学的方法和工具 四、 计算表观遗传学的进展 第二节 基因组的DNA甲基化 一、CpG岛的DNA甲基化调控基因的表达 (一) DNA甲基化与CpG岛 (二) 甲基化对转录的调控 (三) DNA甲基化的意义 (一) DNA甲基化与CpG岛 DNA甲基化是一种发生在DNA序列上的化学修饰,可以被稳定地在转录及细胞分裂前后遗传。DNA甲基化是重要的表观遗传代码。 DNA甲基化 在哺乳动物中,大约60%-90%的CpG二核苷酸是甲基化的。CpG中的p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。 在哺乳动物细胞中,DNA甲基化主要发生在CpG二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-甲基-胞嘧啶,如图所示。 CpG岛与DNA甲基化的关系 CpG二核苷酸倾向于聚集成簇,这样的区域称做CpG岛(CpG islands)。 CpG岛的特点是GC的含量及CpG的含量非常高。 CpG岛主要分布在基因的5’非编码区,启动子和第一外显子区域,大约80%的基因的启动子含有CpG岛。这些区域的CpG二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化CpG带来高的突变率。 (二) 甲基化对转录的调控 DNA甲基化影响转录的机制 1. DNA甲基化阻碍转录因子的结合 2.DNA甲基化识别染色质标记 3. DNA甲基化募集其它蛋白引起染色质沉默 4. DNA甲基化影响核小体定位 (三) DNA甲基化的意义 CpG二核苷酸的甲基化与重复元件沉默 CpG二核苷酸的甲基化与染色体的选择性沉默 DNA甲基化与组织特异表达 (一)CpG岛的定义及预测 Gardiner-Garden 和Frommer 长度最短200bp, GC含量至少50%, CpG o/e最小0.6。 许多启动子缺乏严格 定义的CpG岛,但是 有组织特异的甲基化 模式,和转录活性有 密切联系。 常见的CpG岛预测算法 3.排除重复元件对CpG岛预测算法的干扰 重复元件例如“年轻”的Alu元件的碱基组成和CpG岛十分类似,这显著地增加了鉴别CpG岛的假阳性率。 大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。 在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛,从而得到更加保守的CpG岛数目的估计即27000。 4. 基于窗口滑动法的CpG岛预测算法 首先准备实验得到的候选CpG岛集合或全基因组序列,然后设定窗口宽度的大小。 接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpG o/e值中的一个或几个阈值。 一旦发现窗中的序列片段满足了CpG岛的定义,该片段就被选为候选CpG岛,同时扫描窗右移1bp。 如果扫描窗中的序列片段不满足CpG岛的定义,扫描窗右移一个窗口的长度。如果扫描得到的CpG岛区域有重叠,则将重叠部分合并。 这种依赖于长度,GC含量和CpG o/e值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷:(1)由于这三个阈值的使用使得参数空间变得很大。(2)预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任意性。(3)CpG岛的起始点一般不是CpG双核苷酸。(4)预测和筛选过程依赖于相同的参数。(5)方法经常需要针对特定物种进行调整。(6)运行时间长。 窗口法 5. 基于相邻CpG二核苷酸距离的CpG岛预测算法 CpGcluster是一种独特的方法,它并不依赖于任何CpG岛阈值,并且由于只涉及算术运算,计算速度提高很多。 工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。 该算法利用几何分布估计出该距离的理论分布,从而计算出CpG二核苷酸进行汇聚的统计学阈值(40bp)。 最终,该算法得到197727个CpG岛。这个算法得到的CpG岛的特点是短而多,但其中包含大量的重复元件。 (1)假设有如下一条序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC (2) CpGcluster首先找到所有的CpG双核苷酸的位置(粗体):TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC (3) 然后得到CpG双核苷酸的位置的列表:4;18;26;34;38;52;57 (4) 通过公式 计算相邻二核苷酸之间的算术距离:13;7;7;3;13;4 (5)考虑到假设:CpG是伯努利实验的
显示全部