基因组测序与分析.pptx
文本预览下载声明
第一节 基因组计划1、人类基因组计划简介 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息基因组 ——一个物种中所有基因的整体组成2. 人类基因组测序策略A. Celera Genomics 人类基因组的测序策略采集5个自愿者的DNA样品构建3种不同插入子大小的基因组文库2Kb, 10Kb和50KbPFP发表的公开数据主要为BAC克隆的顺序,共4443.3MbGeneBank下载104018个BAC末端顺序完成约2700万次插入子末端测序,总长14800Mb随机测序与序列组装方法指导测序与序列组装方法相结合进行序列组装B 国际人类基因组测序策略构建BAC克隆 ↓限制性酶处理获得指纹 ↓根据指纹重叠方法组建BAC克隆重叠群 ↓根据STS标记,将BAC克隆重叠群标定在物理图上 ↓每个BAC克隆内部采用鸟枪法测序,组装 ↓将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的顺序锚定到物理图上两种策略的比较鸟枪法策略 指导测序策略不需背景信息 构建克隆群 (遗传、物理图谱)时间短 需要几年的时间 需要大型计算机得到的是草图(Draft)得到精细图谱3.人类基因组研究的惊人发现? 19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少?目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能?人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” ——不包含或含有极少基因的成分。基因组上大约有1/4的区域没有基因的片段。 ? 35.3%的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA也起重要作用,应该被进一步研究。4.单核苷酸多态性 人类99.9%的基因密码是相同的,而差异不到0.1%,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础,个体的多样性被认为是产生遗传疾病的原因。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。 5.Shotgun测序及分析DNA的提取和纯化载体预备:和DNA片断结合,从而能够在细菌中扩增。DNA片段的制备:将DNA用超声波切成能够测序的小片断转化培养:小片断和载体结合,植入细菌中进行扩增。提质粒:从细菌中提取出繁殖好的质粒电泳检测:检测质量的好坏测序:上测序仪测序DNA整体切成小段小段和载体结合结合后进行测序还没有完!拼接!!!因为整个基因组太长(上M),而每次只能测得一个500的小片断(read)问题:如何根据read恢复原始顺序?类比:10本圣经,都从随机点起始剪成500个字母左右的小纸条,问:给你这么一堆小纸条,你能读出圣经来吗?但是都会拼错!SingleStrandedRegionLow Base QualitySequenceGap Shotgun法序列拼接ConsensusMis-Assembly(Inverted)拼接错误:Repeat的存在实例:流感嗜血杆菌基因组的测序及顺序组装超声波打断纯化的基因组DNA ↓琼脂糖电泳收集1.6~2.0Kb的区段、纯化 ↓构建到质粒载体中 ↓随机挑选19687个克隆,进行28643次测序,得到可读顺序为11 631 485 bp ↓组装成140个覆盖全基因组范围的独立的顺序重叠群, ↓ 各重叠群间仍有间隙 顺序间隙 物理间隙 ↓ ↓ 载体或宿主菌 选用不当而被丢失的序列测序时遗漏的测序解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库解决办法:利用其它宿主菌与载体重新构建文库运用计算机软件进行序列拼接Francis Collins VS. J.Craig Venter6. 基因识别 基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。基因识别包括:识别基因组编码区识别基因结构基因识别目前常采用的有二种方法:从基因组序列中识别转录表达的DNA片段从cDNA文库中挑取并克隆。 7. 模式生物的基因组测序线虫酵母大肠杆菌果蝇老鼠 水稻基因组测序水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。20
显示全部