文档详情

MicrosoftPowerPoint-caas08f1a.ppt[兼容模式]-生物信息学.PDF

发布:2017-04-25约5.73千字共31页下载文档
文本预览下载声明
生物信息学课程交流 基因预测 CAAS08F1A:张荣志 郑永胜 郝峰 李玉荣 张程程 李珊珊 杨菲 郑作良 刘峙 演 讲 人:杨菲 1 1.基因预测意义 2.基因预测原理 3.基测常软件基因预测常用软件 4.存在的主要问题 2 1. 基因预测意 义 据GOLD(Genomes OLiOnLine DbDatabase)网站统计,截 止到2009年3月1日,已经完成测序的基因组有958种,正在 进行测序的多达3655种。 3 大量生物基因组计划的完成提供了极其丰富的 生物序列资源,如何进行序列注释是测序后所面 临的首要问题。从目前的研究来看,基因组序列 由3 种成分构成:基因序列、重复序列、基??间 区序列。基因序列在高等 生物基 因组中 所占 的比 例可能并不大,但却是控制生物性状遗传的主要 因素,正确鉴定它们对分子遗传学研究至关重要。 4 5 2. 基因预测原理 ? 原核基因结构 ? 真核基因结构 ? 马尔可夫模型与隐马尔可夫模型 ? 基因预测算法的分类 ? 原核生物中的基因预测 ? 真核生物中的基因预测 6 2.1 原核基因结构 ? 原核生物基因组小,基因密度高,很少存在重复序列, 一个基因是由编码一个蛋白质或RNA的开封阅读框构成, 中间没有间断。 ? 细菌的起始密码子为: ATG, GTG, TTG ? 核糖体结合位点(Shine-Delgaron sequence) ? 终止密码子较容易确定 ? 转录终止子 ? 密码子偏好性 翻译终止位点 翻译起始位点 转录起始位点 编码区 转录终止子 AGGAGGT TTTTT 核糖体结合位点 7 2.2 真核基因结构 ? 基因组较大,基因密度低,富含重复序列和转座元件;最重要 的是基因???插入的非编码序列(内含子)切分成小段(外显 子)。 ? 初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白 的mRNA。 ? 真核基因预测的主要问题是识别外显子、内含子和间接位点。 ? 真核基因中存在一 些保守序列特征有助 于进行计算预测,如: GT-AG规则,密码子偏好性,六聚体频率,kozak序列,CpG岛, poly-A 8 2.3 马尔可夫模型与隐马尔可夫模型 ? 马尔可夫模型是描述一条DNA序列中核苷酸分布的 模型。 ? 用马尔可夫模型进行基因预测利用以下事实:编码区 寡核苷酸分布概率与非编码区不同。 ? 统计分析表明密码子对具有相关性。一组六聚体核苷 酸在编码区出现的概率要比随机分布概率高,因此, 用计算六聚体碱基概率的五阶 马尔可 夫模型来检测编 码区中核苷酸的相关性准确度更高,也较为常用。 ? 在基因内容和长度分布上,非典型的基因和典型基因 是不同的,预测典型基因的模型可能会漏掉对非典型 基因的预测。为了使一 个算法适用于整个基因组中的 全部基因,就需要更多的马尔可夫模型。结合代表典 型与非典型核苷酸分布的不同的马尔可夫模型,建立 了隐马尔可夫模型预测算法。 9 2.4 基因预测
显示全部
相似文档