MicrosoftPowerPoint-caas08f1a.ppt[兼容模式]-生物信息学.PDF
文本预览下载声明
生物信息学课程交流
基因预测
CAAS08F1A:张荣志 郑永胜 郝峰
李玉荣 张程程 李珊珊
杨菲 郑作良 刘峙
演 讲 人:杨菲
1
1.基因预测意义
2.基因预测原理
3.基测常软件基因预测常用软件
4.存在的主要问题
2
1. 基因预测意 义
据GOLD(Genomes OLiOnLine DbDatabase)网站统计,截
止到2009年3月1日,已经完成测序的基因组有958种,正在
进行测序的多达3655种。
3
大量生物基因组计划的完成提供了极其丰富的
生物序列资源,如何进行序列注释是测序后所面
临的首要问题。从目前的研究来看,基因组序列
由3 种成分构成:基因序列、重复序列、基??间
区序列。基因序列在高等 生物基 因组中 所占 的比
例可能并不大,但却是控制生物性状遗传的主要
因素,正确鉴定它们对分子遗传学研究至关重要。
4
5
2. 基因预测原理
? 原核基因结构
? 真核基因结构
? 马尔可夫模型与隐马尔可夫模型
? 基因预测算法的分类
? 原核生物中的基因预测
? 真核生物中的基因预测
6
2.1 原核基因结构
? 原核生物基因组小,基因密度高,很少存在重复序列,
一个基因是由编码一个蛋白质或RNA的开封阅读框构成,
中间没有间断。
? 细菌的起始密码子为: ATG, GTG, TTG
? 核糖体结合位点(Shine-Delgaron sequence)
? 终止密码子较容易确定
? 转录终止子
? 密码子偏好性
翻译终止位点
翻译起始位点
转录起始位点 编码区 转录终止子
AGGAGGT TTTTT
核糖体结合位点 7
2.2 真核基因结构
? 基因组较大,基因密度低,富含重复序列和转座元件;最重要
的是基因???插入的非编码序列(内含子)切分成小段(外显
子)。
? 初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白
的mRNA。
? 真核基因预测的主要问题是识别外显子、内含子和间接位点。
? 真核基因中存在一 些保守序列特征有助 于进行计算预测,如:
GT-AG规则,密码子偏好性,六聚体频率,kozak序列,CpG岛,
poly-A
8
2.3 马尔可夫模型与隐马尔可夫模型
? 马尔可夫模型是描述一条DNA序列中核苷酸分布的
模型。
? 用马尔可夫模型进行基因预测利用以下事实:编码区
寡核苷酸分布概率与非编码区不同。
? 统计分析表明密码子对具有相关性。一组六聚体核苷
酸在编码区出现的概率要比随机分布概率高,因此,
用计算六聚体碱基概率的五阶 马尔可 夫模型来检测编
码区中核苷酸的相关性准确度更高,也较为常用。
? 在基因内容和长度分布上,非典型的基因和典型基因
是不同的,预测典型基因的模型可能会漏掉对非典型
基因的预测。为了使一 个算法适用于整个基因组中的
全部基因,就需要更多的马尔可夫模型。结合代表典
型与非典型核苷酸分布的不同的马尔可夫模型,建立
了隐马尔可夫模型预测算法。
9
2.4 基因预测
显示全部