【生物信息学第二版】序列比对.PPT
文本预览下载声明
得分矩阵 三、双序列局部比对 处理子序列与完整序列(或短序列与长序列)比对的一般过程是:设短序列a和长序列b,它们的长度分别为La和Lb,比对是在b序列中寻找La长度的a序列的过程。 四、多序列全局比对 多序列比对主要涉及四个要素: ①选择一组能进行比对的序列(要求是同源序列); ②选择一个实现比对与计分的算法与软件; ③确定软件的参数; ④合理地解释比对的结果; 与双序列比对一样,多序列比对也有全局比对和局部比对。 (一)动态规划法进行多序列比对 (A)计算三个序列间的一个比对单元(i,j,k)依赖于其7个前导项; (B)计算u=ATGTTAT,v=ATCGTAC,w=ATGC三序列比对的三维得分矩阵δ。 计算三序列比对 (二)渐进多序列比对 三个序列的配对比对未必能组合成一个多序列比对 对于接近或超过100个序列的多序列比对,渐进多序列比对具有较高效率。最流行的渐进多序列比对软件是Clustal家族。 ClustalW有以下特点: 首先,在比对中对每个序列赋予一个特殊的权值以降低高度近似序列的影响和提高相距遥远的序列的影响(如下图)。 ClustalW中对序列赋权的方法 其次,根据序列间进化距离的离异度(divergence)在比对的不同阶段使用不同的氨基酸替换矩阵; 第三,采用了与特定氨基酸相关的空缺(gap)罚分函数,对亲水性氨基酸区域中的空缺予以较低的罚分; 第四,对在早期配对比对中产生空缺的位置进行较少的罚分,对引入空缺和扩展空缺进行不同的罚分。 迭代法 基于一致性的方法 遗传算法 其他多序列全局比对方法 五、多序列局部比对 全局比对,其共同特征是序列中所有对应字符均假定可以匹配,所有字符具有同等的重要性,空格的插入是为了使整个序列得到比对,包括使两端对齐。 局部比对不假定整个序列可以匹配,重在考虑序列中能够高度匹配的一个区段,可赋予该区段更大的计分权值,空格的插入是为了使高度匹配的区段得到更好的比对。 对2个序列进行全局和局部比对可得到完全不同的结果 基于隐马尔可夫模型的多序列比对方法 隐马尔可夫模型和3个蛋白质序列PHSFTYVMT、PGSFTYW、RFTGFW的最小公共超图 六、比对的统计显著性 确定比对得分score是否偶然: 1.将β球蛋白或肌球蛋白与大量非同源的蛋白质做比对,然后将score与这些比对的得分进行比较。 2.把一个序列与一组随机产生的序列进行比对,然后同样将score与这些比对的得分进行比较。 3.随机将两个序列中的一个打乱重组,比如说重组100次,并与另一个序列比对,同样得到一组比对的得分。 第三节 数据库搜索 Section 3 Database Search 一、经典BLAST 基本的BLAST算法本身很简单,它的要点是片段对(segment pair)的概念,它是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空格的完全匹配。 程序名 查询序列 数据库类型 方法 blastp 蛋白质 蛋白质 用蛋白质查询序列搜索蛋白质序列数据库 blastn 核酸 核酸 用核酸查询序列搜索核酸序列数据库 blastx 核酸 蛋白质 将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库 tblastn 蛋白质 核酸 用蛋白质查询序列搜索核酸序列数据库,核酸序列按6条链翻译成蛋白质 tblastx 核酸 核酸 将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列的数据库 BLAST的查询序列和数据库的类型 BLAST算法图示 二、衍生BLAST (一)PSI-BLAST 主要用于搜索与感兴趣的蛋白质关系较远的蛋白质。 (二)PHI-BLAST 用来帮助判断这个蛋白质属于哪个家族。 (三)BLASTZ BLASTZ是在比对人和鼠的基因组中发展起来的,它适合于比对非常长的序列。 三、BLAT BLAT(The BLAST-Like Alignment Tool)与BLAST搜索原理相似,但发展了一些专门针对全基因组分析的技术。 BLAT的优点在于速度快,其比对速度要比BLAST快几百倍,其根本原因在于: BLAST是将查询序列索引化,而BLAT则是将搜索数据库索引化,BLAT 把相关的呈共线性的比对结果连接成为更大的比对结果。 四、RNA序列搜索 RNA序列比对/搜索算法可大致分成两类: ⑴ 查询序列(query)的结构未知,要找到数据库中和其结构相近的同源序列。 * 生物信息学 第二章 序列比对 南方医科大学 朱浩 吉林大学 李瑛 生物信息学 第一节 引 言 Section 1 Introduction (一) 同源 两个序列享有一个共同的进化上的祖先,则这两个序列是同源
显示全部