生物信息学4dna序列分析.ppt
文本预览下载声明
第四章 DNA序列分析 引言 表达序列标签分析 序列对位排列 4.1 引言 4.1.1 为什么要分析DNA序列 4.1.2 基因结构与DNA序列分析 非翻译区: 在DNA和RNA中均有,位于CDS两侧,在3’端的UTR是高度特异的。 概念性翻译: 六框翻译(six-frame translation) 可读框:一个起始密码子(ATG)和终止密码子( TAA ,TAG,TGA )之间的序列 关于起始密码子的判断: (1) 长的ORF可能是CDS Kozak序列:ATG附近以ANNATGN和GNNATGPTu利用率较高 密码子的用法:在编码区和非编码区,密码子的用法不同,如密码子第三个碱基上G/C的出现频率具有统计规律性 NCBI的ORF的分析工具ORF Finder 结果 /gorf/gorf.html 4.2 表达序列标签分析 4.2.1 cDNA文库与表达序列标签 4.2.3 EST分析 Sequencher下载、安装及应用 安装Sequencher 一个电子克隆的例子(例4-3,P100) Phrap 基于swat算法 使用全序列质量信息 全基因组、EST 通常与Phred和consed联合应用 /phredphrapconsed.html Phrap 命令及参数 phrap lesson.seq.screen -minmatch 20 -minscore 40 -view -new_ace phrap.out 结果 lesson.seq.screen.contigs lesson.seq.screen.singlets lesson.seq.screen.view lesson.seq.screen.ace phrap.out 4.3 序列对位排列 序列比较的基本操作是比对(Alignment) 两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。 1、字母表和序列 字母表 4字符DNA字母表:{A, C, G, T} 扩展的遗传学字母表或IUPAC编码 单字母氨基酸编码 2、编辑距离(Edit Distance) 两条序列的相似程度的定量计算 相似度,它是两个序列的函数,其值越大,表示两个序列越相似 两个序列之间的距离。距离越大,则两个序列的相似度就越小 字符编辑操作(Edit Operation) 字符编辑操作可将一个序列转化为一个新序列 Match(a,a) Delete(a,-) Replace(a,b) Insert(-,b) 扩展的编辑操作 ACCGACAATATGCATA ? ? ? ? ? ATAGGTATAACAGTCA 4、 序列的两两比对 序列的两两比对 (Pairwise Sequence Alignment) 按字符位置重组两个序列,使得两个序列达到一样的长度 不同编辑操作的代价不同 为编辑操作定义函数w,它表示“代价(cost)”或“权重(weight)”。 对字母表?中的任意字符a、b,定义 w (a, a) = 0 w (a, b) = 1 a ? b w (a, -) = w ( -, b) = 1 也可以使用得分(score)函数来评价编辑操作 p (a, a) = 2 p (a, b) = -1 a ? b p (a, -) = w ( -, b) = -1 概念: 两个序列s 和 t 的比对代价等于将s 转化为t 所用的所有编辑操作的代价和 s 和t 的最优比对是所有可能的比对中代价最小的一个比对 s 和 t 的真实距离应该是在代价函数w值最优时的距离,记为dw(s,t)。 例如: s: AGCACAC?A t: A?CACACTA cost=2 序列比对的目的是寻找一个代价最小的比对。 5、用于序列相似性打分的权值矩阵(Weight Matrices) (1)核酸打分矩阵设DNA序列所用的字母表为 ? = { A,C,G,T } a. 等价矩阵 b. BLAST矩阵 c. 转移矩阵表 转移矩阵表 (2)蛋白质打分矩阵 (i)等价矩阵 (ii) 氨基酸突变代价矩阵GCM (iii)疏水矩阵 (iv)PAM矩阵 (v) BLOSUM矩阵 氨基酸突变代价矩阵GCM 疏水矩阵 该矩阵是根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。 若一次氨基
显示全部