氨基酸序列特征向量提取方法探讨.doc
文本预览下载声明
氨基酸序列特征向量提取方法的探讨 摘要:机器学习算法无法直接对连续的氨基酸序列进行功能注释,将用字符串表示的氨基酸序列转化成用数值表示的特征向量是必要步骤,本文探讨了基于氨基酸序列的特征提取方法,简单探讨了各种方法的优劣,为新的氨基酸序列特征提取方法的研究起到抛砖引玉的作用
关键词:蛋白质序列;特征向量;特征提取
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)22-0169-02
1 引言
随着测序成本的下降,通过高通量测序获得生物序列的速度正以几何级数增长,如何应对如此快速增长的序列并进行快速的功能注释变得非常必要,一种可行的方法是利用计算机的机器学习方法实现对序列进行快速的功能注释。目前,机器学习算法仅支持对离散特征向量进行学习和分类,而不能对用连续字符串表示的生物序列进行自动分类。生物序列包括核苷酸序列和氨基酸序列,核苷酸序列又可以分为DNA序列和RNA序列,形成DNA序列的字母表为{A,T,C,G},RNA序列的字母表由{A,U,C,G}组成;而蛋白质的氨基酸序字母表为∑={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},字母表中字符的个数为|∑|=20,氨基酸序列由字母表中的字符生成,本文主要讨论将氨基酸序列转化成离散特征向量的方法及各方法的优缺点
2 常用生物序列的特征提取策略
1)氨基酸组成成分的特征提取方法
将氨基酸序列转化为特征向量的方法中,最简单的方法是计算字母表中的各个字母在序列中的出现频率。将长度为n的氨基酸序列S表示为:S[1..n]=r1r2..ri..rn,其中ri∈∑,ri是组成氨基酸序列的单个字母,则字母表中的单个字符ri出现的频率为Fi = Ai /n。其中 Ai 为字符ri在序列S中出现的次数。字母表中有20个字符,对不同长度的氨基酸序列,均生成一个有20个分量的特征向量,具体的实现方法见[1]。本方法实现简单,且不同长度的氨基酸序列生成的特征向量长度相同,方便运算和比较,但该方法没有考虑氨基酸序列内部的顺序关系,丢失了序列内部较重要的位置信息
2)分段伪氨基酸组成成分的特征提取
蛋白质的氨基酸序列具有局部特征,蛋白序列的局部子序列具有功能域的作用。一般把氨基酸序列中具有功能域特征的子片段称为模体(motif),具有功能的氨基酸序列一般由多个功能域构成。由此,将蛋白序列S均分成m个子片段,然后在每个子片段内部计算氨基酸组成成分的特征向量,然后将这m个特征向量拼成一个具有20×m长度的特征向量,具体的实现方法见[2]
3)基于k-mer频度的特征提取方法
为了考虑氨基酸序列内部的位置关系,以氨基酸序列内部固定长度的小片段为研究对象,计算这些小片段序列的出现频率,称这种小片段为k-mer,k为小片段的长度。当k=1时,本方法即为氨基酸组成成分的特征提取方法。当k=2时,由20种基本氨基酸组成的2-mer有202=400种组合,即包括∑2={AA,AC,AD,…,YY}共400种短片度,生成的特征向量有400个分量。我们可以统计这400种小片段在序列S中的出现频率,由此可将序列S转换为一个400维的向量。计算某个k-mer频率的方法为Fi = Ai /(n-k+1),Ai为单个k-mer在序列S中的出现次数,n为序列S的长度,k为短片段k-mer的长度。当k=3时,蛋白质序列中的3-mer有203=8000种可能,即∑3={AAA,AAC,…,YYY},生成一个8000维的向量,每个分量表示某3-mer在该序列中出现的频率。当k-mer中的长度继续增加时,比如k≥4时,在单条序列S中,k-mer个数太多而单个k-mer在序列S中出现在频率很少,很多k-mer出现0次或者1次,大量由0和1构成的特征向量已经没有意义。比如4-mer生成的特征向量有204=160000个分量,在氨基酸序列S中,多数4-mer仅出现0次,故特征向量中的多数分量是0,因此该向量的维数太高而很少被采用。通过计算同一组蛋白不同k-mer的频率,可以将蛋白的氨基酸序列表示成一组由k-mer频率表示的特征向量,长度不同的氨基酸序列,只要选择相同的k值,其生成的特征向量的维度相同。本方法考虑了序列的相邻关系,但当k增大时,特征向量的维度以几何方式增长,高维特征向量为后续的机器学习算法引入维度灾难,使预测分类性能显著下降
4)伪氨基酸组成成分
氨基酸组成成分方法没有考虑残基在序列中出现的顺序,而仅仅计算二十种基本氨基酸在序列中的出现频率,该模型忽略了氨基酸残基间的顺序关系;k-mer频度的特征提取方法仅考虑了氨基酸残基的局部顺序关系,当k增加时,向量维度迅速升高;这两种模型在将氨基酸序列转化成特征
显示全部