基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析.doc
文本预览下载声明
基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析
作者:董乃平 李洪东 梁逸曾
【摘要】 SEQUEST与Mascot为目前蛋白组学分析研究中使用最为广泛的蛋白质库搜索工具。尝试将Mascot与SEQUEST搜索结果进行比较,进而采用不同多变量判别方法对二者的搜索结果进行判别分析,以降低其结果的假阳性率。通过对Mascot与SEQUEST搜索结果进行比较,发现所得结果差异很大;利用多变量判别分析方法对Mascot及SEQUEST搜索结果进行判别分析,可有效提高SEQUEST结果中假阳性结果与正确结果之间的区分能力。对于Mascot搜索结果,采用多变量判别分析方法仍无法显著降低其假阳性结果,利用Decoy库搜索结果进行估计时亦存在导致错误估计的风险。
【关键词】 蛋白质库搜索算法, 串联质谱, 多变量判别分析, Decoy蛋白质序列库
1 引 言
在复杂蛋白质样品的定性定量分析中,质谱技术已日益成为最重要的分析方法之一[1~3]。混合蛋白质样品由特定蛋白酶酶解得到多肽混合物,进入液相色谱(LC)分离,经一级质谱检测获得分离后多肽分子离子信息,从其中选择若干分子离子,每一个分子离子经碰撞诱导解离(Collision Induced Dissociation,CID)得二级质谱(MS/MS)谱图,获得该分子离子的碎片离子信息。对MS/MS谱图进行解析,即可得多肽离子的序列信息,反推得该多肽所属蛋白质序列,从而完成蛋白质定性。为了使高通量LCMS/MS数据得到快速有效分析,采用蛋白质库搜索以定性蛋白质成为当前蛋白组学研究中最主要的方法[4]。该方法主要有3种方式:一是肽质量指纹图谱(Peptide Mass Fingerprint, PMF)库搜索,二是利用MS/MS数据对蛋白质库进行匹配搜索,三是肽序列标签查询。然而如何快速有效分析高通量MS/MS数据,准确定性样品中的蛋白质,仍然是蛋白组学研究中必须解决的一个问题[5]。本文仅对MS/MS数据搜索蛋白质库所得到的匹配结果进行了研究。
目前常用的数据库搜索算法主要有SEQUEST[6],Mascot[7],X!tandem[8],OMSSA[9],Phenyx[10]等。这些算法的应用使MS/MS数据快速分析进而鉴定蛋白质成为可能。但是,由于各种搜索工具本身存在的缺陷[11],及蛋白质数据库构建的不完善[12],使得采用蛋白质数据库搜索的方法可能得到大量假阳性结果,导致高误判率。为消除或减少假阳性结果的影响,一些统计学方法被应用于其中,包括基于机器学习的模式识别方法[13,14],基于统计模型的概率估计方法[15],以及基于结合不同MS/MS分析工具鉴定多肽的方法 [16,17]等。这些统计学方法对搜索结果虽可有所改善,但由于错误结果的得分与正确结果的得分之间存在交叉,从而限制了这些方法的应用 [18]。因此,在蛋白质组学的蛋白质定性分析过程中,需要发展更有效的方法,使其具有更高的可靠性。
本研究在对Mascot与SEQUEST搜索结果进行比较分析的基础上,采用Lasso(Least absolute shrinkage and selection operator)[19],偏最小二乘线性判别分析算法(PLSLDA)和支持向量机[20](SVM) 等在化学计量学中得到广泛使用的判别分析算法,分别对Mascot及SEQUEST搜索结果进行挖掘分析;同时,也采用翻转(Decoy)蛋白质库搜索结果对Mascot搜索结果进行错误发现率(FDR)估计。
2 实验部分
2.1 数据采集
数据集下载自http://regis/PublicDatasets/[21]。该数据将18种标准蛋白质混合样品经8种LCMS/MS仪器,包括(两种线性离子阱(Linear ion traps)、两种3D 离子阱(3D Ion traps)、两种QTOF(Quadrupole timeofflight)和两种MALDITOFTOF检测所得,是一组难得的进行蛋白组学分析研究的标准数据。本研究取3D离子阱的LCMS/MS (Thermo Electron LCQ DECA)所采集数据进行分析。SEQUEST搜索结果数据由Klimek等搜索H.influenzae数据库所得[21]。10次重复实验共得到60700个搜索结果,正确匹配结果数为15247个。
Mascot()的搜索结果由同一组LCMS/MS数据搜索SwissProt (SwissProt 55.5)蛋白质数据库得到。Mascot为其在线免费的搜索引擎,搜索参数:多肽质量误差限为±3,MS/MS碎片质荷比误差限为±1,蛋白质酶为胰蛋白酶(Trypsin),数据导出时pvaluelt;0.05
显示全部