蛋白组数据结构+常用dATA数据库介绍+GO分类定义.pdf
文本预览下载声明
蛋白/蛋白组数据结构
中心法则
蛋白组 == 全体蛋白
Applications
系统生物学(Systems biology )- 全面宏观的
了解各种通路,网络以及相互之间的作用.
生物学过程(biological process) – 确定亚蛋白
组信息:蛋白复合物构成,细胞器中的蛋白
组等
生物标记物(Biomarkers)- 疾病发现/诊断/
治疗/监控
寻找新药靶(Drug targets)- 确定低毒性,
有效的药物靶标
数据分析流程
DOI: 10.1371/journal.pcbi.1002277
蛋白 肽段 统计数据
一级结构:蛋白序列
二级结构:螺旋,折叠
三级结构:序列的三维空间结构
四级结构:二聚体,多聚体
蛋白质序列/肽段
• MNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKE • 蛋白质序列是
TMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATK
SNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPII 由20种氨基酸
FDVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTS
MRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTA
的单字母符号
QILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVV
TATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVE
QLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEAR 排成的序列。
KQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSF
VFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIY
RGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFG
DITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEV
WRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFI
LFYIAACIMYFFFAQREYRKHLD
肽段
/peptide_cutter/
蛋白降解预测工具
Trypsin胰蛋白酶
虚拟酶解
原始数据:质谱图
质量排列
• 虚拟酶解的结果,产生了一系列的多肽,我
们可以计算每个多肽的质量。
把所有多肽的质量排序。
问题
• 质量相近的多肽 • 长短蛋白(长蛋白里
– 限制用来搜索的数据库 的多肽数目较多,即
– 匹配多个片段 以概率来算,匹配上
的几率也会比较大)
• 多个蛋白(同一个点
显示全部