文档详情

第六章__表达序列总结.ppt

发布:2017-05-08约4.25千字共58页下载文档
文本预览下载声明
dbEST数据格式 Publication文件:文献文件,文献发表信息 Library文件:文库文件,实验信息 Contact文件:联系人文件,联系信息 EST文件:EST数据文件,核心数据 在dbEST中检索数据 利用Entrez检索系统 登录NCBI FTP下载: /repository/dbEST 例:在Entrez中检索人类血红蛋白EST数据 1. 检索栏内输入关键词,如“HBB Human” 2. 检索结果 访问号 数据描述 Gi号/数据库来源 3. 检索结果的解读 数据记录的编号:DN991377 数据记录的描述:…… 数据记录的格式:Genbank格式、EST格式 数据记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件 (二)UniGene数据库 Genbank的一部分 一条纪录为一个gene cluster 简介 查询UniGene 通过NCBI Ftp 下载:/repository/UniGene/ 使用dbEST数据库检索 例:检索人类血红蛋白β亚基的UniGene数据 1. 检索栏内输入关键词“HBB Human” 2. 获得检索结果页面 3. 检索结果解读 数据名称:…… 数据描述:…… 数据格式(主要字段): SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合 GENE EXPRESSTION:基因表达信息 SEQUECNES:与基因类相关的序列,如mRNA、EST等等 (三)Gene Indices数据库 The Institute of Genomic Research Database (TIGR)中的一个子库 /tgi/ 简介 数据构成 42类动物 47类植物 15类原生生物 10类真菌 三、EST数据分析方法 随机挑取克隆进行5′或3′端测序 序列前处理 聚类和拼接 基因注释及功能分类 去除低质量的序列(如使用Phred) 应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences) ● 载体序列(/repository/vector) ●重复序列(RepBase,) ● 污染序列 (如核糖体RNA、细菌或其他物种的基因组DNA等) 去除其中的嵌合克隆 最后去除长度小于100bp的序列 (一)序列前处理 EST数据预处理流程 聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的ESTs整合至单一的簇(cluster)中 聚类作用: ● 产生较长的一致性序列(contigs) ,用于注释 ● 降低数据的冗余,纠正错误数据。 ● 可以用于检测选择性剪切。 ESTs聚类的数据库主要有三个: ● UniGene (/UniGene) ● TIGR Gene Indices (/tdb/tgi/ ) ● STACK (http://www.sanbi.ac.za/Dbases.html ) (二)ESTs的聚类 Phrap CAP3 TIGR Assembler Staden Package (三)ESTs序列聚类拼接的主要软件 4种ESTs聚类和拼接软件比较 Phrap CAP3 TIGR Assembler Staden Package 应用平台 Unix Unix/Windows Unix Unix/Windows 可获得性 学术用户取得认证后可免费下载使用 需要联系作者获取 免费下载 免费下载 输入数据 海量数据,长短reads皆可 大量数据 大量数据 大量数据 用户界面 命令行 命令行 命令行 命令行/图形界面 主要应用 基因组、EST EST EST 基因组、EST (四)序列注释和分析 一级序列同源性比对:使用BLAST等工具 蛋白质结构域和功能位点搜索 基因功能分类:Gene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较 通路分析 可变剪切分析 第三节 基因表达系列分析 Serial analysis of gene expression 一、SAGE技术原理简介 基因表达系列分析(Serial Analysis of Gene Expression,SAGE): 1995,Velculescu 高通量、平行性检测 简介 三个基本要点 9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本 串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量 SAGE技术原理 二、S
显示全部
相似文档