文档详情

第六章__表达序列总结.ppt

发布：2017-05-08约4.25千字共58页下载文档

文本预览下载声明

dbEST数据格式 Publication文件：文献文件，文献发表信息 Library文件：文库文件，实验信息 Contact文件：联系人文件，联系信息 EST文件：EST数据文件，核心数据在dbEST中检索数据利用Entrez检索系统登录NCBI FTP下载： /repository/dbEST 例：在Entrez中检索人类血红蛋白EST数据 1. 检索栏内输入关键词，如“HBB Human” 2. 检索结果访问号数据描述 Gi号/数据库来源 3. 检索结果的解读数据记录的编号：DN991377 数据记录的描述：…… 数据记录的格式：Genbank格式、EST格式数据记录的下载：下载FASTA格式序列、下载Genbank格式的文本文件（二）UniGene数据库 Genbank的一部分一条纪录为一个gene cluster 简介查询UniGene 通过NCBI Ftp 下载：/repository/UniGene/ 使用dbEST数据库检索例：检索人类血红蛋白β亚基的UniGene数据 1. 检索栏内输入关键词“HBB Human” 2. 获得检索结果页面 3. 检索结果解读数据名称：…… 数据描述：…… 数据格式（主要字段）： SELECTED PROTEIN SIMILARITIES：基因类中相似蛋白质集合 GENE EXPRESSTION：基因表达信息 SEQUECNES：与基因类相关的序列，如mRNA、EST等等（三）Gene Indices数据库 The Institute of Genomic Research Database （TIGR）中的一个子库 /tgi/ 简介数据构成 42类动物 47类植物 15类原生生物 10类真菌三、EST数据分析方法随机挑取克隆进行5′或3′端测序序列前处理聚类和拼接基因注释及功能分类去除低质量的序列（如使用Phred）应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences) ● 载体序列(/repository/vector) ●重复序列(RepBase，) ● 污染序列 (如核糖体RNA、细菌或其他物种的基因组DNA等) 去除其中的嵌合克隆最后去除长度小于100bp的序列（一）序列前处理 EST数据预处理流程聚类目的：将来自同一个基因或同一个转录本的具有重叠部分(over-lapping) 的ESTs整合至单一的簇(cluster)中聚类作用： ● 产生较长的一致性序列(contigs) ，用于注释 ● 降低数据的冗余，纠正错误数据。 ● 可以用于检测选择性剪切。 ESTs聚类的数据库主要有三个： ● UniGene (/UniGene) ● TIGR Gene Indices (/tdb/tgi/ ) ● STACK (http://www.sanbi.ac.za/Dbases.html ) （二）ESTs的聚类 Phrap CAP3 TIGR Assembler Staden Package （三）ESTs序列聚类拼接的主要软件 4种ESTs聚类和拼接软件比较 Phrap CAP3 TIGR Assembler Staden Package 应用平台 Unix Unix/Windows Unix Unix/Windows 可获得性学术用户取得认证后可免费下载使用需要联系作者获取免费下载免费下载输入数据海量数据，长短reads皆可大量数据大量数据大量数据用户界面命令行命令行命令行命令行/图形界面主要应用基因组、EST EST EST 基因组、EST （四）序列注释和分析一级序列同源性比对：使用BLAST等工具蛋白质结构域和功能位点搜索基因功能分类：Gene Ontology 表达量比较分析：不同组织或发育阶段基因表达量比较通路分析可变剪切分析第三节基因表达系列分析 Serial analysis of gene expression 一、SAGE技术原理简介基因表达系列分析（Serial Analysis of Gene Expression，SAGE）： 1995，Velculescu 高通量、平行性检测简介三个基本要点 9-14bp的短核苷酸序列“标签”（Tag）可以特异确定一个转录本串联体（多聚体）分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量 SAGE技术原理二、S

显示全部

相似文档