基因注释与功能分类-哈医大《生物信息学基础》课件.ppt
文本预览下载声明
第八章 基因注释与功能分类 第一节 引 言 第二节 基因注释数据库 (Gene Annotation Database) GO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物基因组数据库。 GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。 GO注释体系特点 GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。 从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs),包含三个分支,即: 生物学过程(biological process),分子功能(molecular function)和细胞组分(cellular component)。 注释系统中每一个结点(Node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”。 1. 用关键词检索GO数据库 检索GO数据库通常先进入AmiGO的首页。在GO数据库中,每条记录都有一个数据标识号GO:XXXXXX和对应的术语。因此检索时需要知道待查基因的数字标识号或术语,将它们直接输入框中检索即可。如果检索的基因或蛋白质存在别名,可在检索框下勾“gene or proteins”,并在检索框中输入别名检索;“exact match”表示是否完全匹配,可供选择。 这里以检索神经源性分化因子6(NEUROD6)为例。在检索框中输入“NEUROD6”并勾选“gene and proteins”和“exact match”,运行后所得基因产物检索结果如图所示。 2. 用序列检索GO数据库 对于未知基因名的序列,可以用序列直接检索GO 数据库。点击AmiGO首页上方的“BLAST”。 界面风格类似于其他数据库BLAST搜索的网页,在检索框中铁如氨基酸或核酸序列,网页能自动识别并相应地做BLASTP或BLASTX和数据库中的序列比对。 这里以检索RPIA基因的序列为例,如图所示。 1. 简介 京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG) 是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。 KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。此外,KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具。因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。 KEGG目前共包含了19个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别 。 KEGG通常被看作是生物系统的计算机表示,它囊括了生物系统中的各个对象以对象之间的关系。在分子层面、细胞层面、组织层面都可以对数据库进行检索。每个数据库中的检索条目按照一定规律被赋予一个检索号,也就是ID。表中列出了KEGG的13个核心数据库的检索号。 另外一种化学注释的方法是以小分子化学结构的生物学意义为特征来实现的。 在KEGG数据库中,酶与酶之间的反应信息以及相关的化学结构信息分别存储在KEGG REACTION数据库和KEGG REPAIR数据库中。 每个化合物的化学结构都被转化为RDM (atom type changes at R:reaction center D:diffevent atom M:matched atom )模式(图8-10)。 下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为列:首先进入KEGG首页,在首页顶端的输入框中输入类葡萄糖磷酸变位酶基因名称“PGM1” 点击搜索按钮“GO”进入查询结果页面,该页面会列出针对基因“PGM1”在KEGG数据库中的搜索结果,除人类外,包含“PGM1”基因的物种条目也会被列出。 其中排在第一位的是人类基因“PGM1”的相关信息,点击该条目进入到详细信息页面。 该页面以表格的形式列出了该基因有关的详细信息,包括基因编号,基因的详细定义,所编码的酶的编号,基因所在通路,以及序列的编码信息。同时,在页面的右侧还提供了该基因在其他分子生物学数据库的链接,如OMIM、NCBI、GenBank等。 通过点击相应的链接,我们可以进入该基因相应信息的页面。在pathway这一栏中列出了该基因所在的生物学通路,点击编号为hsa00010(糖酵解/糖异生通路)的
显示全部