文档详情

基因芯片数据分析简介-10-30.ppt

发布:2017-06-18约6.87千字共71页下载文档
文本预览下载声明
在一组差异表达基因中寻找富集的生物功能 Over-representation analysis (ORA) Over representation analysis (ORA) in set else total differential n11 n12 n1+ else n21 n22 n2+ total n+1 n+2 n By Fisher’s exact test / chi-square test 例子 In set else Total Differential 40 960 1000 Else 160 8840 9000 total 200 9800 10000 P-value from Fisher’s Exact test: 2.085e-5 具体流程 GO/pathway 差异表达基因 背景基因 相同的基因ID类型 2x2列联表 计算显著性 DAVID的使用 开始分析 / DAVID的使用 选中Upload栏 输入基因列表 选择基因列表的ID类型 选中“Gene List” DAVID的使用 选择相应的物种 进行功能富集 DAVID的使用 选择相应的数据库 进行功能富集 DAVID的使用 功能富集结果页 谢谢 * 聚类分析 Eisen et al. (1998), PNAS, 95(25): 14863-14868 什么是聚类分析 将不同元素按照彼此相似性的大小按照一定的规则进行组织或者分类 元素 相似性 等级聚类/归类 聚类在生物分析中的应用 进化树 不同物种同源蛋白序列的相似性 聚类在基因芯片数据分析中的应用 基因之间存在共表达 共表达的基因可能具有相似的生物功能 从具有相似表达谱的基因去推测其功能 更好的可视化 聚类分析 在聚类分析中,基因被看作是一个向量 通过元素与元素之间的距离,将不同的元素归类 数据结构(表达值矩阵,log2Ratio) Array1 Array2 Array3 Array4 Gene1 0.5 -1.8 0.8 1.2 Gene2 -0.2 1.2 -0.4 0.1 Gene3 2.0 1.2 -0.1 0.5 Gene3 1.1 0.6 -1.0 0.8 Gene5 1.5 -1.2 0.2 0.7 Gene6 2.4 -0.5 2.2 1.5 Gene 1: (0.5, -1.8, 0.8, 1.2) Gene 2: (-0.2, 1.2, -0.4, 0.1) 聚类分析: 距离的定义 欧式距离 相似性距离——皮尔森相关系数 选取何种距离 聚类分析:k均值聚类 将所有点放入k个不重叠的类中,使得每个类中基因相似度高,而类之间基因的相似度低。 K均值聚类 选择合适的聚类数据 k 初始化k个聚类中心 ?1,… ?k 从所有数据点中挑选k个点 将数据随机分为k类,以每类的中心作为聚类中心 计算每个数据点与每个中心的相似性,将数据点归类到最相似聚类中心所属的类中去 当所有数据归类完毕后,重新计算每个聚类的中心,作为新的聚类中心 重复计算所有数据点与新的聚类中心的相似性,并且再次归类 当聚类中心不在发生变化时,聚类停止 聚类分析:k均值聚类 聚类分析:k均值聚类 缺点: 依赖于初始点的设置,可能不是全局最优解 需要预先知道分类的个数 可以通过比较类内部的距离和类之间的距离来评价聚类的质量。 探索性的选择k 该分为多少类? 对k均值聚类的结果可视化 2维 3维 对k均值聚类的结果可视化 对于超过2维的数据,提取最高的两个主成分(PC) K均值聚类实验 5个点:0, 2, 4, 5, 7 2类,初始化中心 3.5, 5.5|1, 2.1 3类,初始化中心1.5, 4.5, 5.1|1, 2.1, 2.5 聚类分析: 等级聚类 结果为一个嵌套型的形式,适合于关注不同水平的分类细节,在聚类系统中较小的类嵌套在较大的类中,形成层层包含的组织形式。 等级聚类 将数据重新排序 gene Sample A 0.6 0.2 0 0.7 .. .. 0.3 B 0.4 0.9 0 0.5 .. .. 0.8 C 0.2 0.8 0.3 0.2 .. .. 0.7 … … …. Gene Expression Profile Analysis 1 2 3 4 ..
显示全部
相似文档