医学数据挖掘课件:差异和聚类分析.ppt
基因表达数据的获得与分析基因芯片数据的基础分析思路预处理差异表达基因筛选聚类与分类功能注释和富集分析差异表达基因筛选表达谱分析的主要目的之一就是挑出差异表达的基因。何谓显著表达差异?它通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。在两个或多个条件下比较识别有显著表达差异的基因,从中识别出与条件相关的特异性基因例如,识别可用于肿瘤分型的特异基因等。筛选差异表达基因的方法倍数法假设检验法--t检验--方差分析法(ANOVA)--SAM(SignificanceAnalysisofMicroarrays)--信息熵倍数法(foldchange)最早应用于基因芯片数据分析的方法,也是常用方法一般0.5-2.0范围内的基因不存在明显的表达差异,该范围之外则认为基因的表达出现明显改变.优点是计算简单直观,缺点是倍数阈值的选取是任意的,而且没有考虑到差异表达的统计显著性,忽视了变化小的基因实验样本中的表达值对照样本中的表达值t检验(t-test)判断基因在两种不同条件下的表达差异是否具有显著性方差分析(ANOVA)其目的是推断两组或多组资料的总体均数是否相同,检验两类或多类样本均数的差异是否有统计学意义它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。SAM是通过FDR值矫正多重假设检验中的假阳性率SAM分析步骤计算统计量,是t统计量的修正扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量估计FDR(falsediscoveryrate)SAM(significanceanalysisofmicroarrays)确定差异表达基因阈值:以最小的正值和最大的负值作为统计阈值,运用该阈值,统计在值中超过该阈值的假阳性基因个数,估计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。SAM(significanceanalysisofmicroarrays)实现程序data-read.table(C:\\R实现\\miRNA_expression_all.txt,header=T);rownames(data)-data[,1];data-data[,-1];d-data[,1:60];n-data[,61:75];fold_change-apply(d,1,mean)/apply(n,1,mean);#fold_change值ttest-matrix(0,nrow=dim(data)[1],ncol=2);for(iin1:dim(data)[1]){t-t.test(n[i,],d[i,],var.equal=T);ttest[i,1]-t$statistic;ttest[i,2]-t$p.value;}#t检验的P值和t统计量fdr-p.adjust(ttest[,2],BH);#P值的BH校正上下调基因:foldchange1.5且fdr_BH0.1index1-(fold_change1/1.5)|(fold_change1.5);index2-fdr0.1;index-index1index2;result-cbind(rownames(data),fold_change,ttest,fdr);colnames(result)-c(miRNA,Fold_change,TSores,PValues,fdr_BH);result-result[index,];write.table(result,C:\\R实现\\up_down_gene.txt,row.names=F,quote=F,sep=\t);差异表达基因结果15个表达下调miRNA20个表达上调miRNA结果基因芯片数据的基础分析思路预处理差异表达基因筛选聚类与分类功能注释和富集分析引言物以类聚,人以群分基于物体的相似性将物体分成不同的组基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组亚型识别