文档详情

高通量基因表达.doc

发布:2017-06-05约3.17千字共4页下载文档
文本预览下载声明
高通量基因表达数据的预处理策略 作者:MedSci???来源:MedSci????发布时间:2013-11-18????我要评论??我要深度评论 0 Tags: ??基因表达??策略?? 一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等)下的全基因组表达数据就构成了一个G×N的数据矩阵M,通常情况下GN,其中每一个元素 表示第 i 个基因在第 j 个条件下的表达水平值(在多数应用情况下,是 Ratio 值或 log(Ratio) ),行向量 代表基因 i 在 N 个条件下的表达水平,称为基因 i 的表达谱,列向量 代表某一条件下的各基因的表达水平。 ?(8-1) 对基因表达?数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤,以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ,同时处理缺失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸?芯片数据,可以将低于 100 的数据全部设置为 100 。 DNA 微阵列表达数据由于实验条件和芯片的因素,检测得到的信号强度往往与细胞中实际的 mRNA 丰度之间没有对应关系,因此,通常是采用两个条件下的信号强度的比值,例如,在 cDNA 微阵列双色实验中,最后得到的往往是 Ratio 值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio 值。在计算 Ratio 值时,如果参考样本的信号强度很小,就可能得到很大的 Ratio 。如果一个基因谱中仅仅存在单个特别大的 Ratio 值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和 PCA )来说有着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵 M 中删除;如果没有达到阈值但存在缺失项,对这些缺失项可以进行插值。以 0 代替缺失项,或用基因表达谱中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估。较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据这种关系,利用相邻数据点估算得到缺失值。这种方法类似于 k 近邻方法,需要有足够的完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分,而大多数基因仅维持基础转录?或不转录,转录本丰度很小,因此, DNA 微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较少。过滤基因所采用的标准有:基因表达谱中最大值与最小值的差;标准差;均方根;绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准,确定阈值,从而选择基因表达谱。 基因表达?谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对数转换和标准化两个过程。 许多 DNA 微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值,对于 Ratio 值,在大多数情况下是转换到对数 (log) 空间中进行处理,常用的对数底为 2, e, 10 。考虑时间序列上的基因表达数据,实验结果是相对于 0 时刻的表达水平。如 图 8.1 所示,假设在时间点 1 ,基因的表达水平没有改变,在时间点 2
显示全部
相似文档