文档详情

优势分析:在多元回归中比较预测因子相对重要性的新方法.ppt

发布:2017-12-10约3.46千字共27页下载文档
文本预览下载声明
优势分析:在多元回归中比较预测因子相对重要性的新方法 在使用多元回归的过程中,研究者不仅要得出一个包含多个自变量的回归等式,而且要指出哪个自变量相对来说是最重要的,这样的结果实际应用中才更有意义。 在理想的情况下,各个自变量之间没有相关(或者相关极小),那么 , 因为各个回归系数都是标准化的,其相对重要性就是标准化回归系数的平方。 大多数情况下,各个自变量之间存在着不可忽略的相关,这个时候重要性的比较就不能简单地从标准化回归系数得出。对此,不同的人采用了不同的方法: 1、将自变量与因变量的零次相关 或平方相关 作为评判自变量重要性的标准。其对重要性的定义为一个自变量独特、直接的预测能力,忽略模型中其他所有的自变量。 2、由于不恰当地确定模型,无论是遗漏了重要的自变量,或者将不重要的自变量纳入到了模型中都会导致,模型的失真,所以应该认为,能够纳入到一个恰当模型中的所有自变量都是同等重要的。 3、自变量的重要性应为某个自变量在控制其他变量不变的情况下其对于完整模型的贡献: 3.1增溢法:考察控制其他变量情况下,某自变量变化一个单位,导致因变量变化的比例。例如以某自变量的回归系数与其数学期望乘积的绝对值作为检验标准。形象的理解为自变量的弹性。 3.2方差法:在控制其他变量的情况下,比较各自变量对于因变量方差贡献的大小 3.2.1由方差的可加性得: 即所有自变量对因变量的贡献可以分解为各个自变量在控制其他自变量情况下对模型贡献,这样的分解式有 个,而某个自变量的重要性即为在 个分解式中它的贡献的平均值。 EG 3.2.2某自变量的重要性即为其它对因变量的直接效应(与因变量的相关系数)与总效应(标准回归系数)的乘积。 3.2.3某自变量的重要性可量化为其与因变量的相关的平方,由于自变量之间的相关,所以: 即把各自变量的标准化回归系数平方中与要考察变量相关的部分提出来相加,即乘以其与要考察自变量之间的相关系数。 上述方法的缺陷 1、对于重要性的定义过于狭窄、模糊甚至有问题,限制过于严格,与人们实际应用相距太远。 2、不同定义之间难以相容,无法比较、交流研究结果,甚至根据不同的定义得出结论完全不同。 3、很高的模型依赖性,在不同的子模型中得出相对重要性的结论可能完全不一样,所以重要性的检验应该在全模型和子模型中结论一致。 4、重要性的比较应该是“净”的,如果变量之间高度相关,根本不可分,更无法比较分离出的重要性,那么此时重要性的比较就没有任何意义,所以应该首先区分可以比较和不能比较相对重要性的模型。 比较相对重要性应遵循的原则: 1、重要性应定义为自变量在预测因变量时对于减少误差的贡献。 2、应该能够对自变量的相对重要性作直接比较而非推断比较。 3、重要性应该能够反映直接效应(自变量的单独效应)、总效应( 纳入其他所有变量)、偏效应(纳入其他部分变量),即要求重要性的结论在全模型与子模型中保持一致。 优势分析的质的定义 优势是成对的关系,如果全模型包括p个自变量,那么就有p(p-1)/2对优势的比较;确定 和 优势关系的充分必要条件是: 代表除要比较的两个自变量之外的其他自变量所构成的任何子集(包括空集)。 优势分析定义的变式: 一个变量比另一个变量重要即它在任何子模型中对因变量的预测能力都大于另一个。 优势分析的量化: 由两个自变量的比较推广到所有自变量的同时比较时, 是除自身外的其他所有p-1个变量构成的所有子集(包括空集), 表示在由k(0=k=p-1)个自变量构成 时,该自变量的单独贡献的平均值。将其累加求平均数,即该自变量在所有子模型下的贡献平均值。 EG:当有3个自变量时: 数据实例: BACK 计算和样本理论 根据优势方程的定义,对于要进行优势分析的每一对变量, 每一个变量都需要和其他许多偏模型进行多元相关系数平方的比较。如果要包括所有的子模型,则一个变量要进行p(p-1)/2个配对比较。因此,计算一次优势分析必须先计算出2p-1个多元相关系数平方值。 让 p 表示所有子集的多元相关系数平方的(2p-1)× 1向量,让 Aij 表示在进行 xi 和 xj 的对比时,与其有关进行对照的2p-2个模型的(2p-2)×(2p -1)矩阵。 Δ ij= Aij p , Δ ij就是包括所有有关差异的一个(2p-1)× 1向量。 表4表示的是一个p=3的例子的计算。这个表呈现了向量p, 三个矩阵的比较, A12、A13和 A23,即分别比较了x1和 x2、x1和 x3 、x2和 x3 ,以及向量Δ 12 、Δ 13 、 Δ 23之
显示全部
相似文档