文档详情

在建立多元线性回归方程时〓5mgjturo.doc

发布:2018-08-27约3.03万字共34页下载文档
文本预览下载声明
PAGE 14.3 逐步回归 在建立多元线性回归方程时,首先遇到的问题是选择哪些因素作为自变量。就以地震预报而论,微震量、地下水位、地下水含氡量、地形变、地温、地磁、地电等等都可能是地震前兆,有的学者认为天上的云,地上的蛐蛐、蚂蚁也可以作为地震预报的因素,假如一股脑都列入地震预报回归方程,可能包括几十项,甚至上百项,使预报方程非常复杂。 在多元线性回归方程中的自变量之间可能会相互影响,或者说存在线性相关。有些自变量单独看,可能对因变量有作用,但与其他变量放在一起,其作用可能被其他变量所代替,使之在回归方程中的作用微不足道。比如前面提到的某些地震预报因素,如果作为自变量引入回归方程,就有可能存在线性相关现象。在回归方程中存在线性相关的自变量,有3方面的不利影响: ·增加整理数据和计算的工作量; ·由于自由度的减少而使均方误差增加; ·可能使回归方程不稳定。 在不遗漏具有显著作用自变量的前提下,自变量的整体与因变量的关系特别显著,且每个自变量与因变量的关系也都特别显著,自变量之间不存在线性相关,这样的回归方程才是最佳回归方程。上一节算例3的回归方程就不是最佳的。 建立最佳回归方程可以有4种方法: ·全部比较。建立所有可能的自变量组合回归方程,对每个回归方程及回归系数做显著性检验,先选出回归系数都显著的回归方程,然后从中选择估计标准差最小的回归方程。使用这种方法时,自变量越多,计算量越大,比如有10个自变量就需要建立210-1=1023个回归方程,并进行比较,这样的计算量会让一般的计算机吃不消; ·逐步剔除。先建立一个包括所有可能自变量的回归方程,然后逐个剔除作用不显著的自变量,直到方程中所包括的自变量都有显著作用为止。这种方法的缺点是,先剔除的变量不一定总是不显著的,在剔除别的变量后,其作用有可能变得显著,但整个过程是“只出不进”,出了门就甭想进来,最终有可能漏掉起重要作用的变量; ·逐步添加。先从一个自变量开始,再将显著变量逐个引入回归方程。这个方法有一个问题是,先期引入的自变量,随着其他变量的引人,其作用可能变得不显著了,但整个过程是“只进不出”,占了坑就不会再被撵出去,最终会引入作用不显著的自变量; ·逐步回归。可以有效地克服上述三种方法的缺点,具有广泛的应用价值。 这一节将介绍如何利用逐步回归建立最佳线性回归方程。 14.3.1 逐步回归的基本思想 根据各个自变量重要性的大小,每次选一个重要自变量进入回归方程。 先是在所有可供选择的自变量中选择一个,条件是由其所参与的一元回归方程有最大的回归平方和。然后在未选的自变量中再选择一个,条件是由这两个已选的自变量所组成的二元回归方程有更大的回归平方和。如此继续下去。一般地说,第t步是在未选的自变量中,选一个自变量与其他已经选择的自变量一起所组成t元回归方程,并使该方程有更大的回归平方和。为保证每一个选入回归方程的自变量是真正重要的,应该对每一个进入回归方程的自变量进行显著性检验。 不仅要按自变量的贡献大小逐一选出重要自变量,而且还要考虑较早选入回归方程的某些自变量,有可能随着其后另外一些自变量的选入而失去原有的重要性。这样的自变量应及时地从回归方程中剔除,使最终的回归方程只保留重要的自变量。 上述思想是“有进有出”的。直到回归方程中的自变量都不能剔除,而又没有新的自变量引入回归方程为止。 在逐步回归的计算中,不重要的自变量始终不会进入回归方程,无需解一个可能具有较大阶数的正规方程,计算效率的提高是显然的。更重要的是,当某个自变量与已经选入回归方程的自变量存在线性相关或近似线性相关时,其作用可以由与其相关或近似相关的自变量所代替,这时就不可能引入回归方程,由此可以防止逐步回归计算过程中出现不稳定。 14.3.2 逐步回归实现步骤 1.建立正规方程 正规方程为 s11b1 + s12b2 + ... +s1mbm = s1y s21b1 + s22b2 + ... +s2mbm = s2y . . . sm1b1 + sm2b2 + ... +smmbm = smy 为了使计算有更好的数字效果,可以将上述正规方程修改为 r11b*1 + r12b*2 + ... +r1mb*m = r1y r21b*1 + r22b*2 + ... +r2mb*m = r2y . . . rm1b*1 + rm2b*2 + ... +rmmb*m = rmy 式中rij是相关系数,有相关矩阵 i,j = 1,2,...,m,y 显然rii≡1。此外,新方程的解bi*与原方程的解bi有如下关系: i = 1,2,...,m 相关矩阵(rij)的逆矩阵(C*ij)与离差矩阵(sij)的逆矩阵(Cij)的关系为 在逐步回归所出现的sij
显示全部
相似文档