第7章 多元回归分析:估计问题1.ppt
文本预览下载声明
第四节 从多元回归的角度看简单回归 经典线性回归模型的假定声称,分析中所用的回归模型是正确设定的,无设定上 的偏误会误差。 若假定例7.1中式7.6.1是解释儿童死亡率行为与人均GNP和妇女识字率FLR之关系的“真实”模型。假设我们去掉FLR而估计如下简单回归: 其中Y=CM,X2=PGNP。做回归: 与“真实”多元回归相比: 1.从绝对值看,PGNP系数从0.0056增加到0.0114,几乎大一倍。 2.标准误不同。 3.截距值不同。 4.r2 值明显不同。 错误拟合一个模型会导致严重后果。 第五节 R2及校正R2 R2 的一个重要性质是,随着回归元个数的增大, R2 几乎必然增大。 这里, 就是 ,与模型中X变量的个数无关。但RSS即 却与模型中出现的回归元个数相关。随着X变量个数的增加 很可能减小,随之R2 也将增大。 因此,比较有同一因变量但有不同个数的X变量的两个回归时,选择有最高R2 值的模型必须当心。 k=包括截距项在内的模型中参数个数。 如此定义的R2 ,称为校正R2 (adjusted R2),记为 。 很容易得出上式,可看出: (1)对于k1, 。 (2)虽然R2 是非负的,但 可以是负的。实际中,如遇为负值,则取值为零。 实践中应选哪一个R2 ? 大多数统计软件包都是把校正的R2 连通惯用的R2 一起报告的,完全可以把校正的R2当做另一个统计量来看待。 2.比较两个R2值 根据判定系数比较两个模型,样本大小n和因变量都必须相同,解释变量可取任何形式。 在回归子形式不同的两个模型中,如何比较其R2 呢? 例7.2 美国1970-1980年咖啡消费(Y)与平均真实零售价格(X)的关系(表7.1) YEAR Y X 1970 2.57 0.77 1971 2.5 0.74 1972 2.35 0.72 1973 2.3 0.73 1974 2.25 0.76 1975 2.2 0.75 1976 2.11 1.08 1977 1.94 1.81 1978 1.97 1.39 1979 2.06 1.2 1980 2.02 1.17 Dependent Variable: Y Method: Least Squares Date: 02/18/12 Time: 15:41 Sample: 1970 1980 Included observations: 11 Variable Coefficient Std. Error t-Statistic Prob. C 2.691124 0.121622 22.12686 0 X -0.47953 0.114022 -4.20559 0.0023 R-squared 0.662757 Mean dependent var 2.206364 Adjusted R-squared 0.625286 S.D. dependent var 0.210251 S.E. of regression 0.128703 Akaike info criterion -1.09966 Sum squared resid 0.14908 Schwarz criterion -1.02731 Log likelihood 8.048108 Hannan-Quinn criter. -1.14526 F-statistic 17.687 Durbin-Watson stat 0.72659 Prob(F-statistic) 0.002288 * Dependent Variable: LNY Method: Least Squares Date: 04/17/12 Time: 11:28 Sample: 1970 1980 Included observations: 11 Variable Coefficient Std. Error t-Statistic Prob. C 0.777418 0.015242 51.00455 0 LNX -0.25305 0.049374 -5.12509 0.0006 R-squared 0.7448 Mean dependent var 0.787284 Adjusted R-squared 0.716445 S.D. dependent var 0.094174 S.E. of regression 0.050148 Aka
显示全部