多元统计分析第四章.pdf
第4章多元回归分析
简单说,回归分析是根据统计资料建立经验公式的统计方法。例如统计若干焊接点数
据,从而建立由焊接点直径预报焊点剪切强度的预报公式;又如统计若干棵松树的胸径与材
积(可利用木材体积),建立由胸径预报材积公式,也用到回归分析方法。当然回归分析不
只是建立预报公式,还要对预报误差的大小,预报公式的合理性等问题讨论,有着非常丰富
的内容。回归分析可用于预测和控制,在自然科学,社会科学和应用技术中都有重要应用,
它是统计学最重要的工具。回归分析方法和理论从Gauss提出最小二乘法开始,至今已近
200年,目前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC
回归等方向不断有新的突破。本章介绍参数回归分析模型及其参数估计、检验、模型选择等
理论和有关计算方法。参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和
非线性回归。本章依次介绍这三类模型。有关回归分析的一般理论可参见陈希儒(1984),
方开泰(1988),Seber(1976),何晓群(1997),何晓群、刘文卿(2001)、Richard(2003)。
Robert(1999)和王吉利(2004)提供了许多有趣的应用例子。
4.1多元线性回归模型
首先让我们看一个例子:
例4.1对15个地区调查某种护肤霜销量得表4-1,其中y表示销量(打),x1表示目标
人口数(千人),x表示人均可支配收入(美元)。试建立由目标人口和人均可支配收入预
2
测销量的公式。
表4-1护肤霜销量数据
销量(打)y
目标人口(千人)x1人均可支配收入(美元)x2
1622742450
1201803254
2233753802
1312052838
67862347
1692663782
81983708
1923302450
1161952137
55532560
2524304020
2323724427
1442362660
1031572088
2123702605
1
这个问题中,每个地区销量受该地区目标人口数和人均可支配收入数影响,3个变量y、
x、x间存在密切关系。但是它们的关系不是确定性关系而是相关关系。
12
常见的变量间关系分为两大类:确定性关系和相关关系。确定性关系也称为函数关系。
具有确定性关系时,自变量完全确定因变量的值。例如存款的年利率c固定,那么存款数z
与总利息y的关系就是确定性关系;z知道后,y就由y=cz确定。又如自由落体的下落高度
1
s与下落时间t的关系sgt2也是确定性关系。现实世界中大量存在相关关系,具有相
2
关关系的变量间不能完全确定,例如焊接点直径与焊点剪切强度(焊接点被拉断所用的力)
是两个变量,它们关系密切,但是焊接点直径不能完全确定焊点剪切强度,焊接点