[2018年最新整理]01一元线性回归分析lm.doc
文本预览下载声明
一元线性回归分析
一元回归分析
在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。这种关系可以用Y的函数的形式表示出来,即Y是所谓的因变量,它仅仅依赖于自变量X,它们之间的关系可以用方程式表示。在最简单的情况下,Y与X之间的关系是线性关系。用线性函数a+bX来估计Y的数学期望的问题称为一元线性回归问题。即,上述估计问题相当于对x的每一个值,假设,而且,,其中a, b, σ2都是未知参数,并且不依赖于x。对y作这样的正态假设,相当于设 (3)
其中,为随机误差,a, b, σ2都是未知参数。
这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y与X的散点图来初步确认。
对于公式(3)中的系数a、b,需要由观察值来进行估计。如果由样本得到了ab的估计值为,则对于给定的x,a+bx的估计为,记作,它也就是我们对y的估计。方程
(4)
称为y对x的线性回归方程,或回归方程,其图形称为回归直线。例1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度x下,溶解于水中的数量y如下表所示:
xi 0 4 10 15 21 29 36 51 68 yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1 这里x是自变量,y是随机变量,我们要求y对x的回归。
其散点图如下:
确定回归系数
在样本的容量为n的情况下,我们我们可以得到n对观察值为。现在我们要利用这n对观察值来估计参数ab。显然,y的估计值为
在上式中ab为待估计的参数。估计这两个参数的方法有极大似然法和最小二乘法。其中最小二乘法是求经验公式时最常用的一种方法,也最简单。现在就采用这种方法。
当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的回归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。
我们用表示y的样本观察值,表示根据回归方程所得到的y的估计值,则估计值与实际观察值之间的误差为,
(5)
其总的误差,可以表示为误差的平方和的形式,
(6)
现在要使上式取得极小值,只需令Q对ab的一阶偏导等于0,因此
由此可解得如下结果
其中就是参数ab的无偏估计。此外,所谓最小二乘估计,实际上就是使误差的平方和最小的估计。
估计出了回归方程的系数,我们就可以在给定的x值的情况下对y进行估计,或预测。
例2:求例1中的y关于x的回归方程。
解:此处,n=9,有关回归方程计算所需要的数据如下:
x y x2 y2 xy 0 66.7 0 4448.89 0 4 71.0 16 5041.00 284.0 10 76.3 100 5821.69 763.0 15 80.6 225 6496.36 1209.0 21 85.7 441 7344.49 1799.7 29 92.9 841 8630.41 2694.1 36 99.4 1296 9880.36 3578.4 51 113.6 2601 12904.96 5793.6 68 125.1 4624 15650.01 8506.8 Σ 234 811.3 10144 76218.17 24628.6
用求得的结果如下:
因此所求的回归直线方程为:
参数估计量的分布
为了对前面所作的y与x是线性关系的假设的合理性进行检验,为了求出预测值的置信区间,我们必须知道所估计的参数的分布。
1.的分布:
由于
按假定,相互独立,而且已知,其中为常数,所以由的表达式知为独立正态变量的线性组合,于是也是正态随机变量。可以证明
另外,对于任意给定的,其对应的回归值,由于,所以可以写成,
也就是说,在处y所对应的估计值也是一个正态分布的随机变量,可以证明,
2.方差σ2的估计:
为了估计方差,考查各个处的与其相对应的回归值与其离差的平方和SSD:
可以证明,其期望值为,
因此,是的无偏估计,即,
而且,其自由度为n-2,其分布为,
线性假设的显著性检验
现在来检验,这一线性假设是否合适,这也就是检验假设,
由于
设,,并且X与Y相互独立,则随机变量
服从自由度为n的t(student)分布,记为。
因此从上面的结果可以得知统计量,
(5)
即,
因为在假设,所以,在此假设下,
由此可得,如果,
,
或写成,
其中
则在显著水平α下拒绝假设,认为回归效果是显著的,也就是说y与x之间存在着线性关系;若上述不等式反号,就认为回归效果不显著,回归效果不显著的原因可能有以下几种:
显示全部