聚类分析 主成分分析及典型相关分析 含matlab程序.pdf
文本预览下载声明
第十二章 回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的
一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数
据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要
作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已
经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些
系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间
太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析
方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合
问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i )建立因变量y 与自变量x ,x ,L,x 之间的回归模型(经验公式);
1 2 m
(ii )对回归模型的可信度进行检验;
(iii )判断每个自变量x (i 1,2,L,m) 对y 的影响是否显著;
i
(iv )诊断回归模型是否适合这组数据;
(v )利用回归模型对y 进行预报或控制。
§1 数据表的基础知识
1.1 样本空间
在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有 m 个变量
x , x , L, x ,对它们分别进行了n 次采样(或观测),得到n 个样本点
1 2 m
(xi1, xi 2 , L, xim ) ,i 1,2, L, n
则所构成的数据表X 可以写成一个n ×m 维的矩阵。
T
⎡ ⎤
e
1
⎢ ⎥
X (xij )n×m ⎢ ⎥M
T
⎢ ⎥
e
n
⎣ ⎦
式中 T m ,i 1,2, L, n ,e 被称为第 个样本点。
ei (xi1, xi 2 , L, xim ) ∈R i i
样本的均值为
1 n
x (x ,x , L,x ) ,x ∑x ,j 1,2, L, m
1 2 m j ij
n i 1
样本协方差矩阵及样本相关系数矩阵分别为
1 n T
S (sij )m×m ∑(ek −x )(ek −x )
n −1 k 1
⎛ s ⎞
⎜ ij ⎟
R (r )
ij m×m ⎜ s s ⎟
⎝ ii jj ⎠
其中
-226-
1 n
s ∑(x −x )(x −x )
ij n −1 k 1 ki i
显示全部