线性回归计算方法及公式.ppt
多元线性回归多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。01简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。02简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。03多元线性回归2017多元线性回归模型与参数估计012018回归方程和偏回归系数的假设检验022019标准化偏回归系数和确定系数032020多元回归分析中的若干问题042021回归分析中自变量的选择052022多元线性回归分析的作用06内容安排多元线性回归模型与参数估计设有自变量x1,x2,…,xp和因变量Y以及一份由n个个体构成的随机样本(x1i,x2i,…,xpi,,,Yi),且有如下关系:y=B0+B1x1+B2x2+…+Bpxp+?(模型)B0、B1、B2和Bp为待估参数,?为残差。由一组样本数据,可求出等估参数的估计值b0、b1、b2和bp,,得到如下回归方程:?i=b0+b1x1+b2x2+…+bpxp由此可见,建立回归方程的过程就是对回归模型中的参数(常数项和偏回归系数)进行估计的过程。04030102与简单回归类似,我们寻求参数B0、B1、B2和Bp的适宜估计数值b0、b1、b2和bp,,使实际观察值和回归方程估计值之间残差平方和最小,即Q=?(yi-?i)2=?(yi-b0-b1x1i-b2x2i-…-bpxpi)2对b0、b1…、bp分别求偏导数,今偏导数为零可获得P+1个正规方程,求解正规方程可得待估参数值。参数的最小二乘估计回归方程的假设检验:回归方程和偏回归系数的假设检验建立回归方程后,须分析应变量Y与这p个自变量之间是否确有线性回归关系,可用F分析。H0:B1=B2=….=Bp=0H1:H0不正确?=0.05F=MS回归/MS误差MS回归=SS回归/pSS回归=?bjLjy(j=1,2….,P)MS误差=SS误差/(n-p-1)SS误差为残差平方和偏回归系数的假设检验回归方程的假设检验若拒绝H0,则可分别对每一个偏回归系数bj作统计检验,实质是考察在固定其它变量后,该变量对应变量Y的影响有无显著性。H0:Bj=0H1:Bj不为零?=0.05F=(Xj的偏回归平方和/1)/MS误差Xj的偏回归平方和:去Xj后回归平方和的减少量若H0成立,可把Xj从回归方程中剔除,余下变量重新构建新的方程。标准化偏回归系数和确定系数标准化偏回归系数:在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。bj′=bj(sj/sy)确定系数:R2=SS回归/SS总简记为R2,即回归平方和SS回归与总离均差平方和SS总的比例。可用来定量评价在Y的总变异中,由P个X变量建立的线性回归方程所能解释的比例。回归分析中的若干问题资料要求:总体服从多元正态分布。但实际工作中分类变量也做分析。n足够大,至少应是自变量个数的5倍分类变量在回归分析中的处理方法有序分类:治疗效果:x=0(无效)x=1(有效)x=2(控制)无序分类:有k类,则用k-1变量(伪变量)126543如职业,分四类可用三个伪变量:y1y2y3工人100农民010干部001学生0001234561多元线性回归方程的评价2评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2..p。3Sy,x1,2.p=SQRT(SS误差/n-p-1)4如用于预测,重要的是组外回代结果。回归方程中自变量的选择多元线性回归方程中并非自变量越多越好,原因是自变量越多剩余标准差可能变大;同时也增加收集资料的难度。故需寻求“最佳”回归方程,逐步回归分析是寻求“较佳”回归方程的一种方法。R2=SS回归/SS总R2最大adjR2=1-MS误差/MS总adj