卫生统计学(钟崇洲)10-直线回归.ppt
散点图回归关系:例如血压和年龄的关系,称为直线回归(linearregression)。01目的:建立直线回归方程(linearregressionequation)02第一节???直线回归截距(intercept),直线与Y轴交点的纵坐标。1斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。20,Y随X的增大而增大(减少而减少)——斜上;3b0,Y随X的增大而减小(减少而增加)——斜下;4b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。5一般表达式:一、直线回归方程回归方程参数的计算最小二乘法原则(leastsquaremethod):使各散点到直线的纵向距离的平方和最小。即使最小。散点图回归参数计算的实例编号母X脐YX2Y2XY11.213.901.464115.21004.719021.304.501.690020.25005.850031.394.201.932117.64005.838041.424.832.016423.32896.858651.474.162.160917.30566.115261.564.932.433624.30497.690871.684.322.822418.66247.257681.724.992.958424.90018.582891.984.703.920422.09009.3060102.105.204.410027.040010.9200合计15.8345.7325.8083210.731973.1380SXSYSX2SY2SXY三、回归系数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0公式 ,υ=n-2Sb为回归系数的标准误SY.X为Y的剩余标准差——扣除X的影响后Y的变异程度。(一)t检验;编号母X脐YX2Y2XY11.213.901.464115.21004.719021.304.501.690020.25005.850031.394.201.932117.64005.838041.424.832.016423.32896.858651.474.162.160917.30566.115261.564.932.433624.30497.690871.684.322.822418.66247.257681.724.992.958424.90018.582891.984.703.920422.09009.3060102.105.204.410027.040010.9200合计15.8345.7325.8083210.731973.1380SXSYSX2SY2SXYP(X,Y)图应变量Y的平方和划分示意图任一点P(X,Y)的纵坐标被回归直线与均数截成3段:Y方差分析01表明回归模型的预测效果越好。02SS残差越小,SS回归越大SS总=SS回归+SS残差03四、直线回归方程的区间估计预测(forecast)(给定X值,估计Y)01控制(给定Y值范围,求X值范围)02五、回归方程的应用01回归----变量间的依存关系02相关----变量间的互依关系03直线相关(linearcorrelation):简单相关(simplecorrelation),用于双变量正态分布资料。第二节???直线相关图7-4相关系数示意图散点呈椭圆形分布,X、Y同时增减---正相关(positivecorrelation);X、Y此增彼减---负相关(negativecorrelation)。散点在一条直线上,X、Y变化趋势相同----完全正相关;反向变化----完全负相关。X、Y变化互不影响----零相关(zerocorrelation)02图7-5相关系数示意图01相关系数(