第四章相关与回归Chapter4RegressionandCorrelation1.ppt
文本预览下载声明
第四章 相关与回归Chapter 4: Regressionand Correlation * 0 60 120 180 施氮量(kg N/ha) 2 4 6 8 植物的生长量 在回归模型中,X是试验时预先确定的,没有误差或误差很小,而Y不仅随着X的变化而变化,并且有随机误差,X称为自变量,Y称为依变量。在回归模型中除有自变量和依变量的區别外,尚有预测的特征。回归模型资料的统计方法叫回归分析,确定由X来预测或控制Y的回归方程,并确定当给X某一个值时Y将会在什么范围内变化。 从统计学上讲,X和Y变数的关系有两种理论模型:第一种叫回归模型;第二种叫相关模型。 在相关模型中,X和Y变数是平行变化关系,均具有随机误差,所表示的只是两个变数的偕同变异,没有自变数和依变数之分,也不具有预测的性质。相关模型资料的统计方法叫相关分析,其目的是要测定两个变数在数量关系上的密切程度和性质。 4.1 直线回归方程 回归系数 回归截距 确定直线回归方程的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。 分别对上式的a和b求偏导: 解方程组得: a称为截距;b成为斜率;Q称为离回归平方和或称为剩余平方和;U称为回归平方和;Sy/x称为回归估计标准误。 因方程使用了a,b两个统计数,故自由度为n-2。 例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的数据如下。请确定X与Y的变化关系。 表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系 1533.0 1547.1 1421.8 1471.3 1423.3 1440.7 1440.0 1610.9 1616.3 Yi 64 61 51 52 51 52 55 67 70 Xi 解:以X为横坐标,Y为纵坐标绘制散点图。从散点图可以看出Y与X有回归关系,Y随着X变大而上升,可以选用一元线性回归方程拟合Y与X的回归关系。 因此,该例数据的回归直线方程为: Old Y Fitted Y Residuals STD Residuals 1421.80 1429.89 -8.09 -0.28 1423.30 1429.89 -6.59 -0.34 1440.70 1439.97 0.73 0.03 1471.30 1439.97 31.33 1.33 1440.00 1470.23 -30.23 -1.28 1547.10 1520.66 26.44 1.11 1533.00 1561.01 -28.01 -1.19 1610.90 1591.26 19.64 0.83 1616.30 1621.52 -5.22 -0.22 表 残差值 残差的方差及标准差为: 用Se对残差进行标准,得到标准化残差,结果见上表。 计算Y总体平均数的95%置信区间,计算公式如下所示,其结果包括总体平均数在内。 UCL: upper confidence limit LCL: lower confidence limit 计算y值的95%置信区间的计算公式: X Y LCL95 UCL95 51.00 1421.80 1408.84 1450.93 51.00 1423.30 1408.84 1450.93 52.00 1440.70 1420.37 1459.58 52.00 1471.30 1420.37 1459.58 55.00 1440.00 1454.02 1486.44 60.00 1547.10 1505.16 1536.16 64.00 1533.00 1541.40 1580.61 67.00 1610.90 1567.03 1615.49 70.00 1616.30 1592.01 1651.03 表 95%置信区间 图 Y的95%置信区间 包括总体平均数在内 95%可靠度的置信区间 一般来讲,y关于x的回归方程y=f(x)是未知的,由样本来拟合是一种探索的过程,或者说是一个选择合适的函数逼近的过程。 直线回归的显著测验: b的显著性测验: b的(1-α)*100%的置信区间为: a的显著性测验: a的(1-α)*100%的置信区间为: 回归关系的作用: 1、预测 在x=x0处,用y=a+bx进行预测。预测包括平均值的预测和个别值的预测。 平均值预
显示全部