文档详情

第七章相关与回归分析.ppt

发布:2017-05-17约1.29万字共55页下载文档
文本预览下载声明
相关系数 变量一和变量二的相关系数 与量纲(单位)没有关系,其值一定在1和?1之间。 变量一和变量二正相关时,相关系数 大于0。相关系数 越接近1,变量一和变量二就越正相关。 变量一和变量二负相关时,相关系数 小于0。相关系数 越接近?1,变量一和变量二就越负相关。 总之, 越大,变量一和变量二就越相关。 变量一和变量二相互独立时,相关系数 等于0。相关系数 越接近0,变量一和变量二就越相互独立。 父亲及其成年儿子的身高 著名统计学家Karl Pearson(英国,1857-1936)曾进行了一项研究,研究家庭成员间的相似性。作为这项研究的一部分,他测量了1078个父亲及其成年儿子的身高。经计算, 父亲平均身高为68英寸(即172.7cm),标准差为2.7英寸(即6.86cm); 儿子平均身高为69英寸(即175.3cm),标准差为2.7英寸(即6.86cm); 它们之间的相关系数为0.5。 喷发持续时间和到下一次喷发的间隔时间 1978年8月1日至8月8日清晨8时至午夜老忠实间歇喷泉的喷发持续时间和到下一次喷发的间隔时间的107对数据。 喷发持续时间:平均为3.46分钟,标准差为1.04分钟; 到下一次喷发的间隔时间:平均为71分钟,标准差为12.97分钟; 它们之间的相关系数为0.8584 测定系数 回归模型 计算自变量 与因变量 的相关系数 称为回归模型 的测定系数 , 越接近1,自变量与因变量就越相关。 正比例关系:因变量 y (行驶总路程) =5(公里/小时)×自变量 x (行驶时间) 因变量 y 的变异完全由自变量 x 的变异而产生 回归模型 ,因变量 y 变异并不完全由自变量 x 的变异而产生。它有多方面的原因,其中有 的变异是由自变量 x 的变异而产生的。这也就是说,自变量 x 可以解释因变量 y 的 个变异。 喷发持续时间和到下一次喷发的间隔时间 喷发持续时间和到下一次喷发的间隔时间的相关系数 ,测定系数 。这107个到下一次喷发的间隔时间的观察值的约73.69%的变异是因喷发持续时间 的不同而产生的。所建立的回归直线是比较有效的。 喷发持续时间和到下一次喷发的间隔时间回归直线: 到下一次喷发的间隔时间 喷发持续时间 其回归标准误等于6.68261,概率95%的预报误差为13.09792分钟。这个误差范围可以接受。 父亲身高与孩子成年后身高 父亲身高与其成年儿子身高的相关系数 ,测定系数 。成年儿子为什么有的高,有的矮,其四分之一的变异是因父亲身高的不同而产生的,剩余的四分之三是其他原因造成的。这说明所建立的回归直线并不是很有效的。 成年儿子的身高的回归直线: 成年儿子的身高 其父亲的身高(厘米) 概率95%的误差为9.51厘米。误差范围偏大。 回归直线有改进的余地。为此再寻找一个对成年儿子身高有影响的因素(例如母亲身高),建立两个自变量的二元回归模型。 使用回归模型进行预测的6个步骤 收集数据; 画散点图,判断变量之间有没有相关性,有没有异常值和强影响力观察值; 计算相关系数; 计算斜率和截距,得到回归直线,给出预测值; 计算回归标准误、预测误差和概率,分析给出的预测误差和概率是否满足要求。 计算测定系数,分析得到回归直线有没有改进的余地。若需要改进,则根据问题的实际意义,寻找新的自变量。 注:有时,在步骤③还马上计算测定系数,看是否有寻找新的自变量的需要。 买书支出与家庭收入 买书支出 家庭收入 买书支出 家庭收入 (y元/年) (x元/月) (y元/年) (x元/月) 450.5 1712 793.2 3331 507.7 1742 660.8
显示全部
相似文档