文档详情

第11-12章线性相关与回归.ppt

发布:2019-05-30约1.07万字共119页下载文档
文本预览下载声明
t检验方法 前已算得 : 直线回归假设检验间的关系 在直线回归中,回归系数的t检验与方差分析结果等价。 tb=9.42=F1/2=88.61/2 总体回归系数的区间估计 例12-5 (续例12-1)试估计总体回归系数的95%的可信区间。 决定系数 回归平方和与总体平方和之比,记为R2 决定系数的取值在0到1之间。它数值的大小反映了自变量对回归效果的贡献,也就是在Y的总变异中回归关系所解释的百分比 第二节 线性回归的应用 总体回归线95%的置信带 是指总体中当X为一定值时的均数。是波动的,当把x= 代入回归方程所求得的估计值,为样本条件均数(condition mean),对总体 的估计可计算可信区间,其标准误可按公式计算 对一已知的自变量值 按回归方程求出预测值 ,再按下式求出此条件下100(1- )%的可信区间。 例6 (续例1) 根据例2所求直线回归方程,试计算当 时, 95%的可信区间。 本例 当 时, 95%的可信区间: 个体Y预测值的区间估计 总体中X为某定值时,个体Y值的波动范围,其标准差 按下式计算。 个体Y值的 容许区间按下式计算。 例7 用例6的数据,进一步计算当 时,个体Y值95%的容许区间。 计算出个体Y值的95%容许区间为 第三节 残差分析 残差是指实际观测值与回归估计值的差 直方图是否符合正态曲线? 残差单值分布有倾向,有异常点吗? 数据是随机的吗? 借助于标准化残差图(以因变量Y 为横坐标,标准化残差为纵坐标 标准化残差图中点的分布应该绝大部分在 倍 标准差之间,在以0为参考线的上下随机且均匀分布,这时可以认为模型于数据拟合的较好; 一般认为在 倍标准差以外区域中出现的点所对应的原始数据为异常点,两者之间的为可疑点; 标准化残差图趋势特征 有无呈现扩张或者收缩--方差齐性 呈某种曲线特征--存在非线性关系 线性回归分析的注意事项 只有将两个内在有联系的变量放在一起进行回归分析才有意义。 做回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果关系,那么应该以因的变量为X,以果的变量为Y。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X。 回归模型 I型回归模型:资料要求上,应变量Y是随机变量,服从正态分布,自变量是固定的非随机变量,在确定自变量的基础上,建立Y回归于X的直线方程,这样就可以确定当X为某一定值时,Y将会在什么范围内变动。 II型回归模型,X与Y都是随机变量,而且服从双变量正态分布。 建立回归方程后,须对回归系数进行假设检验。 使用回归方程进行估计与预测时,一般只适用于原来的观测范围,即自变量的取值范围,不能随意将范围扩大。 在线性回归分析时,要注意远离群体的极端值对回归效果的影响。 回归分析与相关分析的联系和区别 区别: 相关分析: 不考虑变量之间的因果关系,不区分解释变量和因变量,两变量对称. 所涉及的变量都为随机变量。 回归分析: 需要区分变量之间的因果关系; 则要通过建立回归方程,去估计(预测)因变量的平均值; 因变量是随机变量(有一定的概率分布),自变量是非随机变量。 主要是为刻画变量间的相关程度; 联系 在符号上:对一组数据若同时计算r与b,它们的正、负号是一致的。 在假设检验方面:r的假设检验可用t检验或直接查r界值表法,b的假设检验可用t检验或F检验来实现。再换算上,对同一样本可以得出r与b的互化公式,统一样本的这两种假设检验是等价的。因此,由于r的假设检验可以直接查表,较为简单,可以用其代替对b的假设检验。 回归与相关可以相互解释 练习 对于同一资料,如果trt0.05, υ ,则有: A. tbt0.05,υ B. tb=t0.05, υ C.tb t0.05, υ D. tbt0.05, υ或tbt0.05, υ ua * 体重增加量有随进食量增加而增大的趋势,且散点呈直线趋势,但并非12个点都在直线上 ,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。 简单线性回归方程 总体 样本 “Y hat”表示估计值,给定x时y的总体均数的估计值。 简单线性回归方程 因变量,反应变量 (dependent variable, response variable) X 自变量,解释变量 (indep
显示全部
相似文档