文档详情

第四章回归分析.doc

发布:2017-02-05约2.85万字共62页下载文档
文本预览下载声明
第四章 回归分析 客观现象之间总是普遍联系和相互依存,反映这些联系的数量关系可分为两类,一类是确定性关系,另一类是不确定性关系,也称为相关关系。对确定性关系,可用函数来描述它们,如出租车费用与行驶里程之间的关系;某种商品的销售收入与该商品的销售量和价格之间的关系等,其特点是,当一个或几个变量的值取定时,相应的另一个变量的值就能完全确定。若一个或几个变量的值给定时,相应的另一个变量的值不能完全确定,而是在一定范围内变化,则称变量之间的这种关系为不确定性关系或相关关系。例如,人的身高与体重之间的关系、空气污染度与人口寿命之间的关系、广告投入费用与销售量之间的关系等。变量之间的确定性关系或不确定性关系不是永恒不变的,在一定条件下可以相互转化。对具有确定性关系的变量,由于观测误差的存在,其表现形式也具有某种不确定性;对具有不确定性关系的变量,当我们深刻认识了它们内部之间相互联系和变化规律时,不确定性关系就可能转化成确定性关系。对确定性关系常用数学分析的理论与方法研究,对不确定性关系,一般用概率统计的理论与方法研究,回归分析(regression analysis)就是其中的一种常用的方法。 §4.1回归分析概述 将在不确定性关系中作为影响因素的变量称为自变量或解释变量,用表示,受取值影响的响应变量称为因变量,用表示。一般地,与都可能是随机变量,但在回归分析中通常假定自变量为标量,用来表示,并假设是可控制变量,即它的取值是可以事先给定的,是可观测的随机变量,当取定一个值时,就有一个随机变量与之对应。令 (1.1) 那么其它随机因素引起的偏差是 (1.2) 这时与的不确定性关系表示为 (1.3) 满足 (1.4) 常假定 ~ (1.5) (1.3)式表示因变量的变化由两个原因所致,即自变量和其它未考虑到的随机因素。当随机因素的干扰较小时,主要受的影响,这个影响关系的一种平均性质的概括性描述是 (1.6) 倘若知道了,则可以从数量上掌握与之间复杂关系的大趋势,就可以利用这种趋势研究对的预测问题和对的控制问题。这就是回归分析处理不确定性关系的基本思想。实际上,回归分析就是通过因变量的均值与自变量之间的确定性关系研究与之间的不确定性关系,虽然随机因素的干扰使得与之间的关系不确定,但从平均性质看,不确定性关系有向确定性关系回归的趋势。(1.3)~(1.4)式称为回归模型,(1.6)式称为理论回归函数或回归曲线或回归方程。 在实际问题中,理论回归函数一般是未知的,回归分析的任务就是根据的值和的观测值去估计这个函数以及讨论与此有关的种种统计推断问题,如假设检验问题和区间估计问题。所用方法在相当大的程度上取决于回归模型的假定。对的数学形式无特殊假定的回归分析称为“非参数回归”;对已知的数学形式,只是其中的若干个参数未知的回归分析称为“参数回归”,这是目前研究最多、应用最多的情形。对“参数回归”,根据的不同数学形式,可分为: 需要解决的基本问题是:(1)如何根据抽样信息确定回归函数类型及其参数的估计量;(2)如何判断与的相关关系是否密切;(3)如何应用回归分析进行预测或控制。 线性回归(linear regression )是应用上最重要、理论上最完善的回归分析方法,本章以线性回归为主,非线性回归(non-linear regression )作为扩展。 “回归”的概念是英国生物学家葛尔顿(Galton)在研究生物遗传现象时提出的。他当时研究这样一个问题:高个子的人生的子女一般偏高,照这样看,各代人在身高分布上将有两极分化的趋势。个子很高和很矮的会愈来愈多,而处在中间状态的会愈来愈少。但现实却是各代人的身高分布基本保持稳定。如何解释这个现象?葛尔顿收集了1074对夫妇及其一成年子女的身高资料,建立了下列关系式 其中,、分别表示父母的平均身高和其子女的身高(单位:英寸)。68.25是父代、子代的平均身高,超过这个高度的就认为是高个子,低于这个高度的就认为是矮个子。由此得出结论:父母个子高,其子代一般也高,但不如父母那么高;父母个子矮,其子代一般也矮,但不如父母那么矮。“下一代身高有向中心(68.25)回归的趋势”,这解释了各代身高分布能保持稳定的原因。 葛尔顿的学生皮尔逊以后继续研究此课题,并把回归概念与数学方法联系起来,把反映变量之间的一般数量关系的直线或曲线称作回归直线或回归曲线。 §4.2 一元线性回归 若理论回归函数(1.6)式是一元线性函数,即
显示全部
相似文档