《应用统计学》课件 第8章 相关与回归分析.ppt
文本预览下载声明
函数关系(几个例子) 相关关系(correlation) 变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围 相关关系(几个例子) 散点图(scatter diagram) 为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。 相关分析及其假定 相关分析要解决的问题 变量之间是否存在关系? 如果存在关系,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系? 在进行相关分析时,对总体有以下两个主要假定 两个变量之间是线性关系 两个变量都是随机变量 散点图(scatter diagram) 【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 散点图(例题分析) 散点图(不良贷款对其他变量的散点图) 相关系数 (计算公式) ? 样本相关系数的计算公式 相关系数的性质(取值及其意义的图解) 相关系数的性质 性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意味着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系 相关系数的经验解释 |r|?0.8时,可视为两个变量之间高度相关 0.5?|r|0.8时,可视为中度相关 0.3?|r|0.5时,视为低度相关 |r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关 上述解释必须建立在对相关系数的显著性进行检验的基础之上 相关系数(例题分析) ?用Excel计算相关系数 ∑X=534 ∑Y=99.2 ∑ X2=9876 ∑ Y2=324.8 ∑XY=1750 N=31 问题: 相关系数的显著性检验(例题分析) ? 对不良贷款与贷款余额之间的相关系数进行显著性检验(??0.05) 提出假设:H0:? ? ? ;H1:? ? 0 计算检验的统计量 相关系数的显著性检验(例题分析) 各相关系数检验的统计量 相关系数的显著性检验(需要注意的问题) 即使统计检验表明相关系数在统计上是显著的,并不一定意味着两个变量之间就存在重要的相关性 因为在大样本的情况下,几乎总是导致相关系数显著 比如,r=0.1,在大样本的情况下,也可能使得r通过检验,但实际上,一个变量取值的差异能由另一个变量的取值来解释的比例只有10%,这实际上很难说明两个变量之间就有实际意义上的显著关系 前面我们讨论了催化剂浓度和产率之间的关系,知道了二者之间成正相关。那么,如果我们知道了一个催化剂浓度值,能推断出产率吗?或产率可能在什么范围内呢?上面的相关关系分析不能提供给我们需要的答案。这些要用线性回归,或称为直线回归的方法来解决。 什么是回归分析?(regression) 从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度 趋向中间高度的回归 回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及其父母的身高时提出来的。Galton发现身材高的父母,他们的孩子身材也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向平均值靠近的趋势称为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析 回归分析与相关分析的区别 相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于
显示全部