《实验设计与数据处理》lecture5.doc
文本预览下载声明
Lecture 5——相关与回归
.一、相关与回归概述
相关与回归 .客观事物在发展过程中是相互联系、相互影响,常常要研究两个或两个以上变量间的关系。
.变量之间的关系 –确定性关系、非确定性关系
.确定性关系(函数关系) –变量之间依一定的函数形成的一一对应关系,若两个变量分别记做 Y与X,则当Y与X之间存在函数关系时, X值一旦被指定, Y值就是唯一确定的。 –如长方形的面积(S)与长( a)和宽(b)的关系: S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。
.非确定性关系 –非确定性关系不能用精确的数学公式来表示,当变量 x的值取定后, y有若干种可能取值。
–如人的身高与体重的关系,食品价格与需求量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。 –在一定范围内,对一个变量的任意数值( Xi),虽然没有另一个变量的确定数值yi与之对应,但是却有一个特定 yi的条件概率分布与之对应,这种变量的不确定关系,称为相关关系。
–从统计学上讲,X和Y变量的关系有两种理论模型:第一种叫回归模型;第二种叫相关模型。
–在回归模型中,X是试验时预先确定的,没有误差或误差很小,而 Y不仅随着X的变化而变化,并且有随机误差, X称为自变量, Y称为因变量。在回归模型中除有自变量和依变量的区别外,尚有预测的特征。
–回归模型资料的统计方法叫回归分析,确定由 X来预测或控制 Y的回归方程,并确定当给 X某一个值时 Y将会在什么范围内变化。
–在相关模型中,X和Y变量是平行变化关系,均具有随机误差,所表示的只是两个变量的偕同变异,没有自变量和依变量之分,也不具有预测的性质。相关模型资料的统计方法叫相关分析,其目的是要测定两个变量在数量关系上的密切程度和性质。 .统计学上采用回归分析(regression analysis)方法研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。
–研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;
–研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。
–一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 .回归分析的任务就是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。
–回归分析主要包括: .找出回归方程; 检验回归方程是否显著; .通过回归方程来预测或控制另一变量。.统计学上采用相关分析 ( correlation analysis)来研究呈平行关系相关变量之间的关系。
–对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);
–对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。
二、简单线性相关分析
.相关的种类
–按相关的程度分为完全相关、不完全相关和不相关。 .两种依存关系的标志,其中一个标志的数量变化由另一个标志的数量变化所确定,则称完全相关,也称函数关系。
.两个标志彼此互不影响,其数量变化各自独立,称为不相关。
.两个现象之间的关系,介乎完全相关与不相关之间称不完全相关。
–按相关的方向分为正相关和负相关 .正相关指相关关系表现为因素标志和结果标志的数量变动方向一致。 .负相关指相关关系表现为因素标志和结果标志的数量变动方向是相反的。
–按相关的形式分为线性相关和非线性相关 .一种现象的一个数值和另一现象相应的数值在直角坐标系中确定为一个点,称为线性相关。
–按影响因素的多少分为单相关和复相关。
.如果研究的是一个结果标志同某一因素标志相关,就称单相关。
.如果分析若干因素标志对结果标志的影响,称为复相关或多元相关。
.进行直线相关分析的基本任务在于根据 x、y的实际观测值,
计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r,并进行显著性检验。
.决定系数
–直线回归分析中:,由这个等式不难看到,y与x直线回归效果的好坏取决于回归平方和 与离回归平方和的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这比例越大,y与x的直线回归效果就越好,反之则差。把比值叫做 x对y的决定系数determination coefficient),记为,即:。
.决定系数和相关系数
–决定系数的大
显示全部