文档详情

协方差和相关系数的探讨.doc

发布:2017-12-26约3.64千字共5页下载文档
文本预览下载声明
协方差和相关系数的探讨 摘要:协方差和相关系数作为两个随机变量间相互关系的两种度量方式,是两个重要的数字特征。然而在大多数教材中[1][2][3][4] ,要么直接引入,要么稍加说明就引入,这使得学生不可能充分理解、掌握,只能靠死记硬背。本文从直观入手,由浅到深地介绍协方差、相关系数。 关键词: 协方差,相关系数,线性关系,直观意义 本人在从教的几年中,给学生上了几轮的概率统计课(所用教材有[1,2,3,4])后,发现协方差与相关系数的引入和介绍学生不怎么好理解。这主要是有的教材未加说明就直接引入[2][3],有的教材也只是稍加说明而已[1][4],如只解释相关系数的直观意义,而对协方差的直观意义只字不提。其中协方差的引入大多是通过随机变量的独立性来引入的。即当X与Y独立时,有E[(X-EX)(Y-EY)] =0,当E[(X-EX)(Y-EY)]≠0时,则认为X与Y不独立,从而它们之间存在着某种关系,故可用E[(X-EX)(Y-EY)]来表示它们之间的这种关系。而这种关系到底是怎样的一种关系呢?或未加说明,或直接给出。下面主要探讨这种关系,主要参考[5][6]。 一、协方差的直观意义 首先必须假设X与Y都是定义在同一样本空间上的随机变量,否则研究它们之间的相互关系就没有意义,从而可将X和Y组成二元有序组(X,Y),每做一次实验后,它的取值就是平面上的一个点,再将实验独立重复n次,即可得到平面上的n个点,就不妨设这n个点的坐标为(x1,y1),(x2,y2),…,(xn,yn),随着实验次数的增多,这n个点就会出现某种的统计规律性(由大数定律可得)。如果将这n个点在平面上描出来,就可以得到一个“散点图”,从散点图上,就可大致看出X与Y 之间的关系。而这种散点图的形状多种多样,其中最具代表的是下面的三种图形: (a)X与Y正线性相关 (b) X与Y负线性相关 (c) X与Y线性无关 图1 散点图中形状的三种 由数学期望的定义可知,EX和EY分别表示X和Y取值的平均值。令,此坐标变换相当于将X,Y坐标变换到X’,Y’坐标,坐标中心变成(EX,EY)。图1中三个图形新的坐标如图2。 (a)X’与Y’正线性相关 (b) X’与Y’负线性相关 (c) X’与Y’线性无关 图2 新坐标轴在原坐标轴中的位置 从图2中可看出,通过坐标变换将原坐标变换成新的坐标,而新坐标仍然保持着线性性,且有以下三个结论: 由图2(a)知,原坐标中的点经变换后,大多都落在新坐标的一、三象限,从而(X-EX)(Y-EY)的取值大多为正,故其平均取值E[(X-EX)(Y-EY)]也为正,因此,当X与Y有较强的正线性关系时,E[(X-EX)(Y-EY)]的取值也同为正且较大,反之亦成立; 由图2(b)知,原坐标中的点经变换后,大多都落在新坐标的二、四象限,从而(X-EX)(Y-EY)的取值大多为负,故其平均取值E[(X-EX)(Y-EY)]也为负,因此,当X与Y有较强的负线性关系时,E[(X-EX)(Y-EY)]的取值也同为负且其绝对值较大,反之亦成立; 由图2(c)知,原坐标中的点经变换后,比较均匀地落在新坐标的一、二、三、四象限,从而(X-EX)(Y-EY)的取值可正可负,故其平均取值E[(X-EX)(Y-EY)]比较接近于0,因此,当X与Y有线性无关系时,E[(X-EX)(Y-EY)]的取值接近于0,反之亦成立。 由此可见,E[(X-EX)(Y-EY)]确实可以度量X与Y之间的线性关系,当E[(X-EX)(Y-EY)]为正值时,X与Y是正线性相关的,且E[(X-EX)(Y-EY)]的值越大时,其线性相关性就越强;当E[(X-EX)(Y-EY)]的取值为负时,X与Y是负线性相关的,且|E[(X-EX)(Y-EY)]|的值越大时,其线性相关性也就越强;当E[(X-EX)(Y-EY)]的取值接近于0时,X与Y就表现出较弱的线性相关性,且|E[(X-EX)(Y-EY)]|的值越接近于0时,其线性相关性也就越弱。而E[(X-EX)(Y-EY)]正是所定义的协方差,记为Cov(X,Y),即Cov(X,Y)= E[(X-EX)(Y-EY)]。 需要指出的是在这里所研究的只是X与Y的关系中的一种,即最简单也是最常见的线性关系,而X与Y的关系是多种多样的。 二、相关系数的意义 上面从直观上给出了协方差的意义,虽然可以从它取值的大小来判别两个变量X与Y相关性的强弱,但是它存在一个明显的缺点,那就是它取值的大小与单位有关,当变量用不同的单位时,就会得到不同的值,为了克服这个
显示全部
相似文档