8.3.2 独立性检验 课件.pptx
1;1.了解随机变量χ2的意义,通过对典型案例分析,
2.了解独立性检验的基本思想和方法.;前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.;根据我们通过简单随机抽样得到了X和Y的抽样数据列联表,如表8.3-3所示.;思考:如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对的分类变量X和Y是否相互独立作出推断?;显然,分别考虑③中的四个差的绝对值很困难.我们需要找到一个既合理又能够计算分布的统计量,来推断是否成立.一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:;环节三:抽象概括,形成概念;;;环节四:辨析理解,深化概念;思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?;解:零假设为
H0:疗法与疗效独立,即两种疗法效果没有差异.;将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示.
表8.3-5单位:人;疗法;表8.3-6单位:人;解:零假设为
H0:吸烟与患肺癌之间无关联.;总结上面的例子,应用独立性检验解决实际问题大致应包括以下几个主要环节:;思考:独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?;1.小概率值α的临界值:
忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα???大.;4.分类变量X和Y的抽样数据的2×2列联表:;先假设两个分类变量X与Y无关系,利用上述公式根据观测数据求出K2的观测值k,再得出X与Y有关系的程度.
(1)如果k≥10.828,就有______的把握认为“X与Y有关系”(2)如果k≥7.879,就有______的把握认为“X与Y有关系”;;环节七:目标检测,作业布置;练习第134页;2.根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论?为什么?;3.为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:;4.从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:;由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率.根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.;习题8.3(第135页);4.对于已经获取的成对样本数据,检验结论“两个变量之间有关联”的实际含义是什么?检验结论“两个变量之间没有关联”的实际含义又是什么?;5.为了研究高三年级学生的性别和身高是否大于170cm的关联性,调查了某中学所有高三年级的学生,整理得到如下列联表:;性别;6.第5题中的身高变量是数值型变量还是分类变量?为什么?;7.从第5题的高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到如下列联表:;性别;8.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:;与例2中的结论不一样,原因是每个数据都扩大为原来的10倍,相当于样本量变大为原来的10倍,导致推断结论发生了变化.