列联表与独立性检验+课件-2024-2025学年高二下学期数学人教A版(2019)+选择性必修第三册.pptx
8.3列联表与独立性检验
8.3.1分类变量与列联表
有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语.吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日.例如:2019年世界无烟日的重点是”烟草和肺部健康”.那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?如果你认为“健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗?
【引例】下列变量的取值有何异同点?你能将其分类吗?①人的身高②直尺的长度③性别④国籍⑤民族数值变量取值用以表示个体所属类别,分类变量
分类变量是区别不同的现象和性质的一种特殊的随机变量.本节主要讨论取值于{0,1}的分类变量的关联性.数值变量的取值为实数,其大小和运算都有实际含义.①分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.②这些数值只作编号使用,并没有大小和运算意义.③分类变量是相对于数值变量来说的.几点说明:
【例1】为调查性别因素是否对本校学生体育锻炼的经常性有影响,某校进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法一:比较经常锻炼的学生在女生和男中的比率.男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
解法二:设Ω表示该校全体学生组成的集合,对于Ω中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别由可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼.
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别
分类变量X和Y的抽样数据的2×2列联表:2×2列联表给出成对分类变量数据的交叉分类频数.n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX2×2列联表
【例2】为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试用2×2列联表分析两校学生中数学成绩优秀率之间是否存在差异.解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为甲校乙校因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
【思考】“甲乙两校学生的数学成绩优秀率存在差异”这一结论是否有可能出错?这一结论有可能是错误的.因为样本具有随机性,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法判断两变量之间有无关系,同时也希望能对出现错误推断的概率有一定的控制或估算.
8.3.2 独立性检验
【探究】一个囚犯正在接受法官审判,你是法官.法官的任务是假定囚犯无罪,但是假如有足够证据证明囚犯有罪,则需审判囚犯有罪.先做一个无罪假设找无罪假设下不可能出现的人证和物证找到了,假设不成立,嫌疑人有罪没找到,没有充分证据证明假设