2025高考数学一轮复习概率与统计讲义 第三章 成对数据的统计分析(解析版).docx
第三章成对数据的统计分析
考情分析
1、成对数据的统计分析
考点要求
真题统计
考情分析
(1)了解样本相关系数的统计含义
(2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题
(3)会利用统计软件进行数据分析
2022年新高考全国I卷:第20题,12分
2023年全国甲卷(文数、理数):第19题,12分
2024年全国甲卷(文数):第18题,12分
2024年天津卷:第3题,5分
2024年上海卷:第13题,5分、第19题,12分
成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,难度不大;复习时要加强此类问题的训练.
知识梳理
【知识点1变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
【知识点2样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【知识点3一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|=||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【知识点4列联表与独立性检验】
1.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
2×2列联表给出了成对分类变量数据的交叉分类频数.
2.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
3.独立性检验的应用问题的解题策略
解决独立性检验的应用