第五章参数估计培训课件.ppt
文本预览下载声明
第五章 参数估计 学习目标: 1 能够阐述抽样误差的概念,理解并计算标准误。 2 能够理解和运用t分布。 3 能够理解并计算单个总体参数、两总体参数之差的置信区间。 4 能够运用统计软件对实际资料进行参数估计。 内容提要 第一节 抽样误差 第二节 t分布 第三节 单个总体参数的置信区间 第四节 两总体参数之差的置信区间 第五节 案例讨论(自学) 第一节 抽样误差 抽样误差定义: 在总体中随机抽样,由于个体间存在差异,抽得的样本计算出的指标不太可能恰好等于总体指标,因此通过样本推断总体总会有误差。这种由个体差异产生、随机抽样造成的样本统计量(statistics)与总体参数(parameter)间的差异以及样本统计量间的差异,称为抽样误差(sampling error)。 图5.1可以得出抽样分布的特点 ① 各样本均数未必等于总体均数; ② 各样本均数间存在差异; ③ 样本均数的分布很有规律,围绕着总体均数中间多,两边少,左右基本对称,也服从正态分布; ④ 样本均数间变异较原变量值的变异小,即样本均数的标准差明显变小 标准误 标准误(standard error, SE) 即样本均数的标准差,可用于衡量抽样误差的大小。 理论上可以证明 标准误 因通常σ未知,用S来估计。计算标准误采用下式 标准误 从上述公式可知,均数标准误的大小与标准差的大小成正比,而与样本例数n的平方根成反比。在实际应用中,若标准差固定不变,可通过增加样本含量来减小均数的标准误,从而降低抽样误差。 数理统计理论证明,在非正态分布总体中进行类似的抽样,当样本含量足够大(如大于50),其样本均数也近似服从正态分布,且样本均数的总体均数等于原总体的均数,样本均数的标准误是原总体标准差的 二、样本率的抽样误差 对于计数资料,若在同一总体中重复抽样,抽出的样本频率与总体概率间的差异以及各样本频率间的差别,为样本率的抽样误差。 二、样本率的抽样误差 例5.2 若在一个非透明容器中装有黑白两色球,除颜色外,球的其他特性完全相同,其中黑球所占比例π=50%。从容器中随机摸出60只球(n=60),然后将球放回容器,搅匀在摸。重复这样的实验100次,得到每次摸出黑球所占的比例(样本频率Pi)分布情况见表5.2 样本率的抽样误差 第二节 t 分布 t分布曲线 第二节 t 分布 t 分布的图形与特征 ①以0为中心,左右对称的单峰分布; ②t分布曲线是一簇曲线,其形态变化与自由度的大小有关。 自由度越小,则t 值越分散,t分布曲线的峰部越矮而尾部翘得越高;说明尾部面积(概率P)就越大;与u分布曲线相比,t 分布低平; 自由度逐渐增大时,t 分布逐渐逼近u 分布(标准正态分布);当趋于∞时, 逼近 ,t 分布即为u分布。 第三节 单个总体参数的置信区间 一、总体均数的置信区间 (一)t分布法 (二)正态近似法 二、总体率的置信区间 (一)查表法 (二)正态近似法 第三节 单个总体参数的置信区间 统计推断包括:参数估计(parameter estimation)和假设检验(hypothesis test)。 参数估计是指由样本统计量估计总体参数,包括点估计(point estimation)和区间估计(interval estimation)两种方法。 点估计就是用样本统计量直接作为相应总体参数的估计值。 区间估计是指按预先给定的概率(1-α)确定一个包含未知总体参数的范围。 概念:根据样本均数,按照预先给定的概率(1??)称为置信度(confidence level)所确定的包含未知总体参数的一个数值范围,这个范围称为总体均数的可信区间(confidence interval, CI ) 。 置信区间通常由两个数值即可信限(confidence limit, CL)构成。其中较小的值称可信下限(lower limit, L),较大的值称可信上限(upper limit, U),一般表示为L?U。 一、总体均数的置信区间 一、总体均数的置信区间 一、总体均数的置信区间 一、总体均数的置信区间 一、总体均数的置信区间 一、总体均数的置信区间 一、总体均数的置信区间 例5.4 为研究某山区健康成年男子的脉搏平均水平,现在该山区随机抽取80名健康成年男子,测得脉搏数(次/min)见表5.4, 求其健康成年男子脉搏平均水平的95%置信区间。 一、总体均数的置信区间 可信区间(confidence interval, CI)是根据一定的可信度估计得到的区间。 估计正确的概率(1??)称为可信度或置信度(confidence level),常取95%或99%。 * 总体均数的95%可信区间的涵义是指:从理论上来说,做100次抽样,
显示全部