统计学 第六章统计量与抽样分布(习题附参考答案).pdf
第6章统计量与抽样分布
【弓I例】1899年,戈塞特进入都柏A.吉尼斯父子酿酒公
司担仟酿酒化学技师,主要从事统计和实验工作。他在工作中发现,供酿酒的
每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样
本在不同的温度下做实验,其结果相差很大。这就决定了不同批次和温度的麦
子样本是不相同的,不能进行样本合并。这样一来,实际上取得的麦子样本,
不可能是大样本,只能是小样本。他在工作中还发现,利用小样本得出的结果,
和正态分布有较大的差异,特别是两端尾部的概率,比正态分布明显高。因此
1907年戈塞特决心把小样本和大样本之间的差别搞清楚。为此,他试图把一个
总体中的所有小样本的平均数的分布刻画出来。做法是;在一个大容器里放了
一批纸牌,把它们弄乱,随机地抽若干张(小样本),对这一样本记录观察值,
然后再把纸牌弄乱,抽出几张,对相应的样本再记录观察值。大量地记录这种
随机抽样的小样本观察值,就可以获得小样本观察值的分布。1908年,戈塞特
以“学生S(tudent)”为笔名在《生物计量学》杂志发表了论文《平均数的规
律误差》。这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了
重要基础。被统计学家誉为统计推断理论发展史上的里程碑。
那么总体和样本是如何联系的?大样本和小样本下究竟有什么差异?什么
是t分布?它和正态分布有什么不同?它有什么作用?统计推断中常用的分布
还有哪些?这些问题都将在本章中找到答案。
统计研究的目的是为了探索现象内在的数量规律性。为了解总体的数量特
征,可以直接对总体进行全面调查,得到总体数据,进而归纳出数量特征;也
可以对总体进行抽样,利用样本对总体进行推断,一种方法称为统计推断。
抽样分布是进行统计推断的理论基础。本章将主要介绍统计推断所涉及的总体、
样本、统计量及抽样分布等概念,以及在统计推断中最常用的/分布,/分布
和产分布和抽样分布定理。
§6.1总体与样本的统计分布
总体与样本是统计推断中的两个基本概念。统计推断的目的是从样本信息
出发,运用概率论的方法,推断总体的特征;因此如何将统计学的总体、样本
和概率论的基础一一随机变量与分布联系起来,就成为统计推断首先要解决的
问题。
§6.1.1统计推断中的总体及总体分布
第一章中已经明确统计所研究的是由同类事物构成的总体的数量特征,总
体是根据一定的目的确定的所要研究的事物的全体,它是由客观存在的、具有
某种共同性质的众多个体构成的。总体中的每个单位称为个体。比如前面引例
中,每一批麦子的全体就是一个总体,而其中每单位的麦子就是个体。这是统
计学中关于总体的概念,我们可以称其为实物总体。
在前面章节的学习中,我们已经发现:我们真正关心和收集研究的并不是
这些总体中的个体本身,而是这些个体的某些特征及其数值,在前面我们将这
些特征用变量来描述,对应的数值称为变量值。关心这批麦子,主要关心的是
其酿酒的效果出酒量。此时出酒量成为需要研究的变量,每单位麦子出酒量的
具体数值成为变量值。在研究这批麦子时,并不需要将全部这批麦子都收集过
来,只需要记录这批麦子每单位出酒量的数值,再对这些数值进行研究就可以
了。此时的总体实质是这批麦子的出酒量对应的若干个数值,总体已经从实物
抽象到了数值,可以称之为数值总体。这是对总体概念的第一次抽象。
如果实物总体中个体很多,则对应的数值总体其规模将非常大,而且往往
其中重复的值会很多,即使没有重复值(变量取值连续时),在不同值周围的“密
集程度”也会不相同。逐一研究每个变量值将会非常繁琐,当总体规模趋于无
穷时,研究每个变量值更是变得不可能。若统计出变量的所有不同取值或(取
值区间)及其出现的频率,编制变量的分布数列,则可以对变量的全部取值情
况一览无遗。研究一个变量的全部数值,就转化为研究该变量的分布了。用变
量及其分布来描述一个总体,可以称之为分布总体。例如研究某批麦子的出酒