北邮概率论与数理统计样本.doc
文本预览下载声明
第六章 样本及抽样分布
前 言
前四章的研究内容属于概率论的范畴。从本章起,我们进入课程的第二部分—数理统计学。数理统计学与概率论是两个有着密切联系的姊妹学科。他们都是研究随机现象统计规律性的学科,但也有根本的差别。在概率论中我们常假定随机现象的概率结构是已知的,一切演算和推理都基于这个已知的概率结构。实际情况往往并非如此,随机现象的统计规律性往往并不是很清楚,而要根据对随机现象的观察结果去认识其统计规律性。在数理统计中我们面对的是一组受到随机干扰的数据,需要从数据中挖掘出隐藏在其背后的统计规律性。看一个例子。
例5.0.1 某公司要采购一批产品,每件产品不是合格品就是不合格品,该批产品总有一个不合格品率。若从该批产品中随机地取一件,用表示一件产品的不合格品件数,那么服从两点分布,但分布中的参数却是不知道的。显然的大小决定了这批产品的质量。因此人们会针对参数提出种种问题,比如:
(1)的大小如何?
(2)大概落在什么范围内?
(3)能否认为满足设定的要求(如)?
为回答以上问题,我们需对这批产品作检验,出于经济上的考虑或特定条件(如检验是破坏性的)的考虑,我们无法对这批产品逐一检验而是从中抽检一部分。由抽检的一部分产品的检验结果去回答以上问题就属于数理统计学研究的范畴。下面对统计学和数理统计学作简单的解释。
① 统计学:数据的科学
统计学是“对用数字表示的事实或数据进行收集、分类、分析以及解释的科学”.简言之, 统计学就是数据的科学.据此我们可以给统计学下一个粗略的定义.
定义 统计学是数据的科学,它包括数据的收集、分类、概括、整理、分析以及解释.
一般认为17世纪初至18世纪中叶是统计学萌芽形成时期.当时主要有“国势学派”和“政治算术学派”两大古典统计学学派. 到19世纪中叶,概率论已有长足发展,概率论被引进到统计学,这便产生了数理统计学.统计学按其应用目的的不同可分为描述统计学(Descriptive Statistics)和推断统计学(Inferential Statistics).
定义 致力于数据集的搜集、整理、概括以及描述的统计学分支称作描述统计学.
定义 利用样本数据对一个很大的数据集作出推断的统计学分支称作推断统计学.
近年来, 推断统计学的地位越来越重要,已成为现代统计学研究的主流. 当然,并不能因而就否定描述统计学,至今描述统计学的一整套统计方法(后面也有一些介绍)也广泛应用于数据处理之中,对于具体的统计问题也往往需要这两个分支的方法综合使用.
② 数理统计学
试图用少量文字对“数理统计学”下一个正式定义,都无法做到无懈可击.下面我们致力于把数理统计学的实质说清楚.
当用观察或实验(也叫试验)去研究一个问题时,第一步就是通过观察或试验收集必要的数据.这些数据受到随机性影响.下一步就是对所收集的数据进行分析,以对所研究的问题做出某种形式的结论.在这两个步骤中,都会遇到许多数学(尤其是概率论)问题,为解决这些问题,发展了许多理论和方法,这些就构成了数理统计学的内容。一般说来,数理统计学的任务就是研究怎样用有效的方法去收集和使用带随机性影响的数据。下面做进一步的解释。
数据必须带随机性影响才能成为数理统计学的研究对象。
数据的随机性的来源有二:一是问题中所涉及的研究对象为数很大,我们不可能对其全部加以研究,而只能用一定方式挑选其中一部分去考察。例如,一批产品有10000件,其中含有次品件,未知,因而次品率也未知。要确切地知道次品率,就必须对全部产品逐一检查,这不仅是不经济的,而且往往无法做到(如检验是破坏性的)。因此只能从其中挑出一部分,例如100件,根据100件产品的检验结果去估计次品率。在这里随机性影响表现为:哪100件产品被挑出是偶然的。
数据的随机性的另一个来源是试验的随机误差,这是指那种在试验过程中未加控制、无法控制,甚至不了解的因素所引起的误差。例如,设反应温度和压力是影响产品质量的重要因素。我们想通过一些试验去考察这种影响程度,为此挑选一些温度和压力值进行试验。但是产品质量还会许多其他因素的影响,如原材料、操作者、仪器设备等。这些因素无法加以完全控制,从而对试验结果带来不确定性。例如,从试验结果上看,使用温度比好,但这个表现究竟是本质的,还是随机误差的偶然性表现。
(2)所谓“用有效的方式收集数据”一语中,“有效”一词该如何解释。归纳起来有两个方面:一方面是可以建立一个在数学上可以处理并尽可能简单方便的模型来描述所得数据;另一方面是数据中要包含尽可能多的与研究的问题有关的信息。
例如,在考察某地区共10000个农户的经济状况的问题中,需挑选一部分农户调查,那么应调查多少户呢?多了则费用过大,少了则代表性不够。确定调查的农户数需权衡这两个方面,
显示全部