第2与3章的结合比率估计与回归估计研究.ppt
文本预览下载声明
1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30commune的样本,截至1802年9月23日总共有2,037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。 拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33.把2037615按照71866.33来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。 具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。 假定总体由面积不同农业用地构成, yi =i地谷物的产量, xi :i地的面积,B=每亩谷物的平均产量; 要估计渔网中长度长于10cm的鱼的总数,抽取一个鱼的随机样本,得出长度长于10cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。 如何估计你的英文单词量? 为什么要使用比率估计/回归估计 欲观其人,先察其友。利用总体的辅助信息提高估计的精度。 辅助指标的选择 :辅助指标应该与调查指标有较好的正的相关关系 。 辅助指标的总体总量或总体均值已知。 比率估计、回归估计需要有足够的样本量才能保证估计的有效。 有偏估计:当样本量足够大时,估计的偏倚趋于0。 调整来自样本的估计量以便它们反映人口统计学的总量。 在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。 比率估计量还被用来对无回答进行调整 设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,xi为i行业的雇员数。假定对总体中的每个行业xi均已知。我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数 X 乘以比率 一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,x表示样本总值 ,以 表示样本均值,以 为样本比率 ,用 作为总体比率R的估计,这就称为的比率估计 。 比率估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂估计量。由于比率估计量使用的信息比简单估计量多,因而有可能比简单估计量有更高的精度。同时由于比率估计量是非线性估计量,因而对其性质的研究比对简单估计量要复杂得多。 一、比率估计量 例:1802年,Laplace受法国政府委托进行法国人口的估计与推算。推算方法如下: 比估计的使用条件: (1)调查变量与辅助变量间有正线性相关关系,且大致呈正比例; (如果辅助变量与调查变量间有负线性相关关系,则要采取乘积估计。) (2)估计 或Y时 ,一般要求辅助变量的总体总量或均值是已知的。 (3)适用面广,可以用于简单随机抽样,也可用于分层随机抽样、整群抽样、多阶抽样等; 【例4.1】对以下假设总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。 简单估计是无偏的,而比估计是有偏的。 简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。 因此对这个总体,比估计比简单估计的效率高。 二、比率估计的性质 对于简单随机抽样来说 二、比率估计的性质 偏倚量会小,如果: ? 样本量n 很大 ?抽样比n/N很大 ? 很大 ? S x很小 ? 相关系数接近于1 比率估计的方差估计 比率估计量的偏差与均方误差 理论上可以证明, 分别为 的近似无偏估计量,而且对于比率估计量,其方差主要取决于 与 之间的差异,当 时,估计量方差将很小。换言之,比率估计量将有很高的精度。这告诉我们,只有当两个变量大致成正比例关系时,应用比率估计量才能使估计精度有较大改进。 三、比率估计的效率 1.与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。 因此这里只比较当n比较大的情形。 比率估计量优于简单估计量的条件是: 2.比率估计成为最优线性无偏估计的条件 (1). 与 的关系是过原点的直线 (2). 对这条直线的方差与 成比例。 则比率估计是最优线性无偏
显示全部