第5章抽样与抽样分布1讲述.ppt
文本预览下载声明
思考 为什么要抽样? 抽样的基本概念(掌握) 基本的抽样方法(知道) 常用的抽样分布(掌握) 一、抽样的基本概念 思考 总体一旦确定,总体参数是唯一确定的吗? 总体一旦确定,样本统计量是唯一确定的吗? 抽样的一个主要目的就是利用样本资料(样本统计量)去估计总体参数。 思考: 总体需要考虑的特点有哪些? 例: 研究目的及参数: 湘潭市所有家庭的平均收入 抽取样本: 随机抽取5000户家庭,了解其收入状况 样本统计量: 5000户家庭的平均收入 推断: 根据容量为5000的样本计算得出的家庭平均收入推断所有家庭的平均收入 误差的控制的方法 抽样误差可计算和控制 非抽样误差的控制 调查员的挑选和培训 督导员的调查专业水平 调查过程控制 调查结果进行检验、评估 现场调查人员进行奖惩的制度 非概率抽样:不是完全按随机原则选取样本,而是研究者根据自己的认识和判断,选取若干个有代表性的单位作为样本。 概率抽样:根据一个已知的概率来抽取样本单位,总体中哪个单位被抽中与否完全是随机的,不取决于调查者的主观意愿,又称之为随机抽样。 结论 以概率为依据,能避免抽样过程中的人为误差.保证样本的代表性. 在各种抽样方式中,概率抽样得到的随机样本的代表性最高. 具体操作方法: 小总体时 ——抓阄,抽签,掷硬币、掷骰子 较大总体时 ——随机数字表 抽取单位的方法: 重复抽样(有放回抽样) 不重复抽样(无放回抽样) 具体做法是: 1.将总体的所有总体单位按一定顺序排列. 2.计算抽样间隔k. 计算公式: N为总体单位数,n为样本容量 3.在1至k个单位中,用完全随机的方法抽取一个单位,设其所在的位置的序号为r 4.自 r 开始, 依次抽取的位置序号为r,r+k,r+2k ,…,r+(n-1)k。 四种概率抽样方法的特点比较(联系与区别) Excel在抽样中的应用 方法一:利用Excel的分析工具库中的“抽样” 工具进行 方法二:利用Excel的函数“RAND”、“CEILING” 和“INDEX”进行 简单随机抽样(二) 重复抽样 抽出个体 登记特征 放回总体 继续抽取 不重复抽样 抽出个体 登记特征 继续抽取 最为常用的抽样方法 简单随机抽样(三) 简单随机抽样的优点 简单,直观,不做任何排列,分组,个体的机会均等,一视同仁,是理想的随机抽样类型 当总体包含的单位数N不大时,实施并不困难 简单随机抽样的缺点 当总体包含的单位数N很大时,抽样框很难编制 当总体包含的单位数N很大时,调查极不方便 应用 适用于规模不大、内部各单位数据值差异较小的总体,在实际中直接采用并不多。 引例: 某系有120名学生, 从中抽查20名学生, (1)将120名学生按班级和学号顺序依次排序 (2)按顺序分成20组,每组6名学生 (3)从1-6名用简单随机抽样的方法抽出第一名学生序号为3,从7-12名中抽取序号为9(3+6),13-18中抽15(3+2*6或9+6),直至在115-120中抽出117,完成抽样。 等距抽样(一) (stratified sampling) 等距抽样定义:也称为机械抽样 首先将总体中的所有单位按某种规则排序 然后在规定的范围内随机抽取一个单位作为初始单元 最后按事先定好的间隔K确定其他样本单位 等距抽样(二) 练习: 某大学有12000名学生,欲了解其生活态度,决定采用系统抽样的方法从中抽查200名学生,首先用简单随机抽样的方法抽出第一名学生序号为12,请计算第十位学生的序号是多少? 等距抽样(三) 等距抽样的优点 实施简单(因为只需确定抽样的间隔和起点) 估计的精度较高(因为样本分布更为均匀) 等距抽样的缺点 对估计量精度的估计比较困难 应用 当对总体结构有一定了解时,充分利用已有信息对总体单位进行排队后再抽样,则可提高抽样效率。 分层抽样(一) (stratified sampling) 分层抽样:又称为分类抽样或类型抽样 首先将总体按某种特征或原则划分成若干层 然后在每层内独立地、随机地抽取子样本 最后将子样本合起来构成总体样本 分层抽样(二) 分层抽样的优点 可以同时对总体参数和各层的目标量进行估计 实施和组织比较方便 样本在总体中的分布比较均匀 层次划分合理时,可以大大提高估计的精度 分层抽样(三) 划分层时的注意点 应使层内各单位的差异尽可能小 而使层间各单位的差异尽可能大 应用 应用的最为普遍的抽样方法之一,特别是当总体数目较大、内部结构复杂时 。 整群抽样(一) (cluster
显示全部