卫生统计学第八版李晓松第三章 数据的产生.ppt
文本预览下载声明
2. 随机化(randomization) (1)决定如何将试验对象分配到各处理组中,只有当所有处理组中试验对象的基本情况相当时,各处理组间的效应比较才是有效的。 (2)匹配定义:找到性别、年龄等变量情况相似的两组对象分别给予不同的处理。 (3)匹配存在的问题:不一定能完全避免偏倚,因为有太多潜在的变量可能影响试验的结果,很难把所有的因素都进行匹配。 (4)随机化思想:使用随机的方式使每个实验对象有同等的机会被分配到各处理组。(5)随机化方法:抽签。 (6)随机化意义:保证了各对比组间的均衡可比性。 (一)设计原则 第二节 随机对照试验 3. 重复(repeat) (1)每组只有一个试验对象,那么试验结果可能只依赖于具有这类潜在特质的人被分到了哪个组,但是,如果试验对象足够多,这类人的效应就能够被平均化,两组的区别就会减少。 (2)重复思想:运用足够多的样本来降低试验的随机误差。 (一)设计原则 第二节 随机对照试验 试验对象可能具有安慰剂效应; 试验研究者的主观看法造成试验结论的偏倚; 盲法(blind):试验对象甚至试验人员均不知道试验对象接受哪一种处理; 双盲意义:双盲则避免了由试验人员和试验对象的主观意识造成的偏倚。 (二)潜在的问题 第二节 随机对照试验 第三节 简单随机抽样 1. 总体(population) 根据研究目的确定的同质研究个体的全体。 2. 样本(sample) 是为了解总体而观测的总体的一部分。 3. 简单随机抽样(simple random sample, SRS) (1)随机抽样:总体中每个个体有相同的机会被选中作为样本参与调查,降低样本的选择偏倚。 (2)简单随机抽样:从总体中以相同机会抽取的n个个体称为一个简单随机样本,n为样本量。 (一)简单随机抽样 第三节 简单随机抽样 1. 抽样涵盖不全 (1)志愿者应答样本:总体中的更有意愿完成调查的部分对象组成的样本,不是总体的一个具有代表性的样本。 2. 测量可能存在缺陷 (1)应答偏倚:被访者被问及关于卖淫或嫖娼等敏感话题时,于法律、道德问题而撒谎。 (2)回忆偏倚:让被访者回忆过去,可能由于记忆不准确产生偏倚。 (3)问题措辞:模糊或者带有引导性的问题常常产生较大的偏倚。 (二)潜在的问题 第三节 简单随机抽样 第四节 样本的可靠性与代表性 1. 参数(parameter) (1)用于刻画总体的数值特征,如总体均数、总体中位数、总体标准差、总体率等。 (2)参数被看成总体某种特征的固定数值,通常参数的确切值未知。 2. 统计量(statistic) (1)用于描述样本的数值特征,如样本均数、样本中位数、样本标准差,样本率等。 (2)当获得一个样本后就可以得到统计量的值,可用于估计未知参数的值。 (3)统计量的值随样本改变而改变。 3. 统计推断(statistical inference) 从样本数据推理而得到关于总体的结论。 第四节 样本的可靠性与代表性 第四节 样本的可靠性与代表性 第四节 样本的可靠性与代表性 第四节 样本的可靠性与代表性 当用统计量来估计总体参数时,统计量会随着抽样结果的不同而不同,该现象可能影响我们采用统计量来估计总体参数的质量。 由抽样引起的统计量与统计量之间或者统计量与总体参数之间的变异不是无规律的,而是具有某种潜在的模式。 1. 变量的总体分布 总体中所有个体观测值的分布。 2. 统计量抽样分布 统计量的分布规律,描述了从同一总体重复抽样时,统计量会有些什么样的值,以及每个值出现的可能性大小。 (一)抽样分布 第四节 样本的可靠性与代表性 例3 某环境监测点2015年1月1日至2月28日对每小时PM10浓度值进行监测。 图 (A)采用某环境监测点监测时间内每小时的PM10浓度值,描述的是总体分布。 图 (B) 从这个总体中随机抽样(每次样本量为50),共抽取100次得到的100个样本均数的分布。 (一)抽样分布 第四节 样本的可靠性与代表性 图(B) 样本均数的抽样分布图 图(A) 所有个体测量值分布图 (总体分布) 从图知,样本均数的变异程度小于个体观测值。 重复抽样过程 从总体中进行简单随机抽样,每次抽取的样本量为n。 计算出统计量。 重复上述两步,即从同一个总体中反复多次独立地随机抽样后获得多个统计量。 展示多个统计量的分布特征。 (一)抽样分布 第四节 样本的可靠性与代表性 (一)抽样分布 第四节 样本的可靠性与代表性 重复抽样过程(统计量为样本均数) (一)抽样分布 第四节 样本的可靠性与代表性 重复抽样过程(统计量为样本率) 1. 抽样变异与抽样误差 (1)统计量的值在重复随机抽样的样本中各不相同,这种统计量随着样本的变化而变化的现象称为抽样变异(sa
显示全部