医学统计学 2数值变量资料的统计描述2014学习资料.ppt
数值变量资料的统计描述山东大学公共卫生学院刘云霞
山东大学公共卫生学院LiuYunxia2统计分析StatisticalAnalysis统计描述StatisticalDescription统计推断StatisticalInference指用统计指标、统计表或统计图等方法对资料的分布规律及其数量特征进行描述。指由样本信息推断总体特征,包括总体参数的估计和假设检验。
变量类型(复习)数值变量(numericalvariable)其变量值是定量的,表现为数值大小,多有度量单位。如身高(cm)、体重(kg)等。由数值变量的测定值构成的资料称为数值变量资料或计量资料。分类变量(categoricalvariable)亦称定性变量,表现为互不相容的类别或属性。无序分类变量(unorderedcategoricalvariable):所分类别或属性之间无程度或顺序上的差别。如性别、血型等。有序分类变量(ordinalcategoricalvariable):所分类别或属性之间有程度或顺序上的差别。如尿蛋白化验结果等。变量类型可根据统计分析的需要进行转化。山东大学公共卫生学院LiuYunxia3
山东大学公共卫生学院LiuYunxia4内容提纲
§2.1频数分布频数表的概念频数表的编制方法频数表的用途※频数分布的特征※频数分布的类型山东大学公共卫生学院LiuYunxia5
一、频数分布表的概念当样本含量n较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(frequencytable)。频数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。频数表:将各变量值与其相应的频数列成表格形式即为频数表。山东大学公共卫生学院LiuYunxia6
二、频数表的编制数值变量资料的频数分布变量的取值为正整数时,如轧钢工人白细胞中的大单核细胞数:384510135347……山东大学公共卫生学院LiuYunxia7
二、频数表的编制数值变量资料的频数分布山东大学公共卫生学院LiuYunxia8变量的取值是连续的,如身高、体重、血压等。编制频数表时需要根据变量的取值范围将变量值划分为若干组段,然后再汇总各组段的频数。具体步骤通过例子加以说明
9例2.1某地2004年抽样调查100名男大学生的身高(cm)山东大学公共卫生学院LiuYunxia
频数表的编制步骤1.找出观察值中的最大值和最小值,求全距(极差,range)。本例最大值为183.5,最小值为162.9,全距R=183.5-162.9=20.6(cm)。2.确定组段数和组距,划分组段。组段数:根据样本量大小,一般划分8~15个组段。组距:即每一组段上、下限之差。一般取等距分组,组距取极差的1/10(取整或四舍五入)。划分组段:各组段是连续的,但不能有交叉和重叠,应使观察单位分组时“不重不漏”,第一个组段包含最小值,最后一个组段包含最大值。本例取组距(cm),第1个组段下限从162cm开始,第2个组段下限为164cm,……,依次类推,最后一个组段为182~184cm。3.列频数表,汇总频数。山东大学公共卫生学院LiuYunxia10
山东大学公共卫生学院LiuYunxia11
山东大学公共卫生学院LiuYunxia12直方图(histogram)
注意:有些资料因为数据中有特大或特小的数值也可以采用不等组距,如某些食物中毒的潜伏期,大部分在短时间内出现症状,只有极少部分的人经过较长的时间后才有反应,这种情况可将后面的一些组段作适当的合并,并可以将最后一个组段以大于某个值表示,以避免出现一些组段频数为零的情况。对于不等距资料绘制直方图时,应先将不等距的各组频数折算成等距频数,然后再做图。山东大学公共卫生学院LiuYunxia13
三、频数表的用途频数表可以揭示资料分布类型和分布特征;便于发现资料中的某些远离群体的特大或特小值。当样本含量比较大时,可以各组段的频率估计概率。作为资料的陈述形式,可代替原始资料,直观地反映被研究事物的分布特征,又便于作进一步的分析研究。山东大学公共卫生学院LiuYunxia14
山东大学公共卫生学院LiuYunxia15
图2-1某地100名18岁男大学生身高的频数分布山东大学公共卫生学院LiuYunxia16
频数分布的类型对称分布:指频数分布的集中位置在中间,左右两侧大致对称。偏