卫生统计学第八版-数据分布的描述.ppt
文本预览下载声明
(二)箱式百分位数图 第四节 箱式图 1. 箱式百分位数图(box-percentile plot)结合了箱式图和直方图的功能,不仅给出了几个关键的百分位数,还描述了整个数据的分布形态。箱体中间部分最宽,越往两端越窄。 2. 制作方法 首先将n个观测值从小到大排列,假设箱体最中间(中位数位置) 宽度为w,则将数据从小到大排列后第k个观测值xk所在位置的箱体宽度为: (二)箱式百分位数图 第四节 箱式图 以下为慢性鼻窦炎患者健康评估总分同时绘制了箱式图与箱式百分位数图,箱式百分位数图呈梭型左右对称。若关于中位数上下对称则提示资料呈对称分布。 慢性鼻窦炎患者健康评估总分的箱式图(A)和箱式百分位数图(B) (二)箱式百分位数图 第四节 箱式图 慢性鼻窦炎患者精力评分的箱式图(A)和箱式百分位数图(B) 慢性鼻窦炎患者精力评分呈左偏态分布。 箱式图显示该组数据有两个数值特别小的离群点。 箱式百分位数图从箱体往下延伸出一条又长又细的线——离群点。 第五节 数据核查与离群值 (一)逻辑核查 第五节 数据核查与离群值 1. 逻辑核查的几种常用策略 (1)检查变量类型和性质:变量可分为数值型变量与字符型变量。数值型变量只能包括数字、小数点和负号,个别情况也包括作为千位分隔符的逗号,不能含有字母或文字。 (2)核查变量值范围:检查每个变量的取值范围。例如:一个人的体重不能为负数;出生月份应 在1~12之间;某成年男性的身高值低于140cm或者高于210cm也值得怀疑。 (3)有效值检查: 检查观测值是否为事先定义的数值之一。例如:录入性别时,事先规定用1表示男性,2表示女性,如果数据中出现其他观测值则说明有误。 采用SF-36自测健康量表测得118名慢性鼻窦炎患者的生命质量评估总分如下: (一)频数分布表 第一节 数据分布表与直方图 72 30 80 57 72 72 72 30 65 25 10 52 75 82 52 60 65 72 35 62 45 35 30 66 81 65 55 65 67 80 62 62 45 52 47 45 57 52 67 52 57 40 66 55 62 45 45 52 72 57 57 57 45 55 50 77 55 72 45 50 35 72 60 47 57 52 60 40 45 45 67 60 40 45 35 50 72 25 60 40 62 40 55 55 92 65 61 35 35 15 65 87 92 40 85 65 57 72 72 72 40 30 52 45 53 50 52 57 45 45 30 25 65 40 25 45 65 45 1. 频数表的编制方法 (1)找出最小值和最大值,本例为10与92。 (2)计算全距 (range,R) :最大值与最小值之差,本例 R=92?10=82。 (3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取8~12组。本例共设9个组段,组距取10。 (4)确定组段的上、下限:每个组段的起点为下限(lower limit),终点为上限(upper limit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。 (5)列表整理:计算频数、频率、累计频数及累计频率。 (一)频数分布表 第一节 数据分布表与直方图 广州市118名慢性鼻窦炎患者生命质量评估总分的频数分布表 (一)频数分布表 第一节 数据分布表与直方图 组段 (1) 频数 (2) 频率(%) (3) 累计频数 (4) 累计频率(%) (5) 10~ 2 1.69 2 1.69 20~ 4 3.39 6 5.08 30~ 11 9.33 17 14.41 40~ 25 21.19 42 35.59 50~ 29 24.58 71 60.17 60~ 25 21.19 96 81.36 70~ 14 11.86 110 93.22 80~ 6 5.08 116 98.31 90~100 2 1.69 118 100.00 合计 118 100.00 — — (二)直方图 第一节 数据分布表与直方图 慢性鼻窦炎患者生命质量评估总分的直方图 慢性鼻窦炎患者生命质量评估总分的直方图 (非等距分组造成错觉) 1. 分布形态分类 (1)对称分布:集中位置在正中,左右两侧频数分布对称。 (2)偏态分布:集中位置偏向一侧,左右两侧频数分布不对称。 ①正偏态(positive skewness):有小部分数据偏大、直方图呈现右侧拖尾,又称右偏态(right skewness); ②负偏态(negative skewness):有小部分数据偏小、直方图呈现左侧
显示全部