[2018年最新整理]01-2统计资料的整理与描述.ppt
文本预览下载声明
* 几何均数例 1:10, 1:20, 1:40, 1:80, 1:160 * 描述集中位置的指标:中位数 中位数(median,M) 将一组数据按从小到大的顺序排列,位置居中的数即是中位数。 * 中位数例 9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 * 中位数例 对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。 本资料属于“开口”资料。 本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。 * 描述集中位置的指标:百分位数 百分位数(percentile) X% PX (100-X)% 50%分位数就是中位数 25%,75%分位数称四分位数(quartile) * 应用中位数和百分位数时注意 ① 中位数和百分位数的计算对资料分布没有特殊要求,所有资料均可计算中位数和百分位数。 ② 中位数只受位置居中的变量值影响,与两端的极端值无关,因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。 * 平均数应用的注意事项 同质的资料计算平均数才有意义。 均数适用于:单峰对称分布的资料 几何均数适用于:对数变换后单峰对称的资料 等比资料、滴度资料、对数正态分布资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。 偏态分布、分布不明资料、有不确定值的资料 * 平均数应用的注意事项 计算几何均数时: 变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用 * 只用平均数描述资料的弊病 It has been said that a fellow with one leg in frozen ice and the other leg in boiling water is comfortable ON AVERAGE ! * 例 只用平均数描述资料的弊病 甲组 26 29 30 31 34 均数30kg 乙组 24 27 30 33 36 均数30kg 丙组 26 28 30 32 34 均数30kg 丙 乙 甲 三组儿童体重的离散程度 * 描述离散趋势的指标 变异度 极差(Range) 四分位数间距(interquartile range) 方差(Variance) 标准差(Standard Deviation) 变异系数( coefficient of variation ) * 描述离散趋势的指标:极差 全距(range),极差 R = max-min 优点: 简单明了 缺点: ① 不灵敏 ② 不稳定 * 描述离散趋势的指标:四分位数间距 四分位数间距(inter-quartile range) QU - QL = P75 - P25 即中间一半观察值的极差。 四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。 四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。 * 25% 25% 25% 25% 排序数据:按从小到大顺序排列 M QL QU inter-quartile range Q2 Q1 Q3 * 描述离散趋势的指标:方差 方差(variance) * 描述离散趋势的指标:标准差 标准差(standard deviation, sd) “离均差平方之和 平均后的方根” “均方根” n-1 称为自由度 (degree of freedom) ,即“可以自由变异的程度” 因为任一离均差
显示全部