数值变量的统计描述解析.ppt
文本预览下载声明
回顾: 根据是否定量划分,资料被分作不同的类型: 数值资料(measurement data): 用定量的方法对观察单位进行测量得到的资料,亦称作计量资料。 分类变量资料(enumeration data): 用定性的方法得到的资料,亦称计数资料。 等级资料(ranked data): 不能精确测量,仅能根据相对大小分为几个等级。 群体特征的描述:一般先有一个变量,然后会有一系列的变量值,这些变量值就是一个群体。 针对这样一个群体,你想知道什么?(共性与特性,有群体就有变异) 同样是计量资料,但其特点又各不相同(分布问题:正态与非正态,计算均数时也不同) 主要内容 频数表 集中趋势 离散趋势 正态分布 正常值范围估计 一、数值变量资料的频数分布 数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。 (一)编制频数分布表和绘制频数分布图 频数表的编制步骤: (二)、频数表和频数分布图用途 1.描述频数分布的类型(对称分布、偏态分布) 2.描述频数分布的特征(集中趋势 离散趋势) 3.便于发现一些特大或特小的可疑值 4.便于进一步做统计分析和处理(加权) (1)对称分布 : 若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布 (2)偏态分布 : 1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。 2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。 2.描述频数分布的特征 图9-1(P288)数据的频数分布特征: ①数据变异(离散)的范围在 2.00~6.80(mmol/L ) ②数据集中(平均)的组段在 2.80~6.00(mmol/L )之间,尤以组段的人数 3.60~5.20 (mmol/L )最多,且上下组段的频数分布基本对称。 3.便于发现一些特大或特小的可疑值 二、集中趋势的描述 (★:掌握描述集中趋势指标的概念、计算和应用条件) 统计上使用平均数这一指标体系来描述一组变量值的集中趋势或平均水平。 平均值是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心。 (一)、算术均数 算术均数:简称均数(mean) 定义:是一组变量值之和除以变量值个数所得的商。 意义:一组呈对称分布的观察值在数量上的平均水平。 应用:正态分布(或近似正态或对称分布)资料。 总体均数: 样本均数: 1、计算方法 (1)直接计算法 (2)加权法(利用频数表) 公式 : (二)、 几何均数(geometric mean) 定义:用G 表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。 其适用条件是: ① 当一组观察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响; ② 数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。 例9-3 有8份血清的某种抗体效价分别为1:200, 1:25, 1:400, 1:800, 1:50,1:100,1:50,1:25,求平均抗体效价。 2.加权法(当观察例数多时采用) 公式: (三)、??中位数与百分位数 1.中位数(median) 定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。 其适用情况有: ①当资料呈明显的偏态分布; ②资料一端或两端无确定数值(如大于或小于某数值); ③资料的分布情况不清楚。 (1)、直接法 例 7名正常人的血压(舒张压) 测定值(mmHg)为:72,75,76,77,81,82 ,86,求中位数。 例: 1,3,7,5,100 中位数为多少? 例 频数表中位数的计算 公式: 当 时,公式(9-7)即为中位数的计算公式: 三种平均数的特点 算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。?正态分布 几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。 中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。?偏态分布 三、离散趋势的描述 反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。 统计学中把个体间的差异称为变
显示全部