数值变量资料的统计描述.pptx
第2章???数值变量资料的统计描述
第一节频数分布表和频数分布图第二节计量资料的常用统计指标
学习目标说出频数表的编制方法,频数分布的两种趋势01学会数值变量资料常用指标(平均水平、离散程度)的计算方法02描述正态分布的基本特征与内容,了解医学参考值范围的估计方法03
第一节数值变量资料的频数表频数表的概念01频数表的编制02
频数表的概念所谓频数就是观察值的个数。频数分布就是观察值在其所取值的范围内,于各组段中分布的情况。所谓频数表是指一种统计表:即同时列出观察值的可能取值及其出现频数。具体作法是,先根据观察值数量大小进行分组
计算全距,用R表示。确定组段数、组距划分组段设计划记表归纳计数02频数表的编制步骤01
第二节集中趋势的指标算术均数(均数)01几何均数02中位数03
A算术均数B适用资料类型:适用于观察值呈正态分布或对称分布的数值变量资料。
0102直接计算法(观察个数不多时)=
加权法(当观察值个数较多或观察值为频数表资料时)1=2
简捷法(当观察值个数较多,同时数值又较大时)
用简捷计算法求算术均数和标准差适用的资料类型:样本含量大,且数值较大的频数表资料
表1120名12岁健康男孩身高(cm)均数的计算简捷法组段(1)组中值(2)频数f(3)d=(x-x0)/i(4)fd(5)=(3)×(4)125~1271-4-4129~1314-3-12133~1359-2-18137~13928-1-28141~143(x0)3500145~147271271491554312157~161159144合计120(∑f))3(∑fd)
假定均数的选择:一般选频数较多,且位置比较居中的组中值。求缩减值dd=(x-x0)/i公式:x=x0+∑fd/∑f×i本例:x=x0+∑fd/∑f×i=143+3/120×4=143.10
表2120名12岁健康男孩身高(cm)标准差的计算简捷法组段(1)组中值(2)频数f(3)d=(x-x0)/i(4)fd(5)=(3)×(4)Fd2(6)=(4)×(5)125~1271-4-416129~1314-3-1236133~1359-2-1836137~13928-1-2828141~143(x01472712727149~1511122244153~155431236157~16115914416合计120(∑f)3(∑fd)239(∑fd2)
几何均数01适用资料类型:观察值呈对数正态分布或观察值为等比数列(如血清抗体滴度)的资料02
直接法
即对数形式
当观察值个数较多或观察值为频数表资料,可用加01权法求几何均数,即02(二)加权法
中位数(median)是一组按大小顺序排列的观察值,其位次居中的数值,以M表示。当一组观察值中,大部分比较集中而少数数值偏向一侧时,或资料的分布情况不清楚,或观察值一端(或两端)无确定数值,均可用中位数表示其集中趋势。
百分位数以符号Px表示。用于描述一组观察值在某百分位置上的水平。如P5为5%分位数,表示有5%个观察值小于它,有95%个观察值大于它;P95为95%分位数,表示有95%个观察值小于它,有5%个观察值大于它。也可用一组百分位数来描述总体或样本的分布特征。如P2.5~P97.5,除表示资料2.5%位置上和97.5%位置上的水平外,还表示有95%个观察值分布在这个范围内。
第三节离散程度指标
全距四分位数间距方差标准差变异系数5.4.3.2.1.
全距(range)又称极差,以R表示,是一组观察值中最大值与最小值的差。缺点是仅考虑了资料的最大值和最小值,不能反映组内其它数据的变异程度,因此用全距表示变异程度并不理想用全距来说明变异程度的大小,其优点是简单明了,如用于说明传染病、食物中毒的最短、最长潜伏期等。(一)全距
No.1用符号Q表示,它可以通过计算百分位数P75和P25之差得到,即Q=P75-P25。四分位数间距越大,说明数据的变异越大;反之,四分位数间距越小说明变异越小。No.2用四分位数间距作为说明离散程度的指标,与全距相比不易受极端值的影响,但仍未考虑到每一个具体观察值的变异度,因此用四分位数间距表示变异程度亦不理想。(二)四分位数间距
用(样本)或σ2(总体)表示。0102方差愈小,说明观察值的变异程度愈小;方差愈大,说明变异程度愈大。(三)方差
标准差1是离均差平方和与自由度之商的算术平方根。标准差愈小,说明观察值的变异程度愈小;标准差愈大,说明变异程度愈大。2
01标准差的计算方法02直接法
加权法将资料进行