数据的描述性分析.ppt
第四章数据的描述性分析南京财经大学统计学系
本章内容第一节集中趋势的描述第二节离散程度的描述第三节分布的偏态与峰度
集中趋势的描述对比12中位数众数二、位置平均数算术平均数调和平均数几何平均数第一节集中趋势的描述一、数值平均数
离散程度的描述01数据标准化02绝对指标极差与四分位差平均差标准差与方差03相对指标~离散系数第二节离散程度的描述是非标志标准差04
中心矩第三节分布的偏态与峰度分布的峰度分布的偏态与峰度分布的偏态原点矩
集中趋势集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。
01算术平均数是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号表示。02简单算术平均数加权算术平均数算术平均数的数学性质算术平均数
简单算术平均数
加权算术平均数权数
算术平均数的数学性质
权数次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。
权数次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。
调和平均数(Harmonicmean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用表示。01简单调和平均数加权调和平均数调和平均数是算术平均数的变形02调和平均数
简单调和平均数
加权调和平均数
调和平均数是算术平均数的变形
几何平均数是n个变量值连乘积的n次方根。几何平均数是计算平均比率和平均速度最适用的一种方法。通常用表示。简单几何平均数加权几何平均数几何平均数
简单几何平均数
加权几何平均数注意:不能直接平均增长速度
中位数中位数是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值:一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值的影响。◆由未分组数据确定中位数◆由单项数列确定中位数◆由组距数列确定中位数分位数
对未分组数据资料,需先将各变量值按大小顺序排列,并按公式确定中位数的位置。1当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例:7、6、8、2、3当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例:2、5、7、8、11、122由未分组数据确定中位数
由单项数列确定中位数先计算各组的累计次数,再按公式确定中位数的位置,并对照累计次数确定中位数。
由组距数列确定中位数下限公式:上限公式:
三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数。十分位数和百分位数分别是将变量数列十等分和一百等分的数值。分位数
由未分组数据确定众数由单项数列确定众数由组距数列确定众数众数众数是一组数据中出现次数最多的那个变量值,通常用表示。
01例2:7、6、8、2、3、4、3、2、302例3:7、6、8、2、3、4、3、2、3、2由未分组数据确定众数例1:7、6、8、2、3
由单项数列确定众数
由组距数列确定众数下限公式:上限公式:
对比众数、中位数和算术平均数的关系众数、中位数和算术平均数的特点与应用场合
四分位差是指第三四分位数与第一四分位数之差,也称为内距或四分间距,计算公式为:极差也叫全距,是一组数据的最大值与最小值之离差,即:极差与四分位差
平均差01平均差也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用表示。02简单式平均差加权式平均差03
简单式平均差
加权式平均差
标准差与方差标准差又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用表示。它是测度数据离散程度的最主要方法。方差是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方,用表示总体的方差;用表示样本的方差。◆总体与样本标准差◆简单式标准差◆加权式标准差
简单式标准差
加权式标准差
简单式加权式总体样本总体与样本标准差
数据标准化标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。设标准化数值为z,则有:
离散系数对于平均数不等或计量单