统计学之数据的特征量与统计分析.doc
文本预览下载声明
第三章 数据的特征量及统计分析
第一节 集中量
集中量是代表一组数据典型水平或集中趋势(central tendency)的量。
它能反映频数分布中大量数据向某一点集中的情况。
常用的集中量有算术平均数 、中位数Md 、众数M0等。
一、平均数或算术平均数( mean or arithmetic average )的概念
算术平均数是所有观察值的总和除以总频数之商,简称平均数或均数、均值。若以X1,X2,…,XN表示X变量各个观察值,N表示观察值的个数,则算术平均数可表示为:
二、算术平均数的性质
1.观察值总和等于算术平均数的N倍。
2.在一组观察值中,每个观察值与该组均值之差(离均差)之和等于零。
3.在一组数据中,每个数都加上或减去一个常数,所得的平均数为原来的平均数加上或减去此常数。
4.在一组数据中,每个数都乘以或除以一个常数,所得的平均数为原来的平均数乘以或除以这个常数。
5.如果某一组观察值是由多个部分组成,这组观察值的平均数可由组成部分的平均数求得
三、算术平均数的计算方法
1.原始数据计算法
2.频数分布表计算法可以用频数分布表计算一组数据算术平均数的近似值。公式为:
频数分布表计算法
3.用假定平均数计算平均数的方法
设假定平均数为A,则,用假定平均数计算算术平均数的公式为:
四、加权平均数、几何平均数、调和平均数
六、算术平均数的优缺点
算术平均数具备一个良好的集中量所应具备的一些特点:
反应灵敏、有公式严密确定、简明易懂、适合代数运算等等,因此是一个最常用的集中量。
主要不足:当数据中有极端值时,不宜使用算术平均数。(截尾平均数)
当数据不同质时,不宜使用算术平均数。
1.截尾平均数:又称修剪平均数(trimmed mean)是从一组数据中去除一定百分比(如5%)的最大值和最小值数据后,再次计算的算术平均数。
2.同质:同一种测量工具所测量的某一特质 。
七、计算和应用算术平均数的原则
同质性原则:算术平均数只能用于表示同类数据的集中趋势。
平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。
平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度。
二、中位数的计算方法
52名学生数学成绩频数分布表
三、中位数的特点及应用
中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也比较容易。中位数不受两端极端数据的影响,但反应不灵敏,也不适合进一步代数运算的要求。
一般用于下列情况:一组数据中有极端数据时;资料属于等级性质时。
四分位数 四分位数( quartile )( Q1,Q2,Q3)
十分位数(decile )( Q1,Q2 …… Q9 )
百分位数(percentile)(PP)
四分位数
数据: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
Q1 = 15, Q2 = 40, Q3 = 43
四分位数的位置:Q1的位置=(n+1)/4Q2的位置=(n+1)/2 Q3的位置=3(n+1)/4
n表示项数:数据: 7, 15, 36, 39, 40, 41 一共6项
Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)/2=3.5 Q3的位置=3(6+1)/4=5.25
Q1 = 7+(15-7)×(1.75-1)=13 Q2 = 36+(39-36)×(3.5-3)=37.5
Q3 = 40+(41-40)×(5.25-5)=40.25
百分位数的概念
52名学生数学成绩频数分布表
计算第70百分位数
四分位距的计算方法 1.原始数据计算法
2.频数分布表计算法
用中位数作集中量时,常用四分位距作差异量。因为它们都属于百分体系。
百分位差(百分位距) 百分位距是指两个百分位数之差。
常用的百分位距有两种:一是第90百分位数与第10百分位数之差,用P90-P10表示。即依一定顺序排列的一组数据中间部位80%个频数的距离。另一个是第93百分位数与第7百分位数之差,用P93-P7表示,是一组数据中间部位86%个频数的距离。计算公式:
三、方差和标准差
方差(variance)又称为变异数,是表示一组数据离散程度的统计指标。一般样本的方差用 或 表示,总体的方差用 表示。
标准差(standard deviation)是方差的算术平方根。一般样本的标准差用 S 或 表示,总体的标准差用 表示。
标准差和方差是描述数据离散程度的最常用的差异量。
1.方差和标准
显示全部