六西格玛系列之统计学-第2章描述性统计.docx
文本预览下载声明
第二章 描述性统计
描述定性数据的图形法和数值法
每个观测值能落入一类(组)并且只能落入一类(组)
对给定的类,类频数是指落入这个类中的观测值的个数
对给定的类,类相对频率是指落入这个类中的观测值个数相对于观测值总数的比例
条形图Minitab?图形?条形图
用长方形表示定性变量的类(组),其中每一个长方形的高是类频数/类相对频率
帕雷拖图Minitab?统计?质量工具? Pareto图
意大利经济学家Vilfredo Pareto,将定性变量的类(即长方形)按照高度从左向右降序排列的条形图
饼图Minitab?图形?饼图
用一个饼(圆)的一份表示定性变量的类,每份大小与类频数或类相对频率成比例
描述定量数据的图形法
点图Minitab?图形?点图
数据集中每一个定量变量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一点之上
茎叶图Minitab?图形?茎叶图
定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一个定量变量的数值的叶放在相应茎的行上,有相同茎的数值的叶在水平方向按升序排列
茎叶图 MPG N=100
叶单位= 0.10
1 (茎)30 (叶)0
2 (茎)31 (叶)8
6 (茎)32 (叶)5799
12 (茎)33 (叶)126899 表示大于等于33且小于34的测量值有6个
18 (茎)34 (叶)024588
29 (茎)35 (叶)01235667899
49 (茎)36 (叶)01233445566777888999
(21) (茎)37 (叶)000011122334456677899 最大组区间
30 (茎)38 (叶)0122345678
20 (茎)39 (叶 12 (茎)40 (叶)0123557
5 (茎)41 (叶)002
2 (茎)42 (叶)1
1 (茎)43 (叶)
1 (茎)44 (叶)9
直方图Minitab?图形?直方图
定量变量的测量值分成若干组区间,每一个组区间有相同的宽度,这些组区间构成了水平轴刻度。确定落在每个组区间中的观测值的频数或相对频率(36~37,37~38,测量值37放在37~38组区间)。每个组区间上放一个垂直的长方形,它的高度等于组区间频数或相对频率
构造直方图的步骤
1.计算定量变量数据集的极差
2.根据数据集中测量值的个数确定组区间的个数,根据极差和组区间个数确定组区间宽度。最小(即第一个组区间)组界应当比最小值小,选择适当的组区间宽度,使得没有测量值落在组界上
数据集中测量值的个数
组区间个数
小于25
5~6
25~50
7~14
大于50
15~20
3.数出落入每个组区间的测量值个数,这个数称为组频数
4.计算每一组区间组相对频率(组频数/测量值的总个数)
5.直方图本质上是条形图,组区间就是类型,长方形的高度由组频数或组相对频率确定
直方图适用于非常大的数据集,但是不能为我们指出单个测量值
点图和茎叶图适用于较小的数据集,能提供数据集有用的细节(每一个测量值)
描述定量数据的数值法
统计量是由样本数据计算得到的数值描述性度量
参数是总体的数值描述性度量
中心趋势的度量
1.算术平均(均值)/平衡点
1.1实际问题中使用最频繁
1.2体现了所有数值的影响
1.3受极端值影响很大
1.4样本均值用表示,总体均值用μ表示
2.中位数
测量值按升序(或降序)排列后位于中间的测量值
2.1不包括所有测量值
2.2受极端值影响很小
2.3样本中位数用m表示,总体中位数用τ(Tau)表示
2.4当测量值个数n为奇数时中位数=X[(n+1)/2],为偶数时中位数=[X(n/2)+X(n/2+1)]/2
2.5有时称中位数为中心趋势的耐抵性度量
2.6对于偏度较大的数据集,中位数能较好的地描述数据分布的中心
3.众数/峰点
最大频数对应的测量值,很少作为中心趋势的度量
如果从一块板上截下数据集直方图的轮廓,它将在算术平均(均值)的那一点保持平衡;中位数左右两边的面积均为50%;众数位于以最大频数/相对频率出现的点,即分布的峰点
数据集有一点偏度或没有偏度的丘形分布,中位数和算术平均(均值)是基本相等的,而均值比中位数具有更好的数学性质,因此常用均值作为中心趋势的度量
变异性的度量
1.极差
1.1极差R=最大测量值-最小测量值=Xmax-Xmin
1.2极差是数据变异性相对不灵敏的度量,适用于小样本
2.方差
2.1样本方差S2,总体方差σ2
2.2有理论上的意义,因为它的单位是变量的平方,难于解释
2.3样本方差计算公式
2.4总体方差计算公式
2.5为什么样本方差
显示全部