第三章描述性统计.doc
文本预览下载声明
第三章 描述性统计量
通常称通过某种方式获得的一组数据为一个样本,其中数据量成为样本量(Sample Size)。我们常常用一些数字来表示所调查总体的一些特征。主要有:描述总体平均水平的均值(Mean)和中位数(Median);以及描述数据出现频率最高的众数(Mode);它们被称为位置参数或者均值。还有描述波动程度的方差(Variance)、标准差(Standard Deviation)、极差(Range)与四分位偏差(Quartile Deviation)等。
3.1 刻划数据位置(集中程度)的特征量
1.样本均值、中位数和众数
(1)离散不列表数据
在刻画数据“平均”特性的特征值中,最普遍最常用的是样本数据的算术平均数,在统计上称为样本均值。
设有n个观察值的样本,把它们从小到大排列后记为:,则样本均值定义为:
;
样本中位数
数据中出现频率最高的那个数称为众数(mode),记为。
例3.1.某啤酒出厂价1.5元,调查9个饭店出售给顾客的价格分别为:2.0,4.0,3.0,3.5,5.0,3.0,2.8,3.7,4.5元。求价格的样本均值、样本中位数及众数。
2.0 4.0 3.0 3.5 5.0 3.0 2.8 3.7 4.5 解:(元)
将数据按从小到大的顺序排列为2,2.8,3,3,3.5,3.7,4,4.5,5
故,样本中位数是第5个数字(元);由于只有3出现两次,频率最高,故(元)。
注意:众数不必惟一,在本例中若把3.7改为3.5,则3.5也是众数,就有两个众数。在用平均数反映问题时,有时不够全面,带有片面性。
例3.2 一家庭式小工厂成员有:老板李胜,他弟弟李利,6个亲戚,5个领工,10个工人。现生意做得不错,要招一个新工人,老板李胜对应召的新工人张建国说:这里平均月薪700元,学徒期间每月150元,很快就会加工资,张建国很高兴地接受了。没几天他去见老板,说老板欺骗了他,因为他发现没有一个工人的工资超过300元,故月薪平均不可能是700元。
李胜说:你别着急,听我讲:我每月3000元,我弟弟每月2000元,我的6个亲戚每人850元,领班5人每人每月600元,10个工人每人每月300元。
老板 他弟弟 亲戚 领班 工人 3000 2000 850 600 300 1 1 6 5 10 因此:平均工资700元;中位数600元;众数300元。你是没弄清楚这三者之间的关系。张建国说:现在我懂了,不过我不干了。平均值会产生误解。
(《怎能利用统计学撒谎》或者《统计陷阱》)
①河的平均水深;②股东的选票;③平均收入。
(2)列表(不分组)离散数据
例3.3 某部门职工去年收到感谢信的资料如下表:
信件数(封x) 职工人数(人f) 累计频数(F) 0 3 3 1 5 8 2 12 20 3 8 28 4 6 34 5 1 35 合计 35
一般计算公式:(可以理解为加权平均)
中位数;众数。
(3)列表(分组)连续数据
例3.4 某市80户居民月购买消费品支出结果如下表:
按户月消费品
支出分组 组频数() 组中值 组频率() 5 900 0.0625 6 1100 0.075 12 1300 0.15 26 1500 0.325 14 1700 0.175 9 1900 0.1125 6 2100 0.075 2 2300 0.025 合计 80 — — 本例中,可以用组中值代替区间的代表值,就可以把分组连续数据转换成分组离散数据;计算近似均值为:
例3.5 为了解某种货物的价格一年内在各地的变化,选定60处地点,查得各地年初值100元的该种货物到年底所值经过整理如下表:
价值(元) 地点数 组频率 组中值 累积频数 [80,85) 1 0.0167 82.5 1 [85,90) 4 0.0667 87.5 5 [90,95) 3 0.0500 92.5 8 [95,100) 6 0.1000 97.5 14 [100,105) 7 0.1167 102.5 21 [105,110) 10 0.1667 107.5 31 [110,115) 14 0.2167 112.5 45 [115,120) 7 0.1167 117.5 52 [120,125) 4 0.0667 122.5 56 [125,130) 2 0.0333 127.5 58 [130,135) 1 0.0167 132.5 59 [135,140) 0 0.0000 137.5 59 [140,145) 1 0.0333 142.5 60 合计 60 1.0000 可以算得:
对于分组数据,如何计算平均值、中位数、众数呢?
计算平均值可以用组
显示全部