[第四章描述统计.ppt
文本预览下载声明
第四章_描述统计 4.1 数据描述 4.2 用Excel进行数据初步分析 4.3 上机实验三 用Excel进行数据统计描述 【实例描述】 1998年夏天,麦奎尔和索沙激烈地角逐美国主要棒球单季全垒打的纪录,成为大众关注的焦点。最终,麦奎尔以70支全垒打刷新纪录。麦奎尔这项最新成就相比起他在职业棒球生涯中的全垒打纪录表现如何呢? 以下是麦奎尔从1987年(他的职业棒球生涯的第一年)到1999年之间的全垒打数: 我们也可以把麦奎尔的纪录与纽约洋基队外野手马里斯(Roger Maris)的纪录比较一下。麦奎尔所破的单季纪录,原先就是由马里斯保持的。以下是马里斯在美国联盟十年当中的全垒打数,从小到大排序为: 8 13 14 16 23 26 28 33 39 61 由这两组数据,这两位美国史上都很优秀的棒球选手谁的表现更好些呢?这就可以用描述统计的方法来得到结论。 4.1 数据描述 4.1.1数据频数表与直方图 4.1.2直方图与茎叶图方法 4.1.3 样本数据的集中趋势 4.1.4 样本数据的离散特征 4.1.5 样本数据特征的综合表达:箱形图 4.1.1数据频数表与直方图 【例】某班级40名同学数学课程考试成绩资料如下(单位:分) 68 89 88 84 86 87 75 73 72 68 75 82 99 58 81 54 79 76 95 76 71 60 91 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 87 要分析学生的考试成绩,可以通过编制数据表来反映学生的学习成绩情况。具体步骤如下: 4.1.1数据频数表与直方图 (1)将原始资料按从小到大的顺序排列,确定数据值的变动范围。 54 57 58 60 61 64 65 68 68 70 71 72 72 72 73 75 75 76 76 76 76 76 77 78 81 81 82 83 84 85 86 87 87 88 89 89 91 92 95 99 可以看出,学生成绩的基本情况是:最低分54分,最高分99分,成绩的变动幅度在54――99分之间,差距为99-54=45分,这个差距称为极差。另外,还可以从数列中可看出大多数学生的成绩在60~90分之间。不及格和优秀的学生不多。 4.1.1数据频数表与直方图 (2)确定组数和组距。为了反映总体不同性质组成部分的分布特征,可以考虑根据研究对象的具体情况来分组,每组数据上限和下限的差称为组距。对学习成绩的分析可以从不及格、及格、中、良好及优秀方面来考虑,于是考虑分组为5组。 根据需要确定组距,如果采用等距分组,则组距=(最大值-最小值)/组数=45/5=9(分)。而实际上为了便于计算,组距一般用5或10的倍数,尽量采用整数,所以本例采用10分作为组距。 4.1.1数据频数表与直方图 (3)确定组限和组限的表示方法。习惯上用离散型变量的方法表示成绩。用整数来作组限,还要注意,最低组的下限要小于最小变量值,最高组的上限应最大变量值。根据上面分析分别统计各组学习成绩出现的次数(也称为频数),并计算频率(频数/总数),形成频数分布表,如表3-1所示。 4.1.1数据频数表与直方图 在分组计算的基础上计算累计频数和累计频率。如果从最小变量值向最大变量值累计,称为向上累计,反之为向下累计,如表3-2所示。 4.1.1数据频数表与直方图 在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布,又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。分布在各组的个体单位数称频数或次数,各组次数与总次数之比称频率。 4.1.2直方图与茎叶图方法 1.直方图 直方图又称柱状图、质量分布图,是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图。 4.1.2直方图与茎叶图方法 以下是美国的50个州按65岁以上居民所占比率划分的分布表: 4.1.2直方图与茎叶图方法 绘制出的直方图: 4.1.2直方图与茎叶图方法 2.茎叶图 茎叶图又称“枝叶图”,是一种分析未分组原始数据的统计图,既能给出数据的分布状况,又保留着原始数据的个体信息,是有效的探索性数据分析工具。它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到
显示全部