文档详情

北航数理统计判别分析大作业.doc

发布:2016-03-30约5.55千字共17页下载文档
文本预览下载声明
数理统计 (课程大作业2) 聚类和判别分析 学 院: 机械工程学院 专 业: 材料加工工程 日期:2014年12月22日 摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资()、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。 关键字: 1 引言 2 数据采集 表 1 源数据 地区 居民消费水平(元) 人均地区生产总值(元) 政府消费支出(亿元) 城镇居民人均总收入(元/人) 北京 6112.4 87475 4451.8 36468.75 天津 7934.8 93173 1698.7 29626.41 河北 19661.3 36584 3272.7 20543.44 山西 8863.3 33628 1605.4 20411.71 内蒙古 11875.7 63886 2466.9 23150.26 辽宁 21836.3 56649 2178.8 23222.67 吉林 9511.5 43415 1566.2 20208.04 黑龙江 9694.7 35711 2812.7 17759.75 上海 5117.6 85373 2807.3 40188.34 江苏 30854.2 68347 7329.0 29676.97 浙江 17649.4 63374 4013.3 34550.30 安徽 15425.8 28792 1876.3 21024.21 福建 12439.9 52763 1854.8 28055.24 江西 10774.2 28800 1560.5 19860.36 山东 31256.0 51768 5960.3 25755.19 河南 21450.0 31499 3584.0 20442.62 湖北 15578.3 38572 2897.3 20839.59 湖南 14523.2 33480 2397.7 21318.76 广东 18751.5 54095 6241.8 30226.71 广西 9808.6 27952 1612.2 21242.80 海南 2145.4 32377 448.3 20917.71 重庆 8736.2 38914 1389.3 22968.14 四川 17040.0 29608 2831.4 20306.99 贵州 5717.8 19710 1039.7 18700.51 云南 7831.1 22195 1763.2 21074.50 西藏 670.5 22936 289.6 18028.32 陕西 12044.5 38564 1944.9 20733.88 甘肃 5145.0 21978 1131.9 17156.89 青海 1883.4 33181 410.2 17566.28 宁夏 2096.9 36394 404.2 19831.41 新疆 6158.8 33796 1891.8 17920.68 三 聚类分析 3.1 聚类分析过程 首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。 表3所示的为聚类分析的汇总结果: 从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。 表4显示的是样本的凝聚过程。对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。 表4所列各项的意义如下: 阶——聚类步骤号; 群集组合——在某步中合并的个案; 系数——距离或相似系数; 首次出现阶群集——新生成聚类; 下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。 从中可以看出聚类的进度和类详细合并的步骤。 可以从表中看出,第1和第18个样本最先进行了聚类,样本间的距离为。 表5显示的是聚类后的集群成员: 从表5可以看到系统聚类分析的最终结果为:北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。 图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。 横轴:案例(Case)表示被聚类的对象; 纵轴:群集数(Number of clusters)表示被聚成几类; 图1以冰柱图表示聚类分析结果。图中第1列为聚类步骤号
显示全部
相似文档