第九章SPSS的聚类教程方案.ppt
文本预览下载声明
例题 8.2 收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给300名运动员平均打分的数据,希望分析各国裁判员的打分标准是否具有相似性。 R聚类 聚类数目的确定 聚类数目确定尚无统一标准,一般原则: 各类所包含的元素都不应过多 分类数目应符合分析的目的 分层聚类中可以将类间距离作为确定类数目的辅助工具 聚类过程中,类间距离呈增加趋势 类间距离小,类的相似性大;距离大,相似性小 绘制碎石图(X轴为类距离,Y轴为类数) K-Means聚类 K-Means聚类 也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率 克服分层聚类在大样本时产生的困难,提高聚类效率 做法: 通过用户事先指定聚类数目的方式提高效率 分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解 K-Means聚类 核心步骤: 第一,指定聚类数目K 第二,确定K个初始类中心 用户指定方式 系统指定方式 第三,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类 第四,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点 第五,判断是否已满足中止聚类分析的条件 条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(SPSS默认为0.02)时中止聚类 K-Means聚类分析的操作步骤 1. 选择选项Analyze-Classify-K-Means Cluster 2.选定参与K-Means聚类的变量放入Variables框中。 3.选择一个字符型变量作为标记变量放入Label Cases框中,增加分析结果的可读性。 4.在Number of Clusters框中输入聚类数目,该数应小于样本数。 5.如果用户自行指定初始类中心点,则单击Centers按钮,并在Read initial from框后给出存放初始类中心的SPSS数据文件名;否则本步可略去。 6.在Method框中指定聚类过程是否调整类中心点。其中,Iterate and classify表示在聚类分析的每一步都重新确定类中心点(SPSS默认);Classify only表示聚类分析过程中类中心点始终为初始类中心点,此时仅进行一次迭代。 7. 单击Iterate按钮确定中止聚类的条件。在Maximum iterations框后输入最大迭代次数,在Convergence criterion框后输入类中心的偏移量。另外,Use running means选项,选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点,此时类中心点与样本分配的前后顺序有关;不选该项表示只有当完成了所有样本的类分配后再计算类中心,该方式可节省运算时间,通常不选中该选项 8. 单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中,其中Cluster membership表示保存样本所属类的类号;Distance from cluster center表示保存样本距各自类中心点的距离。 9. 单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式。Statistics框中,Initial cluster centers表示输出初始类中心点;ANOVA table表示以聚类分析产生的类为控制变量,以k个变量为观测变量进行单因素方差分析,并输出各个变量的方差分析表;Cluster information for each case表示输出样本分类信息及距所属类中心点的距离 例题 8.3 根据五座商厦购物环境和服务质量的顾客评分数据,利用K-Means聚类分析方法按照优秀、良好、合格的总体水平将它们分类 编号 购物环境 服务质量 A商厦 73 68 B商厦 66 64 C商厦 84 82 D商厦 91 88 E商厦 94 90 分类 购物环境 服务质量 优秀 95 95 良好 85 85 合格 65 62 例题 8.4 用2001年全国31个省市自治区各类小康好人现代化指数的数据,对地区进行K-Means聚类分析,要求分成3类,初始类中心点由SPSS自行确定 第九章 SPSS的聚类分析 聚类分析的意义 物以类聚 学生关系、客户细分 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法 能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果 类内部的个体在特征上具有相似性,不
显示全部