文档详情

第十九章聚类课程.ppt

发布:2016-08-04约4.77千字共76页下载文档
文本预览下载声明
最大相似系数法聚类方法 2.计算新类(G5)与G3、 G4的类间相似系数,进行合并,得到R1距阵. * 3.根据最大相似系数法, 组成合并后相似系数距阵(R1) G5 G3=X3 G3=X3 0.099 G4=X4 0.234 0.732 * R1 4.重复上面步骤 例19-1的聚类过程 步 合并类别 相关系数 新类命名 类内指标 1 G1G2 0.875 G5 1,2 2 G3G4 0.732 G6 3,4 3. G5G6 0.234 G7 1,2,3,4 * * 身高 下肢长 腰围 胸围 相关系数 聚类结果:分为两类,x1=身高和x2=下肢长为长度指标,x3和x4为围度指标。 1 0 例19-2 样品聚类(表19-1) 6个运动员4个运动项目的测定值(均数) 运动 能耗(x1) 糖耗(x2) x1 ’ x2’ 项目 (单位) (单位) 负重下蹲 27.892 61.42 1.315 0.688 引体向上 23.475 56.83 0.174 0.088 俯卧撑 18.924 45.13 -1.001 -1.441 仰卧起坐 20.913 61.25 -0.488 0.665 * 首先对数据进行标准化转换(x’),消除数据单位的差别 1.计算4个样品的两两距离指标(欧氏距离) * 1.构建样品间距离(dij)距阵 * 2.将相似系数距离最小两类合并新类和其他类计算类间相似系数 类间相似系数---最小相似系数法 * 19-8 3.重复第2步,在距阵中合并新类,并计算与其他的类间系数 * * 图19-2 4个运动项目样品聚类图 最小相似系数法聚类 系统聚类步骤 1.根据研究目的,确定聚类的对象(样品或变量) 2.如样品聚类,先对数据进行标准化 3.选择相似系数和聚类方法(常用多个方法) 4.分类的结果: 结合专业和树状图得到分类结果。 * 三、系统聚类实例分析与应用 例1:讲义19-3 利用9个生物标志物检测指标数据对27名焦炉工进行样品聚类. 方法: 1.对数据进行标准化, 2.确定相似系数:选用欧氏距离 3.聚类的方法:最小相似系数法、类平均法、离差平方和法。 * 讲义表19-3 27名焦炉工的生物标志物检测指标数据(SPSS软件操作) * * 系统聚类菜单 统计方法菜单 对样品聚类 表19-3数据 变量的统计描述 * 应对变量进行标准化,选用z分 SPSS软件系统聚类 * plots菜单框 method菜单框 选择欧氏距离和类平均法 标准化 SPSS软件提供聚类方法 Cluster method: Between-groups linkage,类平均法(d2/n) Ward method. 最小方差法 Nearest neighbor,最短距离法(最小相似) Furthest neighbor,最长距离法(最大相似) Median clustering,中间距离法 Centroid clustering, 重心法 * * 讲义27名焦炉工的生物标志物类平均法聚类图 欧氏距离 * 27名焦炉工的生物标志物最小相似系数法聚类图 欧氏距离 例2 研究目的:通过5指数对13个市进行分类,2005 年江苏省13 个城市社会发展指数 * * 对13个市进行分类的聚类图 图1 结果的解释 一类:是无锡、苏州、南京、常州; 属于经济发达苏南, 区域优势明显,社会发展水平较高。 二类:扬州、镇江、南通、泰州的苏中地区, 为经济发展处于一般水平。 三类:徐州、淮安、盐城、连云港、宿迁是一类,社会经济发展低水平城市之列苏北地区。 结论:促进苏南苏中苏北三大区域协调发展。 * 例3不同产地黄芪微量元素的聚类分析 * 不同产地黄芪的微量元素 * * 不同产地黄芪微量元素的聚类分析 系统聚类方法在应用时注意问题 方法和结果: 1) 用不同聚类方法,聚类结果(树状图)不同,一般计算多个方法尝试。 2)结合专业和聚类图得到归类结果。 3)主要用于样品(变量)较少的研究. * 第十九章 聚类分析 (Cluster Analysis) 古语: “物以类聚”,找出特征相似的类别,研究
显示全部
相似文档