文档详情

[第六章聚类分析.ppt

发布:2017-01-05约字共79页下载文档
文本预览下载声明
聚类分析又称群分析,它是对样品或指标进行分类的一种多 元统计方法.在实际问题中,经常遇到分类问题,例如对某城市按 大气污染的轻重分成几类;在经济学中根据人均国民收入、人均 工农业产值、人均消费水平等多种指标对地区性的经济发展状 况进行分类等. 分类只不过是将一个观测对象指定到某一类(组)中,分类的 问题可以分成两种:一种是对当前所研究的问题已知它的类别数 目,且知道各类的特征,我们的目的是要将另一些未知类别的个 体正确归属于其中某一类,这是判别分析所要解决的问题.另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的 具体分类情况. 在聚类分析中,基本的思想是认为我们所研究的样品或指标 (变量)之间存在着程度不同的相似性(亲疏关系).于是根据一批 样品的多个观测指标,具体找出一些能够度量样品或指标之间相 似程度的统计量,以这些统计量作为划分类型的依据,把一些相似 程度较大的样品或指标聚合为一类,把另外一些彼此之间相似程 度较大的样品或指标又聚合为另一类,关系密切的聚合到一个小 的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样 品或指标都聚合完毕,把不同的类型一一划分出来,形成一个由小 到大的分类系统. 设有n个样品,每个样品测得p项指标.系统聚类方法的基本思 想是:首先定义样品间的距离(或相似系数)以及类与类之间距离. 一开始将n个样品各自成一类,这时样品间的距离与类间的距离 是等价的;然后将距离最近的两类合并,并计算新类与其他类的 类间距离,再按最小距离准则并类.这样每次缩小一类,直到所有 的样品并为一类为止.这个并类过程可以用谱系聚类图表达出来. 由以上系统聚类法的基本思想,即可得出它的基本步骤如下: (1)计算n个样品两两间的距离,得样品间的距离矩阵D(0) (2)一开始(第一步:i=1)n个样品各自构成一类,类的个数k=n 此时的类为Gi={Xi} i=1,2, …n,类间的距离就是样品间的 距离(即D(1)=D(0))然后对步骤i=1,2, …n执行并类过程的步 骤(3)和(4). (3)每次合并类间距离最小的两类为一新类.此时类的总个数k 减少1类,即k=n-i-1 (4)计算新类与其他类的距离,得新的距离阵D(i),若合并后类的 总个数k 仍大于1.重复步骤(3)和(4);直到类的总个数时k=1 为止。 (5)画聚类谱系图;(6)决定分类的个数及各类的成员。 例子 设有5个产品,每个产品测得一项指标,其值如下: 1, 2 , 4.5 , 6 , 8试对这5个产品按质量指标进行分类。 解 样品间的距离取为欧氏距离(普通的距离),类间的距离取为类间的最短距离,依以上步骤计算如下: (1)计算5个样品x1,x2,x3, x4,x5两两间的距离,得初始 的类间距离阵D(1) (2)一开始5个样品各自构成一 类,得5个类 G(i)={X(i)} (i =1,2,3,4,5) 类的个数为k=5 (3)由D(1)可知,首先合并x1和x2为 一新类,记为CL4={x1,x2},此时类 的个数减少一类变为k=4,故把此步 得到的新类记为CL4. (4)按最短距离法计算新类与其他类间的距离,得新的距离矩阵 D(2)见右表二,因此时类的总个数k=4大于1类,重复并类 过程. (10)画聚类谱系图形. (11)确定类的个数及各类的成员. 若分为两类,则 若分为三类,则 若分为四类,则 若分为五类,则 data han1; input name $ x @@; cards; x1 1 x2 2 x3 4.5 x4 6 x5 8 ; proc cluster data=han1 method=single nonorm outtree=han2; var x; id name; proc tree data=han2 out=han3 ncl=2 horizontal graphics; id name; proc print data=han3; run; 说明:以上SAS程序中,引入一个字符变量name,目的是在输出中用x1至x5来识别5个产品CLUSTER过程是用于系统聚类的过程.选项method=single规定类距离使用最短距离法.选项nonorm表示类间的距离不进行规格化. 选项outtree=han2指定输出数据集的名字,该数据集包含用 于画谱系聚类图的并类过程.Var语句指出用于聚类分析的变量; id语句指定在输出中
显示全部
相似文档