文档详情

模式识别聚类.ppt

发布:2025-02-06约5.34千字共48页下载文档
文本预览下载声明

利用、、可以定义如下的4个聚类准则:表示矩阵的迹,也就是对角线元素之和,||为行列式。J1~J4同时考虑了类内的散射和类间散射,为了得到好的聚类结果,它们的值越大越好。第37页,共48页,星期六,2024年,5月两种简单的聚类算法介绍两种简单的聚类分析方法,它是对某些关键性的元素进行试探性的选取,使某种聚类准则达到最优,又称为基于试探的聚类算法。采用最近邻规则的聚类算法最大最小距离聚类算法第38页,共48页,星期六,2024年,5月1.采用最近邻规则的聚类算法假设已有混合样本集,按照最近邻原则进行聚类,算法如下:①选取距离阈值T,并且任取一个样本作为第一个聚类中心Z1,如:。②计算样本到Z1的距离D21:若,则,否则令为第二个聚合中心,。第39页,共48页,星期六,2024年,5月采用最近邻规则的聚类算法(续)设,计算到Z1和Z2的距离D31和D32,若D31T和D32T,则建立第三个聚合中心。否则把归于最近邻的聚合中心。依此类推,直到把所有样本都进行分类。③按照某种聚类准则考察聚类结果,若不满意,则重新选取距离阈值T、第一个聚合中心Z1,返回②,直到满意,算法结束。第40页,共48页,星期六,2024年,5月在样本分布一定时,该算法的结果在很大程度上取决于第一个聚合中心的选取和距离阈值的大小。该算法的优点是简单,如果有样本分布的先验知识用于指导阈值和起始点的选取,则可较快得到合理结果。对于高维的样本集来说,则只有经过多次试探,并对聚类结果进行验算,从而选择最优的聚类结果。采用最近邻规则的聚类算法(续)第41页,共48页,星期六,2024年,5月2.最大最小距离聚类算法该算法以欧氏距离为基础,除首先辨识最远的聚类中心外,与上述算法相似。用一个例子说明该算法。第42页,共48页,星期六,2024年,5月例:样本分布如图所示。第43页,共48页,星期六,2024年,5月第44页,共48页,星期六,2024年,5月第45页,共48页,星期六,2024年,5月第46页,共48页,星期六,2024年,5月第47页,共48页,星期六,2024年,5月该算法的聚类结果与参数和起始点Z1的选取关系重大。若无先验样本分布知识,则只有用试探法通过多次试探优化,若有先验知识用于指导和Z1选取,则算法可以很快收敛。第48页,共48页,星期六,2024年,5月聚类分析避免了估计类概率密度的困难,对每个聚合中心来说都是局部密度极大值位置,其附近密度高,距离越远密度越小。聚类分析的关键问题:如何在聚类过程中自动地确定类型数目c。实际工作中,也可以给定值作为算法终止的条件。第5页,共48页,星期六,2024年,5月聚类分析的结果与特征的选取有很大的关系。不同的特征,分类的结果不同。第6页,共48页,星期六,2024年,5月1.距离相似性度量一个模式样本,对应特征空间里的一个点。如果模式的特征是适当选择的,也就是各维特征对于分类来说都是有效的,那么同类样本就会密集地分布在一个区域里,不同类的模式样本就会远离。因此,点间距离远近反映了相应模式样本所属类型有无差异,可以作为样本相似性度量。距离越近,相似性越大,属于一个类型。聚类分析中,最常用的就是距离相似性。第7页,共48页,星期六,2024年,5月(1)欧氏距离欧氏距离简称距离,模式样本向量x与y之间的欧氏距离定义为:d为特征空间的维数。当较小时,表示x与y在一个类型区域,反之,则不在一个类型区域。这里有一个门限的选择问题。若选择过大,则全部样本被视作一个唯一类型;若选取过小,则可能造成每个样本都单独构成一个类型。必须正确选择门限值以保证正确分类。第8页,共48页,星期六,2024年,5月(1)欧氏距离(续)另外,模式特征坐标单位的选取也会强烈地影响聚类结果。例如:一个二维模式,一个特征是长度,另一个特征是压力。当长度由厘米变为米,在中长度特征的比重会下降,同样,若把比重单位由毫米汞柱高度变成厘米汞柱高度,中压力特征的影响也会下降。第9页,共48页,星期六,2024年,5月(1)欧氏距离(续)可以用图表示上述情况:从上图看出,(b)、(c

显示全部
相似文档