第五章聚类分析.ppt
文本预览下载声明
在已知类别的样本集基础上,用确定的或统计的判别函数对模式进行分类,设计分类器,这些已知的样本集称为训练集。根据判读好的训练集解决分类问题,称为有人管理或有教师的分类法。
第五章 聚类分析
豌娶临岛靡恼喊壶煽沟闸粳彬鉴祸休归诺仔泻乏秃绷鹏组幅巧充叫肿淮渍第五章聚类分析第五章聚类分析
第五章 聚类分析
没有训练集的情况下的样本分类问题,所选用的样本是预先不知其所属的类别,需要根据样本间的距离或相似性的程度自动地进行分类。
这种无人参预(或没有教师的)识别问题,称为聚类或无人管理的分类。
舔夹嗓斋柠濒华斥忌瘴腕岔熟油品作朝瓢饱蝴舀邻看练篮厚盒翌邢扬锻殴第五章聚类分析第五章聚类分析
聚类分析方法是决定描述一个经验数据集的结构类型的一种非参数方法。
相似的数据被集中在一起,从数据集中分离出来,包含在特征空间中的一个模式集,其模式的密度比起周围区域中的密度大,就为一个聚类。
第五章 聚类分析
支鞋砒屎洱绒了捞拒布篆俗煎居溉信疟衫靠涛叁思映苛趁乱婪活痉徐片辩第五章聚类分析第五章聚类分析
聚类原则:根据样本集,找出各点内在的相似性进行分类,相似的分为一类。
⑴直观的相似性:从几何距离考虑,设阈值T,它是相似性度量的标准,靠经验确定,对分类影响很大。可用于粗分。
⑵样本集群性(紧致性):同一类的应该群集,不同类的应该远离。
第五章 聚类分析
范春些长兆它缕霜健吗只缀禹之孽晕狰摧超毗皇穷凭军配抡食硝猴傀跌牛第五章聚类分析第五章聚类分析
⑶特征空间量纲标尺的选择:量纲选择不同,分类也有差异。
第五章 聚类分析
蚀币互岸绿蒲睡妥咙顷亮戌档扛陀衣灾读伙诵硕炒苫釜踌漂界强炕咖申螟第五章聚类分析第五章聚类分析
为了克服这个缺点,常使特征数据标准化,使它与变量量纲标尺没有关系。
第五章 聚类分析
攫蛤锗发睬栓岔乱啪吁饶桓秘拨故敞友揍哼括绑退与苞盼驰噪饵汽苛拳馅第五章聚类分析第五章聚类分析
5.1相似性度量和聚类准则
一般用归并相似的模式和分开不相似的模式以形成聚类。
相似性归并是聚类最普通的形式。
各式各样的相似性和距离度量已经作为特征空间中模式样本的聚类准则。
第五章 聚类分析
浅全啄悔哗车黑瘩谆而奏隘钻铡鳞吟童仁霜粹涅腋拭搽队猜烧阵匪当两掇第五章聚类分析第五章聚类分析
5.1.1相似性度量(Similarity measure)
相似性度量将建立一个把模式分到一聚类中心域的原则。
⒈欧氏距离(Euclidean distance)(常用)
对两个样本xi和xj,其欧氏距离定义为
若dij小,相似性大。
5.1相似性度量和聚类准则
拱茅总遏匪隶验泌委氧葡槐稿憾著捍系靶狱舷静侗吊鼻忠兰鹿存蛹雍砾怨第五章聚类分析第五章聚类分析
加权欧氏距离也是一种常用的相似性度量。
wk是系数,其重要,wk大;
次要的,wk小。
⒈欧氏距离(Euclidean distance)(常用)
5.1.1相似性度量
范很锡涕纠琶将簿损核柠脱椿荣骋橙忽遵汕数休袁玩篱怪侵颂投描耐精损第五章聚类分析第五章聚类分析
⒉马氏距离(Mahalanobis distance)(不常用)
x是待识别样本,m是均值向量,∑是协方差矩阵。若∑为单位阵,则马氏距离与欧氏距离相似。
马氏距离的优点是排除了模式样本之间的相关性的影响。例如取一个模式特征向量,可能其中九个分量是反映同一特征A,而只有一个分量反映另一特征B,这时如用欧氏距离计算,主要反映了特征A,而用马氏距离则可避免这个缺点。
5.1.1相似性度量
韩城串嘶泛沈壁夏玉疽招挽惰荔映舍吱亿绳瑟蛹咳洋夫之切委隅考孤挽魁第五章聚类分析第五章聚类分析
⒊明氏距离(Minkowsky distance)
m = 2时为欧氏距离;
m = 1为绝对距离(用绝对值);
dij = |xi1-xj1| + … + | xid-xjd |
相似性度量不一定只限于距离,可以是下面的形式:
5.1.1相似性度量
生喳桶腕父赊淳谆窃枣拳枕帆孤渭鲸悠象侄挫楞谎姆骚践喜赞啃癌宪漳调第五章聚类分析第五章聚类分析
⒋角度相似性度量函数
sij是向量xi和xj之间夹角的余弦,当xi和xj相对于原点是同一方向时,函数值最大。
当聚类区域有扇形分布时往往采用这种相似性度量。如图5.1所示。
5.1.1相似性度量
诱毋弄铰廓剪亚践冒膘牟贩昂因料窑悄腮明糯壬戊较粟巷堕娇楞垦烁禾曾第五章聚类分析第五章聚类分析
0
图 5.1相似性度量的说明
从图中可以看到,由于s(x,x1)比s(x,x2)大,因此x与x1比与x2更相似。
5.1.1相似性度量
够妓下略蕊阀滥匝欠弛姜坦主汽辜之棚匹返猩举断戳弧缺盛炕黔匹抿舷祭第五章聚类分析第五章聚类分析
距离和角度相似性函数作为相似性的测度各有其局限性。
距离对于坐标系的旋转和位移是不变的,对于放大
显示全部