模式识别K均值聚类简单实现.doc
文本预览下载声明
实验三 K均值算法
实验目的:
对有一个初步的理解,能够根据自己的设计对算法有一个深刻地认识;
理解。实验条件PC微机一台和MATLAB软件。
实验原理给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。 是d维特征向量,j = 1,2,…,n ;已知类别数K和初始聚类中心的距离;相似性测度可以采用欧氏距离;聚类准则采用误差平方和准则,其准则函数为
是第i类的聚类中心。
步骤如下:
初始化:给定类别数K,初始化聚类中心
第次迭代的修正:逐个将样本按照最小距离原则分配给K个聚类中心的某一个。
若,则 是聚类中心为的样本集。
计算新的聚类中心:
其中为第一个聚类所包含的样本个数。
用均值向量作为新的聚类中心,可使准则函数最小。
若令 转(2);将样本逐个重新分类,重复迭代计算。
若算法收敛,计算完毕。
实验内容:
用MATLAB得出30个随机二维向量
通过K均值算法kmeans对30个随机二维向量进行分类
实验程序及结果:
clc;
clear;
x1=1.2*randn(10,1)+3
y1=1.1*randn(10,1)+3
a=[x1,y1];
x2=1.2*randn(10,1)+6
y2=1.1*randn(10,1)+6
b=[x2,y2];
x3=1.2*randn(10,1)+9
y3=1.1*randn(10,1)+9
c=[x3,y3]
figure(1);plot(x1,y1,k.,x2,y2,k.,x3,y3,k.);%用黑点画出30个随机点;
X=[a;b;c]
[idx,c]=kmeans(X, 3)%kmeans进行分类
figure(2);plot(X(idx==1,1),X(idx==1,2),r.)%用红点画出第一类
hold on
plot(X(idx==2,1),X(idx==2,2),b.)%用蓝点画出第二类
hold on
plot(X(idx==3,1),X(idx==3,2),g.)%用绿点画出第三类
效果图:
实验总结:
通过本次实验我进一步熟悉了K均值算法的相关知识。此外还在一定程度上锻炼了我的编程能力及对matlab的使用。
显示全部