2025年K-means聚类算法实现与应用研究.docx
哈尔滨工业大学
数据挖掘理论与算法试验汇报
(秋季学期)
课程编码S1300019C
讲课教师高宏
学生姓名赵天意
学号14S101018
学院电气工程及自动化学院
一、试验内容
设计实现k均值聚类算法。
二、试验设计
随机生成2维坐标点,对点进行聚类,进行k=2聚类,k=3聚类,多次k=4聚类,分析比较试验成果。
三、试验环境及测试数据
试验环境:Windows7操作系统,Python2.7IDLE
测试数据:
随机生成3个点集,点到中心点距离服从高斯分布:
集合大小
中心坐标
半径
1
100
5,5
2
2
100
10,6
2
3
100
8,10
2
四、试验过程
编写程序
随机生成测试点集,分别聚成2,3,4类,观测试验成果
多次4聚类,观测试验成果
五、试验成果
初始随机点:
2聚类
迭代-平方误差
1
2
3
4
5
6
1337
677
639
634
633
633
聚类中心与类中点数
9.06,8.29
191
5.05,5.01
109
3聚类
1
2
3
4
5
6
7
8
9
10
11
12
810
692
690
688
686
681
565
385
369.4
369.8
370
370
4.99,5.05
108,
7.92,10.48
93
10.15,6.16
99
4聚类
迭代27次,平方误差344.
7.95,,10.56
90
4.89,5.00
103
8.41,6.31
38
10.75,6.1,4
69
多次4聚类
迭代27次
平方误差352.19
4.95,5.03
106
9.79,6.03
93
7.85,10.50
90
12.71,8.16
11
迭代8次
平方误差356.19
10.15,6.16
99
7.92,10.48
93
5.54,5.01
67
4.09,5.10
41
迭代7次
平方误差352.35
10.39,6.04
87
4.91,4.98
103
8.00,10.79
79
7.71,7.69
31
六、碰到的困难及处理措施、心得体会
K-Means初值对最终的聚类成果有影响,不一样初值,也许会有不一样的聚类成果,也就是说,K-Means收敛于局部最长处
K-Means趋向于收敛到球形,每类样本数相近
K-Means伴随k的增长,平方误差会减少,但聚类效果未必变好
该例子,2聚类误差633,3聚类370,4聚类350,可以发现2聚类到3聚类误差下降较快,3到4聚类误差下降较慢,因此3是最佳聚类个数。