尚硅谷大数据技术之spark机器学习kmeans聚类.pdf
文本预览下载声明
Contents
01聚类的定义
02Kmeans的过程
03相似度计算方法
04K的初始位置
05KMeans的优劣
聚类的定义与思想
聚类属于无监督学习,就是对大量未知标注的数据集,按数据的内在相似性将数
据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小
给定一个有N个对象的数据集,
划分聚类技术将构造数据的k个划
分,每一个划分代表一个簇,k≤n。
也就是说,聚类将数据划分为k个
簇,而且这k个划分满足下列条件:
每一个簇
显示全部