文档详情

尚硅谷大数据技术之spark机器学习kmeans聚类.pdf

发布:2025-01-01约1.33千字共7页下载文档
文本预览下载声明

Contents

01聚类的定义

02Kmeans的过程

03相似度计算方法

04K的初始位置

05KMeans的优劣

聚类的定义与思想

聚类属于无监督学习,就是对大量未知标注的数据集,按数据的内在相似性将数

据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小

给定一个有N个对象的数据集,

划分聚类技术将构造数据的k个划

分,每一个划分代表一个簇,k≤n。

也就是说,聚类将数据划分为k个

簇,而且这k个划分满足下列条件:

每一个簇

显示全部
相似文档