文档详情

尚硅谷大数据技术之spark机器学习kmeans聚类.pdf

发布：2025-01-01约1.33千字共7页下载文档

文本预览下载声明

Contents

01聚类的定义

02Kmeans的过程

03相似度计算方法

04K的初始位置

05KMeans的优劣

聚类的定义与思想

聚类属于无监督学习，就是对大量未知标注的数据集，按数据的内在相似性将数

据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小

给定一个有N个对象的数据集，

划分聚类技术将构造数据的k个划

分，每一个划分代表一个簇，k≤n。

也就是说，聚类将数据划分为k个

簇，而且这k个划分满足下列条件：

每一个簇

显示全部

相似文档