文档详情

尚硅谷大数据技术之spark机器学习kmeans聚类.pptx

发布:2024-12-31约小于1千字共8页下载文档
文本预览下载声明

机器学习-KMeans聚类讲师:武玉飞

0102030405聚类的定义Kmeans的过程相似度计算方法K的初始位置KMeans的优劣目录Contents

聚类的定义与思想聚类属于无监督学习,就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小基本思想:对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。给定一个有N个对象的数据集,划分聚类技术将构造数据的k个划分,每一个划分代表一个簇,k≤n。也就是说,聚类将数据划分为k个簇,而且这k个划分满足下列条件:每一个簇至少包含一个对象每一个对象属于且仅属于一个簇

Kmeans算法实现KMEANS结束条件:直到类中心不再进行大范围移动或者聚类迭代次数达到要求为止。未聚类的初始点集;随机选取两个点作为聚类中心;计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去;计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心;重复(c),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去;重复(d),计算每个聚类中的所有点的坐标平均值,并将这个平均值作为新的聚类中心。算法步骤

相似度计算方法1、欧式距离2、余弦距离

K的初始位置从输入的数据点集合中随机选择一个点作为第一个聚类中心对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大重复2和3直到k个聚类中心被选出来利用这k个初始的聚类中心来运行标准的k-means算法

优点:是解决聚类问题的一种经典算法,简单、快速对处理大数据集,该算法保持可伸缩性和高效率当结果簇是密集的,它的效果较好缺点必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。对躁声和孤立点数据敏感KMeans的优劣

显示全部
相似文档