人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群.pptx
5-1聚类分析模块?物以类聚:发现新簇群
目录CONTENTS何为聚类分析01常见聚类方法02聚类性能度量03
一.何为聚类分析1.定义聚类分析:他是一种典型的无监督学习,也就是在事先不知道每个样本的类别、没有对应标签值的情况下,将未知类别的样本按照一定的规则划分成若干个相对独立的簇。簇的特点:同一个簇中的样本尽可能相似不同的簇中的样本尽可能不相似
一.何为聚类分析2.典型应用领域领域销售领域医学领域生物领域安全领域
一.何为聚类分析3.几个概念如何去描述簇?簇质心簇大小簇密度簇号…
二.常见聚类方法1.基于划分的聚类
二.常见聚类方法2.基于层次的聚类
二.常见聚类方法3.基于密度的聚类
三.聚类性能度量2.三个概念无论使用什么聚类方法对样本进行分簇,都会涉及如何对聚类后的结果进行评估,以度量聚类模型的性能的问题。聚类性能度量指标用于对聚类后的结果进行评估,分为内部指标和外部指标两大类。外部指标要事先指定聚类模型作为参考来评估聚类结果的好坏,称为有标签的评估;而内部指标是指不借助任何外部参考,只用参与聚类的样本本身评估聚类结果的好坏。内部指标惯性值轮廓系数CH分数该值越小越好,越小证明样本在类间的分布越集中值越大,说明同类样本相距越近,不同样本相距越远。当簇密集且分离较好时,CH分数更高,因此CH值越大越好。
人工智能基础与应用Thankyouverymuch!
5-2k均值聚类模块?物以类聚:发现新簇群
目录CONTENTSk均值算法01k均值算法应用提示02
一.k均值算法1.概念k均值(k-means)算法是一种基于距离划分的聚类算法,由于其具有算法简单、灵活性高、运行效果足够好等特点,因此较常用。该算法计算样本与簇质心的距离,与簇质心相近的样本被划分为同一簇。重用欧式距离计算样本之间的相似度
一.k均值算法2.算法流程
一.k均值算法2.算法流程“×”为质心,第一轮迭代后用分别标记为星形和圆形来表示两个类别,此时新的质心的位置已经发生了改变。图5-5(e)和图5-5(f)重复了图5-5(c)和图5-5(d)所示的过程。××
二.k均值算法应用提示1.k的初值k的初值。k是一个提前定义好的数,其目标是最小化每个簇内部的差异,最大化簇之间的差异。那k取什么值合适呢?它取决于具体的业务需求或分析动机。例如,营销部门只有3种不同的客户资源来支撑拓展市场,那么设定k=3以聚类3种不同的客户可能是一个不错的决定。k=没有先验知识,建议令然后在附近值搜索。
二.k均值算法应用提示2.初始质心的选择k均值算法对初始质心是比较敏感的,这意味着随机的初始质心可能会对最终的聚类结果产生较大的影响。选择初始质心的方法有3种:一是如果事先知道某几个样本彼此之间完全不同,就选择它们作为初始质心;二是跳出样本范围,在特征空间的任意地方取随机值为初始质心;三是分段选择初始质心,第一个初始质心随机选择,其他初始质心按距离已定初始质心最远的样本点来选择。建议:通过多次运行,以聚类性能最优的聚类结果为最优解。
二.k均值算法应用提示3.聚类完毕后有簇号聚类后所有样本都是有簇号的。原来没有标签号(簇号)的样本经过聚类会拥有一个簇号。相同簇号的样本的特征平均值就是该簇质心的坐标,这也是k均值算法名称的由来。提示:簇号默认从0开始,相同簇号的样本属于一类。
二.k均值算法应用提示4.聚类结束条件尽管聚类能产生新的信息,但人们不应该在新信息的准确性上花费太多时间,因为聚类是无监督学习,所以更应该关注对新信息的洞察和理解。当样本数量很大,或者定义的聚类误差很严苛时,为避免聚类陷入迟迟不出结果的尴尬局面,必须设定最大迭代次数和误差阈值,满足其一即可停止聚类。提示:迭代达到最大值,停止;或相邻两次聚类后质心移动的距离小于误差阈值,停止。
人工智能基础与应用Thankyouverymuch!
5-3项目1—探究企鹅物种的分类模块?物以类聚:发现新簇群
目录CONTENTS提出问题01预备知识03解决方案02任务1—样本数据的预处理04任务3—绘制企鹅聚类后的散点图06任务2—确定企鹅物种数量k的最佳值05
一.提出问题问题描述由于全球气候变暖和人类活动的影响,企鹅的生存状况并不乐观。因此,我们应该采取行动来保护这些迷人的生物,以确保它们能够正常繁衍、继续生存。为此,一项必要的工作就是研究如何区分企鹅的种类、哪些特征决定了它们的差异。一眼看企鹅都很相似,如何区分不用物种的企鹅呢?弄清这些问题就能更好地保护不同的企鹅,使它们成为人类永远的朋友。
二.解决方案1.选择聚类法k均值算法解决问题基本思想:基于企鹅的一些形态特征(如嘴的大小、体重等)反映了企鹅的独特之处和一些重要信息,