05第五章非监督学习法5.3–5.4.ppt
文本预览下载声明
§5.3 聚类方法;例:使用聚类方法实现道路识别;§5.3.1 动态聚类方法;动态聚类方法基本要点;动态聚类算法的要点 ;C-均值算法;C-均值算法;(3) “密度”法选择代表点。 ;确定初始划分的方法 ;(3) 既选择了代表点又同时确定了初始划分的方法。 ;(4) 先将数据标准化,用yij表示标准化后第i数据的第j个分量,令 ;3、迭代计算 ;而样本y新加盟的 集合,其均值为:;4、C—均值算法步骤 ;(5) 对于所有的j,若ei≤ej,则将y从Γj 移到Γi中。;Jc值随c变化的曲线,;ISODATA算法;(2) 由于算法有自我调整的能力,因而需设置若干控制参数。;ISODATA算法;分类:对所有样本,按给定的c个聚类中心,以最小距离进行分类,即;(6) 计算整个样本集偏离均值的平均距离:;(9) 求每类具有最大标准偏差的分量:;(11) 计算类间聚类中心距离:;(13) 执行合并:;ISODATA算法与C—均值算法的主要不同在于自我控制与调整的能力不同。它们的另一个不同点是,C—均值算法的类均值参数在每个样本归入时随即修改,因而称为逐个样本修正法,而ISODATA算法的均值向量或聚类中心参数是在每一次迭代分类后修正的,因而称为成批样本修正法。;样本非球体分布的动态聚类算法 ;样本非球体分布的动态聚类算法 ;正态核函数:;算法步骤:;算法的收敛性;C—均值算法实际上是基于核Kj的动态聚类算法的特例;样本非球体分布的动态聚类算法 ;(1) 近邻关系描述;(2) “连接”损失;样本之间的“连接”与“连接”损失;(3) 类内损失与类间损失 ;类内最大连接损失aimax :即ωi中各点间连接的最大连接损失值。 ;总的类间损失定义为:;(4) 近邻函数准则算法;步骤4:通过对矩阵L进行搜索,将每个点与和它有最小近邻函数值的点连接起来,从而形成初始聚类。;分级聚类方法;分级聚类方法示意图;聚类的相似性度量方法;分级聚类算法;不同的相似性度量对聚类结果的影响;采用最远距离的距聚类结果;§5.4 非监督学习方法中的一些问题;非监督学习中的尺度问题举例;本章小结
显示全部