文档详情

基于高斯溷合模型的EM学习算法.pdf

发布:2015-09-02约8.15千字共4页下载文档
文本预览下载声明
维普资讯 山西师范大学学报(自然科学版) 第 l9卷第 1期 JournalofShanxiTeachersUniversity V01.19 No.1 2005年 3月 Natural ScienceEdition Mar.20o5 文章编号:1009-4490I2005)01-0046-04 基于高斯混合模型的EM学习算法 王 源。,陈亚军 (1.西华师范大学计算机学院微机应用研究所,四川 南充 637002; 2.淮南师范学院信息技术系,安徽 淮南 232001; 3.西华师范大学物理与电子信息学院,四川 南充637002) 摘 要:本文研究了一类基于无监督聚类学习的算法——EM算法的算法实现.EM算法通常用于存在 隐含变量时的聚类学习,由于引入了隐含变量,导致算法难以保证收敛和达到极优值.本文通过将该算 法应用于高斯混合模型的学习,引入重叠度分析的方法改进EM算法的约束条件,从而能够确保 EM算 法的正确学习. 关键词:高斯混合模型;EM算法;无监督聚类;机器学习 中图分类号:TP181 文献标识码:A O 引言 在模式分类中,基于模型的无监督学习是一种 自动学习的方式,不需要对学习样本做类别标记,利用 已知的数学模型通过逐步逼近的方法,使给定数据集与数学模型之间达成最佳拟合.在许多实际的机器学 习问题框架中,相关实例特征中只有一部分可以被观察到,我们常常只能根据所观察到的样例去推断未知 的数据.也就是说,在许多现实世界中的问题存在着隐含变量(hiddenvariables),有时又称为潜在变量(1a- tentvaribales)…,是指在学习过程中未完全观察到的数据.事实上,某些变量有时能观察到,有时不能,通 常的办法是:使用已经观察到的该变量的实例去在一定范围内估计未观察到的实例中的变量的值.隐含变 量的出现能够大幅度减少参数的数 目,但在大幅度减少数据数量的同时需要设置学习参数,从而使学习的 问题变得复杂. 聚类分析也称为数据分割,具有多种 目标,但都涉及把一个对象集合分组或分割为子集或 “簇”,使得 每个簇内部的对象之间的相关性比其他簇中对象之间的相关性更紧密.无监督聚类是在多种对象集合中 辩识的问题,之所以叫无监督,是因为分类标志未事先给定,基于无监督聚类的机器学习称为无监督学习. 基于模型的聚类方法就是试图对给定数据与某个数学模型达成最佳拟合,这类方法经常是基于数据 都是有一个内在的混合概率分布假设来进行的.基于模型聚类方法主要有两种:统计方法和神经网络方 法,本文采用的EM算法属于统计学习方法,是从不完全数据 中计算极大似然估计的重复统计技术,比照 传统神经网络的学习方法,它具有低开销,不用设置学习步长、易收敛、收敛速度快和易于实现的特点,是 当前机器学习领域的主流技术之一. 1 高斯混合模型 . 假定我们有一系列观察值由混合分布P产生,该分布由k个独立同方差的高斯分布构成,即有k个成 收稿 日期 :2004-07-08 基金项 目:四川省教育厅重点项 目基金资助 (2004A102). 作者简介:王源(197l一),男,安徽淮南人,淮南师范学院讲师,硕士,主要从事机器学习方面的研究. 维普资讯 第 1期 王源 陈亚军:基于高斯混合模型的EM学习算法 分.首先选取一个成分然后基于该成分产生一个样本从而得到数据点.设定有J7v个点组成了指定的数据集 D = } 。.将数据集D在d维空间中的对应的点作为一定分布的样本值,则此分布可由k个高斯密度 函数的加权平均所表示的概率密度函数描述如下: p(,)=∑ayC(x,my,∑),Ol≥0且∑ =1
显示全部
相似文档