文档详情

统计分类器及学习.doc

发布:2018-04-10约5.09千字共12页下载文档
文本预览下载声明
第四章 统计分类器及学习 在距离分类器和判别函数分类器中,我们都是把模式看作是维欧氏空间中的一个点,而且统一类别的模式在空间中聚集在一定的区域,不同模式的区域在空间中具有一定的分离性。在本章所讨论的统计分类器中,我们仍然认为模式是欧氏空间中的一个点,但是每一类模式不是分布在空间中的一个确定区域,而是可能分布在整个空间,只不过空间中每一点属于某一类的概率不同,属于这一类的可能性大一些,属于另一类的可能性小一些。我们可以利用这样的性质来建立统计分类器。 4.1 概率论基本知识 本章中我们使用的主要数学工具是概率论,因此先来复习一些概率论的知识。 一、事件 自然界的事件可以分为确定性事件和不确定性事件,确定性和不确定性主要体现在事件的概念和发生上。概念是确定的,发生也是确定的,这是确定事件,例如在标准大气压下,水加热到100度就会开;概念是确定的,发生是不确定的,称为随机事件,例如掷骰子事件;还有一些事件的概念本身就不确定,这类事件称为模糊事件,例如年青人的概念是不确定的,遇到的人是年青人的事件就是模糊事件。 对模糊事件的处理,在模式识别中也占有重要的地位,本章中我们只讨论随机事件。 二、随机变量 随机事件的数量表示称为随机变量。取值为离散的称为离散随机变量,例如掷硬币,只可能出现正、反两面,分别用0和1表示;取值为连续的称为连续随机变量,例如测量物体的长度。 三、频率和概率 设为联系于某个试验的随机事件,试验在相同的条件下重复次,其中次事件发生,则发生的频率为,计为:。 由于事件的随机性,的频率也是一个随机变量。但是当很大时,频率会趋向一个稳定值,称为的概率,即。 四、联合概率和条件概率 联合概率:设是两个随机事件,和同时发生的概率称为联合概率,记为:; 条件概率:在事件发生的条件下,事件发生的概率称为条件概率,记为:; 乘法定理:条件概率与联合概率之间存在如下关系:; 五、概率密度函数 概率分布函数:设为连续型随机变量,定义分布函数; 概率密度函数:如果存在一个非负函数使得成立,则称为的概率密度函数。 同时有:,。 六、全概公式和贝叶斯公式 互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们是互不相容的。 全概公式:若事件只能与两两不相容的事件之一同时发生,则有: 贝叶斯公式: 当为连续随机变量,为离散随机变量时:。 4.2 最小错误率准则贝叶斯分类器 在下面的讨论中,我们都假设为类别未知样本,用维特征矢量来表示,现有个类别,先验概率和类条件概率已知。我们要根据先验概率和条件概率将分类到某一类中去。 一、最小错误率准则 进行分类就必须要有一个分类准则。由于每一个类别都是分布在整个空间中,因此有可能是任何一个类别,现在我们把它判别为某一类,必然要带来错误,一般来情况下我们希望这种错误的概率越小越好。将分类为类所产生的误判概率为: 要使得判别的错误率最小,也就是寻找一个类别,使得,这就等价于后验概率最大。 然而后验概率我们并不知道,但是可以利用贝叶斯公式转换为先验概率和类条件概率: 由于每一类都相同,对比较大小没有影响,因此可以取判别函数: 判别规则为: 若,则 这就是贝叶斯分类器的判别准则。 下面来看一下的情况,判别准则可以写成: 进一步可以写成: 令:,,则有: 其中:称为似然比,称为似然比的阈值。 例4.1 二、贝叶斯分类器的错误率估计 有了贝叶斯分类器的判决准则后,我们还可以计算出误判的概率。 以一维特征和两类别情况为例来进行说明。错误率是有两部分产生的,一部分是实际应该属于而将误判为类(对应于右面部分),一部分实际应该属于类而被误判为类(对应左面部分)。因此有: 4.3 最小平均风险准则贝叶斯分类器 前面我们以最小错误率为准则建立的贝叶斯分类器,然而对某些问题来说这样的准则并不适合。这是因为每次误判所带来的后果并不一样,有一些类别被误判的后果非常严重,而另一些类别被误判的后果却并不严重,例如对于癌症诊断问题,如果一个癌症患者被误判为正常,那么后果非常严重,有可能耽误治疗;而一个正常人被误诊为患有癌症,后果并不很严重,随着进一步的诊断,可以改变这种误判。 下面我们就来介绍一种依据最小平均风险准则的贝叶斯分类器。 设由个类别,。首先我们需要根据实际问题定义一组数据,表示将类的样本误判为类的代价,这应该是一个的矩阵。然后我们可以用下面的公式计算将未知模式判别为类的平均风险: 其中为用加权的后验概率。因为当我们将分类为时,它有可能是类的任何一类,因此总的平均风险就是对加权后的后验概率求和。我们的判决准则应该是选择一个平均风险最小的类别作为输出的决策类别。因此可以构造判别函数:。 现在的问题同最小错误率准则一样,我们并不知道后验概率,而是已知先验概率和条件概率,因此我们还需要使用贝叶斯公式将后验概率转
显示全部
相似文档