文档详情

朴素贝叶斯分类.docx

发布:2020-12-18约7.9千字共13页下载文档
文本预览下载声明
朴素贝叶斯分类 作者: 日期: 朴素贝叶斯分类 1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯 分类。本文作为分类算法的第一篇, 将首先介绍分类问题,对分类问题进行一个正式的定义。 然后,介绍贝叶斯分类算法的基础 一一贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单 的一种:朴素贝叶斯分类。 1. 2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸 张,只是我们没有意识到罢了。 例如,当你看到一个陌生人,你的脑子下意识判断 TA是男是女; 你可能经常会走在路上对身旁的朋友说 这个人一看就很有钱、那边有个非主流 ”之类的话, 其实这就是一种分类操作。 从数学角度来说,分类问题可做如下定义: 已知集合:一 ;■- :;和J:,确定映射规则 ◎ - f?, 使得任意商有且仅有一个酌E °使得町=f (对)成立。(不考虑模糊数 学里的模糊集情况) 其中C叫做类别集合,其中每一个元素是一个类别,而 I叫做项集合,其中每一个元素是 一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 这里要着重强调,分类问题往往采用经验性方法构造映射规则 ,即一般情况下的分类问 题缺少足够的信息来构造 1 oo %正确的映射规则,而是通过对经验数据的学习从而实现一 定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到 其分类,分类器的质量与分类器构造方法、 待分类数据的特性以及训练样本数量等诸多因素 有关。 例如,医生对病人进行诊断就是一个典型的分类过程 ,任何一个医生都无法直接看到病 人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一 个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法 )、病人的症状是 否突出(待分类数据的特性)以及医生的经验多少 (训练样本数量)都有密切关系。 1 .3、贝叶斯分类的基础一一贝叶斯定理 每次提到贝叶斯定理,我心中的崇敬之情都油然而生,倒不是因为这个定理多高深,而 是因为它特别有用。这个定理解决了现实生活里经常遇到的问题:已知某条件概率 ,如何得 到两个事件交换后的概率,也就是在已知P (A|B)的情况下如何求得 P(B|A)。这里先解释什 么是条件概率: 卩(川I B良示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的 条件概率。其基本求解公式为 : ■ - o 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况: 我们可以很容易直接 得出P (A| B) , P (B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从 P (A|B)获得P( B| A )的道路。 下面不加证明地直接给出贝叶斯定理 : 1 . 4、朴素贝叶斯分类 1.4. 1、朴素贝叶斯分类的原理与流程 朴素贝叶斯分类是一种十分简单的分类算法 ,叫它朴素贝叶斯分类是因为这种方法的 思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项 ,求解在此项出现 的条件下各个类别出现的概率 ,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就 好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为 什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人 ,但在没有其它 可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。 朴素贝叶斯分类的正式定义如下 : 1、 设; 为一个待分类项,而每个a为x的一个特征属性。 2、 有类别集合=弈?…细; 3、 计算「Gif 「…阳卩十: 4、 如果p(酗卜)=血毗{尸(射|球尸(则巩则*珠。 那么现在的关键就是如何计算第 3步中的各个条件概率。我们可以这么做 : 1、找到一个已知分类的待分类项集合 ,这个集合叫做训练样本集。 2、统计得到在各类别下各个特征属性的条件概率估计。即 | Vll “ P(加 |s/i); 蕩 P(他 |坡)…匕 卩仙|曲,- 3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导 因为分母对于所有类别为常数, 因为我们只要将分子最大化皆可。 又因为各特征属性是条件独立的, 因为分母对于所有类别为常数, 因为我们只要将分子最大化皆可。 又因为各特征属性是 条件独立的,所以有: (呦|曲)-*(%|酬)只齣)=HiJi) p(幻 |jfc) J=1 根据上述分析,朴素贝叶斯分类的流程可以由下图表示 (暂时不考虑验证): 准备工作阶段以P(x|yJP(yi)最大项 作为X所属类别对每个类别计算P(x|yi)P{yi) 准备工作阶段 以P(x|yJP(yi)最大项 作为X所属类别 对每个类别计算 P(x|yi
显示全部
相似文档