[2018年最新整理]16-朴素贝叶斯.ppt
文本预览下载声明
问题 如果我们想用两个特征进行分类,应该如何利用已经学过的公式? 朴素贝叶斯 ⑴ 每个数据样本用一个n维特征向量 X= ( x1, x2, ... , xn}表示,分别描述对n个属性 A1 , A2 ,...An 样本的n个度量。 ⑵ 假定有m个类CI,C2,...Cm,给定一个未知的数据样 本X(即没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当 朴素贝叶斯 P(Ci∣X) P(Cj∣X), 1<j<m, j≠i 这样,最大化P(Ci∣X)。 即假定样本类Ci的概率大于假定其他类的概率。其中P(CiIX)最大的类Ci称为最大后验假定。 根据贝叶斯定理得: P(Ci∣X) =P(X∣Ci)P(Ci)/ P(X) 朴素贝叶斯 我们大家知道: P(X)指的是任意一个数 据对象符合样本X的概率,对于所有的类 来说,它为常数。 由公式可看出:只需要P(X∣Ci)P(Ci)最大即可。 其中:对于先验概率P(Ci) 可以用P(Ci) =Si/S计算,其中Si是类Ci中 的训练样本数,而S是训练样本总数。 朴素贝叶斯 贝叶斯公式 先验概率P(cj) P( cj|x) = P(x|cj)P(cj) P(x) 联合概率P(x|cj) 后验概率P(cj|x) 贝叶斯分类 我们现在计算 P(cMAP|x) = max P(cj|x) j∈(1,|C|) 则P(cMAP|x)称为最大后验概率 然后我们就把x分到cMAP类中 朴素贝叶斯 设x = a1,a2…am,为一个有m个属性的样例 = max P(a1,a2…am|cj)P(cj) P(a1,a2…am) = max P(a1,a2…am|cj)P(cj) (1) P(cMAP|x)= max P(cj|x) j∈(1,|C|) = max P(cj|a1,a2…am) 朴素贝叶斯基于一个简单的假定:在给定目标值时属性值之间相互条件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的a1,a2…am的概率正好是对每个单独属性的概率乘积 朴素贝叶斯 (2) 将(2) 式其代入(1)式中,可得到朴素贝叶斯,如下 举例说明 目标概念PlayTennis的训练样例 Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No
显示全部