第5讲简单贝叶斯分类.ppt
文本预览下载声明
决策树模型(Decision Tree) ID3方法基本思想 当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3(Interative Dicmiser versions3). 原理: 首先找出最有判别力的特征,把数据分成多个子集,每个子集又选择最有判别力的特征进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树。 J.R.Quinlan的工作主要是引进了信息论中的互信息,他将其称为信息增益(information gain),作为特征判别能力的度量,并且将建树的方法嵌在一个迭代的外壳之中。 平均互信息 I(U,V) = H(U) ? H(U|V) I(U,V)称为U和V之间的平均互信息.它代表接收到符号集V后获得的关于U的信息量。 对输入端U只有U1,U2两类,互信息的计算公式为: * * 简单贝叶斯分类 监督式的学习方式,因此,在进行分类之前需要先知道分类的类型。 通过训练样本的训练学习有效的处理未来要做分类的数据。 例:分类垃圾邮件与非垃圾邮件 方法:“点击”、“此处”、“取消订阅”出现概率,垃圾邮件各位0.9,正常邮件各为0.2,把信息中所有文字的概率相乘,再利用贝叶斯统计原理,即可估计出该信息为垃圾邮件的概率。 概率:概率在实质上就是无知。 先验概率:对每种场景的可能性认识就是概率分布P (Ai) 。这样的概率就是先验概率。 后验概率:“已知某某事件发生了”情况下某场景的概率,叫做后验概率P (Ai|Y) 。 概率、先验概率与后验概率 定义 事件组A1,A2,…,An (n可为?),称为样本空间S的一个划分,若满足: A1 A2 … … … … … An B 贝叶斯定理回顾 定理 设A1,…, An是S的一个划分,且P(Ai) 0,(i=1,…,n),则对任何事件B?S,有 式子就称为贝叶斯公式。 贝叶斯定理回顾 这一公式最早发表于1763年,当时贝叶斯已经去世,其结果没有受到应有的重视. 后来,人们才逐渐认识到了这个著名概率公式的重要性. 现在,贝叶斯公式以及根据它发展起来的贝叶斯统计已成为机器学习、人工智能、知识发现等领域的重要工具. 贝叶斯定理回顾 贝叶斯公式给出了‘结果’事件B已发生的条件下,‘原因’属于事件Ai的条件概率. 从这个意义上讲,它是一个“执果索因”的条件概率计算公式.相对于事件B而言 ,概率论中把P(Ai)称为先验概率(Prior Probability),而把P(Ai|B)称为后验概率 (Posterior Probability),这是在已有附加信息(即事件B已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新. 贝叶斯定理回顾 分类问题2 这个人会不会逃税? 税号 去年退税 婚姻状况 可征税收入 逃税 1 是 单身 125k 否 2 否 婚姻中 100k 否 3 否 单身 70k 否 4 是 婚姻中 120k 否 5 否 离婚 95k 是 6 否 婚姻中 60k 否 7 是 离婚 220k 否 8 否 单身 85k 是 9 否 婚姻中 75k 否 10 否 单身 90k 是 贝叶斯分类方法 把每一个属性(输入) 和分类变量(输出)都看作随机变量 对于具有属性值(A1, A2,…,An)的观测记录 目标是预测类别C 特别地, 我们想找能够最大化P(C| A1, A2,…,An )的 C 值 能否从直接数据中估计P(C| A1, A2,…,An )? 贝叶斯分类方法 方法: 使用贝叶斯定理对于分类变量C的所有值计算后验概率P(C | A1, A2, …, An) , 选择C 使得P(C | A1, A2, …, An)最大 等价于选择C 使得 P(A1, A2, …, An|C) P(C)最大 如何估计P(A1, A2, …, An | C )? 简单贝叶斯 假设在给定的类别上属性变量 Ai 相互独立: P(A1, A2, …, An |C) = P(A1| Cj) P(A2| Cj)… P(An| Cj) 对所有的Ai 和 Cj计算P(Ai| Cj). 如果对某一个Cj ,P(Cj) ? P(Ai| Cj) 最大,新的数据点就被分类到Cj 。 哪个条件概率更大,这个新观测记录就归到那个类。 贝叶斯分类法:二类别 问题: 在数据集合中,X 表示多维离散随机输入向量,C0 和 C1是输出变量的两个类别。对于新观测记录 , 它应该属于哪个类别呢? 根据贝叶斯定理, 1. 输入变量为离散时的贝叶斯分类法 更大 (续上页) 比较条件概率的方法等价于找 Cj 使得 贝叶斯分类法:二类别 分类问题1 名称 胎生 会飞 水中生
显示全部