06-2贝叶斯分类.pptx
文本预览下载声明
Native Bayes Classifier 单纯贝氏分类Native Bayes Classifer单纯贝氏分类 (Native Bayes Classifier) 根据贝氏定理 (Bayesian Theorem)预测分类结果。也就是给定X的属性描述,找出元组X属于类C的概率。属于一种有监督的学习方式,通过样本的训练学习,有效地处理未来的案例数据。在某些领域,分类效果优于神经网络和决策树模型。主要用于大型数据库,分类结果准确且高效率。概率论随机实验(Random Experiment)是一种实验过程,实验前已知所有可能结果,但不能预测实验结果,相同状况下实验可重复试行。1. 新生婴儿性别实验2. 产品检验样本空间:随机试验所有可能结果集合。样本空间内的元素称为样本点。1.新生婴儿性别实验 S={男性、女性}2.产品检验S={良品、不良品}概率:衡量某一事件可能发生的程度,并量化。考试会录取的概率、明天会下雨的概率概率理论一、古典概率:先验概率(prior probability) 或事前概率,满足:1.样本空间的样本点数是有限的2.样本空间内所有样本点发生概率为相同的事件E发生的概率以P(E)表示(抛硬币实验)P(E)=事件E样本点个数/样本空间样本点个数二、经验概率某一实验重复操作,则某事件发生的概率为:该事件出现的次数与实验总次数之比P(E)= lim [n(E) /n] (其中:n→∞) n: 随机实验总次数,n(E):事件E出现的次数联合概率(joint probability)表示A事件和B事件同时发生的概率= P(A ∩ B)条件概率(conditional probability)—后验概率在发生A的条件下,发生B的概率,称为P(B|A),又称为后验概率事件概率赞成 (B1)反对 (B2)合计男性 (A1性 (A2)103040合合概率:P (男性,赞成)=P(A1∩B1)=40/200=0.2条件概率: P(赞成|男性)= P(B1|A1)= P(A1∩B1)/ P(A1) =40/160 = 0.25贝叶斯定理假设D由age \ income\ buy computer属性构成;H是顾客购买计算机;P(H): 任意顾客购买计算机的概率,叫做先验概率。P(H|X):当我们知道顾客收入和年龄后(一位年龄为35岁,收入40000美元的顾客),顾客购买计算机的概率,叫做后验概率。基于更多信息的概率。P(H|X)=案例旅客搭乘飞机必须经电子仪器检查是否身上携带金属物品,携带金属仪器会发出声音的机会是97%,但身上无金属物品仪器会发出声音的机会是5%。若已知一般乘客身上带有金属物品的机会是30%,若某旅客经过仪器检查时发出声音,请问他身上有金属物品的概率是多少?解:设A=[有金属物],B= [仪器会发声]则 Native Bayes Classifer1.D是训练元组集合,每个元组X={x1,x2,…,xn}有n个属性2.假设有m个类C1,C2,…,Cm, 给定X,分类法将预测X属于具有最高后验概率的类.需要分子最大(分母一样), 最大即可。假设属性值相互独立,则:Naive Bayesian Classifier: Training DataClass:C1: buys_computer = ‘yes’C2: buys_computer = ‘no’Data sample X = (age =30,Income = medium,Student = yesCredit_rating = Fair)Naive Bayesian ClassifierP(Ci): P(buys_computer = “yes”) = 9/14 P(buys_computer = “no”) = 5/14Compute P(X|Ci) for each classP(age = “=30” | buys_computer = “yes”) = 2/9 = 0.222P(age = “= 30” | buys_computer = “no”) = 3/5 = 0.6P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2P(credit_rating = “fair” | buys_
显示全部