多元统计第六章第二部分技巧.ppt
文本预览下载声明
§6.3 贝叶斯判别;距离判别不合适的一个例子;一、最大后验概率准则;例4 设有π1、π2和π3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10, f2(x0)=0.63,f3(x0)=2.4。现计算x0属于各组的后验概率如下:
所以应将x0判为组π3。
;皆为正态组的情形;当p1=p2=?=pk=1/k,而Σ1,Σ2,?,Σk不全相等时,
当Σ1=Σ2=?=Σk=Σ,而p1,p2,?,pk不全相等时,
当p1,p2,?,pk不全相等,Σ1,Σ2,?,Σk也不全相等时,;上述各情形的后验概率可统一表达为
称D2(x, πi)为x到πi的广义平方距离。;在正态性假定下,上述判别规则也可等价地表达为
当Σ1=Σ2=?=Σk=Σ时,上述后验概率公式可简化为
其中Ii=Σ?1μi,ci=?0.5μi′Σ?1μi, i=1,2,?,k。此时判别规则等价于
如果我们对x来自哪一组的先验信息一无所知,则一般可取p1=p2=?=pk=1/k。这时,判别规则简化为上节的线性判别。
实际应用中,以上各式中的μi和Σi(i=1,2,?,k)一般都是未知的,需用相应的样本估计值代替。
;例5 在例3中,已知破产企业所占的比例约为10%,即可取p1=0.1,p2=0.9,假定两组均为正态,且Σ1=Σ2=Σ,则未判企业x=(?0.16, ?0.10, 1.45, 0.51)′的后验概率为
由于P(π1|x)P(π2|x),所以该企业被判为非破产企业,这与例3的结果正好相反,这正是先验概率的作用结果。;二、最小平均误判代价准则;1.两组的情形;将π1中的样品x误判到π2的条件概率为
类似地,将π2中的样品x误判到π1的条件概率为
平均误判代价(expected cost of misclassification),记为ECM,可计算为
;最小平均误判代价准则是采用使ECM达到最小的判别规则,即为
最小ECM准则需要三个比值:密度函数比、误判代价比和先验概率比。在这些比值中,误判代价比最富有实际意义,因为在许多应用中,直接确定误判代价会有一定困难,而确定误判代价比却相对容易得多。
例6 π1 :应该做手术 ,π2 :不应该做手术
例7 π1 :中学毕业应继续攻读大学
π2 :中学毕业后应直接找工作
;最小ECM准则的一些特殊情形 ;(2) 当c(1|2)= c(2|1)时,(*)式简化为
实践中,若误判代价比无法确定,则通常取比值为1。
(3) 当 时,(*)式可进一步简化为
这时,判别新样品x0的归属,只需比较在x0处的两个概率密度值 f1(x0) 和 f2(x0)的大小。;如将判别规则(3)用于例2中,则图2中的阈值点将移至两密度曲线相交点的正下方m处。;例8 设组π1和π2的概率密度函数分别为f1(x)和f2(x),又知c(1|2)=12个单位,c(2|1)=4个单位,根据以往经验给出p1=0.6,p2=0.4,则最小ECM判别规则为
假定在一个新样品x0处算得f1(x0)=0.36,f2(x0)=0.24,于是
因此,判x0来自组π2。
;在统计实践中,基于正态总体的判别方法居主导地位,此时的判别方法简单而高效。现假定πi~Np(μi,Σi), Σi0, i=1,2。
当Σ1=Σ2=Σ时,(*)式可具体写成
其中a=Σ?1(μ1?μ2), 。
在p1=p2,c(1|2)=c(2|1)的条件下上式将退化为距离判别的线性判别。;当Σ1≠Σ2时,(*)式可写为
其中d2(x,πi)=(x?μi)′Σi?1(x?μi), i=1,2。
在|Σ1|=|Σ2|,p1=p2,c(1|2)=c(2|1)的条件下上式将化为距离判别中Σ1≠Σ2 时的情形。;2.多组的情形;平均误判代价;使ECM达到最小的判别规则是
假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, l≠i, l,i=1,2,?,k,则此时
为所有误判概率之和,称之为总的误判概率。故此时的最小平均误判代价准则也可称为最小总误判概率准则,并且上式可简化为
故最小总误判概率准则与最大后验概率准则是彼此等价的,或者说,最大后验概率准则等价于所有误判代价相同时的最小平均误判代价准则。;注 令B={误判},Ai={样品来自πi},i=1,2,?,k
则利用全概率公式得总的误判概率为
此外,总的正确判别概率为;例9 在例8中,假定误判代价矩阵为
现采用最小ECM准则进行判别。
l=1:p2f2(x0)c(1|2)+p3f3(x0)c(1|3)
=0.65×0.63×20+0.30×2.4×60=51.39
l=2:p1f
显示全部