参数估计及两分类问题.doc
模式识别上机实验2:参数估计及两分类问题
给定2维样本500个,存放在文件“”中,其中前300个是属于第一类的样本,接着200个是属于第二类的样本(第一列为样本的类别)。假设两类样本均来自正态总体,试分别估计其参数,求出决策函数和决策规则并对如下五个未知类别的样本进行分类。
类别
决策结果为:
用马氏距离得到的结果
到样本一的
马氏距离
到样本二的
马氏距离
马氏距离
决策结果
属于样本一
属于样本一
属于样本一
932
属于样本二
属于样本一
用最小贝叶斯决策结果
决策结果
属于样本一
属于样本一
属于样本一
-
属于样本二
属于样本一
参数估计及两分类问题
姓名:寸正雄
学号:20081910073
该实验目的要通过也知道的300个一类和200个二类样本,由参数估计得到两类的正态函数,通过正态分布统计决策设计出分类器将实验中的五个数据进行分类。
多元正态分布参数估计
多元正态分布的概率密度定义如下:
(1.1)
其中,是维向量,是维均值向量,是维的协方差矩阵,是的逆矩阵,是的行列式。在其密度函数中有和两组参数。
而多元正态分布对于每一个得边缘分布都是一个一元的正态分布,其密度函数为
(1.2)
由一元的正态分布参数估计可知
(1.3)
这样可以得到哥分布函数,多元正态分布函数中参数由和各分布函数所有任意两两变量的协方差组成
(1.4)
可表示成
(1.5)
Mahalanobis距离
马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。对给定的两个样本和,为和的协方差矩阵,马氏距离定义如下
(1.6)
表示是到的马氏距离。如图1.1所示,在椭圆中椭圆边上任意一点到中心的马氏距离是相等的。
多元正态概率型下的最小错误率贝叶斯判别
最小错误率贝叶斯决策规则常有四种方法:
在多元正态函数中采用上述中方法(4),,可得到多元正态型下的最小错误率贝叶斯判别函数为
(1.7)
其中表示到的马氏距离,是协方差矩阵,为先验概率。
决策面方程为
决策函数为
(1.8)
决策结果为(1.9)
问题求解
2.1.参数估计
该题为二元正态分布,,其密度函数为
(2.1)
即(2.2)
由二元正态参数估计可知
(2.3)
(2.4)
(2.5)
题所给的两个样本可得到
样本一
5.7140
6.5198
样本二
0.6823
求出各参数就可以得到两个样本的分布密度函数,把其绘制成二维图像如下,其中*号代表的是第二类样本点,o号代表第一类样本点。
图2.1两个样本的二维图像
2.2.求未知类别的样本到各样本的的马氏距离
由上面1.2中公式(1.6)可以得到未知类别的样本到的马氏距离如下表,并用马氏距离的比较,到哪个样本的马氏距离小将其分为该类。
到样本一的
马氏距离
到样本二的
马氏距离
马氏距离
决策结果
属于样本一
属于样本一
属于样本一
属于样本二
属于样本一
2.3.最小错误率贝叶斯判别
设分别表示两个类别,,分别表示两类的先验概率,由决策函数(1.8)式,和决策结果(1.9)氏,就可以得到决策结果,但在(1.8)式中还有,是未知的,这里就假设他所选的两个样本与实际相符,两类的先验概率就假设为,,做此假设后并可求出值,再更具决策结果(1.9)式得到决策表如下
决策结果
属于样本一
属于样本一
属于样本一
属于样本二
属于样本一
程序代码
实验结果在上面个表中,实验中所需的MATLAB代码如下:
……
2.0000-0.06948.1524];
yangben1=yangben(1:300,:,:);
yangben2=yangben(301:500,:,:);
function[US]=canshu(YB)
X=YB(:,2);Y=YB(:,3);
U=[mean(X);mean(Y)];
S=cov(X,Y);
functionz=f(X,S,U)
d=size(S);d=d(1);
z=(2*pi)^(d/2)*sqrt(det(S))*exp(-1/2*(X-U)*S^-1*(X-U));
functionR=mashijuli(X,U,S)
R=sqrt((X-U)*S^-1*(X-U));
3.5.用马氏距离判别
-0.62121.8253];
yangbenzhi;
[U1S1]=canshu(yan