约翰逊-E讯网.PDF
文本预览下载声明
模式识别与人工智能原理
乔谊正 教授
山东大学,控制科学与工程学院
2006年十二月
学而不思则罔;思而不学则殆。
- 孔子
Learning without thought means labor lost; thought without
learning is perilous.
- Confucius
知识有两种,其一是我们自己精通的问题,其二是
我们知道在哪里可以找到关于某问题的知识。
- 约翰逊
Knowledge is of two kinds, we know a subject ourselves, or we
know we can find information upon it.
- Samuel Johnson
第三章 统计模式识别方法
3.1 引言
n 判别域代数方程法只能适合具有确定性特征的分类问题。然而,非确定性特征的
分类问题大量存在。例如,通过物理测量手段获得的数据,一般是具有统计特性
的统计量。许多用来描述模式的特征,在本质上讲是非确定性的。
n 不同类别的边界存在相互交叠或覆盖,也是实际分类问题中经常碰到的现象。该
现象的实质是,模式类别在特征空间中呈现空间密度分布的事实。
n 分类结果的可靠性或可信度,常常与模式类别的分布形式密切相关,所以,进一
步考虑模式样本的总体分布特点,有助于对模式分类机制的深入了解。
n 统计分类法的发展正是为了解决上述判别域代数方程法不能解决的问题。
3.1.1 模式识别的统计模型
n 随机模型是用来描述自然界中不确定现象的数学模型。有大量自然现象可以用概
率与统计规律很好地加以描述。
n 考察例 1.1 中的身高和体重两个特征量。一方面,由于测量过程具有不确定性。
另一方面,用身高和体重描述男生和女生,在本质上是一种运用统计规律的描述。
所以应当采用统计(随机)模型,而不是简单的确定性模型。
n 统计模型的要点是,将模式的特征量考虑为符合某种统计规律(概率密度分布)
的随机量。而任一个模式样本是取自总体中的一个个体。
n 因此,在统计模式识别中主要要解决下列三个问题。
n 判别问题:已知若干总体分布,当给出一个个体样本时,要确定这个样本属于哪个总体?
n 训练问题:已知一些个体样本,分别属于某些总体,要确定这些总体的分布规律(或参数。)
n 误判率问题:研究运用上述模型所造成的误判率的计算。
3.1.1 模式识别的统计模型
n 用下面简图表示该统计模型:
下面通过一个例子说明整个过程。
例 3.1 男生女生的分类问题(统计模型)
样本的特征数据和例 1.1 相同。假定男生和女生的身高和体重都符合正态分布,
分别形成两维的类正态密度函数。
3.1.1 模式识别的统计模型
n 类分布密度函数:
假设:P(X ) = ( 1/ 2 | |1/2 ) exp( - 2/2) ; i =1,2 ;
i i i
P(X ) 分别为男生和女生的类分布密度函数(两维正态型)。其中 是 2*2 协
i i
方差矩阵;
| | 是 的行列式。
i i
2 T - 1
= ( X - ) ( X - );
i i i i i i
为 X
显示全部