模式识别课件第一章绪论.ppt
过分复杂的模型将导致复杂的判决曲线。Anexample设计分类器的中心目标是能够对新样本(比如以前从未见过的某条鱼)做出正确的反应,这就是“推广能力”(generalization)。图1-5那种复杂的判决边界过分“调谐”(tune)到某些特定的训练样本上了,而不是类别的共同特征,或者说是待分类的全部鲈鱼(或者鲑鱼)的总体模型。AnexampleAnexample虽然这种判决曲线对训练样本可以得到完美的分类效果,但是对将来的新模式推广能力很差。例如,图1-5中标记“?”的新模式应该更像是鲑鱼。然而却被分类为鲈鱼。自然地,想采集更多的训练样本,以获得特征向量的更好估计。例如,可以使用类别样本的概率分布。可是,在某些模式识别问题中,能够比较容易获得的样本数据十分有限。即使在连续的特征空间中已经有大量的样本点,可是如果按照图1-5的思路,分类器将给出极度复杂的判决边界,而且将不太可能很好地处理全新的样本模式。1Anexample2寻求某种“简化”分类器的方案。分类器所需的模型或判别边界将不需要像图1-5那样复杂。如果已经能够更好的分类新的测试样本,那么即使它对训练样本集的分类性能不够好,也应该接受它。但是,假如在设计“复杂”的分类器时其推广能力可能不是很好,那么,又将如何精确和定量的设计相对“简单”一些的分类器呢?Anexample0102图1-6图中标示出的判决曲线是对训练样本的分类性能和分界面复杂度的一个最优折中。Anexample系统怎样才能自动得出图1-6所示的那种相对简单的分界曲线,以使得其性能比图1-4的直线分界面,或者图1-5复杂分界曲线更为优越?假设能够做到“推广能力”和“复杂度”的折中,又将怎么样去预测系统对新模式的推广能力如何呢?—统计模式识别要研究的中心问题。1Anexample2ConclusionAnexample错误率1500033313330833ConclusionAnexampleConclusionAnexampleConclusionAnexampleConclusionAnexamplePatternRecognitionSystemsPatternRecognitionSystemsPatternRecognitionSystemsUseofatransducer(cameraormicrophone)PRsystemdependsofthebandwidth,theresolutionsensitivitydistortionofthetransducerSensing01PatternsshouldbewellseparatedandshouldnotoverlapSegmentationandgrouping02维数灾难”是指为把方差限制到要求的范围内所需数据量随维数(自变量数)的迅速增长(如指数增长)No1.ended数据采集:在开发一个模式识别系统总的费用中,数据采集部分占到令人吃惊的大比重。当然,采用较小的“典型”样本集对问题的可行性进行初步研究也是可以的,但为了确保现场工作时良好的性能,必须要采集和利用大量的样本数据。特征选择:根据特定问题领域的性质,选择有明显区分意义的特征是设计过程中非常关键的一步。实实在在的拿到样本数据,比如传送带上的鱼的照片,有利于选择特征。但是,先验知识同样有重要的作用。在选择或设计特征的过程中,很显然,希望发现那些容易提取、对不相关变形保持不变、对噪声不敏感,以及对区分不同类别的模式很有效的特征集。模型选择:如果对图l-4和图1-5的鱼分类器性能不满意,可尝试一下完全不同的类别模型。例如,想利用鳍的位置和数目、眼睛的颜色、重量、嘴的形状等构成特征实现分类函数。训练:利用样本数据来确定分类器的过程称为训练分类器。实验和经验表明“基于样本的学习”的方法是设计分类器最有效的方法。评价:评价对于评测系统的性能以及决定是否有必要改进其组成部件时,起着重要的作用。过分复杂的系统单纯对训练样本集能获得完美的表现,但对于新样本则可能不令人满意。这种观察到的现象称为“过拟合”(overfitting)。统计模式识别中最重要的研究领域之一就是确定如何折中调整模型的复杂程度:即不能太简单以至于不足以描述模式类间的差异,又不能太复杂而对新样本的分类能力很差。强化学习:训练模式分类器的典型做法是,给定一个输入样本,计算它的输出类别,把它与已知的类别标记作比较,根据差异来改善分类器的性能。而强化学习并不需要指出目标类别的教师信号,它只需教师对分类任