模式识别理论及应用.ppt
经典特征选择算法许多特征选择算法力求解决搜索问题,经典算法有:??分支定界法单独最优特征组合法顺序后退法顺序前进法模拟退火法Tabu搜索法遗传算法特征
选择第27页,共31页,星期六,2024年,5月单独最优特征组合计算各特征单独使用时的可分性判据J并加以排队,取前d个作为选择结果不一定是最优结果当可分性判据对各特征具有(广义)可加性,该方法可以选出一组最优的特征来,例:各类具有正态分布各特征统计独立可分性判据基于Mahalanobis距离特征
选择第28页,共31页,星期六,2024年,5月顺序后退法该方法根据特征子集的分类表现来选择特征搜索特征子集:从全体特征开始,每次剔除一个特征,使得所保留的特征集合有最大的分类识别率依次迭代,直至识别率开始下降为止用“leave-one-out”方法估计平均识别率:用N-1个样本判断余下一个的类别,N次取平均特征
选择第29页,共31页,星期六,2024年,5月6.5讨论特征的选择与提取是模式识别中重要而困难的一步模式识别的第一步:分析各种特征的有效性并选出最有代表性的特征降低特征维数在很多情况下是有效设计分类器的重要课题三大类特征:物理、结构和数学特征物理和结构特征:易于为人的直觉感知,但难于定量描述,因而不易用机器判别数学特征:易于用机器定量描述和判别第30页,共31页,星期六,2024年,5月习题1.试推导(8-6)式,即:2.试由(8-1)式推导(8-5)式,即:3.习题8.19.习题9.1第31页,共31页,星期六,2024年,5月模式识别理论及应用内容目录第六章模式特征的选择与提取6.1引言32456.2类别可分离性判据6.3特征提取与K-L变换6.4特征的选择6.5讨论1模式识别与神经网络第2页,共31页,星期六,2024年,5月6.1引言特征的选择与提取是模式识别中重要而困难的一个环节:分析各种特征的有效性并选出最有代表性的特征是模式识别的关键一步降低特征维数在很多情况下是有效设计分类器的重要课题三大类特征:物理、结构和数学特征物理和结构特征:易于为人的直觉感知,但有时难于定量描述,因而不易用于机器判别数学特征:易于用机器定量描述和判别,如基于统计的特征第3页,共31页,星期六,2024年,5月特征的形成特征形成(acquisition):信号获取或测量→原始测量原始特征实例:数字图象中的各像素灰度值人体的各种生理指标原始特征分析:原始测量不能反映对象本质高维原始特征不利于分类器设计:计算量大,冗余,样本分布十分稀疏引言第4页,共31页,星期六,2024年,5月特征的选择与提取两类提取有效信息、压缩特征空间的方法:特征提取和特征选择特征提取(extraction):用映射(或变换)的方法把原始特征变换为较少的新特征特征选择(selection):从原始特征中挑选出一些最有代表性,分类性能最好的特征特征的选择与提取与具体问题有很大关系,目前没有理论能给出对任何问题都有效的特征选择与提取方法引言第5页,共31页,星期六,2024年,5月特征的选择与提取举例细胞自动识别:原始测量:(正常与异常)细胞的数字图像原始特征(特征的形成,找到一组代表细胞性质的特征):细胞面积,胞核面积,形状系数,光密度,核内纹理,和浆比压缩特征:原始特征的维数仍很高,需压缩以便于分类特征选择:挑选最有分类信息的特征特征提取:数学变换傅立叶变换或小波变换用PCA方法作特征压缩引言第6页,共31页,星期六,2024年,5月6.2类别可分离性判据类别可分离性判据:衡量不同特征及其组合对分类是否有效的定量准则理想准则:某组特征使分类器错误概率最小实际的类别可分离性判据应满足的条件:度量特性:与错误率有单调关系当特征独立时有可加性:单调性:常见类别可分离性判据:基于距离、概率分布、熵函数第7页,共31页,星期六,2024年,5月基于距离的可分性判据类间可分性:=所有样本间的平均距离:可分性判据(8-1)squaredEuclidian(8-5)类内平均距离类间距离(8-6)第8页,共31页,星期六,2024年,5月基于距离的可分性判据矩阵形式可分性判据基于距离的准则概念直观,计算方便,但与错误率没有直接联系样本类间
离散度矩阵样本类内
离散度矩阵类间可分离性判据第9页,共31页,星期六,2024年,5月基于概率的可分性判据基于概率的可分性判据:用概率密度函数间的距离来度量可分性判据散度:第10页,共31页,星期六,2