基于特征提取的特征选择分析-计算机应用技术专业论文.docx
文本预览下载声明
南京邮电大学
南京邮电大学硕士研究生学位论文
第一章 绪论
PAGE
PAGE 10
第一章 绪论
1.1 研究背景及意义
模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获 得好的分类性能成为模式识别研究重要目标。为了提高分类性能,总是要最大限度地提取特 征信息,随着特征数目的增加分类性能会有所提高。但是,特征增加到一定程度后,不仅带 来了维数灾难,而且增加特征反而会使分类性能下降[1]。因此,数据降维便成为模式识别的 关键技术之一,它包括特征选择和特征提取两部分[2]。在这方面基于特征提取的特征选择算 法理论不断出现,其中一些已在实际工程应用中显示出巨大的发展潜力。
特征选择是从原始特征集中选择使某种评估标准(如分类)最优的特征子集。其目的是 根据一些准则选出最小的特征子集,使得任务如分类、回归等达到与特征选择前近似甚至更 好的效果。通过特征选择,一些与任务无关的特征被删除,简化的数据集往往会得到更精确 的模型,并且特征子集保持了原始特征的物理意义,更容易理解[3]。
特征提取是指对原有的特征空间进行某种形式的变换,以得到新的特征。根据变换方式 的不同特征提取方法分为线性和非线性,其中线性方法包括主成分分析(PCA)[15]和线性鉴 别分析(LDA),后者又叫 Fisher 鉴别分析(FDA)[16]。特征提取可以对许多学习任务较 好地进行降维,但是特征的可理解性很差,因为即使简单的线性组合也会使构造出的特征难 以理解,缺乏认知学上的意义。一般情况下,如果不知道每个特征所代表的含义,就无法清 楚地确定特征间存在的函数关系。事实上,根本无法完全找到所有的特征数据间可能存在的 非线性函数关系。然而,有些领域 (信息检索等领域)要求保留它们的原始特征和本质特征 的解释。另外,由于特征变换获取的新特征通常是所有原始特征的线性组合,从数据收集角 度看,并没有减少工作量。
维数约简的目的就是筛选出那些对任务和应用来说最相关的特征,而去掉不相关特征和 冗余特征。随着大规模数据集以及高维数据处理技术的发展,单纯依靠特征选择获取子集, 或者单纯依靠特征提取对特征空间进行变换,得到的效果已经远远不能达到应用的需求标准。 并且有的时候,特征提取和选择并不是完全分开使用的,先将原始特征空间映射到低维的特 征子空间中,再在子空间中进行特征选择来进一步降低维数。当然,也可以先利用特征选择 去掉那些对分类器基本无效的特征,然后再在特征子集上利用特征提取来进行变换处理。
1.2 国内外研究现状简介
鉴于特征选择与特征提取各自的特性与优势,研究者已经开始考虑将特征提取与特征选 择结合起来进行维数约简,设计基于特征提取的特征选择算法,从而得到合适的、有效的数 据处理方法,目前这个方向上的主要研究仍然是以 PCA 和 LDA 为主。
Jolliffe(1972,2002)提出了 PV(Principal Variables)的概念,并先后提出了基于 PCA 的 特征选择算法,即 B1,B2,B3 和 B4 算法[25,27]。其中最著名的是 B2 和 B4 算法,它将单 个变量与主成分联系起来,利用特征与主成分的相关性评价原则来进行特征选择[25,26]。
McCabe(1984)根据 B 系列算法[28],提出 M1 和 M3 方法,使用 ?11 (保留的 PV 的协 方差矩阵)和 ?22.1 (去除的 PV 的协方差矩阵)来进行 PCA 分析[12]。Jolliffe(2001,2005) 又对 McCabe 算法进行了分析和改进,提出了 M1*和 M3*,使用部分相关性矩阵代替 ?11 和 ?22.1 ,并将算法应用在了手写字的识别上[27,30]。
Krzanowski(1987)提出了基于 Procruste 分析的 KP 算法[30],在最终的特征子集上保留 原始数据的多元结构。而后,Mao 提出了一种 Forward LSE 算法,通过对 PCA 的变换矩阵进 行前向或者后向搜索来选择关键特征,但搜索的时间复杂度较高[31]。
A. Clausi(2002)提出了 KIF(K-means Iterative Fisher)方法[9],将 Fisher 准则巧妙
用于无监督聚类,并在纹理分割的实验中取得了可分性好的聚类结果。
后来,研究者又将 Kuo-Lung Wu 的模糊理论引入 Fisher 判别方法,给出模糊 Fisher 准则 函数定义,进而提出了一种半模糊聚类的新算法 FFC-SFCA(Fuzzy Fisher Criterion based Semi-Fuzzy Clustering Algorithm)[8,9]。
近年来,基于特征提取的特征选择算法成为特征选择研究的热点。一方面是利用特征提 取得到的
显示全部