文档详情

基于分布距离的特征聚类方法.pdf

发布:2017-09-10约1.03万字共3页下载文档
文本预览下载声明
CompuWrEngineering日 ,c口rD 计算机工程与应用 基于分布距离的特征聚类方法 张学谦,王 自喔,郜凤敏 ZHANG Xueqian,WANG Ziqiang,GAO Fengmin 河南工业大学 信息科学与工程学院,郑州 450001 College ofInformation Science and Engineering,Henan University ofTechnology,Zhengzhou 450001,China ZHANG Xueqian,WANG Ziqiang,GAO Fengmin.Feature clustering m~hod based on distribution distanceC·omputer EngineeringandApplications.2011,47(29):137—139. Abstract:To reduce feature space dimensionality,thispaperpresentsa new method to clusterthe similarfeaturesbased on distribution distance,which can achieve dimensionality reduction through clustering the nearestdistance features.Teston the corpusofTanCorpusV1.0shows.whenreducingthedimensionaliyt offeaturespaceasfarasoriginal’s10% ,usingSVM as classifier,thismethod can achieve a higheraccuracy than feature selection method. Key words:distribution feature;distribution distance;feature extraction;feature clustering 摘 要 :为降低特征空间维数,提出了一种基于分布距离的文本特征聚类方法,通过将特征空间中分布距离相近的特征聚合,来 实现降维。在TanCorpusV1.O语料库上实验表 明,当将特征空间维数降低至原空间的近 lO%~Y,用SVM作为分类器,获得了比特 征提取方法高的分类精度。 关键词:分布特征;分布距离;特征抽取;特征聚类 DOI:10.3778~.issn.1002—8331.2011.29.038 文章编号:1002·8331(2011)29—0137—03 文献标识码 :A 中图分类~:TP391 1 引言 词来表示文本。就 目前而言,对特征选择的研究 ,主要集中在 随着互联网数据的海量增长,作为信息检索和文本挖掘的 特征评估函数的设计上 ,常用的评估函数有文档频率(Docu. 重要技术,基于机器学习的自动文本分类技术得到了重视和发 mentFrequency,DF)、信息增益 (Inform~ionGain,IG)、互信 展。基于机器学习的自动文本分类技术由文本的表示 、分类方 息(MutualInformation,MI1、期望交叉熵 (ExpectedCrossEn. 法及效果评估3部分组成 1。学习时,文本被简化为BOW tropy,ECE)、几率比(OddsRatio,OR)、y统计量 (CHI)、GSS (BagofWords),用向量空间模型(VsM)来表示,由于该模型 系数(GSScoefficient)、NGL系数(NGLcoefficient)等。当选 所表示的文本具有高维性和稀疏性的特点,在分类前需要对文 择特定的特征选择函数对特征词进行评估后 ,还需选择一个 本向量进行降维处理,目的是降低机器学习时的计算复杂度。 “尺度”来确定该如何选择特征。当特征维数选择过少时,可 能会由于一些文本中不包含所选的特征而造成该文本被 “丢 2 文本特征降维
显示全部
相似文档