基于SVM决策树的文本分类器.pdf
文本预览下载声明
维普资讯
第 18卷 第 4期 模式识别与人工智能 VoI.18 NO.4
2005年 8月 PR AI Aug 2005
基于 SVM 决策树的文本分类器
朱远平 戴汝为
(中国科学院 自动化研究所 复杂系统与智能科学实验室 北京 100080)
摘 要 研 究了 SVM 决策树分类器在文本分类 中的应用 ,提 出了一种有效 的 SVM 决策树分类器 的优化构建方
法.该方法利用类间距离衡量两类 间的可分性 ,并进一步用来描述各结点分类器类集合 间的可分性.基于综合考虑
结点分类器的类集合可分性 ,该方法 能够获得优化 的结点分类器类划分算法 ,由此构建的 SVM 决策树分类器在整
体 性能上得到优 化 ,在 文本分类 中获得 良好效果.
关键词 文本分类 ,支持 向量机 ,决策树 ,多类分类器
中图法分类号 TP183
TextClassifierBasedonSVM DecisionTree
ZHU Yuan—Ping,DAIRu—W ei
(LaboratoryofCornplexSystemsandIntelligenceScience,InstituteofAutomation,
ChineseAcademyofSciences,Beijing100080)
ABSTRACT
Thispaperproposesa new effectiveapproach to optimizetheSVM decision tree classifier
while presentstheresearch on textcategorization using SVM decision treeclassifier . In this
approach,thew ithin—classdistanceisusedtomeasuretheseparabilityoftWO classes.Then the
separabilityofclasssetofnodeclassifierismeasuredbasedonthat.Consideringtheseparability
●
of relative node classifiers ,optimalclass separation solution ofeach node classifier can be
achieved.W ith theoptimized classseparation solution,theperformanceofSVM decision tree
classifierisimprovedwhich hasbeen testedbyourtextcategorizationexperiment.
KeyWords TextCategorization,SupportVectorMachine,DecisionTree,Multi—ClassClassifier
1 引 言 资料库,然而巨大的网页数量使人们在其中查找信
息成为一个难题.文本分类作为信息检索系统的重
WWW上海量的信息为人们提供 了一个超级 要组成部分 ,可以在很大程度上解决网上信息杂乱
收稿 日期 :2004—12—06;修回 日期 :2005—04—04
作者简介 朱远平 ,男,1978年生 ,博士研究生 ,主要研究方 向
显示全部