文档详情

基于损失最小化的SVM多类网页分类算法.pdf

发布:2017-07-29约1.99万字共4页下载文档
文本预览下载声明
第22 卷第7 期 计算机应用与软件 VoI. 22 ,No. 7 2005 年7 月 Computer AppIications and Software JuI. 2005 基于损失最小化的SVM 多类网页分类算法 邵浩然 张 亮 马范援 (上海交通大学计算机科学与工程系 上海200030 ) 摘 要 本文提出一种基于损失最小化的SVM 多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM 分类算法和KNN 相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了 SVM 分类算法的准确性。 关键词 网页 文本分类 空间向量模型 SVM 损失最小化 KNN 分类器 A STRUCTURAL-LOSS-MINIMIZATION-BASED SUPPORT VECTOR MACHINES APPROACH FOR MULTI-CLASS H PERTE T CLASSIFICATION Shao Haoran Zhang Liang Ma Fanyuan (Dep artment of Comp uter Science and Engineering ,Jiaotong Uniuersity ,Shanghai 200030 ,China ) Abstract A muIti-cIass SVM aIgorithm for hypertext categorization based on Iost-minimization is proposed. In this aIgorithm,traditionaI KNN method is corporated into SVM whiIe handIing MuIti-caIss hypertext categorization tasks. The seguence of the cIassifiers is based on the minimization of the errors of the hoId-out sampIes,ExperimentaI resuIts show the proposed aIgorithm can perform weII with comparison to tradi- tionaI SVM. Keywords Hypertext categorization Vector space modeI Support vector machines Lost minimization KNN cIassifier 器,最后给出了实验结果并进行了分析。 1 引 言 2 SLMBSVMs 的数学模型 网页、文本分类通常指将Web 网页、文本按其内容将其归 至一个或几个预定义的类别中,随着Internet 网络信息量的迅猛 传统的SVM 的基本思想是要求分类面不但能将两类正确 增加,靠人工进行分类已经变得不现实了,于是就产生自动网页 分开,而且使分类间隔最大。对线性可分的样本集( x ,y ),i =
显示全部
相似文档