基于损失最小化的SVM多类网页分类算法.pdf
文本预览下载声明
第22 卷第7 期 计算机应用与软件 VoI. 22 ,No. 7
2005 年7 月 Computer AppIications and Software JuI. 2005
基于损失最小化的SVM 多类网页分类算法
邵浩然 张 亮 马范援
(上海交通大学计算机科学与工程系 上海200030 )
摘 要 本文提出一种基于损失最小化的SVM 多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM
分类算法和KNN 相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了
SVM 分类算法的准确性。
关键词 网页 文本分类 空间向量模型 SVM 损失最小化 KNN 分类器
A STRUCTURAL-LOSS-MINIMIZATION-BASED SUPPORT VECTOR MACHINES
APPROACH FOR MULTI-CLASS H PERTE T CLASSIFICATION
Shao Haoran Zhang Liang Ma Fanyuan
(Dep artment of Comp uter Science and Engineering ,Jiaotong Uniuersity ,Shanghai 200030 ,China )
Abstract A muIti-cIass SVM aIgorithm for hypertext categorization based on Iost-minimization is proposed. In this aIgorithm,traditionaI
KNN method is corporated into SVM whiIe handIing MuIti-caIss hypertext categorization tasks. The seguence of the cIassifiers is based on the
minimization of the errors of the hoId-out sampIes,ExperimentaI resuIts show the proposed aIgorithm can perform weII with comparison to tradi-
tionaI SVM.
Keywords Hypertext categorization Vector space modeI Support vector machines Lost minimization KNN cIassifier
器,最后给出了实验结果并进行了分析。
1 引 言
2 SLMBSVMs 的数学模型
网页、文本分类通常指将Web 网页、文本按其内容将其归
至一个或几个预定义的类别中,随着Internet 网络信息量的迅猛 传统的SVM 的基本思想是要求分类面不但能将两类正确
增加,靠人工进行分类已经变得不现实了,于是就产生自动网页 分开,而且使分类间隔最大。对线性可分的样本集(
x ,y ),i =
显示全部