基于SVM-KNN的文本分类算法及其分析.pdf
文本预览下载声明
计算机时代2010年第8期 ·29·
基于SVM—KN
N的文本分类算法及其分析
匡春临1。夏清强2
(1.洛阳师范学院,河南洛阳471022;2.洛阳市教育局)
类测试系统中,对SVM-KNN算法的实际效果进行了测试和算法性能验证。
关键词:文本分类;SVM;KNN;SVM.KNN;算法比较
onTextClassificationBasedonSVM-KNN
Analysis Algorithm
KUANGChub·libl。XIA
Qing—qian92
Normal EducationBureau)
(J.Luoyang 471022。China;2.i.aoyang
University,l_itoyang,ltenan
SVMandKNNtextclassification arefurtherdiscussed.BasedonSVMandKNN
Abstract:Throughexperiments algorithms
SVM·KNN is KNNandSVM SVM—KNN can
algorithms。a algorithmputforward.Combining classifiers,the algorithm
of the and of CWT100G
the classifier feedback
improveperformance by improvementclassifyingpredictionprobability.In
Chineseweb classificationtest actualeffectofSVM—KNN istestedandthe ofit is
page system,the algorithm performance
proved.
words:text
Key classification;SVM;KNN;SVM—KNN;algorithmcomparison
O引言 多数属于哪一类,就把待识别的文章归为哪一类。KNN分类器
随着互联网的飞速发展,网络上信息的数量也快速地增 在己分类文章中检索与待识别的文章最相似的文章,从而获得
被测文章的类别。
长。在搜索引擎Google中,已收录了超过1万亿个网页,而中
KNN分类器有两种基本的决策规则㈣,分别是DVF离散值
国互联网信息中心的调查报告也显示,截至2009年底,中国网
规则和SWF决策规则。KNN一般采用欧氏距离法和夹角余弦
站的网页数量已经达到336亿…,增幅超过1(J(1%。但是,网络在
法来定义文本之间的距离(相似性)。
提供给人们丰富信息的同时。过于巨大的信息量也给人们有效
KNN算法简单实用,分类准确率较高,但由于KNN是一种
利用这些信息带来困难。为了有效地组织和管理网页资源,
显示全部