基于潜在语义分析和改进的HS_SVM的文本分类模型研究.pdf
文本预览下载声明
>>
54 10 20 10 5
第 卷第 期 年 月
*
基于潜在语义分析和改进的HS - SVM 的文本分类模型研究
张玉峰 何 超
武汉大学信息资源研究中心 武汉430072
〔 〕 ,
摘要 为提高文本分类的准确性与效率 提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模
。 , ,
型 该模型利用潜在语义分析进行特征抽取 消除同义词和多义词在文本表示时所造成的偏差 实现文本向量的
。 , — 。 ,
降维 针对超球重叠区域的文本分类问题 设计一种新的决策方法 基于密集度的决策策略 实验结果表明 该
, 。
模型在类别数目较小时具有较好的分类效果 改进的算法有效可行
〔 〕
关键词 文本分类 潜在语义分析 改进的超球支持向量机 重叠区域文本
〔 〕G350
分类号
Research of Text Classification Model Based on Latent Semantic Analysis and Improved of HS-SVM
Zhang Yufeng He Chao
Center for Studies of Information Resources of Wuhan University ,Wuhan 430072
〔Abstract 〕A text classification model ,which is based on Latent Semantic Analysis and Improved of Hyper-sphere Support Vector Ma-
chine ,is proposed in order to improve the accuracy and efficiency of text classification. Using the latent semantic analysis for feature
extraction in this model ,the affect of synonymy and polysemy in text representation process is eliminated and the dimension of text vec-
tor is reduced. A new approach to decision making ,which is based on the intensity ,is designed for the text classification of ultra-over-
lapping regions in the ball. Experimental results show that the model will give a good classification results when the number of the clas-
ses is small. The improved algorithm is effective and feasible.
〔Keywords 〕text classification latent semantic analysis improved hyper-sphere support vector machine text in overl
显示全部