基于支持向量机的文本倾向性分类研究.pdf
文本预览下载声明
No.52008
2008年第29卷第5期 中北大学学报(自然科学版) V01.29
OFNORTHUNIVERSITYOFCHINA(NATURALSCIENCE No.121)
(总第121期) JOURNAL EDITION)(Sum
文章编号:1673—3193(2008)05-0421—05
基于支持向量机的文本倾向性分类研究
王素格1’3,杨安娜1,李德玉2,魏英杰,,李伟-,张 武。
(1.山西大学数学科学学院,山西太原030006;2.山西大学计算机与信息技术学院,山西太原030006f
3.上海大学计算机工程与科学学院,上海200072)
摘要: 文本倾向性分类可以广泛应用到信息检索,产品质量在线跟踪,民情民意调查分析以及聊天系统
等.本文提出了基于限定词性词语与信息增益、基于情感倾向词汇与信息增益的两种混合特征选择方法,并
设计了基于支持向量机的分类器.以汽车产品、篮球赛事以及中日关系3种中文评论文本为训练与测试语
料,对本文所提方法进行了实验验证,结果表明:限定词性词语与信息增益的混合特征选择优于信息增益与
情感倾向词汇混合特征选择方法.
关键词:文本倾向性分类; 支持向量机;特征选择;信息增益
中图分类号:TP391 文献标识码:A
ResearchonTextOrientationClassification
Basedon VectorMachine
Support
Wu3
WANG An—nal,LI Weil,ZHANG
Su—gel’3,rANG De—yu2,WEIYing—jiel,LI
(1.SchoolofMathematicsScience,Shanxi 030006,China;
University,Taiyuan
2.Schoolof 030006,China;
Computer&InformationTechnology,ShanxiUniversity,Taiyuan
of and
3.SchoolComputer University,Shanghai200072,China)
EngineeringScience,Shanghai
orientationclassificationcanbe toinformation online
Abstract:Text widelyapplied retrieval,product
of andchat kindsof feature methods
publicopinions systems.Twohybrid selecting
tracking,diagnoses
andinforma—
basedonwordswithrestrictedof andinformationsentimentwords
part speech
显示全部