一种新的用于文本分类的概率分类器设计_苏小英1_2胡彦鹏3杨竣辉2李明1.pdf
文本预览下载声明
网络出版时间:2014-01-07 17:26
网络出版地址:/kcms/detail/61.1450.TP1726.050.html
一种新的用于文本分类的概率分类器设计
1,2 3 2 1
苏小英 胡彦鹏 杨竣辉 李明
(1.上海中医药大学图书信息中心 上海 201203;2.上海大学计算机工程与科学学院 上海200027;
3.上海金融期货信息技术有限公司 上海 200122)
摘 要:为了进一步提高文本分类的准确率,本文介绍了一种新的用于文本分类的概率分类
器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息
从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。本文给出了计算正负权
重系数的算法,并根据计算出来的权重系数及正、负概率值对文本进行分类。最后将本文提
出的概率分类器与SVM分类器进行对比实验,实验结果表明,本文设计的概率分类器对于文
本分类效果较好。
关键词:文本分类;文本挖掘;概率;分类器
中图分类号:TP3 文献标识码:A 文章编号:
ANewProbabilisticClassifierDesignforTextCategorization
1,2 3 2 1
SUXiao-ying HUYan-peng YANGJun-hui LIMing
(1.LibraryInformationCenter,Shanghai UniversityofTraditionalChineseMedicine,Shanghai201203,China;
2.SchoolofComputerEngineeringScience,Shanghai University,Shanghai2 72,China;
3.ShanghaiFinancialFuturesInformation TechnologyCo.,Ltd,Shanghai2 122,China)
Abstract:Inordertoimprovetheaccuracyoftex categorization,thepaperproposesanewtex categorization
methodbasedonprobabilisticclassifier.Firstly,i preprocessesthetex usingnaturallanguageprocessingmethods;
Secondly,readthedocumentsfromthetrainingse andgeneraterules;Lastly,inprobabilitycalculation,positive
andnegativeweigh factoriscalculated.Basedonthecalculatedprobabilityvaluetheprobabilisticclassifier
categorizethetext.Andtaketheexperimen withSVMclassifier, heexperimentsresultsshowthisclassifierhas
be erperformanceintex categorization.
KeyWords:Tex Categori
显示全部