文档详情

一种新的用于文本分类的概率分类器设计_苏小英1_2胡彦鹏3杨竣辉2李明1.pdf

发布:2017-08-09约1.14万字共5页下载文档
文本预览下载声明
网络出版时间:2014-01-07 17:26 网络出版地址:/kcms/detail/61.1450.TP1726.050.html 一种新的用于文本分类的概率分类器设计 1,2 3 2 1 苏小英 胡彦鹏 杨竣辉 李明 (1.上海中医药大学图书信息中心 上海 201203;2.上海大学计算机工程与科学学院 上海200027; 3.上海金融期货信息技术有限公司 上海 200122) 摘 要:为了进一步提高文本分类的准确率,本文介绍了一种新的用于文本分类的概率分类 器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息 从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。本文给出了计算正负权 重系数的算法,并根据计算出来的权重系数及正、负概率值对文本进行分类。最后将本文提 出的概率分类器与SVM分类器进行对比实验,实验结果表明,本文设计的概率分类器对于文 本分类效果较好。 关键词:文本分类;文本挖掘;概率;分类器 中图分类号:TP3 文献标识码:A 文章编号: ANewProbabilisticClassifierDesignforTextCategorization 1,2 3 2 1 SUXiao-ying HUYan-peng YANGJun-hui LIMing (1.LibraryInformationCenter,Shanghai UniversityofTraditionalChineseMedicine,Shanghai201203,China; 2.SchoolofComputerEngineeringScience,Shanghai University,Shanghai2 72,China; 3.ShanghaiFinancialFuturesInformation TechnologyCo.,Ltd,Shanghai2 122,China) Abstract:Inordertoimprovetheaccuracyoftex categorization,thepaperproposesanewtex categorization methodbasedonprobabilisticclassifier.Firstly,i preprocessesthetex usingnaturallanguageprocessingmethods; Secondly,readthedocumentsfromthetrainingse andgeneraterules;Lastly,inprobabilitycalculation,positive andnegativeweigh factoriscalculated.Basedonthecalculatedprobabilityvaluetheprobabilisticclassifier categorizethetext.Andtaketheexperimen withSVMclassifier, heexperimentsresultsshowthisclassifierhas be erperformanceintex categorization. KeyWords:Tex Categori
显示全部
相似文档