基于样本加权的文本聚类算法研究).pdf
文本预览下载声明
维普资讯
情 报 学 报 ISSN1000—0135 JOURNALOFTHE CHINA SOCIEIY F0R SCIENTIFIC
ANDTECHNICALINF0RMAH0N ISSN 1000—0135
第27卷 第 1期42—48,2008年2月 Vo1.27 NO.1,42—48 February 2OO8
基于样本加权的文本聚类算法研究 )
章成志 师庆辉 薛德军
(1.南京大学信息管理系,南京 210093;2.中国学术期刊(光盘版)电子杂志社 ,北京 100084)
摘要 样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之
间的结构信息对样本加权聚类是否有帮助,如何将结构信息 自动转换为样本或对象的权重?针对该问题,本文以
学术论文为聚类对象 ,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并
将其作为权重,提出一种基于样本加权的新的文本聚类算法。实验结果表明,基于论文 PageRank值加权的聚类算
法能改善文本聚类效果。该算法可推广到网页的聚类中 ,利用网页的PageRank进行加权聚类 ,来改善网页的聚类
效果 。
关键词 文本聚类 样本加权聚类 PageRank 被引频次
DocumentClusteringAlgorithm BasedonSampleW eighting
ZhangChengzhi,ShiQinghuiandXueDejun
(1.DepartmentofInformationManagement,NanfingUniversity,Nanjing210093;
2.ChinaAcademicJournal(CD)ElectronicPublishingHouse,Bejiing 100084)
Abstract Sampleweightingclusteringalgorithm hasbeennoticedonlyrecently.Therearesomeunsolvedproblems,for
exmaple,whetherthestructureinformationmaonghteclusteringobjectsishelpfultosmapleweightingclustering?Howtotransfomr
structureinformationintohteweihgtofsmaplesornot?Tosolvehteseproblems,anovelsmapleweightingclusteringalgorihtmis
presentedbasedonK-Meansalgorihtm.ThealgorithmUSeSacademicdocumentsashteclusteringobjects.ThePageRankvalueof
eachdocumentiscalculatedaccording to thecitedrelationship amonghtem,and itisused ashteweightin thealgorithm .
Experiments show htathteproposedalgorithm isaneffectiveoslutiontoimprovehteperformanceofdocumentclustering,na ditCna
be extendedtoW ebpagesclusteringbasedonPageRankvalueofeachWebpage.
Keywords documentclustering,smapleweightedclustering,PageRnak,citiedfrequen
显示全部