一种基于文本聚类的网页排序方法.pdf
文本预览下载声明
计 算 机 与 现 代 化
2008年第 1O期 JISUANJIYUXIANDAIHUA 总第 158期
文章编号:1006-2475(2008)10-0018-03
一 种基于文本聚类的网页排序方法
曹 杰 ,王直杰
(东华大学信息科学与技术学院,浙江 上海201620)
摘要:提出一种新的网页排序方法一ClusterRank方法。该方法先对检索结果进行文本挖掘 ,然后利用Web网页的链接
信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。
关键词:ClusterRank;K-means算法;网页点击率;PageRnak算法;网页排序
中图分类号:TP301.6 文献标识码:A
A New Algorithm forPageRankingBasedonTextClustering-dusterWebPageRanking
CAOJie,WANGZhi-jie
(ColegeofInformationScienceandTechnology,DonghHaUniversity,Shnaghai201620,China)
Abstract:Thispaperproposesanew algorithm forpageranking.Th eclusteringtechniquesareemployedtonaalyzethosesearch
一
results.thenitranksallhteclusteredtextsconsideringthelinkstructurebetweenWebpages,鹊 wellasitsclickratio.Itfacili_
ratesu.ser8tonaildowntheirrequirements throughskimmingoverresultslist.
Keywords:ClusterRank;K-menasalgorithm;pageclickratio;PageRankalgorithm;Webpageranking
(MaximalMarginalRelevance)标准。该标准根据语
1 概 述
义相关性对检索到的文档集进行再排序,修正内容上
为了从网上海量的数据中找到用户需要的信息, 相近的文档的显示次序,从而保证再排序后的检索结
搜索引擎允许用户通过关键字查询Web上的信息。 果既与查询项相关,同时文档 内容问的冗余j受较低。
搜索引擎把搜索结果按照检索的相关性和资源的重 ChenXiangZhai等人提出子主题检索技术 J,它采用
要性进行降序排列,并将排序结果提交给用户。然 统计语言模型计算文档的相关性,结合了MMR排序
而,包含 Web关键字的页面数 目通常相当多,要让用 策略实现子主体检索,以此来减少检索结果的信息冗
户浏览全部甚至大部分的网页 已经不大可能。实际 余度。BenyuZhnag他们提 出采用 AR (Affinity
上,据统计81%的用户只会浏览搜索结果的前 3页 Ranking)算法对搜索结果进行再排序,该方法类比网
(约30项)。常用的解决办法是:使用排序算法对搜 页结构挖掘,视检索结果集为一个网,网络的节点是
索结果进行排序,找出和关键字最相关的网页。查准 文档,文档的语义关系构成网络的边,针对每一个节
率较高的搜索引擎可以较好地满足那些对其检索需
显示全部