文档详情

一种基于文本聚类的网页排序方法.pdf

发布:2018-06-03约1.47万字共4页下载文档
文本预览下载声明
计 算 机 与 现 代 化 2008年第 1O期 JISUANJIYUXIANDAIHUA 总第 158期 文章编号:1006-2475(2008)10-0018-03 一 种基于文本聚类的网页排序方法 曹 杰 ,王直杰 (东华大学信息科学与技术学院,浙江 上海201620) 摘要:提出一种新的网页排序方法一ClusterRank方法。该方法先对检索结果进行文本挖掘 ,然后利用Web网页的链接 信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。 关键词:ClusterRank;K-means算法;网页点击率;PageRnak算法;网页排序 中图分类号:TP301.6 文献标识码:A A New Algorithm forPageRankingBasedonTextClustering-dusterWebPageRanking CAOJie,WANGZhi-jie (ColegeofInformationScienceandTechnology,DonghHaUniversity,Shnaghai201620,China) Abstract:Thispaperproposesanew algorithm forpageranking.Th eclusteringtechniquesareemployedtonaalyzethosesearch 一 results.thenitranksallhteclusteredtextsconsideringthelinkstructurebetweenWebpages,鹊 wellasitsclickratio.Itfacili_ ratesu.ser8tonaildowntheirrequirements throughskimmingoverresultslist. Keywords:ClusterRank;K-menasalgorithm;pageclickratio;PageRankalgorithm;Webpageranking (MaximalMarginalRelevance)标准。该标准根据语 1 概 述 义相关性对检索到的文档集进行再排序,修正内容上 为了从网上海量的数据中找到用户需要的信息, 相近的文档的显示次序,从而保证再排序后的检索结 搜索引擎允许用户通过关键字查询Web上的信息。 果既与查询项相关,同时文档 内容问的冗余j受较低。 搜索引擎把搜索结果按照检索的相关性和资源的重 ChenXiangZhai等人提出子主题检索技术 J,它采用 要性进行降序排列,并将排序结果提交给用户。然 统计语言模型计算文档的相关性,结合了MMR排序 而,包含 Web关键字的页面数 目通常相当多,要让用 策略实现子主体检索,以此来减少检索结果的信息冗 户浏览全部甚至大部分的网页 已经不大可能。实际 余度。BenyuZhnag他们提 出采用 AR (Affinity 上,据统计81%的用户只会浏览搜索结果的前 3页 Ranking)算法对搜索结果进行再排序,该方法类比网 (约30项)。常用的解决办法是:使用排序算法对搜 页结构挖掘,视检索结果集为一个网,网络的节点是 索结果进行排序,找出和关键字最相关的网页。查准 文档,文档的语义关系构成网络的边,针对每一个节 率较高的搜索引擎可以较好地满足那些对其检索需
显示全部
相似文档