文档详情

基于Lucene的书目搜索相似度评分算法改进研究.PDF

发布:2018-11-26约2.12万字共5页下载文档
文本预览下载声明
第58卷 第4期 2014年2月 基于Lucene的书目搜索相似度评分算法改进研究 ■ 王泽贤 [摘 要]对Lucene内部的相似度评分算法进行研究分析,指出其在书目搜索中,未考虑图书的受欢迎度 这一因素对搜索结果排序的影响。提出一种改进的算法并予以实现。实验结果证明,改进的算法能将较受读 者欢迎的图书排列在前,提升读者的书目搜索体验。 [关键词]Lucene 书目搜索 相似度 [分类号]G254.92   DOI:10.13266/j.issn.0252-3116.2014.04.015 1 导 言 略了图书的其他特征,未能将受读者欢迎的图书排列 在前,所以书目搜索结果往往不尽如人意。   Lucene作为Apache软件基金会的一个顶级项目,   一直以来,对于如何改善 Lucene相似度评分算 是一个开放源码的全文检索工具包。Lucene以其开源 法,提高其搜索质量的研究从未间断。文献[2]通过 可免费使用、架构清晰、扩展性高、索引结构优异、性能 BM25模型与Lucene的有机结合,实现了BM25模型在 高、跨平台、易使用等优点,被广泛地应用到各类应用 Lucene中的检索评分;文献[3]利用PageRank算法对 系统中,实现全文索引和搜索功能。基于Lucene开发 原有的Lucene排序进行了改进;文献[4]将词语位置 书目搜索系统,实现对书目信息任意关键词的全文检 关系特征融合到 Lucene原有相似度评分算法中,对 索,可提高书目搜索的查全率、查准率并简化读者的查 Lucene内部的相似度评分算法进行改进;文献[5]提 询操作,是一个较好的解决方案。 出了一种新的词项语义相似度检索函数,该函数能够   搜索结果排序是搜索引擎的核心构成部分,在很 对检索文档按照语义相似度进行排序。以上研究和改 大程度上决定了搜索引擎的质量好坏及用户接受与 进虽在不同程度上提高了Lucene的检索质量,但都未 否。在信息搜索特别是全文搜索时,一般会得到很多 考虑到图书的受欢迎度这一因素对相似度评分的影 符合查询条件的结果,其中很多并不是用户想要的,用 响。本文对基于Lucene的书目搜索相似度评分算法 户一般只会查看排列在前的几十个结果。据调查,用 进行改进:结合Lucene的原相似度及图书的受欢迎度 户每次检索后只浏览少数结果页面的比例在逐步提 对书目搜索结果进行相似度评分,实现搜索结果按图 高,而用户实际所访问的结果范围非常小。例如,从 书的受欢迎度由高到低排序,将较受读者欢迎的图书 1997年到2001年,用户每次检索后只浏览一个页面的 排列在前。该举措增添了新的书目搜索结果排序方 比例从28.6%提高到50.5%,而2001年之后更是提 式,从而进一步丰富了读者的书目搜索体验。 高到70%,这意味着检索结果空间都集中到了结果页 [1] 2 基本思路 面的第一页和第二页,有时包括第三页 。利用 Lu cene的全文搜索技术进行书目搜索,提高了书目的查 2.1 Lucene相似度评分算法分析 全率,返回了更多的查询结果,但同时也产生了新的挑 [6]   Lucene采用基于向量空间模型(VSM) 的TF- 战:在众多的查询结果中,如何将最符合读者需求的图 [7-8] IDF 方法来计算文档的相似度。TFIDF方法基于
显示全部
相似文档