基于Lucene的站内新闻搜索引擎的设计与实现.doc
文本预览下载声明
PAGE
基于Lucene的站内新闻搜索引擎的设计与实现
摘要
Lucene是一个开源的用于制作搜索引擎的框架。目前第二代搜索引擎的设计思路为利用网络爬虫建立数据源,结合分词技术把数据源建成索引,利用索引从海量的数据源中得到搜索结果,对搜索的结果进行筛选和排序, 把最终的结果展示给用户。目前版本的Lucene包括基于JavaCC的标准分词类,建立索引相关类,搜索索引相关类,文档排序和相关性计算相关类等。Lucene良好的架构使得我们可以定义自己的分词类,而Lucene丰富的功能也使得我们能够根据具体的需求,建立自己所需的索引,实现多种多样的搜索方式,进行结果的筛选和排序。本文介绍了搜索引
显示全部