文档详情

由Lucene建立地震资料文献全文索引检索系统.pdf

发布:2017-07-03约1.13万字共4页下载文档
文本预览下载声明
第 3期 (总第 128期 ) 四 川  地  震 No3                         2008年 9月 EA R TH Q U A KE R ESEAR C H  IN  SIC HU AN Sep t. 2008 由 Lucene建立地震资料文献全文索引检索系统 1 1 2 吴微微 , 李谊瑞 , 杨建思 ( 1四川省地震局 , 四川  成都  6 1004 1; 2中国地震局地球物理研究所 , 北京  100081) 摘要 : 针对如何科学 、高效地管理四川省地震监测台网中心常年积累下来的地震资料文献这一难题 , 设计了基 于 Lucene 的全文索引检索程序 。本文给出了程序的体系结构 , 说明了程序的主要模块及其基本功能 , 并详细介 绍了程序实现的关键技术 。 关键词 : Lucene; 全文检索 ; 搜索引擎 ; 地震信息 中图分类号 : P3 1569   文献标识码 : A    文章编号 : 1001 - 8115 (2008) 03 - 0020 - 04   随着地震观测从模拟到数字技术的转变 , 数字地震台网中心产出的资料文献急剧增长 。目前四川数字 地震台网资料中心有测震数据 、编 目资料 、台站信息、仪器配置等多种资料 ; 既有全省的 , 也有区域性 的 , 有短期的 , 也有专注某一领域的资料 。文献资料的种类繁多、数量大 、结构复杂 。随着时间的延续 , 资料种类和数量在不断增多 , 对于资料的处理变得越来越困难 。要从这样庞大的信息资源中筛选出符合用 户需要的信息 , 作为现代信息获取技术的主要应用 —搜索引擎是必不可少的。现代信息获取技术涉及信息 的表示 、存储 、组织 。一般的信息获取流程是 : ①构造文本数据库 ; ②建立文档索引; ③对文档进行检 索 ; ④最后根据查询获取检索结果 [ 1 ] 。首先由用户给出查询条件 , 计算机分析查询语句后利用文本处理 技术进行处理 。由于传统的数据库字段检索技术是为提高查询速度而设计的 , 并非以全文检索为 目的 , 因 此 , 我们选择了全文索引与检索技术中比较优秀的产品 Lucene来实现地震资料文献的全文检索 。 1 Lucene全文检索引擎 全文检索是指计算机索引程序通过扫描文章中的每一个词 , 对每一个词建立索引 , 指明该词在文章中 出现的次数和位置 , 当用户进行查询时 , 检索程序就根据事先建立好的索引进行查找 , 并将查找的结果反 馈给用户 。全文检索系统具有建立索引、处理查询返回结果集 、增加索引、优化索引结构等功能 。全文检 索引擎工具包 org. ap ache. Lucene是用纯 java语言开发的 , 它能为用户提供完整的查询引擎和索引引擎 。 Lucene不同于传统数据库 , 传统的数据库字段检索技术在使用 “like ‘keyword ’”模糊查询时 , 无法发挥 作用 。而 Lucene更类似于一个支持全文检索的数据库系统 。表 1对比了 Lucene检索和数据库模糊查询的 区别 [ 2 ] 。 通过表 1可见 , Lucene和数据库检索最大的区别在于让头 100 条记录满足 90% 以上用户的需要 。Lu cene通过大量的映射进行相似度运算 , 使得相似度最高的记录能够首先提供给用户 , 并过滤掉相似度过 于低下的记录 。Lucene最核心的特征是通过特殊的索引结构实现传统数据库不擅长的全文索引机制 , 并 提供了扩展接口以方便不同
显示全部
相似文档