文档详情

把 Lucene 索引数据存到数据库表中.pdf

发布:2017-07-24约8.98千字共4页下载文档
文本预览下载声明
2015/1/28 把 Lucene 索引数据存到数据库表中 | 隔叶黄莺 Unmi Blog - 软件编程实践 一般我们都是把 Lucene 索引存放在文件系统中,大数据量时会考虑用分布式文件系统,如 Hadoop 及 MapReduce、GFS 的 应用。也许你会想我们有数据库作为集中的数据存储地,是否可以把 Lucene 索引文件存储到关系型数据库中。可以这么做, 不过好像性能上有些问题,本文就此也作这样一个尝试。 看 /lucene-java/LuceneFAQ Can I store the Lucene index in a relational database? Lucene does not support that functionality out of the box, but several people have implemented JdbcDirectory s. The reports we have seen so far indicate that performance with such implementations is not great, but it is doable. Lucene 里内置了 FSDirectory、MMapDirectory、RAMDirectory 这样的与索引存储相关的实现。如果要存储到数据库 中,必须实现一个 DbDirectory,对于 Java 也就是 JdbcDirectory 。但事情远没有这么简单,还需要一堆的类来为 JdbcDirectory 服务,如锁机制、缓存机制、内存镜像、不同数据库讲的方言也不一样。 幸好 Compass 实现了把索引存储到数据库的功能,我们可以借用它的代码。先到 / 下载最 新版的 compass-2.2.0-with-dependencies.zip,当前是 2.2.0,所使用的 Lucene 是 2.4.1,有点老了。 所以我们也用 Lucene 2.4.1,用最新的 3.0.2 会有些问题,另外也依赖了compass 的 compass-2.2.0.jar 包。再就是直接使用 compass 为我们写好的 JdbcDirectory 和一批外缘类,需要把 compass-2.2.0-with-dependencies.zip\compass- 2.2.0\src\main\src\org\apache\lucene 目录里的类引进到我们的工程中。 现在就可以开始来写我们的代码了,要演示的例子是索引存储到 MySql 数据库表中,并基于该表里的索引数据进行查询。还 有数据库和表要我们自己预先创建好,比如数据库是 unmi_ db,索引表是 lucene_ index,创建表的 SQL 如下: 1 CREATE TABLE `lucene_index` ( 2 `Id` int(11) NOT NULL AUTO_INCREMENT, 3 `name_` varchar(50) DEFAULT NULL, 4 `value_` blob, 5 `size_` decimal(10,2) DEFAULT NULL, 6 `lf_` timestamp NULL DEFAULT NULL, 7 `deleted_` bit(1) DEFAULT NULL, 8 PRIMARY KEY (`Id`) 9 ) 请参考这个:Appendix A. Lucene Jdbc Directory 看 Java 代码了: 001 package cc.unmi.lucene; 002 003 import java.io.IOException; 004 import java.sql.Connection; 005 006 import javax.sql.DataSource; 007 008 import org.apache.lucene.analysis.standard.StandardAnalyzer; 009 import org.apache.lucene.document.*; 010 import org.apache.lucene.index.IndexWr
显示全部
相似文档