文档详情

Open Search technology and Firtex Search platform.ppt

发布:2016-05-23约1.34万字共55页下载文档
文本预览下载声明
开源搜索技术与FirteX检索平台 郭瑞杰 中国科学院计算技术研究所 ruijieguo@ 2007.4.18 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做FirteX? 使用FirteX 理解和扩展FirteX 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做FirteX? 使用FirteX 理解和扩展FirteX 一个简单的搜索引擎体系结构 Web采集 页面分析和信息抽取 全文索引 检索 开源检索平台—工程类 Apache Lucene: (Java) 功能强大的搜索平台,包括全文索引和检索 支持增量、差量索引,支持各种文档索引支持多种检索方式。 架构和代码可读性非常好,堪称开源搜索引擎的的经典 Lucene的其他版本: C++版(CLucene,非官方开发,代码可读性不是很好,bug也不少) C#版(L,纳入官方开发) C版(Lucy,官方开发,还没有正式发布代码) 缺点: 性能较差: Java编写、实现算法 不太适合信息检索实验 对中文支持不是很好 (仅提供单字索引) 开源检索平台—工程类(cont.) Nutch (Java) 是Lucene Project的一个子项目,一个完整的搜索引擎,包括web采集,web内容分析,链接分析,分布式文件系统(Hadoop),索引和检索(采用Lucene) 可扩展,基于插件式架构: URL Normalizers and Filters 插件 网络协议插件(HTTP,FTP等) 分析器插件 索引和查询插件 Hadoop (分布式文件系统) 基于Google File System 采用Google提出的MapReduce 开源检索平台—工程类(cont.) YACY:基于P2P的分布式Web 索引(Java) Hyper Estraier :支持P2P架构,开放式API,C开发,Linux/Windows平台 Swish-e:快速,灵活的开源搜索引擎,支持多种文件格式的索引. C开发,windows/linux SWISH++ :基于Swish-e 的文件索引和搜索引擎,C开发,Unix平台 Zebra :结构化文本索引和检索系统,C开发,windows/Linux平台 ht://Dig :完备的索引和搜索系统,针对domain和intranet,C++开发,Unix,Linux平台 Xapian: C++开发, GPL 开源检索平台—实验类 Lemur: (C++,跨平台) 语言模型和信息检索的工具包,由麻州大学和卡内基梅隆大学合作开发 支持Unix,Linux,Windows等操作系统 Indexing、Retrieval、Distributed IR、Document Clustering 、Summarization 、Simple text processing等 缺点:仅仅是一个实验系统,索引数据库不具有移植性,性能较差,系统架构一般 开源检索平台—实验类 (cont.) Zettair (C,跨平台,来自RMIT大学) Justin Zobel, IR领域大牛 Wumpus (C++, GPL, Linux, 来自Waterloo大学) 主要定位:文件系统搜索 支持多用户,支持在线索引 功能强大,性能也不错 代码扩展性较差 Terrier (Java) 不能自由下载,需申请 MG Managing Gigabytes: Compressing and Indexing Documents and Images 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做FirteX? 使用FirteX 理解和扩展FirteX 国内开源搜索平台的现状 国内,开源平台方面在FirteX之前是空白 工程应用上,大多基于Lucene架构,自主研发的不多 科学实验上,多数采用Lemur,修修补补,自己开发实验平台的很少,跟着别人走 现有开源平台存在的一些问题: 以Lucene为代表的工程应用类: 性能欠佳,处理的数据规模有限 不支持在线索引 对中文支持较差(单字索引,效率和准确率差) 以Lemur为代表的实验平台类: 仅限于检索模型方面和查询扩展等效果方面的实验 无法实现索引、检索算法,在线索引等性能方面的实验 对中文支持较差(单字索引,不符合中文特种) 目标和动机 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做Firt
显示全部
相似文档