2025年全文检索系统整体方案设计.doc
全文检索系统方案
全文检索需求
系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检索、跨库检索等多种检索途径;
支持字索引和詞索引;
检索条件具有完整的关键詞布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号(与右括号)作关键詞查询优先级的设置;
提供顾客多次递進查询的功能,顾客可根据上一次查询关键詞得到的检索成果集,增長查询关键詞与缩小搜索曰期范围,而得到更精确的查询成果集;
可以支持對以上文献中的中文(简体/繁体)、英文、曰語、韩語内容实現关键字检索;
支持對Word、TXT、PDF等多种主流文档格式全文检索,并提供開发接口以支持特殊文档格式的全文检索;
在数据源数据发生更新時,能在索引库中反应出来,保证搜索的信息為最新,即支持增量索引机制;
顾客可自行设定期间,让系统自動定期進行更新索引;
對于百萬级记录数的搜索以及結合模糊搜索等查询方式,搜索時间不得超過10秒;
提供跨数据源、数据格式的搜索;
同過有关性搜索,可以把和搜索条件有关联的信息搜索出来;
不仅可以對图片的描述信息進行搜索,還能對图片内容的检索;
提供COM与SOAP的搜索接口(Interface)可让其他应用程序或查询网页可以提供顾客查询入口和查询成果的展現,顾客可通過应用程序或浏览器访問全文检索服务器,提交查询条件,可在浏览器中查看检索成果;
查询成果集中应包括成果集总数、命中的成果文献的完整途径,以及符合关键詞出現的内容片断;
在搜索成果集中,关键詞应被標识出来,用特殊的字体及颜色和其他文字進行区别,查询者可在查询成果片断中一目了然的看到关键詞出現的位置;
查询成果可按照关键詞命中次数,命中成果文献的修改時间,大小等条件進行排序;
可提供顾客對检索命中成果文献在索引库中進行標识,從而再次检索時,不在標识過的文献中進行查询;
全文检索系统总体方案
系统将采用如下全文检索流程。
针對企业内部的信息,包括文献服务器上的文献、网站网页、ERP等系统寄存信息的数据库信息、办公应用中的公文档案文档已經内容管理系统中流转的内容,本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一种相對构造化的数据虚拟层;本系统的索引引擎(Indexer)對构造化的数据虚拟层進行中文切分詞、文献特性分析和逐渐索引,以及其他索引算法,生成索引数据库;使用者(user)在搜索页面中输入查询字串等搜索条件并提交給本系统後,本系统的全文检索查询引擎(Searcher)會在索引库中進行搜索,并将符合搜索条件的搜索成果返回給使用者;使用者(user)可于查询成果页面,深入链接到信息原文查看详细内容。
對于系统管理,管理员可通過對应web方式的管理程序来管理整個系统运行环境及设置文献;并通過索引引擎(Indexer.exe)实時或定期创立索引,更新索引数据库的内容,使检索信息维持在最新状态。
全文检索系统带来的效益
高效率的整合搜索,大幅減少组织组员在获得信息時花费的時间!
本系统和其他搜索系统只针對特定信息源搜索不一样,它能對企业内部绝大多数的信息创立索引和搜索,具有强大的信息整合及迅速回应能力,让企业组员以單一搜索页面、简易的操作方式,即可在最短時间内,完整、精确、及時地掌握企业内外所有信息,不必再花费大量時间的找寻信息!
信息過量不會导致企业组员的信息焦急!
通過本系统强大的索引/搜索能力,大量的信息也可在瞬间過滤出符合使用者条件的信息,不必紧张迷失在漫漫的信息洪流之中!
非构造/非组织的信息,不再是知识管理的盲點!
文献/档案以及非通過度类管理的信息,由于附加信息稀少,往往成為知识运用上难以判断、分析的信息。本系统直接针對内容全文分析、关联,使此类信息同样可让使用者以检索方式,迅速筛选运用!
整合轻易,使用简易,导入迅速,易于接受!
套装化、模块化的设计及灵活的整合能力,能在企业内迅速的安装设置;操作方式简朴,企业组员易于接受,导入以便。以最經济的時间、人力及费用成本為企业创立信息流通、充足分享的知识环境。
全文检索系统平台架构
本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:
整個系统重要分為信息整合、信息萃取和服务、应用整合三個部分。
信息整合
此部分重要作用是将企业内部存储于不一样应用系统中的构造化信息、半构造化信息、非构造化信息通過本系统提供的两种数据适配器進行信息提取,形成一种相對构造化的数据虚拟层,以备後期信息萃取和服务。
信息萃取和服务
在信息整合层形成的相對构造化的数据虚拟层基础上,本系统将對其中的每笔记录進行中文切分詞、索引、文献特性分析、自動分类等多种演算算法处理,形成可以提供搜索服务的索引库。顾客运用本系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体對译、模糊搜索、同义詞搜索、文