文档详情

企业级搜索引擎产品-深度搜技术介绍精选.pdf

发布:2018-01-27约6.97千字共29页下载文档
文本预览下载声明
上海深度网络(2013-06) 1 信息膨胀与搜索技术 目前全文搜索可选择方案以及问题 深度搜索技术的特点和优势 深度搜索典型使用案例 公司介绍 2  我有100年以来出版内容的电子数据  我有50年以来所有报道的新闻电子稿  我有20年来所有发帖内容,而且每天以数万 条增长  馆藏数百万的书都已经可以在线阅读了  我有全世界所有工业设备的详细资料  我有十年来的阅读材料,样卷,教材…  我的笔记本,可以存放一个小型图书馆数据  3  存储不是问题,但只有搜索,才能将从数据中找到有 用的信息  只要是提供信息服务,就注定需要有提供对信息检索 的方法 海量数据 有用信息 搜索 4 传统的数据库: 开源搜索引擎: 商业搜索引擎: 5 传统数据库具有众多优点:  产品数量众多,可选择余地很大。  成熟, 可靠,稳定。  具有大量相关的开发人员,易于开发。  具有丰富的相关资料。 但…尽管可以达到功能上要求,关系 数据库并不是为了全文搜索准备的。 约多的数据量和少量并发就可以耗尽 系统资源,这样做无异于南辕北撤。 6 以LUCENE 为代表的全文搜索引擎  Apache 基金会项目  为全文搜索目的设计的倒排的索引格式 多种方式的接口  开源 真正全文搜索的系统, 现在生活很幸福? 7  我有大的并发请求。  我有海量的数据。  我需要良好的可伸缩性。  我需要可定制高质量的结果排序。  我不断的有数据要更新。  坏了一个硬件不能终止服务。 和LUCENE的日子 还幸福吗? 8  上周就更新了,怎么还不能找到?  这篇文章一点都不相关怎么排最前面?  昨天有的,今天怎么被删除了?  我的数据并不在网站上,该如何搜索? 什么也不用做, 但什么也不知道。 9 政府部门 企业应用 教育 各行业应用 … … 应用程序接口 用户界面接口 多语言处理 多文档格式处理 实时自动重复检测理 实时更新 搜索 自动主题词 分类 相似关联 信息存储
显示全部
相似文档