企业级搜索引擎产品-深度搜技术介绍精选.pdf
文本预览下载声明
上海深度网络(2013-06)
1
信息膨胀与搜索技术
目前全文搜索可选择方案以及问题
深度搜索技术的特点和优势
深度搜索典型使用案例
公司介绍
2
我有100年以来出版内容的电子数据
我有50年以来所有报道的新闻电子稿
我有20年来所有发帖内容,而且每天以数万
条增长
馆藏数百万的书都已经可以在线阅读了
我有全世界所有工业设备的详细资料
我有十年来的阅读材料,样卷,教材…
我的笔记本,可以存放一个小型图书馆数据
3
存储不是问题,但只有搜索,才能将从数据中找到有
用的信息
只要是提供信息服务,就注定需要有提供对信息检索
的方法
海量数据 有用信息
搜索
4
传统的数据库:
开源搜索引擎:
商业搜索引擎:
5
传统数据库具有众多优点:
产品数量众多,可选择余地很大。
成熟, 可靠,稳定。
具有大量相关的开发人员,易于开发。
具有丰富的相关资料。
但…尽管可以达到功能上要求,关系
数据库并不是为了全文搜索准备的。
约多的数据量和少量并发就可以耗尽
系统资源,这样做无异于南辕北撤。
6
以LUCENE 为代表的全文搜索引擎
Apache 基金会项目
为全文搜索目的设计的倒排的索引格式
多种方式的接口
开源
真正全文搜索的系统,
现在生活很幸福?
7
我有大的并发请求。
我有海量的数据。
我需要良好的可伸缩性。
我需要可定制高质量的结果排序。
我不断的有数据要更新。
坏了一个硬件不能终止服务。
和LUCENE的日子
还幸福吗?
8
上周就更新了,怎么还不能找到?
这篇文章一点都不相关怎么排最前面?
昨天有的,今天怎么被删除了?
我的数据并不在网站上,该如何搜索?
什么也不用做,
但什么也不知道。
9
政府部门 企业应用 教育 各行业应用 … …
应用程序接口 用户界面接口
多语言处理 多文档格式处理 实时自动重复检测理
实时更新 搜索 自动主题词 分类 相似关联
信息存储
显示全部