文档详情

计算机网络与Internet应用基础教程___搜索引擎.ppt

发布:2018-05-13约7.21千字共47页下载文档
文本预览下载声明
 一、搜索引擎基础 1.1 搜索引擎的产生与发展 如何充分地利用这些信息资源,帮助用户全面、准确、快速、经济地从网络上获取所需要的信息,摆脱信息查询大海捞针般的困境,成为WWW进一步发展急需解决的关键问题。正是在这样的信息环境与信息需求驱动下,网络上出现了搜索引擎系统。 所谓搜索引擎,是指在WWW中能够主动搜索信息、组织信息并能提供查询服务的一种信息服务系统。搜索引擎主要通过网络搜索软件或网站登录方式,将WWW上大量网站的页面信息收集到本地,经过加工处理后建成数据库,从而能够对用户提出的各种查询请求做出响应,提供用户所需要的信息地址。 最初的搜索引擎在解决信息查询问题时主要采取了两种不同方式。以AltaVista、Excite为代表的一类搜索引擎,主要采用关键词检索方式提供信息查询;而以Yahoo!为代表的另一类搜索引擎则采用分类目录浏览方式服务于用户。 一种被称作为元搜索引擎(Meta-search engines)的集合型搜索引擎被广泛使用,其典型代表有Metacrawler、Dogpile、Profusion、All-in-one等。在使用元搜索引擎时,用户只需提交一次检索请求,经转换处理后,检索请求可同时转交给多个预先选定的独立搜索引擎去查询,然后将所有查询结果汇总起来再以统一的格式呈现到用户桌面上。 1.2 搜索引擎的服务方式 1、目录服务 “目录服务”是将各种各样的信息按大类、子类、子类的子类……直到相关信息的网址,即按树形结构组成供用户搜索的类目和子类目直到找到感兴趣的内容。而从大类直到最终相关信息网址也是依靠树形链接组成的,用户上网极为方便。如图1-1所示。这种方式适用于按普通主题查找。 图1-1 搜索引擎的目录服务方式 2. 关键字检索服务 “关键字检索服务”是搜索引擎向用户提供的一个可以输入待查询的关键字、词组、句子的查询框界面。用户按一定规则输入关键字后,按紧靠查询框的【搜索】按钮,即搜索引擎“提交”的关键字,搜索引擎即开始在其索引数据库中查找相关信息,然后将结果返回用户。如图1-2所示。 图1-2 关键字检索服务方式 二、搜索引擎的组成和原理 搜索引擎基本上都是由信息提取系统、信息管理系统和信息检索系统三部分组成的。 1. 信息提取系统 信息提取系统是一些专门设计的程序,是在搜索引擎服务器上运行的绰号为“蜘蛛(Spider)”或“机器人(Robots)”的网页搜索软件,用于自动访问WWW站点,并提取被访问站点的信息。此外,为了覆盖尽可能多的站点信息,几乎所有的搜索引擎都在其主页中加上一个“站点注册”功能,向用户提供将自己的站点信息主动加入该搜索引擎数据库的途径。 2. 审计和分类检索 要对所提取的信息进行分类整理。有的系统是利用网页搜索软件记录下每一页的所有文本内容;而有的系统则首先分析数据库中的地址,以判断哪些站点最受欢迎,然后再用软件记录这些站点的信息。记录的信息包括从HTML标题到整个站点的所有文本内容,以及经过算法处理后的摘要。数据库内容必须经常更新和重建,以保持与新信息同步。 此外,这些信息还可能会存在某些问题。因此,为了保证一个搜索引擎有优良的检索性能,必须对其信息库进行认真的审计。有些性能不够完善的信息提取系统难以实现对所提取信息的自动分类,则必须由专业人员进行归类,只有经过审计和分类之后的信息才是提供给用户最终查询的信息。 3. 信息检索系统 最后,搜索引擎的信息检索系统主要用于将用户输入的检索词与系统信息进行匹配,多数情况下还需要根据内容相关度对检索结果进行排序。不同的搜索引擎采用的排序方法有所不同,但大多要考虑关键词在网页中出现的位置和频次。 此外,搜索引擎还必须提供一个用户检索界面,一般还应提供帮助功能。用户只要把想要查找的关键字或短语输入查询栏中,并按【Search】按钮,搜索引擎就会根据用户输入的词语,在索引中查找相应的词语,并进行必要的逻辑运算,最后给出查询结果(均为超文本链接形式)。有些搜索引擎将搜索范围进行了分类,用户可以在指定的类别中进行查询,这样可以提高查询的效率。 三、搜索语法 在具体知道要搜索的信息时,搜索引擎是通过搜索关键词来完成自己的搜索过程,即输入一些简单的关键词来查找包含此关键词的文章或网址。这是使用搜索引擎查询信息的最简单方法,但返回的结果并不是每次都能令人满意的。如果想要得到最佳的搜索效果,就要使用搜索的基本语法来组织要搜索的条件。 掌握搜索语法,并正确地使用它,可以缩小搜索的范围,提高搜索的速度。 常用表达式语法如书中表1-1所示。 搜索引擎中常用的逻辑关系语法是: AND、OR、NOT。一般情况下,在填写搜索关键词时,
显示全部
相似文档