第十章 20150429网络信息检索3_搜索引擎概述.doc
文本预览下载声明
幻灯片1
网络信息搜索引擎 概 述
Network Information Search Engines
搜索引擎的含义
搜索引擎 (Searching Engine)是指一种能够自动对网络资源建立索引或进行主题分类,并通过查询语法为用户返回相匹配资源的系统。
搜索引擎使用某些软件程序(如Robots、 Spiders或 Crawlers)把 Internet上的所有信息自动归类或者人为地把某些数据归入某类别,形成一个可供查询的大型数据库。
幻灯片4
搜索引擎的分类
按搜索机制分类
按搜索内容分类
按信息采集方法分类
幻灯片5
按搜索机制分类
目录型搜索引擎
把搜集到的信息资源按照一定的主题分门别类,建立多级目录。大目录下面包含子目录,子目录下面又包含子目录……如此下去,建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可查到所需信息。
关键词型搜索引擎
关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源,这种方式方便直接,而且可以使用逻辑关系组合关键词,可以限制查找对象的地区、网络范围、数据类型、时间等,可对满足选定条件的资源准确定位。
混合型搜索引擎
兼有关键词型和目录型两种查找方式,既可直接输入关键词查找特定信息,又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。
幻灯片6
幻灯片9
2. 按搜索内容分类
综合型搜索引擎
专业型搜索引擎
特殊型搜索引擎
幻灯片10
(1)综合型搜索引擎
综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型
利用它可以查找到几乎任何方面的信息。
幻灯片11
(2)专业型搜索引擎
专业型搜索引擎只搜集某一行业或专业范围内的信息资源,因此,它在提供专业信息资源方面要远远优于综合型搜索引擎。如IT信息、财经信息、硬件报价、人才求职与招聘信息。
(3)特殊型搜索引擎
特殊型搜索引擎是专门搜集特定类型格式的信息,例如专门搜集电话、人名、地址、图像、股市信息等
按信息采集方法分类
基于蜘蛛程序的机器人搜索引擎
这种搜索引擎由一个称为蜘蛛(Spider)的机器人程序自动访问网站,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。由索引器为搜集到的信息建立索引,并根据用户的查询输入检索索引库,然后将查询结果返回给用户。
该类搜索引擎的优点是信息量大、更新及时、不需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。
(2)目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别.用户也可以利用目录提供的搜索功能直接查找一个关键词.
由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于机器人的搜索引擎之间的一大区别。
(3)元搜索引擎
元搜索引擎的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。
对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。
全文搜索引擎
全文搜索引擎通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户. 是通常概念上的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、Look Smart等。国内的搜狐、新浪、网易搜索也都属于这一类。
显示全部