文档详情

第十章 20150429网络信息检索3_搜索引擎概述.doc

发布：2017-07-06约2.23万字共33页下载文档

文本预览下载声明

幻灯片1 网络信息搜索引擎概述 Network Information Search Engines 搜索引擎的含义搜索引擎 (Searching Engine)是指一种能够自动对网络资源建立索引或进行主题分类,并通过查询语法为用户返回相匹配资源的系统。搜索引擎使用某些软件程序(如Robots、 Spiders或 Crawlers)把 Internet上的所有信息自动归类或者人为地把某些数据归入某类别,形成一个可供查询的大型数据库。幻灯片4 搜索引擎的分类按搜索机制分类按搜索内容分类按信息采集方法分类幻灯片5 按搜索机制分类目录型搜索引擎把搜集到的信息资源按照一定的主题分门别类，建立多级目录。大目录下面包含子目录，子目录下面又包含子目录……如此下去，建立多层具有包含关系的目录。用户查找信息时，采取逐层浏览打开目录，逐步细化，就可查到所需信息。关键词型搜索引擎关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源，这种方式方便直接，而且可以使用逻辑关系组合关键词，可以限制查找对象的地区、网络范围、数据类型、时间等，可对满足选定条件的资源准确定位。混合型搜索引擎兼有关键词型和目录型两种查找方式，既可直接输入关键词查找特定信息，又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。幻灯片6 幻灯片9 2. 按搜索内容分类综合型搜索引擎专业型搜索引擎特殊型搜索引擎幻灯片10 (1)综合型搜索引擎综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型利用它可以查找到几乎任何方面的信息。幻灯片11 (2)专业型搜索引擎专业型搜索引擎只搜集某一行业或专业范围内的信息资源，因此，它在提供专业信息资源方面要远远优于综合型搜索引擎。如IT信息、财经信息、硬件报价、人才求职与招聘信息。 (3)特殊型搜索引擎特殊型搜索引擎是专门搜集特定类型格式的信息，例如专门搜集电话、人名、地址、图像、股市信息等按信息采集方法分类基于蜘蛛程序的机器人搜索引擎这种搜索引擎由一个称为蜘蛛（Spider）的机器人程序自动访问网站，提取站点上的网页，并根据网页中的链接进一步提取其他网页，或转移到其他站点上。由索引器为搜集到的信息建立索引，并根据用户的查询输入检索索引库，然后将查询结果返回给用户。该类搜索引擎的优点是信息量大、更新及时、不需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。 (2)目录式搜索引擎以人工方式或半自动方式搜集信息，由编辑人员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别.用户也可以利用目录提供的搜索功能直接查找一个关键词. 由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，这也是目录与基于机器人的搜索引擎之间的一大区别。 (3)元搜索引擎元搜索引擎的特点是本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其他搜索引擎能够接受的命令格式，并访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是用户需要做更多的筛选。全文搜索引擎全文搜索引擎通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户. 是通常概念上的搜索引擎。从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（Indexer），并自建网页数据库，搜索结果直接从自身的数据库中调用；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。目录索引目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于的Yahoo雅虎。其他著名的还有Open Directory Project（DMOZ）、Look Smart等。国内的搜狐、新浪、网易搜索也都属于这一类。

显示全部

相似文档