文档详情

第3章 搜索引擎.ppt

发布:2017-09-30约字共69页下载文档
文本预览下载声明
目次 第1章 绪 论 第2章 信息检索基础 第3章 搜索引擎 第4章 事实和数值型信息检索 第5章 图书信息检索 第6章 期刊信息检索 第7章专利信息及商标信息检索 第8章 其他信息检索 第9章 检索案例选编 第10章 检索效率 第11章信息的分析利用 第3章 搜索引擎 3.1 概述 3.2 典型的搜索引擎 3.3 搜索引擎的检索技巧 3.1 概述 3.1.1基本概念 3.1.2Internet的主要信息服务类型 3.1.3 搜索引擎的类型 3.1.1基本概念 1.搜索引擎 搜索引擎是Internet上的一种网站,它的主要任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 2.域名 从字面上讲,域名就是Internet上某个区域的名字。可以简单将域名理解为任何一个想要和Internet连接的公司或机构在Internet上的注册地址。 完整的域名包括三段,例如“”指的是域内的一台名叫www的主机。 注意:域名、IP地址、域名服务器三者之间的关系 3.1.2Internet的主要信息服务类型 URL是一种统一格式的Internet信息资源地址表达方法,是Uniform Resource Locator的缩写,全称为“统一资源定位器”。简单地说,就是地址栏里的域名等。它将Internet提供的各类服务统一编址,以便用户通过Web客户程序进行查询。在格式上URL可以分成以下三个基本部分: 信息服务类型://信息资源地址/文件路径 3.1.2Internet的主要信息服务类型 目前编入URL中的信息服务类型有以下几种: http://HTTP服务器。这是主要用于提供超文本信息服务的Web服务器。 telnet://Telnet服务器。供用户远程登录使用的计算机。 ftp://FTP服务器。用于提供各种普通文件和二进制代码文件的服务器。 gopher://Gopher服务器。 wais://WAIS服务器。 news://网络新闻USENET服务器。 双斜线“//”表示跟在后面的字符串是网络上的计算机名称,即信息资源地址,以示和跟在单斜线“/”后面的文件路径相区别 举例 /wwwboard/default.htm代表使用超级文本传输协议HTTP提供超级文本信息服务的资源。其计算机域名为,超级文本文件(文件类型为.htm)是在目录/wwwboard下的default.htm。从域名上可以看出,这是中国教育网络的一台计算机。 telnet://:70代表使用远程登录服务协议Telnet提供信息服务的资源。其计算机域名为。使用的端口号是70。这是一家商业公司。 /pub/www/doc代表使用文件传输协议FTP发布文件的资源。其计算机域名为,存放对外发送文件的目录是/pub/www/doc。使用FTP几乎可以传送任何类型的文件,文本文件、二进制文件、图像文件、声音文件、数据压缩文件等 3.1.3 搜索引擎的类型 1.根据搜索引擎的数据检索机制划分 2.按检索内容划分 3.按搜索引擎数据来源划分 4.主题搜索引擎的关键词语法规则 3.1.3 搜索引擎的类型 1.根据搜索引擎的数据检索机制划分 1)主题型搜索引擎 2)分类型搜索引擎 3)混合型搜索引擎 主题型搜索引擎 主题型搜索引擎将不断收集到的网上页面及地址信息以数据库的形式组织存贮。 查询时用户向其提问框中输入关键词,搜索引擎便会从数据库中检索与之相匹配的相关记录,按一定的排序返回给用户。 优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。 缺点:繁多而杂乱的感觉。 代表性的主题型搜索引擎是Google、百度(Baidu)网站。 分类型搜索引擎 通过用户浏览层次类型目录来寻找所需信息。 分类一般按主题分类,并辅之以年代、地区等分类。 网站多以此方式组织。例如:新浪分类目录计算机与互联网 硬件行情报价。 优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。 缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。 代表性的目录式分类搜索引擎是Yahoo、搜狐、新浪网站 3.1.3 搜索引擎的类型 2.按检索内容划分 综合型 专题型 专门采集某一主题范围的信息资源,并用更为详细和专业的方法对信息资源进行标引描述。 特殊型 综合型搜索引擎 综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。如:Google
显示全部
相似文档