文档详情

《大学计算机基础教程》课件_第7章.ppt

发布:2025-02-06约2.87万字共153页下载文档
文本预览下载声明

(1)抓取网页。每个搜索引擎都有自己的网页抓取程序,通常称为“蜘蛛”(Spider)程序、“爬虫”(Crawler)程序或“机器人”(Robot)程序,这3种称法意义相同,作用是顺着网页中的超链接连续抓取网页,被抓取的网页称为网页快照。

(2)处理网页。搜索引擎抓取网页以后,需要进行一系列处理工作,例如,提取关键字、建立索引文件、删除重复网页、判断网页类型、分析超链接等,最后送至网页数据库。

(3)提供检索服务。当用户输入关键字进行检索时,搜索引擎将从网页数据库中找到匹配的网页,以列表的形式罗列出来,供用户查看。7.4.2搜索引擎的基本类型

1.全文索引

全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们都是从互联网提取各个网站的信息并建立网页数据库,然后从数据库中检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引与检索系统,Google和百度都属于此类;另一类是租用其他搜索引擎的数据库,例如Lycos搜索引擎。2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎。它将网站链接按照不同的分类标准进行分类,然后以目录列表的形式提供给用户,用户不需要依靠关键字(Keywords)来查询,按照分类目录就可以找到所需要的信息。

目录索引中最具代表性的网站就是Yahoo,另外国内的新浪、网易也属于这一类。它们将互联网中的信息资源按照一定的规则整理成目录,用户逐级浏览就可以找到自己所需要的内容。3.元搜索引擎

元搜索引擎又称多搜索引擎,它是一种对多个搜索引擎的搜索结果进行重新汇集、筛选、删并等优化处理的搜索引擎。“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。

元搜索引擎的最大特点是没有独立的网页数据库。比较著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,国内目前比较好的元搜索引擎只有比比猫。4.垂直搜索引擎

垂直搜索引擎是2006年以后逐步兴起的一种搜索引擎,它专注于特定的搜索领域和搜索需求,如机票搜索、旅游搜索、生活搜索、小说搜索等。垂直搜索引擎是针对某一个行业的专业搜索引擎,是通用搜索引擎的细分和延伸,它对网页数据库中的某类信息进行整合,抽取出需要的数据进行处理并返回给用户。7.4.3搜索引擎的基本法则

1.逻辑“与”的关系

逻辑“与”表示求交集,例如“青年教师”。使用搜索引擎填写关键字时,可以使用空格、逗号、加号和表示“与”的关系,例如要搜索西安电子科技大学出版社的单片机方面的图书,可以输入关键字“西安电子科技大学版社,单片机”,这样就可以得到两个关键字的交集,只有同时满足这两个条件的内容才被罗列出来。2.逻辑“或”的关系

逻辑“或”表示求并集,例如“教授|高工”。在搜索引擎中填写关键字时,可以使用字符“|”表示“或”的关系,例如要搜索“张学友”或者“刘德华”的信息,可以输入关键字“张学友|刘德华”,这样就可以得到两个关键字的并集,满足任何一个条件的内容都会被罗列出来。3.逻辑“非”的关系

逻辑“非”表示排除关系,在搜索引擎中填写关键字时,使用减号表示“非”的关系,例如要搜索“Photoshop教程”,但不包括“英文”的信息,可以输入关键字“Photoshop教程-英文”,这里的“-”必须是英文字符,并且前面必须留有一个空格。7.4.4确定关键字的原则

1.提炼要准确

提炼查询关键字的时候一定要准确,如果查询的关键字不准确,就会搜索出大量的无关信息,与自己要查询的内容毫不相关。

2.切忌使用错别字

在搜索引擎中输入关键字时,最好不要出现错别字,特别是使用拼音输入法时,要确保输入关键字的正确性。如果关键字中使用了错别字,会大大降低搜索的效率,致使返回的信息量变少,甚至搜索到错误信息。3.不要使用口语化语言

我们的日常交流主要运用口语,但是在网络上搜索信息时,要尽可能地避免使用口语作为关键字,这样可能得不到想要的结果。

4.使用多个关键字

搜索信息时要学会运用搜索法则,运用多个关键字来缩小搜索范围,这样更容易得到结果。 7.5电子邮件的使用

7.5.1认识电子邮件

电子邮件(即E-Mail)是指通过计算机网络进行传送的邮件,它是Internet的一项重要功能。电子邮件是现代社会进行通讯、传输文字、图像、语音等多媒体信息的重要渠道。电子邮件与人工邮件相比,具有速度快、可靠性高、价格便宜等优点,而且不像电话那样要求通信双方必须同时在场,可以一信多发,或

显示全部
相似文档