文档详情

简单的认识搜索引擎.pdf

发布:2017-06-16约4.46千字共4页下载文档
文本预览下载声明
云客网 您网站的流量加油站 简单的认识搜索引擎 虽然百度已全面取消referer,但网站SEO优化工作,依然不可缺少。因 为做SEO优化,是为了使网站更加适合搜索引擎的检索行为,为网站带来自然 流量。常言道,知己知彼,百战不殆,下面,就和白掌一起来认识一下搜索引擎 把。 首先,和白掌一起认识一下什么是搜索引擎。 搜索引擎,就是在搜索框中,直接输入所需信息的关键词,就可从互联网中 获取与搜索词相关信息的软件系统。通常,这些搜索结果会呈现在搜索结果页, 搜索到的信息,可能是网页,可能是图像,也可能是其它类型的文件。对于人工 实时维护更新的站点,大多情况下,也就是我们所优化的网站,搜索引擎会派出 基于一定算法的网站爬虫来抓取站点实时更新的信息。但是,在搜索引擎发展之 初,并没有网站爬虫的存在。 然后,让我们一起来看一下搜索引擎早期的发展。 在互联网发展早期,蒂姆•伯纳斯•李建立了第一个网站并托管在CERN(欧洲 核子研究组织)的服务器上。后来,蒂姆在这个网站中列举了其它网站,其中尚 存有记录的是1992 年的一次具有历史意义的快照。但随着越来越多服务器上线, 这份列表无法及时更新,自后再上线的新服务器,都会出现在NCSA Mosaic 下 一个名为“What‘sNew”的分类中。 第一个被用于在互联网上提供搜索服务的工具时Archie,这一象征 “Archive“的名称,并不包含其中的字母”v“。这一工具,是由蒙特利尔市McGill University 计算机科学专业的学生Alan Emtage、Bill Heelan 和J.Peter Deutschz 于1990 年做成。他们下载了公共匿名FTP 站点上所有文件的目录列表,创建了 一个可对文件名称进行搜索的数据库。但不管怎样,受数据量的限制,Archie 不能索引这些站点的内容,只能进行手动搜索。 1991年,Mark McCahill 创建了Gopher 系统。它的出现促使两大新搜索程 序-Veronica 和Jughead-诞生。类似于Archie,这两项搜索程序可搜索收录于 Gopher 索引系统中的文件名和标题。其中,Veronica提供了在Gopher 列表的大 多数目录标题中进行关键词搜索的服务,Jughead 则是一个从特定Gopher 服务器 获取菜单信息的工具。当搜索引擎Archie 的名称还未收录到Archie 系列丛书中, Veronica和Jughead就已存在于这套丛书中,不过其中会索引Archie相关的内容。 1993年夏天,虽然专业目录有人工维护,但尚没有为Web 而存在的搜索引 擎。Geneva 某大学的Oscar Nierstrasz 写了一系列Perl手稿。Oscar 会在这些手 稿中,定期反馈网页的情况,后来他又按照一种标准格式,将这些手稿编辑了一 遍。这些手稿,就是之后W3Catalog 的雏形,web 的第一个原始搜索引擎发布于 1993年9 月2 日。 SEO排名 / 云客网 您网站的流量加油站 1993年6 月,Matthew Gray 打造了第一个web robot(搜索引擎爬虫机器 人)-thePerl-basedWorld WideWeb Wanderer,并将其用于生成一种叫做Wandex 的索引。Wanderer 存在的目的是为了衡量万维网(WorldWideWeb)的大小,Web 的第二个搜索引擎是Aliweb,它出现于1993年11月。Aliweb没有采用web robot, 它是使用一种特定的格式来索引每一个站点的信息。 1993年 12 月,Jonathon Fletcher 创建了Jump Station 系统。这种系统使用一 种Web Robot 来发现网页并为其建立索引,同时,用一种web 格式来作为其搜 索程序的接口。Jump Station 可以说是世界上第一个World WideWeb 的搜索引擎。 它将网页搜索引擎的三大基本特征-抓取、索引和搜索-集于一体。但是由于Jump Station 所在平台可用资源的局限性,其索引内容仅限于web robot 遇到的网页标 题和副标题。 1994 年,WebCrawler 诞生,它是允许Web Robot爬取“全文内容“的搜索引 擎之一。与其前辈不同的是,它支持用户搜索任一网页中的任
显示全部
相似文档