简单的认识搜索引擎.pdf
文本预览下载声明
云客网 您网站的流量加油站
简单的认识搜索引擎
虽然百度已全面取消referer,但网站SEO优化工作,依然不可缺少。因
为做SEO优化,是为了使网站更加适合搜索引擎的检索行为,为网站带来自然
流量。常言道,知己知彼,百战不殆,下面,就和白掌一起来认识一下搜索引擎
把。
首先,和白掌一起认识一下什么是搜索引擎。
搜索引擎,就是在搜索框中,直接输入所需信息的关键词,就可从互联网中
获取与搜索词相关信息的软件系统。通常,这些搜索结果会呈现在搜索结果页,
搜索到的信息,可能是网页,可能是图像,也可能是其它类型的文件。对于人工
实时维护更新的站点,大多情况下,也就是我们所优化的网站,搜索引擎会派出
基于一定算法的网站爬虫来抓取站点实时更新的信息。但是,在搜索引擎发展之
初,并没有网站爬虫的存在。
然后,让我们一起来看一下搜索引擎早期的发展。
在互联网发展早期,蒂姆•伯纳斯•李建立了第一个网站并托管在CERN(欧洲
核子研究组织)的服务器上。后来,蒂姆在这个网站中列举了其它网站,其中尚
存有记录的是1992 年的一次具有历史意义的快照。但随着越来越多服务器上线,
这份列表无法及时更新,自后再上线的新服务器,都会出现在NCSA Mosaic 下
一个名为“What‘sNew”的分类中。
第一个被用于在互联网上提供搜索服务的工具时Archie,这一象征
“Archive“的名称,并不包含其中的字母”v“。这一工具,是由蒙特利尔市McGill
University 计算机科学专业的学生Alan Emtage、Bill Heelan 和J.Peter Deutschz
于1990 年做成。他们下载了公共匿名FTP 站点上所有文件的目录列表,创建了
一个可对文件名称进行搜索的数据库。但不管怎样,受数据量的限制,Archie
不能索引这些站点的内容,只能进行手动搜索。
1991年,Mark McCahill 创建了Gopher 系统。它的出现促使两大新搜索程
序-Veronica 和Jughead-诞生。类似于Archie,这两项搜索程序可搜索收录于
Gopher 索引系统中的文件名和标题。其中,Veronica提供了在Gopher 列表的大
多数目录标题中进行关键词搜索的服务,Jughead 则是一个从特定Gopher 服务器
获取菜单信息的工具。当搜索引擎Archie 的名称还未收录到Archie 系列丛书中,
Veronica和Jughead就已存在于这套丛书中,不过其中会索引Archie相关的内容。
1993年夏天,虽然专业目录有人工维护,但尚没有为Web 而存在的搜索引
擎。Geneva 某大学的Oscar Nierstrasz 写了一系列Perl手稿。Oscar 会在这些手
稿中,定期反馈网页的情况,后来他又按照一种标准格式,将这些手稿编辑了一
遍。这些手稿,就是之后W3Catalog 的雏形,web 的第一个原始搜索引擎发布于
1993年9 月2 日。
SEO排名 /
云客网 您网站的流量加油站
1993年6 月,Matthew Gray 打造了第一个web robot(搜索引擎爬虫机器
人)-thePerl-basedWorld WideWeb Wanderer,并将其用于生成一种叫做Wandex
的索引。Wanderer 存在的目的是为了衡量万维网(WorldWideWeb)的大小,Web
的第二个搜索引擎是Aliweb,它出现于1993年11月。Aliweb没有采用web robot,
它是使用一种特定的格式来索引每一个站点的信息。
1993年 12 月,Jonathon Fletcher 创建了Jump Station 系统。这种系统使用一
种Web Robot 来发现网页并为其建立索引,同时,用一种web 格式来作为其搜
索程序的接口。Jump Station 可以说是世界上第一个World WideWeb 的搜索引擎。
它将网页搜索引擎的三大基本特征-抓取、索引和搜索-集于一体。但是由于Jump
Station 所在平台可用资源的局限性,其索引内容仅限于web robot 遇到的网页标
题和副标题。
1994 年,WebCrawler 诞生,它是允许Web Robot爬取“全文内容“的搜索引
擎之一。与其前辈不同的是,它支持用户搜索任一网页中的任
显示全部