文档详情

信息搜索及文本处理.doc

发布：2017-04-01约1.34万字共15页下载文档

文本预览下载声明

目录壹 3 1.搜索引擎的历史 3 2.搜索引擎的发展 7 第一阶段：分类目录时代（人工时代） 7 第二阶段：文本检索时代（海量自动获取与排序清单） 7 第三阶段：整合分析时代（立体搜索与结果整合）  7 第四阶段：用户中心时代（以移动互联网为标志的个人需求精准搜索）  7 第五阶段：生活生态圈搜索时代（以物联网为标志的实体搜索）  8 贰 9 1搜索引擎的分类 9 1.全文索引 9 2.目录索引 9 2.搜索引擎的工作原理 11 1抓取网页。 11 2处理网页。 11 3提供检索服务。 11 叁 12 1. 苏州笔记本厂家 12 1.苏州精本堂文具礼品有限公司 12 2.苏州奥佳文具礼品有限公司 12 2. 苏州福鑫堂文具礼品有限公司 13 2.关于“马”的濒危动物 14 1. 格利威斑马 14 2. 山斑马 14 3. 马鹿 15 壹 1.搜索引擎的历史 1990年以前，没有任何人能搜索互联网。　　所有搜索引擎的祖先，是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。　　由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。　　由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为spider (Spider FAQ)程序。世界上第一个Spider程序，是MIT Matthew Gray的World wide Web Wanderer，用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量，后来则发展为也能够捕获网址（URL）。　　与Wanderer相对应，1993年10月Martijn Koster创建了ALIWEB（Martijn Koster Annouces the Availability of Aliweb），它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot，如果网站主管们希望自己的网页被ALIWEB收录，需要自己提交每一个网页的简介索引信息，类似于后来大家熟知的Yahoo。　　1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中最负盛名的三个是：Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm（First Mention of McBryan’s World Wide Web Worm）、NASA的Repository-Based Software Engineering (RBSE) spider。　　1993年2月，6个Stanford（斯坦福）大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索。这就是Excite。后来曾以概念搜索闻名，2002年5月，被Infospace收购的Excite停止自己的搜索引擎，改用元搜索引擎Dogpile　　1994年1月，第一个既可搜索又可浏览的分类目录EINet Galaxy（Tradewave Galaxy）上线。除了网站搜索，它还支持Gopher和Telnet搜索。　　　1994年4月，Stanford两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。搜索效率明显提高。（Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务）　　1994年初，Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler（Brian Pinkerton Announces the Availability of Webcrawler）。1994年4月20日，WebCrawler

显示全部

相似文档