文档详情

信息搜索及文本处理.doc

发布:2017-04-01约1.34万字共15页下载文档
文本预览下载声明
目录 壹 3 1.搜索引擎的历史 3 2.搜索引擎的发展 7 第一阶段:分类目录时代(人工时代) 7 第二阶段:文本检索时代(海量自动获取与排序清单) 7 第三阶段:整合分析时代(立体搜索与结果整合)  7 第四阶段:用户中心时代(以移动互联网为标志的个人需求精准搜索)  7 第五阶段:生活生态圈搜索时代(以物联网为标志的实体搜索)  8 贰 9 1搜索引擎的分类 9 1.全文索引 9 2.目录索引 9 2.搜索引擎的工作原理 11 1抓取网页。 11 2处理网页。 11 3提供检索服务。 11 叁 12 1. 苏州笔记本厂家 12 1.苏州精本堂文具礼品有限公司 12 2.苏州奥佳文具礼品有限公司 12 2. 苏州福鑫堂文具礼品有限公司 13 2.关于“马”的濒危动物 14 1. 格利威斑马 14 2. 山斑马 14 3. 马鹿 15 壹 1.搜索引擎的历史 1990年以前,没有任何人能搜索互联网。   所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列 表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。   由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。   由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider (Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。   与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自 己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。   1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。   1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后 来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile   1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。    1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能 真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜 索引擎服务)   1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler
显示全部
相似文档