信息搜索及文本处理.doc
文本预览下载声明
目录
壹 3
1.搜索引擎的历史 3
2.搜索引擎的发展 7
第一阶段:分类目录时代(人工时代) 7
第二阶段:文本检索时代(海量自动获取与排序清单) 7
第三阶段:整合分析时代(立体搜索与结果整合) 7
第四阶段:用户中心时代(以移动互联网为标志的个人需求精准搜索) 7
第五阶段:生活生态圈搜索时代(以物联网为标志的实体搜索) 8
贰 9
1搜索引擎的分类 9
1.全文索引 9
2.目录索引 9
2.搜索引擎的工作原理 11
1抓取网页。 11
2处理网页。 11
3提供检索服务。 11
叁 12
1. 苏州笔记本厂家 12
1.苏州精本堂文具礼品有限公司 12
2.苏州奥佳文具礼品有限公司 12
2. 苏州福鑫堂文具礼品有限公司 13
2.关于“马”的濒危动物 14
1. 格利威斑马 14
2. 山斑马 14
3. 马鹿 15
壹
1.搜索引擎的历史
1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列 表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider (Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自 己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。 1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。 1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后 来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile 1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。 1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能 真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜 索引擎服务) 1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler
显示全部