文档详情

第三讲_搜索引擎.ppt

发布:2018-05-13约1.91万字共125页下载文档
文本预览下载声明
第三讲 搜索引擎 课程提纲 搜索引擎简史 搜索引擎的基本原理 搜索引擎的类型 搜索引擎的技巧与方法 常用搜索引擎简介 课程要求 了解搜索引擎的发展历史 了解搜索引擎的基本原理 了解搜索引擎的类型划分 熟悉一些常用的中英文搜索引擎,并重点掌握几个自己常用的搜索引擎 在日常的生活与学习中,能较为熟练地应用搜索引擎的技巧与方法 3.1 搜索引擎简史 1990年以前,没有任何人能搜索互联网 1990年 Alan Emtage、Peter Deutsch、Bill Wheelan Archie FTP服务器中特定文件检索,不是真正的搜索引擎 1993年 Nevada System Computing Services大学 Gopher搜索工具(Veronica —Jughead) 基于菜单的检索 搜索引擎简史 世界上第一个Spider程序: World wide Web Wanderer 在Wanderer的基础上,一些编程者对传统的Spider程序工作原理作了改进 1993年底 基于上述原理的搜索引擎开始纷纷涌现 最负盛名的三个:Scotland的JumpStation Colorado 大学Oliver McBryan的The World Wide Web Worm NASA的Repository-Based Software Engineering (RBSE) spider 搜索引擎简史 1993年2月 6个Stanford University的大学生 搜索软件版本Excite 1994年1月 Infoseek 创立 用户界面友善 一个强势搜索引擎 1994年4月 Stanford University的两名博士生: Jerry Yang(杨致远)和David Filo Yahoo 搜索引擎简史 1994年4月 Washington大学的学生Brian Pinkerton WebCrawler 第一个全文搜索引擎 1994年7月 Carnegie Mellon University的Michael Mauldin创建了Lycos 第一次在搜索结果中使用了网页自动摘要 1995年 第一个元搜索引擎 Washington大学硕士生 Eric Selberg 和 Oren Etzioni Metacrawler 搜索引擎简史 1995年12月 AltaVista 第一个支持自然语言搜索的搜索引擎 第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等) 1995年 斯坦福大学博士生Larry Page和Sergey Brin开始学习搜索引擎设计 1997年9月15日注册了的域名 搜索引擎简史 1998年1月 台湾中正大学吴升教授Openfind 鼎盛 — 2000后市场被瓜分 — 2002年技术升级加快 1997年10月29日 北大天网正式在中国教育和科研网CERNET上提供服务 主要搜索CERNET上的信息 2000年1月 李彦宏 徐勇 百度(Baidu) 第一招:向前看两年 第二招:少许诺,多兑现 第三招:不需要钱的时候借钱 第四招:分散客户 第五招:不要过早地追求赢利 第六招:专注自己的领域 第七招:保持激情    3.2 搜索引擎原理 3.2.1 定义 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。 3.2.2 工作原理 抓取网页 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。重复这过程,并把爬过的所有网页收集回来。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库 在索引数
显示全部
相似文档