文档详情

第三讲搜索引擎应用(课件).ppt

发布:2018-09-07约6.25千字共81页下载文档
文本预览下载声明
2005-09-10 复旦大学文献检索教研室 搜索引擎应用 yangshenghua@126.com 主要内容 搜索引擎的定义,原理,分类等 搜索引擎使用方法 专业搜索引擎指南 积极的搜索指南与心得 我们为什么要学习信息检索 Web的发展带来了什么? 信息数量的急剧膨胀 知识的获取空前简单与繁荣 Information is no longer a scarce resource - attention is. (注意力,而不是信息,才是这个时代所稀缺的资源。—纽约时报,2005.10.16) 从Web中有效的获取知识正在成为人们生活与工作的必须技能 高科技企业员工1/3的时间用于查找资料。 由于无法找到有效信息而浪费的产值占企业收入1/5。 搜索引擎(Search Engine)的定义 搜索引擎是指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 Search Engine,常常是用户利用网上资源的第一途径。 搜索引擎原理 三段式工作流程 搜集 批量搜集,增量式搜集;搜集目标,搜集策略 预处理 关键词提取;重复网页消除;链接分析;索引 服务 查询方式和匹配;结果排序;文档摘要 搜索引擎搜索原理 搜索引擎原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。 搜索引擎分类 按照原理分:关键词搜索引擎,主题分类指南(directory search engine),元搜索引擎(meta-search engine):基于搜索引擎的搜索引擎。 按类型分:web搜索引擎,ftp搜索引擎,学术搜索引擎,blog搜索引擎,新闻搜索引擎…… 概况 Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。 目前,Google 被公认为万维网上最大的搜索引擎,每天处理的搜索请求已达2亿次!而且这一数字还在不断增长。 “Google”来自于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。Google使用这一术语体现了公司整合网上海量信息的远大目标。 Google 技术 Google 秉持着“完美的搜索引擎需要做到确解用户之意,切返用户之需”的信念,开发了自己的服务基础结构和PageRank 技术,使得搜索方式发生了根本性变化。 Google 使用 PageRank技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。 概况 百度(B,Inc)于1999年底成立于美国硅谷,2000年,落户中国。 由前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)共同创建。 2000年5月,百度首次为门户网站——硅谷动力提供搜索技术服务。 2001年10月22日正式发布Baidu搜索引擎。 2005年8月5日,百度在美国纳斯达克上市。 “百度”二字取自辛弃疾的《青玉案》 “众里寻她千百度” 。 现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。 百度技术 百度的核心技术:超链分析技术。 是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。 在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。 二、搜索引擎使用方法 介绍我们最常用的搜索引擎Google 、 Baidu 其他搜索引擎 1.初阶搜索 搜索结果要求包含两个及两个以上关键字。 默认情况下,Google 会返回包含所有搜索字词的网页。在字词之间无需添加“and”。但是,字词键入的顺序会影响搜索结果。 检索示例:查找有关“Photoshop cs 9.0 教程”的资料。 简单查询、多关键词 搜索结果要求不包含某些特定信息。 Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B的网页。(但在减号之前必须留一空格,减号与作用的关键字之间不能有空格。这里的“-”号,是英文字符,而不是中文字符的“-”。 ) 检索示例:查找“Photoshop cs 9.0教程”,但不包含“图书”和“目录”的中文网页。 避免搜索某个词语 搜索结果至少包括多个关键字中的任意一个。 Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有
显示全部
相似文档