文档详情

2.2 搜索引擎.ppt

发布:2017-09-28约字共100页下载文档
文本预览下载声明
Semantic Web Ontology Instructor: Zhang maoyuan E-mail: zmydragon@163.com Outline Why Metadata What’s Metadata What’s XML Question 2.1 Current Web 快速发展的因素 电脑技术的快速发展 电脑的普及 电脑知识的普及 网络技术(光纤、网络协议等)的发展 带宽的提高 校园网、电信的ISDL 用户对资源的需求 知识的需求 娱乐信息 引发一系列问题(1) 信息发布 网络IP地址的分配问题 产生虚拟IP网络、IPV6等方法来解决 信息获取 如何从这些海量信息中查到自己感兴趣的资源 如何获取这些信息 产生搜索引擎、信息挖掘技术 信息存储 如何存储海量信息 产生磁盘阵列、TB级存储器 引发一系列问题(2) 信息传递 采用何种工具传递网络信息 产生FTP、BT等软件 信息使用 如何合法、正确使用网络信息 产生网络信息监管的职能部门和法规 产生针对用户(如儿童)权限等的信息过滤技术 Web信息结构 大部分采用HTML(HyperText Markup Language) 也采用XML(eXtensible Markup Language) HTML标记语言 是在普通文本的基础上加上特殊标记(Tag) 目的是运用标记使文件达到预期的显示效果 方法是用“”、“”扩住标记,起始标记用Tag表示,终止标记用/Tag表示 HTML网页片断(1) TABLE border=0 cellPadding=0 cellSpacing=0 width=720 TBODY TR TD width=61A href=/IMG alt=虚拟中医网 border=0 height=67 src=default.files/logo1.gif width=61 /A/TD TABLE 一个容器标记,用以指明这是表格, 其它表格标记只能在这个标记范围内使用 TR 表示表格的行。 TD 表示表格行中的单元。 HTML网页片断(2) frameset rows=“80,*” frame name =“top” src=“a.html”/ frame name =“bottom” src=“b.html”/ /frameset frameset 用来划分框格,每个框格由一个frame标记来表示 这里把页面分成上下两部分,上面显示a.html,下面显示b.html 2.2 搜索引擎 从1995年开始逐渐发展 产生原因 用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。 搜索引擎正是为了解决这个迷航问题而出现的技术 目的 以一定的策略在互联网中搜集、发现信息 对信息进行理解、提取、组织和处理 为用户提供检索服务 现有的搜索引擎 Google 简介 斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立 搜索时间通常不到半秒 每天需要提供 1.5 亿次查询服务 Google 的技术 代理搜索技术 高级 PageRank(网页级别)技术 Google 释义 由英文单词“googol”变化而来 表示 1 后边带有 100 个零的数字 代表Google想征服网上无穷无尽资料的雄心 PageRank 利用巨大的网络链接结构 网页 A 链接到网页 B 时, 就认为“网页 A 投了网页 B 一票 避免任何人为感情因素 百度搜索引擎简介 李彦宏先生及徐勇先生 1999年底,百度成立于美国硅谷 2000年百度公司回国发展 百度的起名 辛弃疾的《青玉案》中 “众里寻她千百度” 象征着百度对中文信息检索技术执著的追求 竞价排名 由用户为自己的网页出资购买关键字排名 按点击计费的一种服务 搜索结果的顺序将根据竞价的多少由高到低排列 雅虎搜索引擎简介 大卫·费罗(David Filo) 和杨致远(Jerry Yang) 美国斯坦福大学电机工程系的博士生 1994年4月建立了网络指南信息库 分类目录 站点目录分为14个大类,每一个大类下面又分若干子类 连接速度快,包含范围广 雅虎中国网站提供简单易用、手工分类的简体中文网站目录 性能指标 召回率(Recall) 检索出的相关文档数和文档库中所有的相关文档数的比率 衡量的是搜索引擎的查全率 精度(Pricision) 检索出的相关文档数与检索出的文档总数的比率 衡量的是搜索引擎的查准率 影响性能的因素 文档和查询的表示方法 评价文档 用户查询相关性的匹配策略 查询结果的排序方法 用户进
显示全部
相似文档