第九章网络信息检索的原理与技术祥解.ppt
文本预览下载声明
信息检索 ——原理与技术 第九章 网络信息检索的原理及技术 4.1 搜索引擎及其分类 * 制作人:张美 2014年6月10日 第三节 网络信息的采集 第四节 网络信息的搜索 第一节. 网络信息检索基础 第二节.网络信息检索基本原理 目 录 讨 论 题 3. 元数据?MARC元数据?DC元数据? 4. RDF?它的作用是什么?有啥特点? 1. 什么是网络蜘蛛?工作原理? 2. 什么是主题信息采集技术? 7. 什么是数据库集群系统?优势和分类? 5. Z39.50作用及特点?提供的服务? 6. 网络信息资源集成有什么意义? 第一节. 网络信息检索基础 网络信息检索 广义:指信息采集、组织、存储与检索的全过程 狭义:指广义检索过程中的检索部分,即用户根据网络检索工具查找网络信息的过程 1、检索主题广泛 2、内容新颖实时 3、功能友善完好 4、检索灵活多元 第二节.网络信息检索基本原理 用户行为模式 网络信息检索技术 用户在进行网络信息检索活动时的检索行为的一些特点和规律 网页搜索技术 标引技术 索引技术 检索技术 排序技术 实现网络信息检索功能的软件和数据集合 网络信息检索系统架构 2.1 Marchionini网络信息检索行为模型(336) Choo网络信息检索行为模型 Macpherson网络信息检索行为模型 2.3 Internet 人工收集 自动收集 页面分类 信息资源采集 地址列表 数据过滤 用户界面 索引数据库 检索服务器 用 户 图9-4 信息检索系统的体系结构 第三节 网络信息的采集 网络信息采集 广义:包括网络信息检索系统的所有信息采集和录入活动 (如:电子化扫描、人工录入等系统通用方式) 狭义:指网络搜索引擎的信息采集 网络信息采集的主要任务:为网络信息资源库录入信息资源 网络搜索引擎的信息采集分为两个步骤: 1、站点索引 2、网络搜索 第四节 网络信息的搜索 1.搜索引擎综合分类 (1)全文搜索引擎(代表:Google、Fast/AllTheWeb、AltaVista等) (2)目录索引(代表:Yahoo!) (3)元搜索引擎(代表:InfoSpace、Dogpile、Vivisimo) 2、常用的搜索引擎:Google、百度、北大天网中英文搜索引擎、新浪、 雅虎中国搜索引擎、搜狐、网易 3、特色的搜索引擎: (1)新闻搜索引擎(Google/百度新闻搜索、中搜新闻搜索) (2)音乐搜索引擎(搜刮网、百度MP3搜索、1234567搜索) (3)图像搜索引擎(Google/百度图像搜索、VisionNext搜索) (4)商机搜索引擎 (soaso价格搜索引擎、8848购物搜索) 4.2 搜索引擎索引技术 网 页 正文信息 正向索引 反向索引 分析网页 过滤 切分 倒排 图 4.2 搜索引擎索引建立流程 1、分析网页 2、建立倒排索引文件 3、搜索结果的排序 (1)搜索引擎结果排序方法分类 a、基于内容的排序方法 b、基于链接的排序方法 c、基于其他要素的排序方法 (2)PagaRank算法 (3)搜索引擎结果排序技术 PagaRank算法 PageRank:即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google用来衡量一个网站好坏的唯一标准! 创始人:拉里佩奇(Larry Page ) —Google创始人之一 算法核心思想:PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。这样,PageRank会根据网页B所收到的投票数量来评估该网页的重要性。此外,PageRank还会评估每个投票网页的重要性,因为某些重要网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。 PagaRank算法相关概念 PR值:用来评价网页的重要性,PR值越大越重要,其级别从0到10级。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。 阻尼因数:(damping factor)
显示全部