信息检索模型的课件内容.ppt
文本预览下载声明
理论研究 一种方法 这里具体阐释这种方法的原理,重要的部分可以加粗变颜色,就像段首的那一句话,以下就是为了扩展成两行而编的废话,因为一句话说明一种方法肯定不现实。 一种方法 这里具体阐释这种方法的原理,重要的部分可以加粗变颜色,就像段首的那一句话,以下就是为了扩展成两行而编的废话,因为一句话说明一种方法肯定不现实。 这里对上面这种方法进行一个大大的概括 这里对上面这种方法进行一个大大的概括 PART FOUR 试验 方法 试验方法 01 02 03 第一要点 第二要点 第三要点 这里是对试验中需要注意的第一要点的全面解释 这里是对试验中需要注意的第一要点的全面解释 这里是对试验中需要注意的第一要点的全面解释 试验方法 这里用于具体描述第一步的试验内容是什么。 第一步的试验内容 第一步 第二步 第三步 第四步 这里用于具体描述第二步的试验内容是什么。 第二步的试验内容 这里用于具体描述第三步的试验内容是什么。 第三步的试验内容 这里用于具体描述第四步的试验内容是什么。 第四步的试验内容 试验方法 03 01 某种试验方法的名称——这种方法的特点 02 某种试验方法的名称——这种方法的特点 某种试验方法的名称——这种方法的特点 这里是具体解释第三种试验方法,因为在本文中,我想强调的就是这种方法。 PART FIVE 实际 应用 推导 P(R)和 表示从整个文档集合中随机选取一篇文档是否和查询相关先验概率,而对于一个确定的文档集来说,这两个先验概率仅与查询有关,而与具体的每篇文档无关,进一步简化可得 假设索引术语是相互独立的则: 最终的概率模型排序公式 表示集合R中随机选取的文档中出现索引术语ki的概率, 表示集合R中随机选取的文档中不出现索引术语的概率,则有: 类似定义 和 ,在相同查询背景下,忽略对所有文献保持不变的因子,最终得到: 这是概率模型主要的排序公式 初始化方法 由于我们在开始时并不知道集合R,因此必须 设计一个初始化计算 和 的算法。 在查询的开始间段只定义了查询串,还没有得到结果文档集。我们不得不作一些简单的假设, 假定P(ki|R)对所有的索引术语来说是常数(一般等于0.5) 假定索引术语在非相关文档中的分布可以由索引术语在集合中所有文档中的分布来近似表示。 P(ki|R)=0.5 =ni/N ni表示出现索引术语ki的文档的数目,N是集合中总的文档的数目。 改进 V表示用概率模型初步检出的经过排序的子集,Vi为包含ki的V的一个子集。为了改善概率排序,需要对上述初始化公式改进: 通过迄今已检出的文献中标引词ki的分布来估计 通过假定所有未检出的文献都是不相关的来估计 这一过程可以递归重复 概率模型小结 优点 文档可以按照他们相关概率递减的顺序来排序。 缺点 开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难 实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的) 假设标引词独立 概率模型是否要比向量模型好还存在着争论,但现在向量模型使用的比较广泛。 浏览模型 浏览模型 针对浏览(browsing)文献的用户 具体分为三种模型 扁平浏览(flat)模型 结构导向(structure guided)模型 超文本(hypertext)模型 扁平浏览模型 基本思想是假设用户浏览一个扁平组织结构的文献空间。 为何扁平组织结构?日常生活中有哪些? 文献集合被描述为二维平面上的点或一维链表中的元素。 优点 VS缺点 结构导向浏览模型 基本思想是把众多文档或信息资源组织到一个树状的类目等级体系中。 用户在该结构下,将由上到下,从宽泛到具体,逐步接近所需要的有用信息。 超文本浏览模型 基本思想是允许以非顺序的方式在计算机屏幕上浏览文本的高层交互式导航结构。 由结点和链组成,构成一个有向图。 网络空间的迷航与超文本地图。 扩展的布尔模型 布尔检索示例 “飞碟”AND “小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR “小说”:可以检出D1,D2,D4,但无法显现它们的差异 扩展布尔模型 布尔模型和VSM各自有着自己的优点和不足,能 否将两者结合起来,克服自身的缺点,发挥相互的 长处?1983年G.Salton及其学生提出一种基于布尔 逻辑框架的混合布尔、向量特性的“扩展布尔模 型”。 布尔模型和向量空间模型相结合 布尔模型可以和向量空间模型相结合,先做布尔过滤,然后进行排序: 首先进行布尔查询 将全
显示全部