信息检索与搜索引擎排序算法.ppt
文本预览下载声明
信息检索与搜索引擎排序算法 -- 徐艳霞 主要内容 1 信息检索模型介绍 2 搜索引擎典型排序算法介绍 3 适用于数学公式搜索引擎排序算法探讨 搜索引擎排序标准 如果我牙疼,应该去看怎样的医生呢?假设我只有三种选择: A医生,既治眼病,又治胃病; B医生,既治牙病,又治胃病,还治眼病; C医生,专治牙病。 假如再加一个条件:B医生经验丰富,有二十年从医经历,医术高明,而C医生只有五年从医经验。 结论:择医需要考虑两个条件,1:医生的专长与病情的适配程度 2:医生的医术 网页内容与用户查询的匹配程度 搜索引擎排序 网页本身的质量 目录 1.1 信息检索模型的定义及检索系统的形式化表示 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 信息检索模型 1 信息检索模型的定义 什么是数学模型? – 为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。 – 面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。 信息检索模型 – 是用来描述文档和用户查询的表示形式以及它们之间相关性的框架 信息检索模型 信息检索的实质问题 – 对于所有文档,根据其与用户查询的相关程度由大到小进行排序。 信息检索模型与搜索引擎排序算法关系 – 好的信息检索模型在相关性上产生和人类决策非常相关的结果,基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档。 – 在TREC数据集上的试验中,最有效的排序算法来自于被明确定义的检索模型。(在商用的搜索引擎中,所使用的检索模型没用明确的定义,但其排序算法都依赖于坚实的数学基础) 信息检索模型 相关性概念 信息检索系统的形式化表示 相关性 主题相关(一篇文档被判定和一个查询是同一主题) 1.相关性 用户相关 (考虑用户在判定相关性时涉及的所有因素) 二元相关(简单判定一篇文档是相关还是非相关) 2.相关性 多元相关 (从多个层次判断相关性) 信息检索模型形式化表示 信息检索系统的形式化表示 [D,Q,F,R(Di,q)] 1.文档表示 D →文档集合的机内表示 – D={D1, D2 , … , Dm} – 为了满足检索匹配所要求的快速与便利,文档Di通常由从文档中抽取的能够表达文档内容的特征项(如索引项/检索词/关键词)来表示 – 设T={t1, t2 , … , tn} 为系统索引项集合。 则Di ={di1,di2 , … ,din} (dij≥0) dij→索引词tj在文档Di中的重要性(权值weight) 信息检索模型 [D,Q,F,R(Di,q)] 2 查询项Q表示 查询项Q表示为有n个权值的向量: Q=(q1,q2,q3,…,qn) 其中qj是第j个词项的权值。 3 F →文档与查询查询之间的匹配框架 4 R(Di, q)→文档与用户查询之间相关度计算函数 例: D1:Tropical Freshwater Aquarium Fish. D2:Tropical Fish,Aquarium Care,Tank Setup. D3:Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls. D4:The Tropical Tank HomeTropical Fish and Aquariums. 文档向量表示: Terms Documents D1 D2 D3 D4 aqua
显示全部