文档详情

信息检索与搜索引擎排序算法.ppt

发布：2017-09-09约8.36千字共42页下载文档

文本预览下载声明

信息检索与搜索引擎排序算法 -- 徐艳霞主要内容 1 信息检索模型介绍 2 搜索引擎典型排序算法介绍 3 适用于数学公式搜索引擎排序算法探讨搜索引擎排序标准如果我牙疼，应该去看怎样的医生呢？假设我只有三种选择： A医生，既治眼病，又治胃病； B医生，既治牙病，又治胃病，还治眼病； C医生，专治牙病。假如再加一个条件：B医生经验丰富，有二十年从医经历，医术高明，而C医生只有五年从医经验。结论：择医需要考虑两个条件，1：医生的专长与病情的适配程度 2：医生的医术网页内容与用户查询的匹配程度搜索引擎排序网页本身的质量目录 1.1 信息检索模型的定义及检索系统的形式化表示 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法信息检索模型 1 信息检索模型的定义什么是数学模型？ – 为了某种特定目的，通过对现实世界的某一特定对象做出一些必要的简化与假设，运用适当的数学工具得到的一种数学结构。 – 面对相同的输入，模型的输出应能够无限地逼近现实世界的输出。信息检索模型 – 是用来描述文档和用户查询的表示形式以及它们之间相关性的框架信息检索模型信息检索的实质问题 – 对于所有文档，根据其与用户查询的相关程度由大到小进行排序。信息检索模型与搜索引擎排序算法关系 – 好的信息检索模型在相关性上产生和人类决策非常相关的结果，基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档。 – 在TREC数据集上的试验中，最有效的排序算法来自于被明确定义的检索模型。（在商用的搜索引擎中，所使用的检索模型没用明确的定义，但其排序算法都依赖于坚实的数学基础）信息检索模型相关性概念信息检索系统的形式化表示相关性主题相关（一篇文档被判定和一个查询是同一主题） 1.相关性用户相关（考虑用户在判定相关性时涉及的所有因素）二元相关（简单判定一篇文档是相关还是非相关） 2.相关性多元相关（从多个层次判断相关性）信息检索模型形式化表示信息检索系统的形式化表示 [D,Q,F,R(Di,q)] 1.文档表示 D →文档集合的机内表示 – D={D1, D2 , … , Dm} – 为了满足检索匹配所要求的快速与便利，文档Di通常由从文档中抽取的能够表达文档内容的特征项（如索引项/检索词/关键词）来表示 – 设T={t1, t2 , … , tn} 为系统索引项集合。则Di ={di1,di2 , … ,din} (dij≥0) dij→索引词tj在文档Di中的重要性（权值weight）信息检索模型 [D,Q,F,R(Di,q)] 2 查询项Q表示查询项Q表示为有n个权值的向量： Q=(q1,q2,q3,…,qn) 其中qj是第j个词项的权值。 3 F →文档与查询查询之间的匹配框架 4 R(Di, q)→文档与用户查询之间相关度计算函数例： D1：Tropical Freshwater Aquarium Fish. D2：Tropical Fish,Aquarium Care,Tank Setup. D3：Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls. D4：The Tropical Tank HomeTropical Fish and Aquariums. 文档向量表示： Terms Documents D1 D2 D3 D4 aqua

显示全部

相似文档