文档详情

实用信息检索-信息检索的模型.ppt

发布：2017-12-09约小于1千字共19页下载文档

文本预览下载声明

这个模型叫：VSM 向量空间模型 salton发明的 Vector Space Model Lucene 一个实现了VSM的开源软件工具包 Java语言 .net 版本搭建【文档、网页、资料】信息检索系统。信息检索的模型方法 * * 一篇文档document 简称 d 包含好词term 简称 t 文档d与词汇t * 文档和词汇的对应关系一篇文档d包含多个词汇t 一个词汇t出现在多个文档d里。 * * * * 四个文档向量Vector：向量。 D1（2,2,0,3,0,0,0） D2（0,4,6,8,0,0,0） D3（0,0,0,1,2,3,0） D4（0,0,0,0,0,0,2） * 在文档d中，词汇t的分量 D1（2,2,0,3,0,0,0）？一个词对一篇文档来说，它的重要程度如何评判？ * 词t在文档d的重要性类比：一篮子水果。词t：水果文档d：篮子词对文档的重要性某类水果对篮子的重要性 * ① 5个草莓 ②1个草莓单价：1元草莓对这个篮子的重要性为： 5x1=5 只考虑个数合适吗？草莓的价值怎么评判？ * 词t在d中出现的次数：水果的个数词的单价：水果的单价词频：term frequency ? tf 词的单价怎么计算？物以稀为贵词越稀有，词价格越高。词蕴含的信息量越大。词t对文档d的重要性？ * 给定信息x，如果它能命中1/2的文档就说X 的信息量为 1 信息量 * 词的单价如何计算？ * W=词频x词的单价 =词频x词的信息量 =词频x 词的权重就可以计算了 * 原始?最终 * Q：(1,2,0) D1 (1,1,0) D2 (3,1,0) D3 (0,3,1) 举例-----如何计算：Q和D的相似度sim() * Sim(D,Q)=cosθ= 1.权重W= * 2. 计算Q与各个D的夹角的余弦值。 3.按余弦值由大到小排序。 * *

显示全部

相似文档