信息检索模拟复习题.doc
文本预览下载声明
名词解释
Text Information Retrieval文本信息检索: 它与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。
uery expansion 查询扩展:为了改善资讯检索召回率(Recall),而将原来查询句增加新的关键字来重新查询,此一技术称为扩展查询。
Text categorization 文本分类:给定分类体系,将文本集中的每个文本分到某个或者某几个类别中,这个过程称为文本分类R-precision R准确率:计算序列中前R个位置文献的准确率。R指与当前查询相关的文献总数。Small world theory小世界理论:又称为六度分离理论(six degrees of separation),?理论指出:你和任何一个陌生人之间所间隔的人不会超过五个,任何两个素不相识的人,通过一定的方式,总能够产生必然联系或关系。ecall and precision. 查全率和查准率:查准率(精度)检出的相关文献与检出的全部文献的百分比 查全率(召回率)检出的相关文献与全部相关文献的百分比。
Zipf’s law 一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是 r × f = C 。 pseudo relevance-feedback伪相关反馈: 也称之为盲式相关反馈,提供的是一种自动局部分析方法,它可以自动化相关反馈的手动操作部分,因此用户可不用参与额外的交互也可以获得更好的检索性能。 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。Inverse document frequency:逆文档频率是文档频率的倒数,主要用于TF-TDF中。Idf=log2(N/df)
Meta-Search Engines:元搜索引擎,是通过一个统一的用户界面来帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现搜索操作,是对分析于网络的多种检索工具的全局控制机制
简答
1、与信息检索有关的研究领域有哪些?简要介绍各领域的主要内容。
数据库管理:研究重点是对结构化数据的存储和利用,而不是对自由文本,再者是用SQL语言高效处理明确定义的查询,提供对数据和查询的更明确的语义。数据库近来向半结构化数据(XML)的发展加强了与信息检索的联系。
图书情报学:研究重点是信息检索的用户视角(人机交互、用户界面、可视化),它与人类知识的有效分类有关以及与引文的分析和文献计量学(信息结构)相关。数字图书馆是计算机科学(CS)和IR的结合。
人工智能:研究重点在于对知识、推理和智力活动的形式化,以及对知识和查询的形式化。网页文体和智能信息代理是它与IR的联系。
自然语言的处理:研究重点在于自然语言文本的语法、语义和语用的分析,它能避免关键字查询的一些缺点。关系:语义消歧、信息抽取和识别关键片段。
机器学习:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
5、齐普夫定律的含义是什么?这一分布定律在网络世界中也多有体现,请举三个例子。
(1)对网页中入度/出度数量的影响(2)对网页的长度有影响(3)对网页的点击率
6、针对同一查询提问,为什么不同的搜索引擎会返回不同的结果集?
(1)数据源不一样:网页抓取阶段、抓取策略不同(2)信息检索模型不一样(3)相似度的计算不一样?
7、停用词处理和截词处理对倒排文档的大小有什么影响?对查询结果有什么影响?
截词处理:缩小倒排文档,提高查全率,降低查准率
停用词处理:缩小倒排文档,提高查准率,降低查全率
8、k近邻分类算法(KNN)的主要思想是什么?为什么这一算法被称为懒惰学习法?
基本思想:对于一个测试文本,计算它与训练样本集中每个文本的相似度,依照该相似度找出K个最相似的训练文本,然后在此基础之上给每一个文本类打分,分值是K个训练文档中属于该类的文本与测试文本之间的文档相似度之和。按分值进行排序,依分值指定测试文本的类别。
原因:近邻分类是基于眼球的懒散的学习方法,即它存放所有的训练样本,并知道新的样本需要分类时才建立分类。这种方法在训练时比急切学习法快,但分类时慢。
9、为什么说“相关性是一种主观的判断”?
10、Pagerank算法的基本思想是什么?
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级一个页面的“得票数”由所有链向它的页面的重要性来决定
显示全部