文档详情

信息检索理论与方法.doc

发布:2017-01-14约1.71万字共14页下载文档
文本预览下载声明
信息检索:理论与方法 第一部分 信息检索理论 一.掌握和熟悉 1. 信息检索的基本原理:即对信息集合与需求集合的匹配与选择。* 2. 信息检索常用技术:* · 布尔检索:逻辑与:如,A*B ,表明一篇文献中A和B必须同时存在。 例:郭沫若*语言学 (同时满足两个条件) 逻辑或:如,A+B ,表明文献中A或B必须存在,包含同时存在。 逻辑非:如,A- B ,表明一篇文献中包含A但不包含B。 例:郭沫若;除去语言学 (对某一个检索要求进行限制) 逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。 · 截词检索:后截断:computer*,可检索出:computeracy, computerise, computers 前截断:*computer,可检索出:microcomputer, minicomputer 中截断:organi ? ation,可检索出:organisation,organization 前后截断:*computer* · 限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。 ·全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中, 弥补布尔检索的不足。 · 加权检索: ·多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况下能自动识别或理解声音、图象、视频重要特征的算法。 · 超文本检索:超文本是一种信息的组织方法。 3.信息检索当代技术:* ? 并行检索:两个或两个以上的程序或任务并行处理。 ? 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50 协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索。 遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。 近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必须 遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象 ? 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容不 检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智能 型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;b. 具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内容 的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能; d.具有文本挖掘功能等。 ? 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、 表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等) ? 异构信息整合检索:能够检索和整合不同来源和结构的信息。 ? 全息检索:就是支持一切格式和方式的检索。 ? 自然语言检索:应是信息检索的发展趋势。自然语言与人工语言相结合,才能 更好地发挥自然语言检索的优势。 ? 跨语言信息检索:可以用一种语言去检索其他语言的资源。 ? 问答系统:输入的查询是问题,要求从给定语料库中返回文本。 ? 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。 概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系。 ? 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。 4.检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡量。* 5.查全率=检出的相关信息数/信息库中相关信息总数*100 %= a / a + c *100 %* 6.查准率=检出的相关信息数/检出的信息总数*100% = a / a + b * 100%* 查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。* 7.误检率=检出的非相关信息数/检出的信息总数*100%=b / a+b * 100% * 8.漏检率=未检出的相关信息数/信息库中相关信息总数*100%
显示全部
相似文档