文档详情

第4章-全文检索1.ppt

发布:2024-05-22约5.16千字共37页下载文档
文本预览下载声明

信息检索技术授课内容:全文检索及其算法授课对象:主讲教员:赵泉

上节回顾为什么要做文献综述文献综述如何做如何做好文献综述

本节内容全文检索概述1全文检索算法2全文检索系统3

全文检索概述1、全文检索的发展过程概念全文检索(Full-TextRetrieval)是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。

全文检索概述1、全文检索的发展过程全文检索这种情报检索技术最早出现于20世纪50年代。1959年,美国匹兹堡大学卫生法律中心建成的法律情报检索系统是世界上第一个全文检索系统。1973年,美国米德公司面向公众查询的,收录大量以法律、新闻、商业经济、政府出版物等内容为主的大型全文数据库Lexis的投入使用,标志着全文检索的诞生。20世纪80年代以来,英文全文检索发展得较为迅速,如今已成为国外文字型信息检索的主流。

全文检索概述1、全文检索的发展过程我国全文检索技术的研究起步于20世纪80年代末,但发展速度较快。武汉大学陈光祚教授较早开展全文检索技术的研究,主持开发了“湖北省地方志全文检索系统”,并倡导用后控词表来改进全文检索技术的检索效果。在20世纪80年代中期,先后有经济日报全文数据库、人民日报全文数据库等几个全文数据库投入使用。清华大学编辑制作的《中国学术期刊(光盘版)》就是这一时期投入使用的质量较高的全文检索数据库。

全文检索概述1、全文检索的发展过程21世纪初,徐建华等人对20世纪90年代我国全文数据库检索进行综述,指出自动标引、全文软件设计与开发、全文后控词表以及超文本链接技术仍是全文检索开发与设计技术研究的热点问题。我国学者已提出了自己的全文检索模式,例如单汉字无标引全文检索系统和全文后控检索系统,并不断深入研究构造新的全文检索模式。

全文检索概述1、全文检索的发展过程有不少公司开发出比较先进的、功能比较齐全的全文检索系统。国内自主开发的中文全文信息软件系统中,如易宝北信公司的TRS、中国科技信息研究所的QuickIMS、浙江经济信息中心的天宇(CGRS)以及南辰电脑公司的南辰多媒体全文检索系统等都已经成为业界的知名产品,并分别占有了一定的市场份额。

全文检索概述1、全文检索的发展过程经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。

全文检索概述2、全文检索的特点1.全文检索的研究内容 全文检索主要指研究对整个文档信息的表示,存储、组织和访问。全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。按检索对象来区分,全文检索可分为基于文本和基于Web两种类型。全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。

全文检索概述2、全文检索的特点2.全文检索的优势(1)查全率高于一般的计算机检索系统(2)全文检索系统能实现计算机自动标引(3)检索界面友好(4)全文检索系统提供多种检索功能(5)全文检索系统更加灵活

全文检索概述2、全文检索的特点3.全文检索存在的问题(1)对同一页面的重复检索(2)查准率还有待提高(3)数据更新已成为检索不容忽视的问题(4)检索结果过多

全文检索概述3、全文检索的发展趋势(1)智能检索(2)知识检索(3)基于XML的信息检索

全文检索算法1.简单匹配全文检索简单匹配全文检索是开始研究全文检索的一种尝试,早期处于试验阶段的单机全文检索系统基本上都是采用的这种算法。网络兴起以后,与全文检索密切结合,而且Internet上的许多搜索引擎都是使用简单匹配全文检索技术。最初该搜索引擎对检索结果的处理仅仅是简单匹配,往往是查全率达到了,查准率却很低,出现大量垃圾信息。概述

全文检索算法1、简单匹配全文检索①检索词串S的首字符S[1]与全文库逐字匹配,匹配成功则记录检索词S[1]在全文中的位置P[j],并转到②,反之则返回检索失败;②取检索词的下一个字符S[i]继续与全文库中的位置为P[j]+2的字符匹配,匹配成功则重复②,直到S遍历一次,转到④;反之,转到③;③取检索词首字符S[1]与全文从位置P[j]+I*2开始匹配,匹配成功则记录S[1]在全文中的位置P[j]并返回②;反之返回检索失败;④遍历全文一次,当全文中有连续的字串与之匹配,返回检索成功;否则返回

显示全部
相似文档