第3章信息检索系统.ppt
文本预览下载声明
;3.1信息检索系统及其类型;(1)按设备划分
书本式检索系统
卡片式检索系统
穿孔卡片检索系统
缩微胶卷检索系统
计算机检索系统
光盘检索系统
多媒体检索系统
;(2)按照功能划分
文献检索系统:狭义的信息检索系统
数据库管理系统:面向结构化数据
自动问答系统:自然语言处理、事实检索
管理信息系统:面向管理人员
决策支持系统:数据分析
;*;*;信息检索系统的逻辑构成;;(5)用户接口子系统。它的全称为“系统-用户接口”(system-user interface),简称用户接口。它的任务是承担用户与系统之间的通信功能,通常由用户模型、信息显示、命令语言和反馈机制等部分构成。
(6)提问处理子系统。该功能模块的任务是负责处理用户输入的提问式,并将它们与数据库存储的数据进行比较运算,然后将运算结果输入给用户。该模块主要由检索程序构成,包括:接收提问、提问校验、提问加工和检索。;3.3标引处理;*;3.3.2自动标引处理流程;3.3.3自动标引中的词语加权方案;*;(2)逆文档频率法
英文Inverse Document Frequency,基于以下假设:某词的重要性与它在特定文档中的出现次数成正比,与含有该词的文档数成反比。
词频加逆文档词频确定权值的方法得到了广泛的应用。
;*;3.3.3自动标引中的词语加权方案;3.3.4中文自动标引;*;3.4数据库的建立和维护;参考数据库(Reference databases);参考数据库;源数据库(Source databases);;;;;(2)文档的类型;(2)文档的类型;随机文档
文档中的记录按随机方式存放在支持直接存取的磁盘、磁鼓或内存中。在记录的关键码与存放该记录的地址之间建立某种关系,根据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式。
对文档中的记录可以随机存取,不考虑记录在文档中的排列次序,数据的存取时间与数据的存储位置无关。
实现随机文档快速存取的关键是寻址技术。
;主文档(master file)
书目数据库中描述每篇文献的完整记录通常以线性排列方式存放在磁带或磁盘上。检索时,只能按其物理顺序读取这些记录及其中的字段。由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(master file)。 ;倒排文档
所谓倒排档,就是把记录中一切可检字段或属性值(如著者名、主题词等)抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档(如著者倒排档、主题词倒排档等),也可以把所有不同的字段组成一个混合倒排档。;Documents are parsed to extract words (or stems) and these are saved with the Document ID.
;;;The file is commonly split into a Dictionary and a Postings file
;(3)文档的存贮结构;
B固定格式、可变长
记录中字段数目和位置的排列是固定的,但各字段的长度是可变的。
一些早期的图书采购磁带格式采用这种方式,国际标准书号、订购号、书名项、出版项、单价、发票号、订购数,书商、订购日期
需要识别字段的开始、结束以及记录的结束,引入字段标识符、字段结束符、记录结束符。 ;
C 可变格式、可变长
没有任何空间上的浪费。
记录头标区:固定长,24
目次区:有多个目次项和一个分隔符组成。每个目次项占12个字节。结构如下:
标识符 段长 段起始位置
3 4 5
目次区的长度依目次项的数量而定,长度为12N+1
数据区:
记录分隔符;书目数据库的记录格式;头标区;头标区;目次区; 数据区;(4)记录分隔符
记录分隔符,亦称记录结束符,用ISO一646的IS。表示,相当于十六进制代码1D(写作(1D)16).
例如:
头标区:01041cam 2200265 a 4500
目次区
001002000000
003000400020
005001700024
008004100041
010002400082
020002500106
0300040001800175
050002400193
082001800217
。。。
^;数据区
891101s1990####maua###j######000#0#eng##^##$ a##/AC/r91^##$a0316107514 :$c$12.95^##$a 0316107506 (pbk.) :$c$5.95 ($6.95 Can.)^##$
显示全部