10第三章信息检索的方法与技术第二讲.ppt
文本预览下载声明
3.2.2 截词检索(truncation) 截词:检索者将检索词在他认为合适的地方截断。 截词检索:用截断词的一个局部进行的检索,凡满足这个词局部中的所有字符串的文献,都为命中文献。 3.2.2 截词检索(truncation) 截词的方式 按截词的位置分:后截词、前截词、中截词 按截词的数量分:无限截词、有限截词。 截词符号:不同的系统符号不同 如 “ *” “?” “$” 截词检索 非限定性截词(无限截词) 截词符(truncation operator),是在一个词尾加一个?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。 如:smok? 它将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。 限定性截词(有限截词) 限定性截词(limited truncation), 是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n 如:smok?? 将对smoke, smoky, smoked, smoker, smokes等进行检索。 对于最多允许添加一个字符的情况, 则用 ? ? 的形式表示。 如;smok? ? 将只对 smoke, smoky进行检索。 截词检索举例 后截词: 将截词符号置于一个字符串的右方。 如comput? 可检索出: compute, computed, computer, computing, computers, computable, computation,computerize, computerization等 后截词又叫前方一致。 截词检索举例 归纳起来,后截词主要主要使用在以下几个方面: 1.词的单复数:如 book?,potato?? 2.年代:如198?(80年代),19??(20世纪) 3.作者:如lancaster?,可检索出所有姓lancaster的作者 4.同根词:如biolog?可检索出biological,biologist,biology. 注:使用后截词,有可能检索出无关的词汇。 词干不能太短,会造成大量误检,系统软件不支持或发生溢出。 截词检索举例 前(左)截断:将截词符号置于一个字符串的左方。 如 ?Computer可检索出:macrocomputer,minicomputer, microcomputer,computer等相关词。 中间截断:如analy?er表示analyzer和analyser, wom?n表示woman和women 前后截断:如?computer? 上述4种截断中,后截断最常用。 3.2.3 字段检索 限定检索词在数据库记录中出现的字段范围的一种检索方法 。 Dialog系统中字段检索分为两类:后缀方式和前缀方式。 后缀方式:对应于基本索引,反映文献的主题内容。如/TI,/AB,/DE,/ID,等。 前缀方式:对应于辅助索引,反映文献的外部特征。如AU=(著者),BN=(ISBN),CC=(分类号),CS=(机构名称),LA=(语种),PY=(出版年),等。 例如:(minicomputer/DE,TI+personal computer/Ti,AB)*py=1990*LA=Eng 数据库常用检索字段列表 3.2.4 词位置检索 词位置检索又叫相邻检索,是以原始记录中检索词之间特定的位置关系为逻辑运算的对象,检索词之间用位置算符连接。它是一种不依赖词表而直接使用自由词的检索技术,可以使检索结果更加准确。 一般分为4个级别: 记录级检索(C):要求检索词出现在同一记录中。 字段级检索(F):要求检索词出现在同一字段中。 自然句级检索(S):要求检索词出现在同一句子中。 词位置检索(W):要求检索词之间的相互位置满足某些条件。 如: A(W)B A(nW)B A(nN) HDTV OR High()Difinition()Television 词位置检索算符 (W)算符与(nW)算符 (W)算符是“word”或”with”缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列。而且所连接的词之间除有一个空格、或一个标点符号或一个连接号外不得夹有任何其他固定的词组, (W)算符的严密性较强。 (nW)算符:允许在连接的两个词之间最多插入n 个及其n个以内的其他词。 词位置检索算符 例如:?s
显示全部