文档详情

一种分布式语义增强的词汇链文本表示模型构建方法-ChinaXiv.PDF

发布：2019-01-31约3.32万字共8页下载文档

文本预览下载声明

研究论文一种分布式语义增强的词汇链文本表示模型构建方法曲云鹏 1,2,3 王文玲 3 1( 中国科学院大学北京100049) 2( 中国科学院文献情报中心北京100190) 3( 国家图书馆北京100081) 摘要: 【目的】利用分布式语义关联计算词衔接关系, 解决目前词汇链构建时存在的词间关系探测深度不够等问 1 题, 提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳, 利用WordNet 词典关系来计算文本中语 v 言单元的语义关联, 利用分布式记忆模型来计算语言单元之间的潜在语义关系, 将这两种语义关系结合起来实 4 4 现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果】在文 0 本主题描述方面, 本文方法的词汇链构建结果要优于非贪婪算法, 算法耗时与非贪婪算法相当。【局限】算法耗 2 0 时较长; 没有完整考虑词衔接关系; 只在对医学领域科技文献的主题识别中验证了该方法的有效性, 还需要在 1. 更多领域进行证明。【结论】分布式语义关联可以识别潜在语义, 对使用多元短语构建词汇链也有较大的帮助, 能 1 有效地增强词汇链构建效果。 7 关键词: WordNet 分布式记忆词汇链分布式语义 1 0 分类号: TP393 G350 2 : v i X 1 引言链构建过程中得到了最广泛的应用, 是构建词汇链的 a 主要方法。针对英文文献, 主要使用WordNet、罗杰词 n 词汇链(Lexical Chain)文本表示模型是一种对语典(Roget’s Thesaurus)等进行构建[8-9]。针对中文文献, 主 i h 篇中的词汇衔接(Lexical Cohesion)关系进行建模的文 [10-12] 。基要使用 HowNet 、《同义词词林》等进行构建 c 本表示模型, 能够体现语篇中丰富的语义信息。词汇于统计信息的词汇链构建方法对围绕主题时词汇同时链构造了一个易于理解的上下文环境, 有助于确定多出现的这种倾向性进行统计语言学分析形成同现关系义词在文本中的具体含义; 词汇链能为文本结构以及知识库, 然后利用知识库计算对象文本的相似度来表文本一致性提供线索, 有助于理解文本的大意。词汇示词汇衔接关系, 从而构建词汇链。所使用的算法主链文本表示模型结构简单, 广泛应用于文本切分[1]、自 [13] [14] 要包括基于极的重叠聚类算法、LDA 方法、E 指动摘要[2] [3] [4] [5] [15] 、文本过滤、自动问答、拼写错误识别数方法等。基于图的方法将文本转化为图, 然后利 [6] [16] 和情感识别等领域。用图聚类等方法寻找词汇链。由于基于词典和基于词汇衔接关系的计算方法可以归为三类: 基于词统计信息的方法二者互补, 因此开始有人尝试将两类典的方法、基于统计的方法和基于图的方法[7]。基于词方法结合起来构建词汇链, 如 Marathe 等尝试将分布典的词汇链构建方法使用词典中定义好的语义关联关 [17]

显示全部

相似文档