文档详情

一种分布式语义增强的词汇链文本表示模型构建方法-ChinaXiv.PDF

发布:2019-01-31约3.32万字共8页下载文档
文本预览下载声明
研究论文 一种分布式语义增强的词汇链文本表示 模型构建方法 曲云鹏 1,2,3 王文玲 3 1( 中国科学院大学 北京100049) 2( 中国科学院文献情报中心 北京100190) 3( 国家图书馆 北京100081) 摘要: 【目的 】利用分布式语义关联计算词衔接关系, 解决目前词汇链构建时存在的词间关系探测深度不够等问 1 题, 提高词汇链构建质量。【方法 】对词汇链构建的技术方法进行归纳, 利用WordNet 词典关系来计算文本中语 v 言单元的语义关联, 利用分布式记忆模型来计算语言单元之间的潜在语义关系, 将这两种语义关系结合起来实 4 4 现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果 】在文 0 本主题描述方面, 本文方法的词汇链构建结果要优于非贪婪算法, 算法耗时与非贪婪算法相当。【局限 】算法耗 2 0 时较长; 没有完整考虑词衔接关系; 只在对医学领域科技文献的主题识别中验证了该方法的有效性, 还需要在 1. 更多领域进行证明。【结论 】分布式语义关联可以识别潜在语义, 对使用多元短语构建词汇链也有较大的帮助, 能 1 有效地增强词汇链构建效果。 7 关键词: WordNet 分布式记忆 词汇链 分布式语义 1 0 分类号: TP393 G350 2 : v i X 1 引 言 链构建过程中得到了最广泛的应用, 是构建词汇链的 a 主要方法。针对英文文献, 主要使用WordNet、罗杰词 n 词汇链(Lexical Chain)文本表示模型是一种对语 典(Roget’s Thesaurus)等进行构建[8-9]。针对中文文献, 主 i h 篇中的词汇衔接(Lexical Cohesion)关系进行建模的文 [10-12] 。基 要使用 HowNet 、《同义词词林》等进行构建 c 本表示模型, 能够体现语篇中丰富的语义信息。词汇 于统计信息的词汇链构建方法对围绕主题时词汇同时 链构造了一个易于理解的上下文环境, 有助于确定多 出现的这种倾向性进行统计语言学分析形成同现关系 义词在文本中的具体含义; 词汇链能为文本结构以及 知识库, 然后利用知识库计算对象文本的相似度来表 文本一致性提供线索, 有助于理解文本的大意。词汇 示词汇衔接关系, 从而构建词汇链。所使用的算法主 链文本表示模型结构简单, 广泛应用于文本切分[1]、自 [13] [14] 要包括基于极的重叠聚类算法 、LDA 方法 、E 指 动摘要[2] [3] [4] [5] [15] 、文本过滤 、自动问答 、拼写错误识别 数方法 等。基于图的方法将文本转化为图, 然后利 [6] [16] 和情感识别 等领域。 用图聚类等方法寻找词汇链 。由于基于词典和基于 词汇衔接关系的计算方法可以归为三类: 基于词 统计信息的方法二者互补, 因此开始有人尝试将两类 典的方法、基于统计的方法和基于图的方法[7]。基于词 方法结合起来构建词汇链, 如 Marathe 等尝试将分布 典的词汇链构建方法使用词典中定义好的语义关联关 [17]
显示全部
相似文档