一种分布式语义增强的词汇链文本表示模型构建方法-ChinaXiv.PDF
文本预览下载声明
研究论文
一种分布式语义增强的词汇链文本表示
模型构建方法
曲云鹏 1,2,3 王文玲 3
1( 中国科学院大学 北京100049)
2( 中国科学院文献情报中心 北京100190)
3( 国家图书馆 北京100081)
摘要: 【目的 】利用分布式语义关联计算词衔接关系, 解决目前词汇链构建时存在的词间关系探测深度不够等问
1 题, 提高词汇链构建质量。【方法 】对词汇链构建的技术方法进行归纳, 利用WordNet 词典关系来计算文本中语
v 言单元的语义关联, 利用分布式记忆模型来计算语言单元之间的潜在语义关系, 将这两种语义关系结合起来实
4
4 现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果 】在文
0 本主题描述方面, 本文方法的词汇链构建结果要优于非贪婪算法, 算法耗时与非贪婪算法相当。【局限 】算法耗
2
0 时较长; 没有完整考虑词衔接关系; 只在对医学领域科技文献的主题识别中验证了该方法的有效性, 还需要在
1. 更多领域进行证明。【结论 】分布式语义关联可以识别潜在语义, 对使用多元短语构建词汇链也有较大的帮助, 能
1 有效地增强词汇链构建效果。
7 关键词: WordNet 分布式记忆 词汇链 分布式语义
1
0 分类号: TP393 G350
2
:
v
i
X 1 引 言 链构建过程中得到了最广泛的应用, 是构建词汇链的
a 主要方法。针对英文文献, 主要使用WordNet、罗杰词
n 词汇链(Lexical Chain)文本表示模型是一种对语 典(Roget’s Thesaurus)等进行构建[8-9]。针对中文文献, 主
i
h 篇中的词汇衔接(Lexical Cohesion)关系进行建模的文 [10-12] 。基
要使用 HowNet 、《同义词词林》等进行构建
c
本表示模型, 能够体现语篇中丰富的语义信息。词汇 于统计信息的词汇链构建方法对围绕主题时词汇同时
链构造了一个易于理解的上下文环境, 有助于确定多 出现的这种倾向性进行统计语言学分析形成同现关系
义词在文本中的具体含义; 词汇链能为文本结构以及 知识库, 然后利用知识库计算对象文本的相似度来表
文本一致性提供线索, 有助于理解文本的大意。词汇 示词汇衔接关系, 从而构建词汇链。所使用的算法主
链文本表示模型结构简单, 广泛应用于文本切分[1]、自 [13] [14]
要包括基于极的重叠聚类算法 、LDA 方法 、E 指
动摘要[2] [3] [4] [5] [15]
、文本过滤 、自动问答 、拼写错误识别 数方法 等。基于图的方法将文本转化为图, 然后利
[6] [16]
和情感识别 等领域。 用图聚类等方法寻找词汇链 。由于基于词典和基于
词汇衔接关系的计算方法可以归为三类: 基于词 统计信息的方法二者互补, 因此开始有人尝试将两类
典的方法、基于统计的方法和基于图的方法[7]。基于词 方法结合起来构建词汇链, 如 Marathe 等尝试将分布
典的词汇链构建方法使用词典中定义好的语义关联关 [17]
显示全部