基于柱状搜索的高阶依存句法分析1.doc
文本预览下载声明
基于柱状搜索的高阶依存句法分析
1
李正华,车万翔,刘挺
哈工大计算机学院信息检索研究室 哈尔滨 150001
E-mail: {zhli, car, tliu}@ir.hit.edu.cn
摘 要:本文提出使用所有的孙子节点构成祖孙特征的高阶依存模型,并且使用柱状搜索策略限制搜索空间,最
终找到近似最优依存树。另外,我们以较小的时间复杂度为代价,使用了丰富的依存关系特征,并且允许模型在
解码的过程中进行依存关系选择。我们参加了 CoNLL 2009 年多语依存句法分析和语义角色标注国际评测,最终
获得联合任务总成绩第一名,依存句法分析总成绩第三名。
关键词:柱状搜索;高阶特征;依存分析
Beam-search based High-Order Dependency Parser
Zhenghua Li, Wanxiang Che, Ting Liu
Information Retrieval Laboratory of Computer Science Technology School, Harbin Institute ofTechnology, Harbin 150001
E-mail: {zhli, car, tliu}@ir.hit.edu.cn
Abstract: We propose a high-order parsing model which uses all grandchildren nodes to compose high-order features, and
constraint the searching space basing on beam-search strategy, and find the approximately optimal dependency tree. In
addition, We explore rich dependency label features and allow multiple relations for one arc during decoding. We attended
CoNLL2009 international evaluation task of multilingual syntactic and semantic dependency parsing and ranked the first in
the joint task, and ranked the third in the syntactic parsing task.
Key words: Beam-search; High-order Model; Dependency Parsing
1 引言
依存分析是指给定句子 x ? w w w ,遵循某种依存语法体系,给出句子对应的依存树 y 。
1 2... n 依存句法相对于短语结构句法而言,其优点在于:(1)形式简洁,不增加额外的非终结标记,易
于理解。(2)侧重于反映语义关系,可以很容易的和语义分析结合。(3)适合表示交叉关系,因
此适用于大多数语言。(4)有利于实现线性时间的搜索算法。因此,依存句法分析受到国内外学
者广泛的关注[1]。CoNLL2006、2007 年连续两年评测多语依存分析任务。CoNLL2008 评测英语
依存语义分析任务。CoNLL 2009 评测多语依存语义分析任务。这些评测任务的开展,也促进了
依存分析的发展。
本文内容组织为:第 2 部分介绍依存分析相关工作;第 3 部分介绍本文采用的基于柱状搜索
的高阶依存分析方法;第四部分为实验;第 5 部分为结论及进一步工作。
2 相关工作
目前的依存分析的主流方法有两种,第一种是基于转移的方法,第二种是基于图的方法。
1 基金项目:国家自然科学基金项目60675034);国家 863 项目(2008AA01Z144)
基于转移的方法将依存树的构建分解为一个动作序列,由分类器根据当前状态来决定下一个动
作。Covington[2],Yamada[3], Nivre[4]等人采用了这种方法。
基于图的方法将依存分析看成有向图中最大生成树求解问题。对于输入的句子
x ? w1w2...wn ,可以构建一个有向图G ? (V,E) 。V ?{0,1,...,n} 为节点集合,对应每一个词,0
为增加的哑节点,用以表示依存树的根节点。E ?{(i, j,l) |0 ? i ? n,1? j ? n,l ?L}为有向边集合。
其中 L 表示依存关系集合。(i, j,l) 表示一条从i 指向 j 的有向边,依存关系为l 。有向图G 中每
两个节点之间可以有多个同方向的但是不同依存关系的有向边。依存分析的目标是从图G
显示全部