中文语义角色标注探究概述.doc
文本预览下载声明
中文语义角色标注探究概述摘 要: 语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。
关键词: 浅层语义分析 语义角色标注资源 语义角色标注
引言
语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。
1.中文语义角色标注语料资源
语义角色标注离不开语料资源的支持。英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。
Chinese Proposition Bank(CPB)同英文PropBank基本类似。在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。
中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。中文Nombank加入了语义角色层的标注信息,与CPB一样,也标注了核心语义角色和附加语义角色这两类语义角色。中文NomBank中的角色位置有两类情况:一是角色在以名词性谓词为核心词的名词短语中;二是当以名词性谓词为核心词的名词短语作支持动词的宾语时,允许语义角色在名词短语外。
山西大学构建的Chinese FrameNet是基于框架语义理论,类似FrameNet风格的中文词典。它描述了框架元素的详细句法信息和词汇单元以及参与者框架元素之间的关系。Chinese FrameNet的架构和英文FrameNet相似,并且有许多只是稍作修改直接对英文FrameNet进行翻译,但也有一些创新,增加了相应语义角色的汉语名称。目前Chinese FrameNet已经有130多个汉语框架,还在不断补充。
台湾中研院陈凤仪建立了中文句结构树资料库(Sinica Treebank)。Sinica Treebank是一个包含语义标记和句法标记的混合语料库。它的基本框架是以讯息为本的格位语法,主要是对小句进行标注。目前己标注了61 087个句子,包含了361 834个词语。语义角色标记共有50多个,基本沿袭了格语法的标记体系,如受益格、感受格等。
北京大学袁毓林教授组织建设的中文网库,是在北大汉语句法分析树库的基础上进行语义标注的,有着更为细致的语义角色设置,尤其是核心论元,分别在主体论元和客体论元内部各划分出五个子类。具体如下:(一)必有论元:A主体论元:施事、感事、经事、致事、主事;B客体论元:受事、与事、对象、系事。(二)非必有论元:A凭借论元:工具、材料、方式、原因、目的;B环境论元:时间、处所、源点、终点、路径、范围、量幅。
董振东主持建立的知网(HowNet)是一个常识知识库,描述对象为汉语和英语的词语所代表的概念,揭示了概念与概念之间以及概念所具有的属性之间的关系。《知网》描述了多种类型的词汇语义关系,涉及了词汇语义的各个方面,着重描述了不同词性的词语所代表的概念之间的语义关系,其中特别重视名词所代表的概念与动词所代表的概念之间的语义关系,也即我们通常称作实体与事件之间的语义关系即语义角色关系,例如作为实体的“医生”和作为事件的“医治”,两者有着“事件”与“施事”的关系。在知网中,800个事件主要特征中的每一个都标识有一个角色框架。
2.中文语义角色标注的发展现状
2.1语义角色标注的研究最早关注的是英文,随着宾州大学命题库的建立,语义角色标注任务得到广泛的国际关注,并取得了许多很好的结果。出现了一些相关的国际评测,如CoNLL2004、CoNLL2005、EMNLP-CoNLL2007和CoNLL2008都包含了语义角色标注的任务,同时也促进了语义角色标注研究的蓬勃发展。
2.2中文语义
显示全部