基于动词的关系模式抽取方法.docx
文本预览下载声明
基于动词的关系模式抽取方法摘要:本文提出了一种基于动词的关系模式抽取方法,旨在从中文网页语料中抽取高准确率的实体关系。使用ICTCLAS和实体表进行人名和岛屿岛礁实体识别,生成准确的句子实例,在此基础上构建基于动词的关系模式。实验结果表明该方法获得了良好的抽取性能。关键词:关系抽取;关系模式;实体识别一引言信息抽取研究技术是人们获取信息的有力工具,是应对信息爆炸带来的严重挑战的重要手段。信息抽取的目标是从无结构自然语言文本中提取计算机可以理解的结构化信息,其中一种主要的结构化信息是实体关系。关系抽取是信息抽取的子任务,主要目的是提取句子中的实体关系[1]。Web已经成为包含人类社会各种知识的信息库,其规模正在以指数级速度膨胀,容纳的信息中有各种实体关系信息,如人物社会关系、国家与岛屿之间的拥有主权关系等等。然而,现有的搜索引擎仅能返回与用户关心的相关信息网页,不能得到各种关系信息。本文以从中文网页语料中自动抽取实体之间关系为目标,提出一种基于动词的关系模式抽取方法。二关系抽取语料中的实体包括八类:人名、地名、城市、岛屿岛礁、海域河域、组织机构、政府部门、军事机构,如图1所示。人名人名地名地名城市城市岛屿岛礁岛屿岛礁海域河域海域河域组织机构组织机构政府部门政府部门军事机构军事机构图1 实体关系表如何抽取这八类实体之间的关系、以构建关系模式是我们要研究的内容,本文以抽取人名和岛屿岛礁之间的关系为例开展研究。我们提出的关系抽取策略包括句子实例获取、关系模式的构建。实体关系抽取原理如图2所示。图2 实体关系抽取原理图(一)句子实例获取将中文网页正文部分进行预处理,获取含有实体的句子作为关系抽取的句子实例。预处理包括分段分句、词性标注、命名实体识别等[2]。本文主要处理人物与岛屿岛礁之间的关系抽取任务,所以在分好的句子中使用ICTCLAS[3]识别出这两种实体类型,在句子中出现的人物以“[1-人名XX]”标注,岛屿以“[23-岛屿名XX]”标注。(二)关系模式的构建传统的启发式方法对句子实例进行词性标注,并用通配符替换实体对出现的位置来构建模式[4],但通用性和准确性不足,例如“北京是中国的首都”的模式构建结果为“object是/v target的/u首都/n”,而从“北京是中国政治文化的中心”中得到的模式并未表示北京和中国之间的capital-of关系。本文使用的关系模式抽取方法是从种子句中出现在实体前后的上下文来学习关系模式,在从种子句中学习抽取模式时,并不是机械地把出现在种子句中实体前、实体中、实体后的所有词语均作为所学模式的特征词[5]。因为通过对句子的观察,发现句子中两个实体的上下文中常会出现大量的修饰性词语,如形容词、副词、语气词等,如果把所有出现的词语都作为抽取模式的特征词,一方面极大地增加了模式的长度,会在以后的模式匹配工作中占据较多的机器时间,另一方面长模式的匹配准确率也会有相应的下降。所以本文提出了基于动词的关系抽取方法,以“动词”为核心,将相同动词的句子放在一起抽取关系模式。以下是一个句子标注例子:动词:到达从谭门镇出发,将航向调到东南110度,3天3夜后“琼琼海08068”号渔船船长[1-许卫]可到达[23-黄岩岛]。我们抽取的是实体(概念)之间的关系,这种关系在文本体现方式上为上下文环境约束。即提炼各种上下文环境约束规则,将其实现到语言中,计划实现的上下文环境计算符包括:SENT,表示在同一句话中;ORD,表示满足先后顺序;DIST_n,表示两两距离不能超过n等等。关系模式的一个示例:CONCEPT: ACTION_ARRIVE: 到达CONCEPT: NAME: 许卫CONCEPT: NAME_ISLAND: 黄岩岛MCONCEPT_RULE:ARRIVE(person.island):(SENT,ORD( “_person{NAME}”, ”ACTION_ARRIVE”, ”_island{NAME_ISLAND }”))关系模式包含两部分的内容,一部分是概念,一部分是规则。“CONCEPT”表示概念,包括动词概念和名词概念,动词概念以“ACTION_”为开头,名词概念指的是实体,如人物、地名(国家、岛屿、海域、城市)、组织机构等等,“CONCEPT: NAME: 许卫”表示人名“许卫”,“CONCEPT: NAME_ISLAND: 黄岩岛”表示岛屿名“黄岩岛”;抽取的目标是概念的关系,我们用“MCONCEPT_RULE”定义抽取的规则,规则名“ARRIVE”用动词来表示,规则由两个参数person和island组成,分别对应名词概念NAME和NAME_ISLAND。三实验结果及分析(一)实验语料实验中选择了人名与岛屿岛礁名的关系作为抽取对象,使用了21,467篇中文网页,对其进行分段分句,共分出435,2
显示全部