基于字符融合多粒度特征的中文命名实体识别方法研究.pdf
基于字符融合多粒度特征的中文命名实体识别方法
摘要
命名实体识别是自然语言处理中的一项基础而关键的任务,许多下游任务例如智能
问答、信息检索、机器翻译等都依赖于命名实体识别任务的结果。中文命名实体识别是
命名实体识别的一个子任务,旨在识别中文非结构化文本序列中具有特定含义的实体。
由于构成中文句子的字符之间没有显式的分隔符,且中文存在大量的多义词,中文命名
实体识别任务比英文更困难。
Transformer和BERT等新一代编码器的提出,推动了中文命名实体识别技术的快速
发展。然而当前中文命名实体识别仍然存在难以使用跨句级别的上下文信息、词特征提
取不充分、缺乏深度融合特征的能力等问题。本文主要针对上述问题,对融合多粒度特
征的中文命名实体识别方法展开研究,并做出以下贡献:(1)本文提出一种将跨句级别
的上下文信息引入到中文命名实体识别的方法。使用Star-Transformer编码当前输入句
子的上下文信息,使用滑动窗口算法将上下文信息和当前输入句子序列进行编码,实现
在编码当前句子时使用跨句级别的上下文信息。在词级信息的融合过程中,对Simplified-
Lattice模型进行扩展,精细化了字符在词中的相对位置信息,提高了词特征的质量。在
解码阶段,使用遮蔽条件随机场解决当前中文命名实体识别模型存在的非法路径问题。
(2)本文提出一种在中文命名实体识别任务中深度融合特征的方法,通过在BERT底
层融合汉字额外特征,提高了模型对特征的深度融合能力。使用文本卷积神经网络提取
汉字的部首级特征,使用软注意力机制融合词级特征。由于汉字的部首级特征相较于词
级特征更加具备汉字内部特征,本文在BERT底层融合汉字部首级特征,而在外层融合
词级特征,缓解了同时引入两种特征带来的特征间相互影响的问题。
本文在中文命名实体识别任务广泛使用的Resume、MSRA、OntoNotes4.0、Weibo
等四个数据集上,和基线模型进行了对比实验。实验结果表明,本文提出的两个方法相
较于基线方法,分别在F1分数上最高取得了0.89和0.66的提升,验证了本文提出的方
法的有效性和优越性。
关键词:中文命名实体识别;跨句上下文;部首级特征;多特征融合
I
基于字符融合多粒度特征的中文命名实体识别方法
Abstract
Namedentityrecognition(NER)isafundamentalandcriticaltaskinnaturallanguage
processing.Manydownstreamtasks,suchasintelligentquestionanswering,information
retrieval,machinetranslation,etc.,relyontheresultsofnamedentityrecognitiontasks.Chinese
namedentityrecognitionisasub-taskofNER,aimedatidentifyingentitieswithspecific
meaningsinChineseunstructuredtextsequences.Duetotheabsenceofexplicitdelimiters
betweencharactersinChinesesentences,thefrequentoccurrenceofpolysemouswordsin
Chinese,thetaskofChinesenamedentityrecognitionismorechallengingthanthatofin
English.
TheproposalofnewgenerationencoderssuchasTransformerandB