基于零样本学习的中文医学命名实体识别方法研究与应用.pdf
成都信息工程大学硕士学位论文
基于零样本学习的中文医学命名实体识别方法研究与应用
摘要
命名实体识别可以识别电子病历中蕴含的医学实体信息,为人工智能在医
疗卫生服务中的应用提供了条件和支持。目前大多数研究采用的是有监督的深
度学习方法,并且假设训练数据中包含所有可能的实体类别,缺乏处理未见类
的能力,但是在实际应用中会不断涌现新的类别,因此需要重新标注和训练。
零样本学习允许在预测阶段引入新的类别而不需要额外的标注数据和重新训练,
通过引入对实体的描述来解决训练集的类别和测试集的类别不相交的问题,因
此本文对基于零样本学习的中文医学命名识别方法展开了研究,主要内容如下:
(1)采用类别描述信息搭建零样本学习的中文医学命名实体识别模型:本
研究首先搭建了基于类别描述的中文医学命名实体识别模型,通过类别描述信
息建立实体和其类别之间的关联,将可见的知识迁移到不可见的类别上,从而
实现在测试阶段可以引入新的类别。同时为了探究不同的描述信息对于模型识
别结果的影响,本文还采用了不同的描述信息进行实验研究。
(2)提出词嵌入共享来提高词嵌入的质量:零样本学习通过类别描述建立
实体和类别的关联,词嵌入中所包含的语义以及语法信息对建立实体和类别的
关联以及识别效果起到了至关重要的作用,因此探索高质量的、适用于中文医
学的词嵌入至关重要。本文通过词类比任务、下游任务、词嵌入可视化三种词
嵌入评价方法对不同的词嵌入进行了评估,提出了更加适合于中文医学的词嵌
入方法,实验结果表明词嵌入共享可以有效的丰富词嵌入的信息,从而进一步
提高了模型的识别效果。
(3)提出词典增强来解决中文以字符为单位、语义表达不完整的问题:上
述模型的输入都是以字符为单位,但中文字符表达不了完整的语义信息,因此
本文提出通过构造相关词搜索器加入单词的信息,使字符信息与单词信息进行
充分的融合,从而可以使词嵌入中包含更加完整的语义信息,最后将词典增强
与词嵌入共享相融合,在语义信息表达完整的情况下使其更加丰富,实验结果
充分验证了上述方法的有效性。
(4)构建基于零样本学习的中文医学命名实体识别系统,系统在识别的过
程中不用局限于预定义好的标签类别,只用输入相关的描述信息以及类别名称
就可以对文本进行识别。
关键词:零样本学习,命名实体识别,类别描述,词嵌入共享,词典增强
ii
成都信息工程大学硕士学位论文
ResearchandApplicationofChineseMedicalNamedEntity
RecognitionBasedonZero-shotLearning
ABSTRACT
NamedEntityRecognitioncanidentifymedicalentityinformationembeddedin
electronicmedicalrecords.,whichprovidesconditionsandsupportfortheapplication
ofartificialintelligenceinhealthcareservices.Currently,mostresearchinthisfield
adoptssuperviseddeeplearningmethods,assumingthatthetrainingdatacontainsall
possibleclasses,butlackingtheabilitytohandleunseenclasses.However,inpractical
applications,newclassescontinuouslyemerge,requiringre-annotationandretraining.
Zero-shotlearningallowstheintroductionofnewclassesatthepredictions