基于深度学习的多模态命名实体识别模型研究.pdf
基于深度学习的多模态命名实体识别模型研究
摘要
知识图谱是知识工程的重要分支之一,它以符号形式结构化地描述了物理世界中的
概念及其相互关系。命名实体识别是从文本中获取面向实体的知识,并在知识图谱之间
融合知识。近年来,随着人工智能的发展和大数据时代的到来,产生了海量的多模态数
据,对这些数据的处理和挖掘能够帮助人们更好地理解文本内容,掌握有价值的信息。
多模态命名实体识别可以结合多种模态数据的信息,实现更加准确的实体识别任务,为
知识图谱的构建提供更为丰富的实体类型。随着深度学习的迅速发展,基于神经网络的
多模态命名实体识别模型提出借助图像对社交媒体文本中的命名实体进行识别成为近
年来的研究热点。虽然这些模型有一定的改进,但仍存在两个主要的问题:(1)对多模
态中单个模态语义特征挖掘不够有效,部分信息会被忽略,导致不能充分利用不同模态
2
语义的信息进行融合,进而影响实体的识别。()当图像中被检测到的视觉对象和文本
实体数量或类型上不一致时,由视觉对象引起的偏差可能会误导对实体的识别。
针对模态语义特征挖掘不够有效导致多模态交互不充分的问题,本文提出了基于图
MIITSE
文语义增强的多模态交互命名实体识别模型()。使用社交媒体语料库构建表征
词典,对文本特征提取进行知识增强;采用卷积神经网络与视觉Transformer相结合的
混合架构,在进行图像特征提取时综合考虑整体与局部信息;采用了带有跨模态注意力
机制的多模态交互模块,能够从图像和文本中抽取实体相关的特征,更好地融合多模态
信息;最后,通过基于注意力的多模态表示对文本实体进行类型标注。针对在图像中视
觉对象和文本中实体数量或类型不完全相同的情况下,实体识别会受到视觉对象误导的
MFDCL
问题。本文提出了基于去偏置对比学习的多模态融合命名实体识别模型()。使
用了带有跨模态门控机制的多模态融合模块,捕获多模态语义单元之间的各种语义关系;
在对比学习中,采用难分样本挖掘策略和去偏置对比损失来缓解图文数量和实体类型不
一致带来的偏差;最后,学习到的语义空间与解码器GlobalPointer相结合实现对文本
中实体的识别。
最后,在社交媒体领域的数据集Twitter-2015和Twitter-2017上与基线模型进行对
MIITSEMFDCL
比,证明了和模型的可行性。这表明提高图文特征提取质量和缓解视
觉对象引起的偏差对于命名实体识别任务的准确性有着积极的影响。
关键词多模态命名实体识别;深度学习;特征增强;注意力机制;对比学习:
基于深度学习的多模态命名实体识别模型研究
Abstract
Knowledgegraph,asanimportantbranchofknowledgeengineering,structurally
describesconceptsandtheirrelationshipsinthephysicalworldinasymbolicform.Named
entityrecognition(NER)aimstoextractentity-orientedknowledgefromtextandintegrateit
intoknowledgegraphs.Inrecentyears,withthedevelopmentofartificialintelligenceandthe
arrivalofthebigdataera,amassiveamountofmultimodaldatahasbeengenerated.
Processingandminingthesedataca