文档详情

基于注意力机制的多模态命名实体识别方法研究.pdf

发布:2025-05-07约8.87万字共63页下载文档
文本预览下载声明

基于注意力机制的多模态命名实体识别方法研究

摘要

命名实体识别是指从文本中识别出具有特定意义的词语并分类到预先定义好的实

体类别中,在文本数据挖掘任务中起到关键作用。近年来,随着智能通讯设备的普及

和互联网技术的发展,包含文本、图像等多种模态信息的社交媒体领域数据急剧增加,

可以利用图像等模态信息辅助命名实体识别任务的多模态命名实体识别受到越来越多

的关注。但目前多模态命名实体识别模型存在模态内特征提取不充分和模态间特征交

互不完善的问题,影响多模态命名实体识别效果的提升。

针对上述不足,本文提出了一种多尺度选择性注意力网络模型(Multi-scale

SelectiveAttentionNetworkModel,MSANM)。该模型能够从多个尺度利用文本和图像

信息,减小文本和图像模态间的语义差异,并动态地选择图像中有益于命名实体识别

的部分,从而更加准确的识别出文本中的命名实体。具体地,针对模态内特征提取不

充分的问题,本文提出一种多尺度多模态特征表示方法。通过FasterR-CNN获取信息

更加丰富的细粒度的视觉对象特征,并通过图像描述生成模型提取图像的文本描述,

接着使用BERT和BiLSTM获取包含句子上下文信息的词级别和字符级别联合的文本特

征,再通过注意力机制使用图像的文本描述优化文本特征表示。该方法能够利用不同

尺度的文本和图像信息,获取包含丰富语义信息的文本和图像特征表示。针对模态间

特征交互不完善的问题,本文提出一种选择性注意力网络。为减小不同模态间的语义

差异,将图像和文本特征投影到一个共同的向量空间,并通过对抗学习优化投影函数。

利用双线性注意力机制计算文本特征与视觉对象之间的相关性,得到注意力权重矩阵,

实现一个动态视觉门模块,过滤与文本内容完全无关的视觉对象,动态地选择与文本

内容强相关的视觉对象,生成文本信息的多模态表示。该网络能够完善地进行模态间

特征交互,生成同时包含文本和图像信息的多模态特征。

本文的MSANM模型在社交媒体领域的Twitter数据集上进行了大量相关实验,并

和其他基线模型进行对比,随后对参数敏感性进行分析,最后进行了消融实验,实验

结果表明,本文的MSANM模型在Twitter-2015和Twitter-2017数据集上的F1值分别达

到了75.83%和85.59%,实验结果充分验证了模型的有效性。

关键词:多模态命名实体识别;注意力网络;多尺度;视觉对象

基于注意力机制的多模态命名实体识别方法研究

Abstract

Namedentityrecognitionreferstoidentifyingwordswithspecificmeaningsfromtextand

classifyingthemintopredefinedentitycategories,whichplaysakeyroleintextdatamining

tasks.Inrecentyears,withthepopularizationofsmartcommunicationdevicesandthe

developmentofInternettechnology,datainthesocialmediafieldincludingtext,imagesand

othermodalinformationhaveincreaseddramatically.Modalinformationsuchasimagescan

beusedtoassistinmulti-modalnamedentityrecognitiontasks.Namedentityrecognitionhas

receivedincreasingattention.However,thecurrentmulti-modalnamedentityrecognition

modelhasproblemssuchasinsufficientintra-modalfeatureextractionandimp

显示全部
相似文档