基于多任务多模态融合学习的情感分析方法.pdf
摘要
随着社交媒体技术的不断发展,人们以文字、图片以及音频多模态方式便捷地发
表和分享自己的观点、情感和态度,而这些不同的模态数据在同一时间段,往往情感
的表达是相互补充的。如何全面、准确地获取这些模态中的情感信息,需要多模态情
感分析技术的支持。多模态情感分析旨在预测蕴含在文本、图片和音频等多模态数据
中的情感倾向或得分。单一模态数据的情感分析往往受到情感数据不全和信息不足
的局限,无法全面捕捉和理解情感的全部内容。因此,本文利用文本、语音和图像等
多种模态情感数据,结合多模态情感分析任务的特点,从模态特征融合和内容一致性
融合的角度,研究基于多任务多模态融合学习的情感分析方法,可以让机器充分利用
非语言信息,有效地捕获情感内容,理解多感官的情感信息,提高情感分析的性能。
本文主要研究工作如下:
(1)基于多任务多模态特征交互学习的情感分析模型
由于现有的多模态融合方法将不同模态的高级特征与低级特征进行融合,忽视
了不同模态特征层次之间的差异。因此,本文构建了多任务多模态交互学习的自监督
动态融合的情感分析模型。首先构建了GateTransformer模型和SAG-Transformer模
型,在此基础上,设计了从低级特征渐变到高级特征的融合策略,建立了单模态特征
表示与两两模态特征的层次融合表示,其次,为了进一步加强多模态特征融合,构建
了分布相似性损失函数和异质损失函数,联合学习多模态的共性表征和特性表征。进
一步,利用多任务学习,获得模态的一致性及差异性特征,增强了多模态特征的表示。
在CMU-MOSI和CMU-MOSEI数据集上的ACC-2分别增加了0.55/0.45和1.86/0.69,
在F1-Score分别增加了0.07/0.47和2.17/0.32,在Corr分别增加了0.003和0.009,
在MAE上分别下降了0.004和0.001,验证了本模型的有效性。
(2)基于多任务多模态翻译的内容一致性融合的情感分析模型
在多模态数据中,不同模态表达的情感信息是不同的,而生成的单模态标签与多
模态标签高度相关。因此,本文构建了基于多任务多模态翻译的内容一致性融合的情
感分析模型,将单模态情感分析任务替换为单模态特征翻译任务,用于学习多模态的
共性表征。首先将音频/视频模态特征由GateTransformer编码,从所编码的特征中解
码出多模态特征。编码特征同时体现了单模态和目标模态的信息,通过引入多任务学
习机制,在整体上较为全面地捕捉多模态数据中的情感信息,提升了多模态情感分析
I
的整体性能。在CMU-MOSI和CMU-MOSEI数据集上,本文模型相较于基线模型
MMILN,在ACC-2指标上分别增长了0.30/0.02和0.39/-0.07;在F1-Score指标上,
分别增长了0.11/0.05和0.22/0.06。表明本文多任务多模态翻译的内容一致性融合的
情感分析模型具有一定的优势。
关键词:情感分析;多模态融合;多模态翻译;多任务;特征表示
II
目录
摘要I
ABSTRACTIII
1绪论1
1.1研究背景与意义1
1.2国内外研究现状2
1.2.1文本情感分析2
1.2.2音频情感分析4
1.2.3表情情感分析4
1.2.4多模态情感分析5
1.3本文主要研究内容6
1.4本文的组织结构7
2多模态融合相关技术9
2.1多模态特征级融合技术9
2.2多模态决策级融合技术11
2.3基于编码器-解码器框架的多模态特征融合技术12
2.4本章小结13
3基于多任务多模态特征交互学习的情感分析模型15
3.1问题提出15
3.2MMILN模型17
3.2