基于双分支网络的脑电信号和面部表情图像融合的多模态情绪识别研究.pdf
摘要
情绪识别在人机交互中起着重要作用。生理信号和非生理信号已被广泛研究
用于情绪识别。与单一模态的情绪识别相比较而言,对于情绪识别使用多模态方
法能够表现出更为广泛的情绪特征信息,挖掘出不同模态之间的互补信息。听障
大学生由于失去了听觉这一情感交互关键通道,使得其在情绪的感知和表达上存
在不足。基于以上,本文提出了一种基于脑电信号和面部表情图像多模态融合的
网络,进行听障大学生的情绪识别,主要研究内容如下:
(1)邀请听障大学生为受试者,对基于视频刺激的多模态情绪诱发实验进
行设计和开展。选取了20个4类不同情绪的电影片段做为情绪材料,这4种情
绪分别是恐惧、快乐、平静和悲伤,对15名听障大学生在观看电影片段时的脑
电信号和面部表情图像进行了采集,构建了听障大学生的多模态数据集。
(2)提出了一种基于卷积神经网络(ConvolutionalNetutralNetworks,CNN)
和双向长短时记忆网络(Bi-directionalLong-ShortTermMemory,BiLSTM)相结
合的网络来进行脑电信号的情绪识别。为了更好的保留脑电信号的空间相关性信
息,将微分熵的一维特征向量转化为二维特征矩阵,接着通过CNN+BiLSTM网
络提取与情感变化相关的深层表征性特征,并完成情绪分类。利用该网络模型在
听障大学生数据集上进行四分类脑电情绪识别,达到了95.12%的平均准确率。
(3)提出了基于MobileNetV2改进的网络模型对听障大学生的面部表情图
像进行情绪识别。为了使模型更加关注情绪有效信息和增强模型的特征提取能力,
在MobileNetV2网络的反向残差块中嵌入坐标注意力(CoordinateAttention,CA)
机制,并增加深度卷积设计多尺度特征提取模块。使用该模型在听障大学生数据
集上进行四分类情绪识别达到了88.18%的准确率。
(4)提出了一种基于双分支网络的脑电和面部表情图像的多模态交互特征
融合方法进行情绪识别。通过双分支网络分别提取两种模态的深层特征,以更好
的保留模态内的特征,接着将深层特征通过特征交互融合模块,以充分挖掘两模
态间的交互特征。该模型在四分类情绪识别中达到了98.82%的平均准确率,优
于单一模态识别,表明该方法能够提取更全面、互补的情感表征信息。
关键词:多模态情绪识别,脑电信号,面部表情,听障学生
Abstract
Emotionrecognitionplaysanimportantroleinhuman-computerinteraction.
Physiologicalandnonphysiologicalsignalshavebeenwidelystudiedforemotion
recognition.Comparedtosingle-modesentimentrecognitionmethods,multi-mode
sentimentrecognitionmethodscandisplayawiderrangeofsentimentattribute
informationandminecomplementaryinformationbetweendifferentmodes.Duetothe
lossofauditoryperception,whichisacrucialemotionalinteractionchannel,hearing-
impairedcollegestudentshavedeficienciesintheirperceptionandexpressionof
emotions.Basedontheabove,thisarticleproposesafeaturefusionnetworkbasedon
EEGsignalsandfacialexpressionimagesforemotionrecognitionofhearing-impaired
collegestudents.