基于脑电信号与人脸表情的多模态情绪识别网络技术研究.pdf
摘要
近年来,为了应对情绪识别网络中使用单一模态信息而导致网络不稳定和准
确率低的问题,结合人类多模态信息进行情绪识别已成为提高网络稳定性和准确
率的最有效方法之一。本文将受试者的面部视频帧和脑电信号(EEG)作为情绪
识别网络的输入,从多模态信息入手,增强了网络的稳定性,提高了网络的识别
准确率。
本文提出了一种基于注意力机制的3D卷积循环神经网络模型(3FACRNN)。
该网络包括视觉网络和EEG网络,其中视觉网络级联了卷积神经网络(CNN)
和时序卷积网络(TCN)提取面部视频帧的深层时空特征信息,而EEG网络则
在卷积循环神经(CNN-LSTM)网络的基础上增加了3D特征构造模块、频带注
意力模块和自注意力模块,3D特征构造模块用于整合脑电信号中的时间信息、
空间信息和频带信息,频带注意力模块探索了脑电样本中不同频带对网络识别性
能的影响,自注意力模块是为了获得不同时段脑电样本之间的内在相似性。最后,
利用多任务损失函数Lc来强制逼近视觉模态与脑电模态的中间特征向量,目的
是用视觉模态的知识来提高EEG网络模型的识别性能。
由于本文提出的多模态情绪识别网络是以EEG网络为主网络模型,所以首
先搭建了基于脑电信号的情绪识别网络模型,通过对比机器学习与深度学习方法
在SEED数据集上的平均识别准确率和标准差,证明了深度学习中卷积循环神经
网络对脑电信号特征信息的有效识别和分类。这为实现多模态情绪识别网络提供
了强有力的支持。
本文提出的多模态情绪识别网络模型(3FACRNN)在两个多模态情绪数据
集DEAP和MAHNOB-HCI(唤醒维度、效价维度)上的取得了较好的识别结果,
这说明了多种模态结合与单一模态相比,网络提取到的特征信息中包含的情绪信
息更丰富。为了研究不同频带对实验的影响,本文还提取了所有受试者在不同频
带的平均注意力掩码。注意力掩码在不同频带的分布表明,与人类情绪相关的信
号活跃在高频带γ(31-50Hz)。
关键词:脑电图,多模态情绪识别,卷积循环神经网络,注意力机制,多任务损失
函数
Abstract
Inrecentyears,inordertocopewiththeproblemofunstablenetworkandlow
accuracyduetotheuseofsinglemodalinformationinemotionrecognitionnetworks,
combininghumanmultimodalinformationforemotionrecognitionhasbecomeoneof
themosteffectivemethodstoimprovethestabilityandaccuracyofthenetwork.Inthis
thesis,facialvideoframesandelectroencephalographic(EEG)signalsofsubjectsare
usedasinputstotheemotionrecognitionnetwork,startingfrommultimodal
information,whichenhancesthestabilityofthenetworkandimprovestherecognition
accuracyofthenetwork.
Inthisthesis,a3Dconvolutionalrecurrentneuralnetworkmodel(3FACRNN)
basedontheattentionmechanismisproposed.Thenetworkincludesavisualnetwork
andanEEGnetwork,inwhichthevisualnetworkcascadesaconvolutionalneural
network(CNN)andatemporalconvolutionalnetwork(