基于深度学习的人脸表情识别算法研究.pdf
摘要
面部表情是人们表达内心情感、构建彼此之间感情联系的重要媒质,有助于建
立情感连接和促进情感交流。人脸表情识别作为计算机视觉领域中的重要研究方向,
旨在通过分析人脸图像中的表情信息来推断个体的情绪状态,在智慧医疗、智能驾
驶、人机交互等领域具有重大的发展前景。针对静态图像和动态视频的表情识别任
务,本文基于深度学习构建了两种改进的表情识别模型,以提高模型的识别准确率。
主要研究内容如下:
(1)针对人脸不同部位对表情的影响程度不一样,同类表情特征距离大,不
同类表情特征距离小的问题,构建了一种基于注意力机制和三元组损失的静态表情
识别模型。该模型使用CBAM注意力模块自适应学习特征图中通道间的相关性和空
间上的重要性,接着将学习到的特征信息融合到CBAM-ResNet的Resblock块中来
强化关键特征信息的表征能力。由于同类表情特征距离大,不同表情特征距离小,
为了消除表情特征距离差异性,在CBAM-ResNet特征提取网络后引入三元组损失
函数,减少表情鉴定的误差。最后,在公开数据集上进行消融实验和对比实验,分
别在FER2013数据集和CK+数据集上达到了73.72%和99.77%的识别准确率。
(2)针对视频序列的人脸动态表情在多帧上细节度丢失问题,构建了一种基
于三维视觉时空网络的动态表情识别模型。首先,该模型使用3D-ResNet18提取视
频连续多帧三维特征。为有效提取视频多帧序列中的时空特征和上下文信息特征,
引入了单一自注意力机制,联合残差模块将多帧原始序列的时空特征和上下文信息
特征融合,形成新的特征图。接着特征图通过transformer编码器获得视频多帧序列
的全局位置信息,由此丰富多帧序列的细节度,最后得到的特征图通过FC层进行
动态表情鉴定和识别。在公开数据集DFEW上进行消融实验和对比实验,实验结果
表明基于三维视觉时空网络的动态表情识别模型能有效解决细节度丢失问题,并提
高了动态表情识别准确率。
关键词:人脸表情识别;深度学习;注意力机制;CBAM-ResNet;transformer
I
ABSTRACT
Facialexpressionisanimportantmediumforpeopletoexpresstheirinneremotions
andbuildemotionalconnectionbetweenthem,whichhelpstoestablishemotional
connectionandpromoteemotionalcommunication.Asanimportantresearchdirectionin
thefieldofcomputervision,facialexpressionrecognitionaimstoinfertheindividuals
emotionalstatebyanalyzingtheexpressioninformationinthefaceimage,whichhas
significantdevelopmentprospectsinthefieldsofintelligentmedicalcare,intelligentdriving,
andhuman-computerinteraction.Forthetaskofexpressionrecognitioninstaticimagesand
dynamicvideos,thispaperconstructstwoimprovedexpressionrecognitionmodelsbased
ondeeplearningtoimprovetherecognitionaccuracyofthemodels.Themainresearch
contentsareasfollows:
(1)Aimingattheproblemthatdifferentpartsofth