基于多模态融合的抑郁焦虑识别算法研究.pdf
基于多模态融合的抑郁焦虑识别算法研究
摘要
随着生活节奏加快和社会压力增大,抑郁、焦虑障碍成为常见精神疾病,早期发
现并及时治疗可以有效控制疾病,减轻疾病带来的经济负担。传统诊断方法易受主观
因素、医疗资源、患者疾病羞耻等问题的限制,因此,构建智能辅助诊断方法至关重
要。医生临床诊断过程中会综合评估受试者面部表情、说话方式和表达内容等方面,
因此本文收集受试者量表答题过程中的视频、语音和文本模态数据,构建多模态融合
模型实现抑郁焦虑识别,主要研究工作如下:
(1)为了捕捉不同范围面部区域的表情变化,视频模态使用多尺度注意力卷积模型
提取人脸图像空间特征。模型在经典ResNet18的基础上进行改进,加入多尺度卷积模
块和注意力模块。多尺度卷积模块由不同感受野大小的并行卷积组成,获取不同尺度
的人脸全局特征信息,然后使用注意力模块,通过特征加权方式使模型具备关注重要
信息的能力,解决了单尺寸卷积空间信息固定的问题。通过消融实验和模型对比实验
验证模型的有效性,视频单模态疾病分类准确率达75%。
(2)为了获取全面的语音特征,增强模型的鲁棒性,语音模态使用手工-深度学习双
特征拼接模型提取特征。手工特征利用openSMILE工具提取,深度学习特征使用轻量
化MobileNetV2模型提取。对于不同类型的语音数据,通过深度学习模型的不断训练
提取更加宽泛的特征,弥补了单纯使用手工特征存在的特征精确、针对性强,但泛化
能力不足的局限性。语音单模态疾病分类准确率达70%,相比于单个特征,模型识别
准确率分别提高2%和6%。文本模态特征提取使用预训练的BERT模型,后接全连接
层实现疾病识别,文本单模态疾病分类准确率达72%。
(3)为了实现多模态特征的有效融合,本文提出基于次序循环矩阵的多模态融合模
型。在获取视频、语音和文本单模态特征之后,通过单模态特征向量次序变换构建循
环矩阵,然后利用特征向量和循环矩阵的乘积完成模态特征交互,多模态融合模型疾
病分类准确率达到83%。相比于直接特征拼接和张量积融合方法,基于次序循环矩阵
的多模态融合模型识别准确率分别提高5%和3%,模型100轮训练时长分别减少了1小
时和3小时,既降低了特征维度,又提高了运行速度。
关键词:抑郁焦虑识别;多模态融合;多尺度卷积;次序循环矩阵
基于多模态融合的抑郁焦虑识别算法研究
ABSTRACT
Withtheacceleratedpaceoflifeandincreasingsocialpressure,depressionandanxiety
disordershavebecomecommonmentalillnesses.Earlydetectionandtimelytreatmentcan
effectivelycontrolthediseaseandreducetheeconomicburdencausedbydiseases.Traditional
diagnosticmethodsareeasilylimitedbysubjectivefactors,medicalresources,andpatient
shameduetoillness.Therefore,itiscrucialtobuildintelligentauxiliarydiagnosticmethods.
Duringtheclinicaldiagnosisprocess,doctorswillcomprehensivelyevaluatethesubjects’facial
expressions,audiopatterns,andexpressioncontent.Therefore,thisarticlecollectsvideo,audio,
andtextdatafromtheparticipantsduringtheansweringprocessofthescale,