文档详情

基于多模态融合的抑郁焦虑识别算法研究.pdf

发布:2025-04-26约8.82万字共72页下载文档
文本预览下载声明

基于多模态融合的抑郁焦虑识别算法研究

摘要

随着生活节奏加快和社会压力增大,抑郁、焦虑障碍成为常见精神疾病,早期发

现并及时治疗可以有效控制疾病,减轻疾病带来的经济负担。传统诊断方法易受主观

因素、医疗资源、患者疾病羞耻等问题的限制,因此,构建智能辅助诊断方法至关重

要。医生临床诊断过程中会综合评估受试者面部表情、说话方式和表达内容等方面,

因此本文收集受试者量表答题过程中的视频、语音和文本模态数据,构建多模态融合

模型实现抑郁焦虑识别,主要研究工作如下:

(1)为了捕捉不同范围面部区域的表情变化,视频模态使用多尺度注意力卷积模型

提取人脸图像空间特征。模型在经典ResNet18的基础上进行改进,加入多尺度卷积模

块和注意力模块。多尺度卷积模块由不同感受野大小的并行卷积组成,获取不同尺度

的人脸全局特征信息,然后使用注意力模块,通过特征加权方式使模型具备关注重要

信息的能力,解决了单尺寸卷积空间信息固定的问题。通过消融实验和模型对比实验

验证模型的有效性,视频单模态疾病分类准确率达75%。

(2)为了获取全面的语音特征,增强模型的鲁棒性,语音模态使用手工-深度学习双

特征拼接模型提取特征。手工特征利用openSMILE工具提取,深度学习特征使用轻量

化MobileNetV2模型提取。对于不同类型的语音数据,通过深度学习模型的不断训练

提取更加宽泛的特征,弥补了单纯使用手工特征存在的特征精确、针对性强,但泛化

能力不足的局限性。语音单模态疾病分类准确率达70%,相比于单个特征,模型识别

准确率分别提高2%和6%。文本模态特征提取使用预训练的BERT模型,后接全连接

层实现疾病识别,文本单模态疾病分类准确率达72%。

(3)为了实现多模态特征的有效融合,本文提出基于次序循环矩阵的多模态融合模

型。在获取视频、语音和文本单模态特征之后,通过单模态特征向量次序变换构建循

环矩阵,然后利用特征向量和循环矩阵的乘积完成模态特征交互,多模态融合模型疾

病分类准确率达到83%。相比于直接特征拼接和张量积融合方法,基于次序循环矩阵

的多模态融合模型识别准确率分别提高5%和3%,模型100轮训练时长分别减少了1小

时和3小时,既降低了特征维度,又提高了运行速度。

关键词:抑郁焦虑识别;多模态融合;多尺度卷积;次序循环矩阵

基于多模态融合的抑郁焦虑识别算法研究

ABSTRACT

Withtheacceleratedpaceoflifeandincreasingsocialpressure,depressionandanxiety

disordershavebecomecommonmentalillnesses.Earlydetectionandtimelytreatmentcan

effectivelycontrolthediseaseandreducetheeconomicburdencausedbydiseases.Traditional

diagnosticmethodsareeasilylimitedbysubjectivefactors,medicalresources,andpatient

shameduetoillness.Therefore,itiscrucialtobuildintelligentauxiliarydiagnosticmethods.

Duringtheclinicaldiagnosisprocess,doctorswillcomprehensivelyevaluatethesubjects’facial

expressions,audiopatterns,andexpressioncontent.Therefore,thisarticlecollectsvideo,audio,

andtextdatafromtheparticipantsduringtheansweringprocessofthescale,

显示全部
相似文档