基于多尺度特征融合的语音情感识别研究.pdf
基于多尺度特征融合的语音情感识别研究
摘要
随着深度学习技术研究不断深入,人工智能技术逐渐为各个领域赋能。为了实现更
自然的人机交互体验,如何准确识别语音交互的情感状态已成为新的研究热点。基于深
度学习技术的语音序列建模方法促进了情感识别的发展,但语音的情感标注难度高,数
据匮乏,主流的方法仍存在跨文化语种适应性差、识别精度不高的问题。主要原因有以
下两点:(1)在特征提取阶段,语音信号分辨率的损失导致时序分析困难;(2)多模
态识别方法难以学习到情感共性区间之间的相关性。
本文设计了一种基于多尺度特征融合和多模态特征对齐的语音情感识别方法,具体
包括:(1)针对级联深度特征提取模块存在的时序动态分辨率损失问题,提出了基于多
尺度特征金字塔(MSFPN)的识别模型。该模型在语音情感识别领域首先提取出多层次、
多尺度特征,使用前向融合机制来实现同层的多尺度特征融合,后向融合机制实现不同
层的特征融合并恢复时序动态分辨率,然后使用长短期记忆神经网络(BLSTM)学习时
序动态变化,得到话语级综合情感表征。(2)对于传统方法在学习多模态共性上存在的
交互性弱问题,提出了基于共享权重的门控神经网络模块(WS-GRU)和时序互相关注
意力机制模块(SMA)的多模态特征对齐交互(MAIN)模型。首先,使用基于注意力
的特征对齐方法完成语音和文本特征的词级别对齐;然后,使用WS-GRU学习词向量
权重,突出多模态的情感相关区域,完成话语级的特征对齐;最后,引入说话人特征和
使用SMA学习多模态信息之间的上下文情感共性,进一步提高综合语境下的情感状态
识别准确率。
本文提出的基于多尺度特征金字塔的语音情感识别模型MSFPN和基于多模态特征
对齐的语音情感识别模型MAIN,提升了语音情感识别系统的性能和对情感细节特征的
捕获能力。实验表明,在IEMOCAP和EMO-DB语料库上,相比于近年来该领域内已
有先进方法,MSFPN模型的未加权准确度(UA)分别提升了0.80%和1.94%。MAIN模
型在IEMOCAP的LOSO、LOPO和RA三种数据划分设置下UA分别提升了0.40%、
1.86%和2.80%。得益于时序动态的和多模态共性的学习,MSFPN模型和MAIN模型在
语音情感识别任务上取得了更好的识别性能,并且能够学习到更具有区分度的情感特征。
关键词:语音情感识别;多尺度特征融合;多模态特征对齐;互相关注意力
基于多尺度特征融合的语音情感识别研究
Abstract
Asresearchondeeplearningtechnologycontinuestoprogress,artificialintelligence
technologyisgraduallyempoweringvariousfields.Inordertoachieveamorenaturalhuman-
computerinteractionexperience,howtoaccuratelyrecognizetheemotionalstateofspeech
interactionhasbecomeanewresearchhotspot.Speechsequencemodelingmethodsbasedon
deeplearningtechniqueshavefacilitatedthedevelopmentofemotionrecognition,butthe
mainstreammethodsstillsufferfrompoorcross-culturallanguageadaptationandlow
recognitionaccuracy.Therearethreemainreasonsforthis:(1)thelossofspeechsignal
resolutioninthefeatureextractionstageleadsto