文档详情

基于深度学习的语音情感识别技术研究.pdf

发布:2025-05-12约22.62万字共页下载文档
文本预览下载声明

基于深度学习的语音情感识别技术研究

摘要

语音情感识别是利用计算机算法策略针对人们所说出的话语来完成情感预测与识

别,是实现智能化人机交互不可或缺的组成部分,涉及语音信号处理、心理学、计算

机科学、模式识别等在内的多项学科,在交互式人工智能领域有广泛的应用前景和研

究意义,是该领域最重要的研究热点之一。近年来,深度学习已经被引入到语音情感

识别研究中,提升了识别性能,因此研究能有效提升识别精度的深度学习算法对促进

语音情感识别的发展有重要意义。

目前,与传统机器学习算法相比,基于深度学习的语音情感识别技术已经取得了

较大的成功,然而仍然存在一些问题制约着情感识别精度的提升,主要包括:1)语音

信号通过短时傅里叶分析得到的声学特征,在时频域内表征信号局部特征能力较弱;

传统注意力模型无法从声学特征中生成有效的显著性特征分布;2)卷积神经网络因单

一感受野导致语谱图特征中全局信息提取不够充分;注意力机制在提取高维特征时忽

视了时域维度上相关情感特征的获取;3)注意力机制往往是以先后顺序在时域和频域

单一维度上提取显著性特征以加强情感分布,忽视了对高维特征中时频二维局部空间

信息的提取;4)情感语音数据因模型并行训练需要截取语音片段,存在所截取片段标

签与句子标签不匹配的问题;注意力机制忽略了显著性特征位置信息,且较为依赖时

间序列而无法对特征并行处理。

针对上述问题,本文从语音情感信号处理、特征提取以及注意力机制结构设计等

角度给出了有效的解决方法,提升了语音情感识别精度及其模型的泛化能力,主要研

究的具体内容如下:

1)针对声学信号在时频域内提取到的显著性特征表征情感能力较弱的问题,提出

了基于小波包重构特征自适应注意力网络的语音情感识别算法。该算法利用小波包重

构方式对语音信号进行分析,然后从重构后的信号中提取帧级声学特征,使其包含更

多的时频分辨率信息,加强了对时频域局部情感特征的捕捉能力。提出了自适应注意

力网络用于提取有效的显著性特征以生成帧级特征分布,与从原始信号中提取的句子

级声学特征分布相联合,增强了语音情感信息表征能力,最后利用交叉熵损失函数实

现语音情感识别。实验结果表明所提出的基于声学特征的语音情感识别算法有效提高

了情感识别结果。

哈尔滨工程大学博士学位论文

2)针对语谱图在利用卷积神经网络提取过程中获取全局特征能力不足而导致部分

情感信息缺失,以及在时域维度中存在获取显著性情感特征较少的问题,提出了基于

自适应时频注意力残差网络的语音情感识别算法。该算法提出在卷积模块中融入空洞

卷积与残差结构,扩大情感特征感受野范围并增强表征能力,然后使用循环模块获取

与时序相关的特征。提出的自适应时频注意力模块利用其内部结构分别加强对时频域

内显著性特征的捕捉能力,生成更有利于情感识别的特征分布。最后利用可兼顾类内

聚合和类间分离的中心损失函数,联合交叉熵损失函数实现语音情感识别。实验结果

表明所提出的算法有效提升了识别性能。

3)针对语谱图在特征提取过程中高维特征内时频二维局部空间情感相关信息遗漏

问题,提出了基于动态空间自适应注意力网络的语音情感识别算法。该算法主要包含

两个模块:时频注意力循环模块和空间注意力循环模块,前者用于从高维特征中捕获

与时序相关特征,并生成包含全局信息的显著性特征分布;后者则用于提取高维特征

中时频二维局部空间的情感特征,生成包含局部空间信息的显著性特征分布,然后将

两个特征分布联合以丰富情感表达。最后利用可改善类别数量不平衡问题的焦点损失

函数完成语音情感识别。实验结果表明所提出的算法可进一步提升情感识别精度,同

时基于新冠咳嗽声检测的扩展研究结果也证明了所提出算法的实用性与泛化性。

4)针对语音信号处理过程中因样本时长不等导致所截取语音片段标签与句子标签

不匹配,以及在特征提取过程中模型对于情感显著性特征提取不够充分的问题,提出

了基于残差多尺度卷积Transformer神经网络的语音情感识别算法。该算法提出动态帧

移算法使不同时长的句子级样本生成相同数量的块级片段并提取语谱图,通过重塑模

型输入使块级片段与句子标签相匹配,实现模型并行训练;提出带残差结构的多尺度

卷积模块,设计自适应特征位置编码结构,并通过将位置信息融入到高维特征中,使

Transformer结构能够更好地获取块级片段情感显著性特征,利用均值池化时间聚合策

显示全部
相似文档