文档详情

基于非负矩阵分解和长短时记忆网络的单通道语音分离.pdf

发布:2024-03-11约1.81万字共5页下载文档
文本预览下载声明

第19卷第12期2019年4月科学技术与工程Vol.19No.12Apr.2019

1671—1815(2019)012-0206-05ScienceTechnologyandEngineeringⓒ2019Sci.Tech.Engrg.

引用格式:崔建峰,邓泽平,申飞,等.基于非负矩阵分解和长短时记忆网络的单通道语音分离[J].科学技术与工程,2019,19(12):

206-210

CuiJianfeng,DengZeping,ShenFeietal.Singlechannelspeechseparationbasedonnon-negativematrixfactorizationandlongshort-term

memorynetwork[J].ScienceTechnologyandEngineering,2019,19(12):206-210

基于非负矩阵分解和长短时记忆网络的

单通道语音分离

崔建峰邓泽平申飞史文武

(中北大学电子测试技术重点实验室,太原030051)

摘要为了解决语音分离中非负矩阵分解(non-negativematrixfactorization,NMF)、深度神经网络(deepneuralnetwork,

DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(longshort-termmemory,LSTM)算法提出NMF-

LSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵

和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMF-

LSTM算法分离语音的客观语音质量评估值(perceptualevaluationofspeechquality,PESQ)有明显提升,其最大值超过3.1,获

得良好的分离效果。

关键词语音分离幅度谱非负矩阵分解深度学习长短时记忆网络

中图法分类号TP391.42;文献标志码A

语音是人与人之间交流最自然、便捷的方式,人络模型(DNN)相结合,提出NMF-DNN算法实现带

们能够轻易地从噪声中分辨出自己感兴趣的语音,噪语音的语音分离;文献[10]对NMF-DNN语音分

但是,使机器从不同语音中分辨出感兴趣的语音信离方法进行优化,提出联合卷积非负矩阵分解(con-

号却是极为困难的。随着人工智能的快速发展,神volutivenon-negativematrixfactorization,CNMF)和深

经网络、机器学习等相关知识被应用于语音分离领度神经网络(DNN)方法实现语音分离。NMF算法

域,使语音分离技术得到很大提高。语音分离在现结合“部分构成整体”的思维方式,能够提取待分解

实中有很多应用:语音识别系统处理带噪声的语音矩阵的潜在模式,在语音分离过程中通过语音信号

信号时,识别效果会有所下降,在语音信号的处理阶和噪声信号潜在模式的差异实现语音分离。DNN

段使用语音分离技术可以提升语音识别系统的性算法通过大量的带噪声的语音和纯净语音对网络模

能;有听力障碍的人使用助听器时,在背景噪声的干型进行训练,获得输入特征和目标数据的映射关系,

扰下会增加他们获得目标语音的困难,在助听器中从而实现语音分离。

增加语音分离功能可以很好地提高他们对混合语音上述方法均实现从带噪声(或背景声)的混合

信号的理解能力。

语音中分离目标语音的功能,并且达到不错的效果。

语音分离的目标是在被干扰的语音中有效区分

显示全部
相似文档