文档详情

《语音增强算法研究的文献综述》3000字.docx

发布:2025-02-26约6.3千字共5页下载文档
文本预览下载声明

语音增强算法研究的文献综述

在1950年左右,注重语音增强算法自贝尔实验室开始的。1960年,经典谱减法由施罗德首次实现。学者Boll在20世纪70年代中期再次研究初始的谱减法。和学者施罗德截然不同,学者Boll研究谱减法在数字范围内,所采用的是模拟法。该方法包括两个关键的假设,第一个假设是语音信号中的噪声为稳定性较强的噪声,噪声不会出现较大波动;第二个假设是噪声和原始语音信号之间几乎不存在关联性REF_Re\n\h[2]。此算法原理具体为:第一需要预测噪声的功率谱,然后将其带噪语音的功率谱出去,产生语音信号的增强功率谱REF_Re\n\h[3]。虽然该方法并不复杂同时实现过程较为简单,但它会产生语音失真和音乐噪声。对振幅谱的感知对于听者来说很容易,但对相位谱的感知却有很大的不同REF_Re\n\h[4]。

之后,重构初始语音信号能够借助估计原有的语音信号的噪声语音信号的相位谱以及功率谱得到,就此产生语音增强信号。算法实现较简单,但仍然存在噪声产生干扰。在上个世纪八十年代初期,学者Berouti致力于改进谱减法语音效果:通过添加阈值及修正系数,谱减法的性能因为系数的加入得到了提升。但该算法的不足在于系数的确定通常需要一定经验的积累,这也导致其普适性低。此外,音乐噪声仍未完全消除。

为了解决这个瓶颈,学者西姆与奥本海姆选择维纳滤波方法,有利于提升语音信号的信噪比例REF_Re\n\h[5]。1990年左右,学者Harim等将振幅谱作为依据产生创新型的方法,也就是最小均方误差短时振幅谱(MMSE-STSA)算法REF_Re\n\h[6]。之后他们又从听者的感受出发,对MMSE-STSA算法进行了进一步的改进,即Log-MMSE-STSA增强算法。这类语音增强算法只是在平稳环境下有较好表现。于是1987年,学者卡尔曼(Kalman)的研究成果为滤波语音增强算法。具有明显优势,对于经典维纳滤波起到不充足作用,通过时域上的状态空间手段在一定程度上缓解了不稳定的环境中最低均方误差条件下的的最优估计问题REF_Re\n\h[7]REF_Re\n\h。但是缺陷为适应性因为信号的提取模式而较差,缩小应用范围。后来语音降噪的研究开始侧重于语音谱统计方法。

当今Cohen提出的最小控制迭代平均法是比较普遍的噪音估计方法。随后他在此基础上提出了进一步的改进方法。该学者的研究成果是最优修正对数频谱振幅估计算法REF_Re\n\h[8]。估计误差通过OMLSA算法得到的更小,自然噪声估计效果好于以往。传统的语音增强方法由于其历史悠久,计算简便,被应用于大部分工业界实际产品;然而却只是对简单且具有一定分布的噪声有良好的降噪能力,对日常不规则的噪音却束手无策。这时人工智能领域的方法表现出很好的效果。

1990年,语音增强领域出现不同类型的监督学习的方法。将隐马尔可夫模型作为基础衍生出的方法属于第一类。学者Ephraim等人,将语音识别的思想作为基本依据进而研发出创新型的语音增强算法。其具体应用是在不同的隐马尔可夫模型上模拟纯语音和噪声,对噪声做出相应的预测,从而达到语音增强的目的REF_Re\n\h[2]REF_Re\n\h。在深层神经网络出现之前,能够将语音特征作为基本依据形成适用性较强的模型,然而在语音方面存在诸多假设,包括纯语音与噪声之间有单一的假设以及高斯假设。

第二类:以矩阵的非负矩阵为基础进一步分解语音增强算法模型的具体方法REF_Re\n\h[3]。该过程借助单独训练,将复语音信号矩阵进一步分解,划分成纯信号矩阵语音矩阵以及含噪语音矩阵,产生自含噪语音至清晰语音的线性映射关系REF_Re\n\h[9]。然而该映射关系不能使语音信号复杂的特点构造过程产生良好的效果。

第三类则是基于浅层神经网络。该方法的思想是在语音增强算法中嵌入神经网络,包括反向传播算法在神经网络中的实践过程,能够得到有噪声参与的映射的纯语音。原来的人工神经网络办法由于缺乏练习数据信息以及隐含层层数并不多,使结果并不理想。同时区域化最优以及过拟合问题频繁出现,因为隐含层数量增加,此办法逐渐跟不上形势。学者Hinton的研究成果为深度信念网络和无监督算法有效地处理了局部最优和过拟合问题REF_Re\n\h[10]REF_Re\n\h。

第四类

显示全部
相似文档