基于神经网络的语音转换-计算机科学与技术专业论文.docx
文本预览下载声明
万方数据
万方数据
Classified Index: TM301.2 U.D.C: 62-5
Dissertation for the Master Degree in Engineering
NEURAL NETWORK BASED VOICE CONVERSION
Candidate: Xie Feng-Long
Supervisor: Prof. Li Haifeng
Associate Supervisor: Prof. Soong Frank
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
A?liation: School of Computer Science and Technology
Date of Defence: June, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔
哈尔滨工业大学工学硕士学位论文
摘 要
基于神经网络的语音转换利用其特殊的非线性方程转换式将源说话人的特 征映射为目标说话人的特征,这种方法被证实比基于高斯混合模型语音转换方 法更加有效。然而,基于神经网络的语音转换还有诸多不足。例如目前神经网 络的训练是基于最小化帧误差准则的,因此神经网络相应的权值是根据整个的 源说话人和目标说话人的训练数据来进行调整的。
在本文中,我们受启发于基于隐马尔科夫模型(HMM)的语音合成体系中的 基于整句优化最小化生成误差的训练准则,将语音转换中神经网络训练的基于 帧误差最小化的训练准则改为基于序列误差最小化的训练准则。我们利用基于 梯度下降的反向传播算法来最小化一句训练数据上源说话人和目标说话人之间 的转换误差。实验结果表明通过先用最小化帧误差准则训练,再用最小化序列 误差训练的神经网络比起只用最小化帧误差训练的神经网络转换出来的声音在 主观测试中更胜一筹。
在目前的语音转换中,韵律转换尤其是基频转换是一个很具有挑战性的研 究课题,这主要是因为基频的不连续性。通常基频转换都是通过改变源说话人 基频分布的均值和方差到目标说话人分布上去。这种方法抹除了说话人韵律的 细节信息只保留的基频的整体轮廓。在本文中,我们将基频和谱特征一同在神 经网络中进行转换。从实验结果上来看比起高斯归一化的方式,通过神经网络 的转换可以大幅减少转换语音和目标语音之间的清音/浊音误差及基频均方根 误差。将基频进行小波分解后可以进一步提高转换结果。
关键词: 语音转换,神经网络,预训练,最小化序列误差,基频转换,小波分 解
I -
Abstract
Neural network (NN) based voice conversion, which employs a nonlinear function to map the features from a source to a target speaker, has been shown to outperform GMM-based voice conversion method. However, there are still limitations to be over- come in NN-based voice conversion, e.g. NN is trained on a Frame Error (FE) minimiza- tion criterion and the corresponding weights are adjusted to minimize the error squares over the whole source-target, stereo training data set. In this paper, we use the idea of sen- tence optimization based, minimum generation error (MGE) training in HMM-based TTS synthesis, and modify the FE minimization to Sequence Error (SE) minimization in NN training for voice conversion. The conversion error over a training sentence from a source speaker to a target speaker is minimized via a gradient descen
显示全部