文档详情

多音轨提取方法.docx

发布:2023-04-05约小于1千字共1页下载文档
文本预览下载声明
多音轨提取方法 国内多音轨音频提取技术主要集中在声纹取样(Voiceprint Sampling)和卷积神经网络(CNN)两种技术方法上。 声纹取样是一种基于混合神经网络(MNNs)的多音轨分离技术,它可以将复杂多音轨录音中的任何声源分解为它们的时域和频域属性,分别将源信号的时域声纹取样应用于MNN。MNN会根据时域声纹取样信号,利用特定学习算法,模拟源信号和其余背景杂波的特定语音特征和相关关系,从而对目标源信号进行解析、分离和提取。 卷积神经网络(CNN)是一种多音轨分离技术,利用多层反馈网络,从复杂子室内录音中提取不同声源的特征和进行有效分离,通过特定的模型参数化拟合以获得每个声源的源声轨道,实现多音轨时域和频域的分离,识别出不同声源的元音,实现多音轨的提取。CNN还可以将录音参数记录到录音区域中,并通过特定参数优化,使得录音中不同声源的语言特征得到充分提取,确保多音轨提取的准确性。 另外,利用计算机视觉技术也可以实现多音轨音频数据的提取。通过对多音轨音频的信号进行多模态并行结构的建模,将录音进行图像表示,从而可以多视角把握不同声源的语音特征,有效将多音轨录音中的不同声轨进行分离和提取,实现多音轨的提取。
显示全部
相似文档