基于深度学习的声纹识别模型设计与优化.pdf
文本预览下载声明
中文摘要
声纹作为一种生物特征,由于其获取方便、成本低廉和隐私性低等特点,声纹
识别得到了广泛的研究和应用。说话人验证,作为说话人识别任务的一个重要组成
部分,具有重要的研究意义。在说话人验证任务中,主流模型主要采用以CNN为
主的r-vector模型。然而,由于卷积核较小,这限制了模型获取长程时频和通道依
赖关系的能力,导致模型性能不佳。同时,注意力机制的使用会平衡模型性能与参
数,但以往使用的注意力中通道降维会在提取特征时造成信息丢失。针对上述问题,
本文提出了自校准卷积网络以及高效跨时频多尺度注意
显示全部