文档详情

基于对抗性开放空间建模技术的家庭场景开集声纹识别.pdf

发布:2025-06-08约13.71万字共79页下载文档
文本预览下载声明

摘要

随着时代发展,在信息安全和智能领域中,各种生物识别技术得到了越来越广

泛的研究和应用。其中,声纹识别技术主要通过提取说话人语音声纹,与声纹库中

的注册声纹比对来实现对说话人身份的识别。在声纹识别任务中,开集声纹识别任

务相比闭集更具有挑战性,要求拒绝注册名单中未出现过的未知说话人,且同时正

确识别已知名单内说话人的身份。在家庭场景当中,例如在使用智能家居时,通常

各家庭成员的声纹更加相似,这对声纹识别的精确性提出了更高的要求。由于现有

声纹识别网络的训练采取表征学习方式,因此在对说话人的声纹表征能力上泛化

程度较高,能够适用于各种不同场景下的应用,但这种通用性同时带来了在特定已

知类名单上的表征能力不够的问题。针对该问题,本文提出了一种适合于家庭场景

的开集声纹识别模型训练框架,在预训练声纹提取模型的基础上进行任务增量训

练,并通过基于已知类数据对未知类数据进行建模的方式,弥补通用声纹识别系统

在面对一组特定的家庭成员时区分能力上的不足,提高了声纹识别系统在说话人

名单上的开集效果,使得在该场景下既能有效拒绝陌生说话人,同时更好地区分各

家庭成员的声纹。本文的主要工作内容如下:

(1)提出了一种开集声纹识别建模策略,针对通用声纹识别网络模型所提取得

到的声纹嵌入在空间上分布较为随机,开放空间风险不可把控的问题,引入家庭成

员语音信息利用训练构建未知类模型,对原本提取的声纹在空间上进行重新映射,

使其分布理想化,并对潜在未知类所在空间范围进行限制,降低了开放空间风险。

(2)设计了基于任务增量学习的声纹识别增量训练框架,帮助预训练的声纹识

别模型适应面向特定家庭成员子集的开集声纹识别任务,在保持预训练模型原本

声纹表征能力的基础上提升了其针对性表示家庭成员的能力,相比于原本的通用

声纹识别模型,在测试中,经过任务增量训练的模型的背景语音闭集分类准确率指

标基本不变,而在家庭特定的闭集分类实验中取得了更高的分类准确率。在此基础

上,进一步将本文提出的开放空间建模策略与增量训练框架结合,在面向特定家庭

成员的语音开集识别任务中,取得了比现有的基于域适应算法的声纹识别框架更

优秀的开放集指标。

关键词:开集识别,声纹识别技术,深度神经网络,增量学习,对抗生成网络

ABSTRACT

Withthedevelopmentofsociety,variousbiometrictechnologieshavebeen

increasinglystudiedandappliedinthefieldsofinformationsecurityandartificial

intelligence.Amongallthesemethods,voiceprintrecognitionhasbecomeanemerging

hotspot,whichreferstoanidenticalauthenticationtechnologythatachievesidentical

verificationorrecognitionviacomparisonamongspeakers’uniquevocalfeatures,which

iscalled“voiceprint”.

Invoiceprintrecognitiontasks,open-setvoiceprintrecognitiontasksaremore

challengingthanthoseonclosed-setscenario,sinceitshouldbeabletorejectunknown

speakerswhohavenotappearedonthespeakerlist,andcorrectlyidentifieseveryspecific

speakeronthespeakerlist.Inhouseholdscenarios,forinstance,wheninteractingwith

smart-homed

显示全部
相似文档