基于矢量量化的说话人识别系统的研究.pdf
文本预览下载声明
基于矢量量化的说话人识别系统的研究
丁伟,吴小培
安徽大学计算机智能与信息处理教育部重点实验室,合肥 (230039 )
E-mail :dingwei_212@
摘 要:说话人识别是语音识别的一种特殊方式,其目的不是识别语音内容,而是识别说话
人是谁,即从语音信号中提取个人特征。采用矢量量化(VQ )可避免困难的语音分段问题
和时间归整问题,且作为一种数据压缩手段可大大减少系统所需的数据存储量。本文提出了
识别特征选取采用复倒谱特征参数和对应用VQ 的说话人识别系统。当用于训练的数据量较
小时,复倒谱特征可以得到比较稳定的识别性能。
关键词:复倒谱;说话人识别;矢量量化;
1. 引言
从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析与识别,
达到对说话人进行辨识或者确认的目的。
说话人识别和语音识别的区别在于,它不注重包含在语音信号中的文字符号以及语意内
容信息,而是着眼于包含在语音信号中的个性特征,提取说话人的这些个人信息特征,以达
到识别说话人的目的。
语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,
每个1人的
语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说话人成为可能。用语音来鉴
别说话人的身份有着许多独特的优点如语音是人的固有特征,不会丢失或遗忘;语音信号的
2
[ ]
采集方便,系统设备成本低;另外利用电话网络还可实现远程客户服务等等 。
本文讨论应用矢量量化进行说话人识别。系统实现可采用以下方法:首先采用倒谱特征
进行特征提取,训练参考模版和模式匹配采用VQ 矢量量化。
矢量量化技术是一种数据压缩和编码技术,广泛应用于语音编码、语音合成、语音识别
1
[ ]
和说话人识别等领域 。
矢量量化可以理解为从一帧语音数据中提取的特征矢量在多维空间中给予整体量化,从
而可以在信息量损失较小的情况下压缩数据量,有效地利用了矢量中各元素之间的相关性,
所以可以获得比标量量化更好的压缩效果。
2. 矢量量化的失真测度
在语音识别以及说话人识别的应用中,一般是先用矢量量化的码本作为识别的参考模
版,所以矢量量化技术的主要问题之一是设计一个好的码本,这需要用大量的输入信号矢量,
经过统计实验才能确定。为了建立一个好的码本,首先要求建立码本饿训练数据不仅数据量
要充分大,而且要有代表性;其次,要选择一个好的失真度准则以及码本优化方法。另外要
考虑的矢量量化的技术问题是未知矢量的量化,对未知模式矢量,按照选定的失真测度准则,
把未知矢量量化为失真测度最小的区域边界的中心矢量值(码字矢量),并获得该码字的序
列号(码字在码本中的地址或标号)。在这里同样存在两矢量在进行比较时的测度问题。这
个测度就是两矢量之间的距离,或以其中某一矢量为基准时的失真度。它描述了当输入矢量
1 本课题得到国家自然科学基金;安徽省自然科学基金(070412038)的资助。
- 1 -
1
[ ]
用码本中对应的码矢来表征时所应付出的代价 。
矢量量化的失真测度(距离测度)是将输入矢量X 用码本重构矢量Y 来表征时所产生
i
显示全部