文档详情

语音识别系统实验报告.docx

发布:2023-05-03约2.6万字共55页下载文档
文本预览下载声明
语音识别系统实验报告 专业班级:信息安全 学号: 姓名: 目录 一、设计任务及要求 1 二、语音识别的简单介绍 2。1语者识别的概念 2 2。2特征参数的提取 3 2 。3用矢量量化聚类法生成码本 3 2.4 VQ的说话人识别 4 三、算法程序分析 3。1函数关系 4 3 。2代码说明 5 3。2。1函数mfcc 5 3。2。2函数d isteu 5 3.2。3函数vqlbg 6 3。2。4函数test 6 3。2 . 5函数tes tDB 7 3。2。6函数train 8 3。2。7函数melf b 8 四、演示分析 9 五、心得体会 11 附:GUI程序代码 12 一 、 设计任务及要求 实现语音识别功能。 二、 语音识别的简单介绍 基于VQ 的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说 话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配) 阶段,我们用VQ 方法计算平均失真测度(本系统在计算距离d 时,采用欧氏距离测 度),从而判断说话人是谁. 语音识别系统结构框图如图1所示。 码本库: 码本库: 说话人1的码本 说话人2的码本 说话人N 的码本 输出识别结果 训练 提 取 特征参数 识别 VQ 模型 训练 VQ 码本 匹配 算 预处理: 预加重、 加汉明窗 语昔 数据 图1 语音识别系统结构框图 2。1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然 属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的 语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。 用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不 会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远 程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其 他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而 且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是 唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天, 说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识 别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和 人工智能等诸多领域的一项综合技术,应用需求将十分广阔.在吃力语音信号的 时候如何提取信号中关键的成分尤为重要.语音信号的特征参数的好坏直接导致 了辨别的准确性。 2.2特征参数的提取 对于特征参数的选取,我们使用mfcc 的方法来提取。 MFCC 参数是基于人 的听觉特性利用人听觉的屏蔽效应,在Mel 标度频率域提取出来的倒谱特征参数。 MFCC 参数的提取过程如下: 1. 对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频 谱分布信息。 设语音信号的DFT 为 : 其中式中x(n) 为输入的语音信号,N 表示傅立叶变换的点数。 2。 再求频谱幅度的平方,得到能量谱。 3. 将能量谱通过一组Mel尺度的三角形滤波器组。 我们定义一个有M 个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采 用的滤波器为三角滤波器,中心频率为 f(m),m=1,2,3, …,M 本系统取M=100。 4. 计算每个滤波器组输出的对数能量。 (2) 0≤m≤M- 1 其中Hm(k)为三角滤波器的频率响应。 5. 经过离散弦变换(DCT) 得 到MFCC系数。 0≤n≤N— 1 MFCC 系数个数通常取20- 30,常常不用0阶倒谱系数,因为它反映的是频 谱能量,故在一般识别系统中,将称为能量系数,并不作为倒谱系数,本系统选 取20阶倒谱系数。 2。3用矢量量化聚类法生成码本 我们将每个待识的说话人看作是一个信源,用一个码本来表征。码本是从该 说话人的训练序列中提取的MFCC 特征矢量聚类而生成。只要训练的序列足够 长,可认为这个码本有效地包含了说话人的个人特征,而与讲话的内容无关。 本系统采用基于分裂的LBG 的算法设计VQ 码本,X? (k=1,2,…,K)为训练 序列, B 为码本。 具体实现过程如下: 1. 取提取出来的所有帧的特征矢量的型心(均值)作为第一个码字矢量B1。 2。 将当前的码本Bm根据以下规则分裂,形成2m个码字。 (4) 其中m 从1变化到当前的码本的码字数, ? 是分裂时的参数,本文ε=0. 01. 3。 根据得到的码本把所有的训练序列(特征矢量)进行分类,然后按照下面
显示全部
相似文档