北邮郭军web搜索第四章概要.ppt
文本预览下载声明
* WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC 声学模型—特征抽取 建立声学模型的第一步是确定采用的特征 MFCC特征被证明是有效的 帧尺寸应小于20ms 系数的数量可在8、12、16中间选择 外加能量项 为捕捉声音的时变特性,需加入Delta倒谱特征,设静态倒谱为x(t), Delta倒谱定义为 必要时,还可以Delta倒谱为基础计算二阶差分,即Double Delta倒谱,以此反映静态倒谱变化的加速性质 利用上述特征,每段声音就会被映射为特征空间中大量的点,形成一个点分布 声学模型—点分布的概率建模 GMM是对上述点分布进行建模的理想方法 将特征空间中的样本当作一个整体来建模,而不去区分它们在时间上的先后顺序 尽管一段声音不一定在声学空间形成明显的分布簇,但通过足够的混合分量,它的分布能够得到近似描述 一个D维的声学特征向量x,其概率密度函数p(x)的GMM GMM的参数常用EM算法进行估计,一个训练任务需要估计混合权重πi和分布参数θi={μi,Σi}两套参数,混合度K是一个需要预先确定的值 GMM参数估计的EM算法 给定一组训练数据x1,x2,…,xN,设置参数初始值后,EM算法在E-step和M-step之间交替重复 E-step: 估计各个样本属于各个混合分量的概率,令wij为在当前的参数估计条件下数据xi属于第j个混合分量的概率,则: M-step: 利用所有训练数据计算新的权重、均值和协方差矩阵 语义模型—VSM 语义特征空间由各个声音的描述文档中的词汇支撑 词汇在文档中的顺序无关紧要,重点在于如何将关键字转化为可映射为概念的词汇 VSM 用m×n的词—文档矩阵对于包含词汇t1,t2,…tm和文档d1,d2,…dn的声音描述文档集合建模 每一列代表一个文档,每一行代表一个词 词在各个文档以及整个集合中的权重用TF-IDF表示 TF取fij的二值形式bij,IDF取熵加权的方式 pij = (fij/gi),gi为ti在集合中出现的次数,n为集合中的文档数 语义模型—LSI 通过将词—文档矩阵A向低维空间映射来获取词汇之间潜在的关系 试图通过对词汇的全局应用模式的建模将概念上相近的文档映射为低维空间中相互邻近的点 采用SVD的方法 A = USVT 只取前k个特征值 关于LSI的维数k的实验 当k升至50左右时,LSI的效果已经赶上VSM 在k等于70左右达到最大,分类错误率在VSM基础上降低50%左右 在k等于70到100之间,性能基本保持稳定 超过100后,性能开始缓慢下降 声学空间与语义空间的联系 双向检索(声音?语义/语义?声音)需要建立声学模型和语义模型之间的映射关系 依赖于训练集合中已知的声音及其语义描述之间的关系 在声学空间中,n个训练样本(声音)各有一个GMM,每个GMM对每个训练样本都有一个似然度,构成n×n的似然度矩阵 在语义空间中,每个训练样本(声音的描述文档) 有一个LSI(或VSM)模型 。这n个模型之间的相似度也可以用n×n的矩阵来表示 观察发现上述似然度矩阵和相似度矩阵尽管有相似之处,但却是不同的,不能相互代替 需分别建立声学?语义和语义?声学的联系 声
显示全部