文档详情

基于稀疏表示的人类口型识别-通信与信息系统专业论文.docx

发布:2019-03-27约6.48万字共65页下载文档
文本预览下载声明
摘 摘 要 万方数据 万方数据 摘 要 智能机器人的听觉系统很难像人的听觉系统那样可以轻而易举地从复杂环 境产生的混合语音信号中感知某个人的语音并判断语音源个数。为了辅助智能 机器人语音系统更好地分离混合语音信号,本文将引入视觉信号,即口型图像, 来确定语音源个数。由此提出了基于稀疏表示的口型识别算法,通过检测说话 人口型的开闭状态来判断该说话人是否构成语音源。 本文在稀疏表示分类算法的基础上,分别从有识别力字典训练和样本优化 两个方面进行研究。一方面,采用 LC-KSVD 算法通过带类标的训练集同步训练 具有识别力的过完备冗余字典和最优分类器。在 LC-KSVD 算法中惩罚项不但包 含了象征字典表征力的重构误差项,而且还加入了稀疏编码误差项和分类误差 项以提高字典识别力,克服了 K-SVD 算法只注重字典表征力而忽略了识别力的 不足,字典和分离器分开训练等缺点。另一方面,由于口型样本中存在口型区 域以外的冗余信息且嘴巴姿态各异等因素影响了分类器对口型的识别,所以定 义了一个由 16 个嘴唇轮廓特征点描述的标准口型模型,采用图像卷绕算法将口 型样本映射到该标准模型中,以优化口型样本。将优化后的训练集样本直接堆 叠或者经过 LC-KSVD 或 K-SVD 算法训练等方式获得过完备字典。在这两个方 面的研究中,为了克服因字典过完备性而导致诸如 OMP 等贪婪算法可能无法收 敛的缺点,本文在稀疏编码阶段均采用同伦算法求解稀疏系数。在此基础上, 分别提出了基于 LC-KSVD 和同伦算法(Homotopy)的 SRC 人类口型识别算法 以及基于图像卷绕(Image warping)和同伦算法的 SRC 人类口型识别算法。通 过实验仿真,对比 SVM,k-NN,MD 等传统识别算法以验证本文算法的有效性。 关键词:口型识别;稀疏表示;LC-KSVD;图像卷绕;同伦算法 I AB ABSTRACT ABSTRACT A human auditory system can easily distinguish someone’s words and detect the number of audio sources from acoustic mixtures generated in a complex environment but an intelligent robot’s cannot. In order to help the intelligent robot auditory system separate the speech signals and determine the number of audio sources, the visual information, i.e. human mouth-type image, is used. A sparse representation based classification algorithm is proposed to recognize the human mouth-state. The human mouth-state recognition is studied in two aspects, discriminative dictionary learning and sample optimization. On the one hand, the label consistent K-SVD (LC-KSVD) algorithm is used to simultaneously learn a single discriminative over-complete dictionary and an optimal linear classifier. Besides the reconstruction error penalty term measuring the representational power, both discriminative sparse-code error and classification error are added into objective function to increase the discriminative power. This overcomes the disadvantages of K-SVD which focus only on the representational power and learn the dictionary and classifier separately. On the other hand, A sixteen-point li
显示全部
相似文档