一种基于马尔可夫模型的汉语语音识别后处理中的音字-中文信息学报.PDF
文本预览下载声明
中 文 信 息 学 报
第 11 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSING vol . 11 No. 4
一种基于马尔可夫模型的汉语语音
识别后处理中的音字转换方法
梅 勇 徐秉铮
华南理工大学无线电系 广州 5 1064 1
【摘要】 为了提高汉语语音识别率 , 本文根据一种基于马尔可夫模型的统计语言模
型去实现汉语音字转换 , 在实现过程中 , 提出了它的简化模型 , 该模型不仅保证了实时性 ,
而且也为以后的工作打下伏笔 ; 同时对训练文本的稀疏问题提出了一种新的解决方案 。利用
以上模型的模拟实验表明 , 前向- 后向的马尔可夫模型具有较好的识别性能 ; 且以词为输出
单元的模型识别性能优于以字符为输出单元的模型 。
关键词 : 语音识别 , 后处理 , 马尔可夫模型
一、引言
目前图像识别在人机界面上的应用已有了很大进展 , 国内外研制的中英文印刷体识别系
( ) ( )
统 OCR 已进入实用阶段 如清华文通 OCR 等 。手写体文字识别走向实用 , 而相对来说
语音输入系统还未达到实用阶段 。
语音输入被视为当今第五代计算机和多媒体计算机的重要特征 , 是今后信息输入的主要
方向之一 。而实现的关键技术是语音识别技术 。
每个人的语音特征都不同 , 不同的年龄 、性别 、地区的人说话时语音特征都有明显的差
异 , 它的不确定性和不稳定性使得语音识别很困难 。虽然国内外已有一些较好的语音识别系
统 ,【1 ,2 】, 但从词汇量 、识别率和识别速度的综合指标来看 , 仍未达到商品化的要求 。另外 ,
语音声学识别率达到一个阀值后 , 通过改进模型或算法再提高些许都很困难 。所以, 此后最
可靠的办法是进行识别后处理 , 即改进音字转换方法 。
音字转换部分的主要功能是 : 通过考察每个待识别音的很多候选字 , 并利用文法规则和
自然语言的一些统计规律 , 得到正确的汉字序列 , 且纠正一些拼音识别的错误 。
为了对每一个音节确认出正确的字符 , 我们需要先根据输入的拼音序列 , 组成所有可能
国家 、广东省自然科学基金资助项 目
本文于 1997 年 3 月 11 日收到
— 66 —
的字符假设或单音节 、多音节的词假设 。这里 , 以输入序列 “增进记忆力”为例 , 其对应的
拼音序列为 [zeng - 1 , j in - 4 , j i - 4 , yi - 4 , li - 4 ] 。对于音节 [zeng - 1] 和 [j in - 4 ] , 尽
管有很多同音异义字 。但只有一个多音节词 “增进”。类似的 , 对于音节 [j i - 4 ] , [yi - 4 ] ,
只有一个多音节词 “记忆”。我们可以通过用词典中的多音节词匹配的方式来得到上述多音
节词 。然而 , 虽然通过这种方式可直接得到一些多音节词 , 但是还是存在一些问题 。首先 ,
日常汉语中单音节词频繁出现 。上例中 , 如 [li - 4 ] 对应于单音节词 。由于这些音节不组成
多音节词 , 每一音节对应于许多同音异义字 。它们所代表的字符或词不能用上述方法得到 。
更困难的是这些音节可 以和相邻的音节组合而形成不正
显示全部