基于Unicode编码的蒙古文输入法研究.doc.doc
文本预览下载声明
基于Unicode编码的蒙古文输入法研究
范道尔吉基金项目:教育厅项目(Z2007-1-01025)作者简介:范道尔吉(1980
基金项目:教育厅项目(Z2007-1-01025)
作者简介:范道尔吉(1980—)男,研究生,讲师,嵌入式系统、蒙古文信息化
(内蒙古大学电子信息工程学院,呼和浩特,010021)
摘要:从Vista开始微软操作系统已经完全支持了传统蒙古文的输入、编辑和排版。本文在微软蒙古文输入法的基础上结合蒙古文的自身特点提出了一种新型蒙古文输入法算法。该算法支持自动变形计算、自动联想输入、自动学习和资源共享等功能。文中给出了自动变形计算的原理和详细算法过程,并详细探讨了蒙古文字典数据的存储和使用方法,最后提出了自动学习算法和资源共享技术的解决方案。
关键字:蒙古文输入法;Unicode;自动变形;Uniscribe
中图分类号: TP391 文献标识码: A
Research of Mongolian Input Method Base on Unicode Encoding
FAN Daoerji ,BAI Feng-shan, WU Hui-juan
(Department of Electronic Engineering, College of Electronic Information Engineering,
NeiMongol University,Hohhot 010021,PRC)
Abstract: From Vista, Microsofts operating system has fully supported for the traditional Mongolian input, editing and typesetting. On the basis of Microsoft Mongolian input method, combining with Mongolian’s own characteristic proposed a new algorithm for the Mongolian input method. The algorithm supports automatic deformation calculation, automatic association input, automatic learning and resource sharing. This paper presents an automatic deformation theory and a detailed algorithm for computing process, and discussed Mongolian dictionary data storage and use in detail, and finally proposed the automatic learning algorithms and resource sharing technology solutions.
Key words: Mongolian input method; Unicode; auto deformation; Uniscribe
1 引言
蒙古文国际标准编码字符集中收录了传统蒙文的7个元音、27个辅音、11个标点符号、10个数字和4个控制字符。该标准中只按蒙古文语音收入了抽象的蒙古文字符(称为名义字符)。同一个蒙古文字符的书写(显现形式)会根据其在词语中的位置不同、单词的词性等属性不同而发生变化,即呈现在人们面前的是该字符变化后的形式(称为显现字形)。由于ISO/IEC 10646标准中没有收人蒙古文显现字符,因此在显示蒙文时需要将蒙古文的名义字符根据上下文映射到其相应的显现字形[1,2]。
微软的Vista操作系统当中已经支持了上述蒙古文的变换处理,office2007也支持蒙古文的竖排排版。同时Vista中也提供了蒙古文输入法,但是这个输入法用起来不够方便,文字输入速度不够快。不方便之处在于文字变形时候由用户判断使用哪一个控制符号,因此必须学习蒙古文的变形原理和控制符号功能,入门比较困难。其次蒙古文单词都比较长,平均有10个左右(对一个蒙古文字典数据的统计),因此输入起来比较慢。基于上述问题本文提出了一种新型的蒙古文输入法算法。
2 新输入法特点
新输入法具备如下特点:自动变形、常用特殊文字快速输入、联想输入、自动学习和网络互联。自动变形是指用户只需按变形键文字就自动变形,用户选择正确变形就可以,而不用自己输入控制符;常用特殊文字快速输入是指蒙古文有些附加成分经常用,但变形控制比较繁琐,因此把特殊附加成分集中在某个键上,按附
显示全部