文档详情

利用声调提高人名识别精度.DOC

发布:2019-07-28约1.22千字共3页下载文档
文本预览下载声明
利用声调提高人名识别精度 罗刚 王向前 词是自然语言中的最小的意义的单位,汉语文本是基于单字的文本,词与词之间没有明显的界线标志,因此分词是汉语文本处理中首先要解决的问题之一。其中名字的切分是其重要组成部分。在传统的切分方法中对名字的切分准确度有待于提高,在隐马尔科夫模型中再考虑上语音的因素,能提高分词的准确率。为此我们需考虑为名字训练语料库。 1.组建中国名字库 为了让这结果有比较有权威性,我们需要从大量的文本中把名字抽取出来,组建一个庞大的名字库。 库建成后共有近两万个词条,看看其分布非常符合逻辑,百家姓中的比较多的姓名如赵、张、李、王等都有很多的词条,比较少见的姓,有较少的词条,非
显示全部
相似文档