这种分词需要建立分词数据库、知识库和推理机,.PDF
文本预览下载声明
西北工业大学硕士学位论文 第二章 自动分词技术
仿人类的阅读过程来进行分词。这种分词需要建立分词数据库、知识库和推理机,
主要包括专家系统分词法、基于语法和规则的分词法、基于神经网络的分词法等。
2.3.1基于词典分词方法
机械匹配法的基本思想是:事先建立一个词库,其中包含所有可能出现的词,
对给定的待分词的字符串,按照某种确定的原则切取字符串的子串,若该子串与
词库中的某词条相匹配,则认为该子串是词,插入切分标志,继续分割剩余的部
分,直到剩余部分为空:否则,该子串不是词,重新切取字符串的子串进行下一
次匹配。
基于词典的分词方法的三个要素为分词词典、文本扫描顺序和匹配原则。分
词词典包括常规词典和专业词典。文本的扫描顺序有正向扫描、逆向扫描和双向
扫描。正向扫描是指从待切分字符串的第一个字符往后扫描,而逆向扫描是指从
待切分字符串的最后一个字符往前扫描。双向扫描则是正向扫描和逆向扫描的组
合。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配等。
常见的基于词典的分词方法有:
1,正向最大匹配法(MM)
正向最大匹配法的目的是将最长的复合词从语句中分离出来。这是最早提出
的自动分词方法,由苏联学者在六十年代研究汉俄机器翻译时提出,它的基本思
想是:假定分词词典中的最长词条长度是k,则用被处理文档的前k个字作为匹
配字段查找分词词典,若词典中存在这样一个k字词,则匹配成功。匹配字段被
作为一个词被切分出来。如果词典中找不到这样的一个k字词,则匹配失败。将
匹配字段中的最后一个字去掉,对剩下的字符串重新进行匹配处理,如此进行下
去,直到匹配成功,切分出一个词或剩余字串的长度为零为止。这样就完成了一
轮匹配,然后取下一个k字字串进行匹配处理,直到文档被扫描完为止.最大匹
配法的工作流程如图2-1所示:
西北T业大学硕十学位论文 第二章 白动分词技术
图2-1正向最大匹配法流程图
2.反向最大匹配法(RMM)
这种方法和正向最大匹配法的思想一样,不同之处在于它是从句子的最后六
个字开始切分,每次匹配不成功时,去掉汉字串前面的一个字。据统计,正向最
大匹配法的差错率为1/169,而逆向最大匹配法的差错率为1/245,即逆向最大
匹配法比正向最大匹配法的误差要小。
MM和RMM这两种方法思想明了,易于编程实现。但由于试图利用相对稳定的
词表来代替灵活多变、充满活力的词汇,把词表作为判词的唯一依据,因而具有
很大主观性和局限性。另外姗,RMM从原理上否认了 “词中含词”这一语言现象。
因而出错率高,拒分现象严重,而且这两种方法的时间复杂度很高,它们都是最
基本的方法。
3.双向扫描法
这种方法重点放在检错和纠错上,基本做法是将正向扫描(MM)的结果和逆向
西北工业大学硕十学位论文 第二章 自动分词技术
扫描(RMM)的结果相比较,一致的部分认为是正确的,不一致的部分则采用人工
干预法、统计法分词或跟上下文相关信息对比等任一种方法切分。这种方法对于
正、逆向扫描结果一致但切分不正确的字段没有有效的处理手段。时间复杂度比
单向扫描至少增加一倍。同时其分词词典还必须同时支持正、逆两种顺序的检索,
词典结构比较复杂,或者要建立两种数据结构的词典。此方法可以作为一种检查
歧义字段的方法,但效果尚不如词尾字构词法。
4,逐词遍历法
它是把词典中的词按照汉字数由多到少递减的顺序逐个搜索整个待处理材
料,直到把全部的词切分出来为止,则完成分词处理。在最坏情况下,即使处理
材料很少,也得用词典中的全部词逐字匹配待处理材料。
5.最佳匹配法
最佳匹配法的基本思想是词典中的词条按照词频的大小顺序排列,以求缩短
分词词典的检索时间,从而降低分词的时间复杂度。在机械分词方法中,最佳匹
配法(包括正向和反向)实际上可以归并到正向最大匹配法和反向最大匹配法,因
为它与上述两类方法的区别仅仅是对词典中的词序作了适当的调整(按词频排
序),以求缩短对分词词典的检索时间,以降低分词时间复杂度,加快分词速度。
实际上,这是对分词词典的一种预加工,只是对匹配算法的一种改进,也不是纯
粹意义上的一种分词方法。
6.切分标
显示全部