面向中文专利权利要求书的分词方法研究.PDF
文本预览下载声明
总第250 期 2014 年 第9 期
面向中文专利权利要求书的分词方法研究*
张 杰 张海超 翟东升
(北京工业大学经济与管理学院 北京 100124)
摘要: 【目的 】解决中文专利权利要求书分词问题, 满足专利相似研究需求。【方法 】总结中文专利权利要求书
分割特征词、分割子串规则和术语抽取规则, 构建领域词典, 提出一种基于领域词典和规则相组合的分词方法。
【结果 】实验结果表明: 分词的准确率为90%, 召回率为95%, F 值为92%。【局限 】由于领域词典的庞大, 使得
大规模分词的效率降低。【结论 】该方法能够进一步提高中文专利权利要求书的分词效果和效率。
关键词: 中文专利权利要求书 中文分词 领域词典 术语抽取
分类号: TP391
1 引 言 匹配, 若匹配成功则切分出来。常用的几种词典分词
方法有正向最大匹配法、逆向最大匹配法、双向最大
目前, 海量专利信息的处理面临着巨大的挑战, 匹配法和最少切分等[2] [4]
。莫建文等 提出改进的基于词
信息的快速检索和充分利用成为必然, 专利文本分词 典中文分词方法, 该方法结合双字哈希结构, 并利用
是研究专利相似的基础和重要部分。词是能够独立使 改进的正向最大匹配分词算法进行中文分词。李玲[5]构
用的最小语言单元, 但中文文本和西语存在很大不同: 造了标准词典、临时词典和临时高频词表组成的双词
汉语中词与词之间没有明显的类似于空格的显式边 典机制作为分词基础, 应用正向最大匹配法和逆向最
界。因此, 中文分词成为计算机处理的重要工作, 中文 大匹配法进行分词, 提出基于双词典机制的歧义处理
[1]
分词的难点是切分歧义的消除和未登录词的识别 。 方法。何国斌等[6]采用哈希法和二分法进行分词匹配,
虽然中文分词研究取得了丰硕成果, 但针对中文 并针对机械分词算法的特点, 提出一种基于最大匹配
专利文献分词的研究并不多, 本文结合中文专利权利 的分词概率算法。梁桢等[7]设计能够记录词长的 Hash
要求书的分割子串规则和术语抽取规则, 构建特定领 结构尾字词典, 提出一种逆向回溯最大匹配算法, 该
域词典, 在初分词的基础上, 提出一种基于规则和领 改进算法采用的回溯机制能够有效消除分词中可能存
域词典的组合分词方法。 在的一些歧义问题。
目前来看, 词典分词方法的研究主要围绕词典结
2 研究现状介绍
构、设计Hash 表提高分词性能。词典分词方法的缺陷
中文分词算法很多, 大致可归纳为: 词典分词方 在于切分准确率依赖于词典规模, 需要权衡时间开销
法、统计分词方法、理解分词方法和组合分词算法[2] 。 和空间开销。
基于词典的分词方法也称作基于字符串的机械分 基于统计的中文分词方法, 其思想是: 词是稳定
词方法[3], 其主要思想是: 按照一定的匹配规则将文 的汉字的组合, 利用已有的文本语料库作为切分资源,
本中的字符串和事先构建好的词典中的词语进行逐一 文本中相邻字之间共现的概率能够很好地反映字之间
收稿日期: 2014-02-21
收修改稿日期: 2014-04-24
*本文系北京市自然科学基金项目“ 中文专利侵权检测与分析理论方法及关键技术研究”(项目编号: 9132005)和北京工业大学人文社会科
学基金项目“知识产权侵权检测服务方法、
显示全部