文档详情

面向中文专利权利要求书的分词方法研究.PDF

发布：2017-05-29约2.82万字共8页下载文档

文本预览下载声明

总第250 期 2014 年第9 期面向中文专利权利要求书的分词方法研究* 张杰张海超翟东升 (北京工业大学经济与管理学院北京 100124) 摘要: 【目的】解决中文专利权利要求书分词问题, 满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则, 构建领域词典, 提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明: 分词的准确率为90%, 召回率为95%, F 值为92%。【局限】由于领域词典的庞大, 使得大规模分词的效率降低。【结论】该方法能够进一步提高中文专利权利要求书的分词效果和效率。关键词: 中文专利权利要求书中文分词领域词典术语抽取分类号: TP391 1 引言匹配, 若匹配成功则切分出来。常用的几种词典分词方法有正向最大匹配法、逆向最大匹配法、双向最大目前, 海量专利信息的处理面临着巨大的挑战, 匹配法和最少切分等[2] [4] 。莫建文等提出改进的基于词信息的快速检索和充分利用成为必然, 专利文本分词典中文分词方法, 该方法结合双字哈希结构, 并利用是研究专利相似的基础和重要部分。词是能够独立使改进的正向最大匹配分词算法进行中文分词。李玲[5]构用的最小语言单元, 但中文文本和西语存在很大不同: 造了标准词典、临时词典和临时高频词表组成的双词汉语中词与词之间没有明显的类似于空格的显式边典机制作为分词基础, 应用正向最大匹配法和逆向最界。因此, 中文分词成为计算机处理的重要工作, 中文大匹配法进行分词, 提出基于双词典机制的歧义处理 [1] 分词的难点是切分歧义的消除和未登录词的识别。方法。何国斌等[6]采用哈希法和二分法进行分词匹配, 虽然中文分词研究取得了丰硕成果, 但针对中文并针对机械分词算法的特点, 提出一种基于最大匹配专利文献分词的研究并不多, 本文结合中文专利权利的分词概率算法。梁桢等[7]设计能够记录词长的 Hash 要求书的分割子串规则和术语抽取规则, 构建特定领结构尾字词典, 提出一种逆向回溯最大匹配算法, 该域词典, 在初分词的基础上, 提出一种基于规则和领改进算法采用的回溯机制能够有效消除分词中可能存域词典的组合分词方法。在的一些歧义问题。目前来看, 词典分词方法的研究主要围绕词典结 2 研究现状介绍构、设计Hash 表提高分词性能。词典分词方法的缺陷中文分词算法很多, 大致可归纳为: 词典分词方在于切分准确率依赖于词典规模, 需要权衡时间开销法、统计分词方法、理解分词方法和组合分词算法[2] 。和空间开销。基于词典的分词方法也称作基于字符串的机械分基于统计的中文分词方法, 其思想是: 词是稳定词方法[3], 其主要思想是: 按照一定的匹配规则将文的汉字的组合, 利用已有的文本语料库作为切分资源, 本中的字符串和事先构建好的词典中的词语进行逐一文本中相邻字之间共现的概率能够很好地反映字之间收稿日期: 2014-02-21 收修改稿日期: 2014-04-24 *本文系北京市自然科学基金项目“ 中文专利侵权检测与分析理论方法及关键技术研究”(项目编号: 9132005)和北京工业大学人文社会科学基金项目“知识产权侵权检测服务方法、

显示全部

相似文档