文档详情

面向中文专利权利要求书的分词方法研究.PDF

发布:2017-05-29约2.82万字共8页下载文档
文本预览下载声明
总第250 期 2014 年 第9 期 面向中文专利权利要求书的分词方法研究* 张 杰 张海超 翟东升 (北京工业大学经济与管理学院 北京 100124) 摘要: 【目的 】解决中文专利权利要求书分词问题, 满足专利相似研究需求。【方法 】总结中文专利权利要求书 分割特征词、分割子串规则和术语抽取规则, 构建领域词典, 提出一种基于领域词典和规则相组合的分词方法。 【结果 】实验结果表明: 分词的准确率为90%, 召回率为95%, F 值为92%。【局限 】由于领域词典的庞大, 使得 大规模分词的效率降低。【结论 】该方法能够进一步提高中文专利权利要求书的分词效果和效率。 关键词: 中文专利权利要求书 中文分词 领域词典 术语抽取 分类号: TP391 1 引 言 匹配, 若匹配成功则切分出来。常用的几种词典分词 方法有正向最大匹配法、逆向最大匹配法、双向最大 目前, 海量专利信息的处理面临着巨大的挑战, 匹配法和最少切分等[2] [4] 。莫建文等 提出改进的基于词 信息的快速检索和充分利用成为必然, 专利文本分词 典中文分词方法, 该方法结合双字哈希结构, 并利用 是研究专利相似的基础和重要部分。词是能够独立使 改进的正向最大匹配分词算法进行中文分词。李玲[5]构 用的最小语言单元, 但中文文本和西语存在很大不同: 造了标准词典、临时词典和临时高频词表组成的双词 汉语中词与词之间没有明显的类似于空格的显式边 典机制作为分词基础, 应用正向最大匹配法和逆向最 界。因此, 中文分词成为计算机处理的重要工作, 中文 大匹配法进行分词, 提出基于双词典机制的歧义处理 [1] 分词的难点是切分歧义的消除和未登录词的识别 。 方法。何国斌等[6]采用哈希法和二分法进行分词匹配, 虽然中文分词研究取得了丰硕成果, 但针对中文 并针对机械分词算法的特点, 提出一种基于最大匹配 专利文献分词的研究并不多, 本文结合中文专利权利 的分词概率算法。梁桢等[7]设计能够记录词长的 Hash 要求书的分割子串规则和术语抽取规则, 构建特定领 结构尾字词典, 提出一种逆向回溯最大匹配算法, 该 域词典, 在初分词的基础上, 提出一种基于规则和领 改进算法采用的回溯机制能够有效消除分词中可能存 域词典的组合分词方法。 在的一些歧义问题。 目前来看, 词典分词方法的研究主要围绕词典结 2 研究现状介绍 构、设计Hash 表提高分词性能。词典分词方法的缺陷 中文分词算法很多, 大致可归纳为: 词典分词方 在于切分准确率依赖于词典规模, 需要权衡时间开销 法、统计分词方法、理解分词方法和组合分词算法[2] 。 和空间开销。 基于词典的分词方法也称作基于字符串的机械分 基于统计的中文分词方法, 其思想是: 词是稳定 词方法[3], 其主要思想是: 按照一定的匹配规则将文 的汉字的组合, 利用已有的文本语料库作为切分资源, 本中的字符串和事先构建好的词典中的词语进行逐一 文本中相邻字之间共现的概率能够很好地反映字之间 收稿日期: 2014-02-21 收修改稿日期: 2014-04-24 *本文系北京市自然科学基金项目“ 中文专利侵权检测与分析理论方法及关键技术研究”(项目编号: 9132005)和北京工业大学人文社会科 学基金项目“知识产权侵权检测服务方法、
显示全部
相似文档