文档详情

中文分词实验.doc

发布：2018-10-08约3.81千字共13页下载文档

文本预览下载声明

PAGE 13 / NUMPAGES 13 中文分词实验一、实验目的：目的：了解并掌握基于匹配的分词方法，以及分词效果的评价方法。实验要求： 1、从互联网上查找并构建不低于10万词的词典，构建词典的存储结构； 2、选择实现一种机械分词方法（双向最大匹配、双向最小匹配、正向减字最大匹配法等）。 3、在不低于1000个文本文件，每个文件大于1000字的文档中进行中文分词测试，记录并分析所选分词算法的准确率、分词速度。预期效果：平均准确率达到85%以上二、实验方案：实验平台系统：win10 软件平台：spyder 语言：python 算法选择选择正向减字最大匹配法，参照《搜索引擎-原理、技术与系统》教材第62页的描述，使用python语言在spyder软件环境下完成代码的编辑。算法流程图： Figure SEQ Figure \*Arabic 0. 正向减字最大匹配算法流程 Figure SEQ Figure \*Arabic 0. 切词算法流程算法伪代码描述：实验步骤在网上查找语料和词典文本文件；思考并编写代码构建词典存储结构；编写代码将语料分割为1500个文本文件，每个文件的字数大于1000字；编写分词代码；思考并编写代码将语料标注为可计算准确率的文本；对测试集和分词结果集进行合并；对分词结果进行统计，计算准确率，召回率及F值（正确率和召回率的调和平均值）；思考总结，分析结论。实验实施我进行了两轮实验，第一轮实验效果比较差，于是仔细思考了原因，进行了第二轮实验，修改参数，代码，重新分词以及计算准确率，效果一下子提升了很多。实验过程：语料来源：语料来自SIGHAN的官方主页（/），SIGHAN是国际计算语言学会（ACL）中文语言处理小组的简称，其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”，又可以理解为“SIG汉“或“SIG漢“。SIGHAN为我们提供了一个非商业使用（non-commercial）的免费分词语料库获取途径。我下载的是Bakeoff 2005的中文语料。有86925行，2368390个词语。语料形式：“没有孩子的世界是寂寞的，没有老人的世界是寒冷的。” Figure SEQ Figure \*Arabic 0. notepad++对语料文本的统计结果词典：词典用的是来自网络的有373万多个词语的词典，采用的数据结构为python的一种数据结构——集合。 Figure SEQ Figure \*Arabic 0. notepad++对词典文本的统计结果分割测试数据集：将原数据分割成1500个文本文件，每个文件的词数大于1000。 Figure SEQ Figure \*Arabic 0. 测试数据集分解截图 Figure SEQ Figure \*Arabic 0. 其中某文件的形式 Figure SEQ Figure \*Arabic 0. notepad++对其中一个测试文本的统计结果编写分词代码：采用python语言和教材上介绍的算法思路，进行编程。编写代码将语料标注为可计算准确率的文本：用B代表单词的开始字，E代表结尾的字，BE代表中间的字，如果只有一个字，用E表示。例如：原数据是： “人们常说生活是一部教科书” 而我将它转化为了如下格式：人 B 们 E 常 E 说 E 生 B 活 E 是 E 一 E 部 E 教 B 科 BE 书 E 进行分词：使用之前编写的分词函数，载入文本，进行分词，将每个文本结果输出到txt文本。 Figure SEQ Figure \*Arabic 0. 分词结果文件 Figure 9. 测试数据的形式（文本截图） Figure 10. 分词结果（文本截图）用时17秒左右： Figure 11. 运行时间对测试集和分词结果集进行合并：将测试集和分词结果集合并是为了进行准确率，召回率等的计算。测试集和训练集都是下面的格式：人 B 们 E 常 E 说 E 生 B 活 E 是 E 一 E 部 E 教 B 科 BE 书 E 我将他们合并为下面的格式，第二列为测试集的标注，第三列为训练集的结果：人 B

显示全部

相似文档