文档详情

基于Delphi的中文分词设计.pdf

发布：2017-09-25约字共5页下载文档

文本预览下载声明

计算机系统应用 2009年第3期 el h 基于D pi的中文分词设计① ChineseWord BasedonDel Split Design phi 刘建培(广东商学院教育技术中心广东广州510320) 摘要：词是语言中最小的能够独立活动的有意义的语言成分．是信息处理的基本单位。词频统计、语音识别、字符识别、自动分类、机器翻译、信息检索、信息抽取等方面的研究。也必须首先分词。在这些应用和研究领域，没有准确高效的分词策略，汉语的进一步分析必将受到严重影响。本文研究用Delphi 设计中文分词。关键词：中文分词Delphi词频正向最大匹配 1 引言定性就大大提高了。再如信息检索，如果不分词(按字汉语自动分词是对汉语文本进行自动分析的第一检索)，当检索德国货币单位“马克”时，就会把“马个步骤。可以这样设想汉语自动分词过程的困难：如克思”检索出来，而检索“华人”时会把“中华人民果把某个英语文本中的所有空格符都去掉，然后让计共和国”检索出来。如果进行分词，就会大大提高检算机自动恢复文本中原有的空格符，这就是词的识别索的准确率。在更高一级的文本处理中，例如句法分过程。分词体现了汉语与英语的显著的不同。英语文析、语句理解、自动文摘、自动分类和机器翻译等，本是小字符集上的已分隔开的词串，而汉语文本是大更是少不了词的详细信息。字符集上的连续字串。把宇串分隔成词串，就是自动分词系统需要做的工作。 2中文分词的词库设计汉语分词又是各种中文信息处理应用系统中共同计算机上使用的汉字有两类代码，一类叫外码，的、基础性的工作，例如：语音识别、字符识别、语用来输入汉字，如拼音码、五笔字型码等。在同一计音合成、文本校对、文本摘要、词频统计、作家作品算机中，可以存在多种外码，根据需要选择汉字输入风格学研究、自动标引、自动分类、信息检索和机器码。另一种叫内码，同一计算机中只有一种内码，用翻译、信息抽取等。在这些应用和研究领域，没有准不同外码输入的汉字，都要转换成相同的内码存储到 2 确高效的分词策略，汉语的进一步分析必将受到严重计算机中。汉字内码有GB2312、BIG5、GBK，GB231 影响。是内码的一种，在同一计算机中内码只能有一种，但词是最小的能独立活动的有意义的语言成分。计根据需要可以设置为不同的内码。区位码是一个四位算机的所有语言知识都来自机器词典(给出词的各项的十进制数，每个区位码都对应着一个唯一的汉字或信息)、句法规则(以词类的各种组合方式来描述词的聚符号，它的前两位叫做区码，后两位叫做位码。一个合现象)以及有关词和句子的语义、语境、语用知识库。汉字的内码由两个字节组成。汉字内码与区位码之间汉语信息处理系统只要涉及句法、语义就需要以单词有一个简单的数学关系：作为基本单位，例如汉字的拼音——宇转换、简体一内码第一字节=区码+160 60 一繁体转换、汉字的印刷体或手写体的识别、汉语文内码第二字节=位码+1 章的自动朗读(即语音合成)等等，都需要使用词的信比如，查区位码表知道，“啊”宇在16区01位，息。分词以后在词的层面上做转换或识别，处

显示全部

相似文档