文档详情

基于Delphi的中文分词设计.pdf

发布:2017-09-25约字共5页下载文档
文本预览下载声明
计算机系统应用 2009年第3期 el h 基于D pi的中文分词设计① ChineseWord BasedonDel Split Design phi 刘建培(广东商学院教育技术中心广东广州510320) 摘要: 词是语言中最小的能够独立活动的有意义的语言成分.是信息处理的基本单位。词频统计、语音识别、 字符识别、自动分类、机器翻译、信息检索、信息抽取等方面的研究。也必须首先分词。在这些应用 和研究领域,没有准确高效的分词策略,汉语的进一步分析必将受到严重影响。本文研究用Delphi 设计中文分词。 关键词: 中文分词Delphi词频正向最大匹配 1 引言 定性就大大提高了。再如信息检索,如果不分词(按字 汉语自动分词是对汉语文本进行自动分析的第一 检索),当检索德国货币单位“马克”时,就会把“马 个步骤。可以这样设想汉语自动分词过程的困难:如 克思”检索出来,而检索“华人”时会把“中华人民 果把某个英语文本中的所有空格符都去掉,然后让计 共和国”检索出来。如果进行分词,就会大大提高检 算机自动恢复文本中原有的空格符,这就是词的识别 索的准确率。在更高一级的文本处理中,例如句法分 过程。分词体现了汉语与英语的显著的不同。英语文 析、语句理解、自动文摘、自动分类和机器翻译等, 本是小字符集上的已分隔开的词串,而汉语文本是大 更是少不了词的详细信息。 字符集上的连续字串。把宇串分隔成词串,就是自动 分词系统需要做的工作。 2中文分词的词库设计 汉语分词又是各种中文信息处理应用系统中共同 计算机上使用的汉字有两类代码,一类叫外码, 的、基础性的工作,例如:语音识别、字符识别、语 用来输入汉字,如拼音码、五笔字型码等。在同一计 音合成、文本校对、文本摘要、词频统计、作家作品 算机中,可以存在多种外码,根据需要选择汉字输入 风格学研究、自动标引、自动分类、信息检索和机器 码。另一种叫内码,同一计算机中只有一种内码,用 翻译、信息抽取等。在这些应用和研究领域,没有准 不同外码输入的汉字,都要转换成相同的内码存储到 2 确高效的分词策略,汉语的进一步分析必将受到严重 计算机中。汉字内码有GB2312、BIG5、GBK,GB231 影响。 是内码的一种,在同一计算机中内码只能有一种,但 词是最小的能独立活动的有意义的语言成分。计 根据需要可以设置为不同的内码。区位码是一个四位 算机的所有语言知识都来自机器词典(给出词的各项 的十进制数,每个区位码都对应着一个唯一的汉字或 信息)、句法规则(以词类的各种组合方式来描述词的聚 符号,它的前两位叫做区码,后两位叫做位码。一个 合现象)以及有关词和句子的语义、语境、语用知识库。 汉字的内码由两个字节组成。汉字内码与区位码之间 汉语信息处理系统只要涉及句法、语义就需要以单词 有一个简单的数学关系: 作为基本单位,例如汉字的拼音——宇转换、简体一 内码第一字节=区码+160 60 一繁体转换、汉字的印刷体或手写体的识别、汉语文 内码第二字节=位码+1 章的自动朗读(即语音合成)等等,都需要使用词的信 比如,查区位码表知道,“啊”宇在16区01位, 息。分词以后在词的层面上做转换或识别,处
显示全部
相似文档