中文信息处理概述.ppt
文本预览下载声明
中文信息处理概述 For 对外汉语方向本科生 本章内容 释名 汉语的特点----中文信息处理的难点 中文信息处理的研究内容 汉语信息处理的主攻方向 中文信息处理的发展阶段 中文信息处理的现状 对当前中文信息处理现状的哲学反思 目前国内中文信息处理的主要力量和代表人物 释名 中文信息处理(Chinese Information Processing) 中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。 汉字信息处理(Chinese Character Information Processing) 用计算机对汉字所表示的信息进行的操作和加工。 释名 Chinese Information Processing(CIP) 中文信息处理 ——Chinese character Information Processing 汉字信息处理 CIP Chinese character (IT) = Chinese ideograph (Sinology) ——Chinese language Information Processing 汉语信息处理 Language Information Processing 语言信息处理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Processing 以汉语为核心的多语言信息处理 汉语的特点----中文信息处理的难点 汉语文字文本的语言单位边界糢糊。 词间无间隔 人名、地名不大写 句子之间界限不清晰 汉字 完全使用由象形文字演化而来的方块汉字; 字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句 汉语的特点----中文信息处理的难点 词语 “词”无严格的形式定义,词本身也没有明显的形态标志 词没有形态变化;词性兼类现象严重 虚词常常省略,与实词形式上无区别 词性与句子成分之间无一一对应关系,中心谓语动词难以确定 多动词连用现象突出 汉语的特点----中文信息处理的难点 句子 结构松散 我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。 语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词 句子语序灵活,语句格式丰富 语义灵活 一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。 现代汉语研究现状 --之于中文信息处理 现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实需求 一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机器的交流。 二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。 中文信息处理的研究内容 研究对象:文字和语音 语言单位和层面:字-词-句-篇 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 应用研究 应用技术 应用资源 应用系统/平台 研究对象 文字 汉字键盘输入技术 汉字输入技术 软件汉化技术 汉字字形识别技术 激光照排技术 文本分类 信息检索 语言单位和层面 字 汉字编码技术 汉字输入技术 汉字字形和字形库管理技术 汉字输出技术 词 汉语分词 句篇 中文信息检索 中文信息抽取 中文文本分类技术 汉语信息处理的主攻方向—两个实例 两个实例 实例一 关于自动升降晾衣架的对话 妻子:“嘿,过了一年才坏。” 丈夫:“什么呀,才一年就坏了。” 丈夫理解了妻子的意思吗? 汉语信息处理的主攻方向—两个实例 实例二 关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,……。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。” ——今日民航2001年9月号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/ 汉语信息处理的主攻方向—歧义消解 词的切分 白天鹅 计算机程序可以按某种算法
显示全部