文档详情

[请在这里输入文档标题].pdf

发布:2015-09-15约2.66万字共18页下载文档
文本预览下载声明
Journal of Chinese Language and Computing, 13 (2) 159-176 159 ∗ 现代汉语语义词典规格说明书 1 2 1 王惠 詹卫东 俞士汶 1 北京大学计算语言学研究所 2 北京大学中文系 whui@; yusw@; zwd@ Submitted on 8 March , 2003, Revised and Accepted on 16 May, 2003 摘 要 “现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据 库文件形式收录了 6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类, 而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器 翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于 汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的 结构、内容,以及语义属性项目的填写规范。 关键词 语义知识库,语义类,配价信息,计算词典学,中文信息处理 1. 引言 随着语言处理技术的迅速发展,词义分析的重要性与迫切性也越来越突出。为了获取 足够的词义知识,克服目前普遍存在的“词义瓶颈”难题,从 80 年代中期开始,世 界上许多国家都大力投资开发机用语义词典,如:美国的 Wordnet (Fellbaum, 1998) 、 Mindnet (Richardson, 1998) 、Framenet (Fillmore, 1998) 、日本的EDR 概念词典、新加 ∗ 本文有关研究得到了 973 项目(G1998030507-4,G1998030507-1)和 863 项目 (2002AA117010-08)的支持。 160 Hui Wang, Weidong Zhan, Shiwen Yu 坡的 SenseWeb 等。中国也陆续开展了汉语语义词典的研究与开发,如“905”项目“信 息处理用汉语语义词典” (陈力为, 袁琦, 1995)、“现代汉语述语动词机器词典”、“知网 (Hownet )” (董振东, 1999 )、“ 中文概念辞书 (CCD )” (于江生, 俞士汶, 2002 )等。 此外,不少计算语言学家还尝试着从机器词典中自动抽取词义知识(Chodorow 1985, Ide 1993,黄居仁 1998 等)。但迄今为止,现有的规模较大的词义工程,基本上都是 采用词义分类的办法,有些再加上为数不多的属性描述。而国内外研究工作者建立义 类体系的方法,也基本上都是对词义进行静态的聚合分类,并没有把词义放到一定的 组合框架中去观察,所以,在自然语言处理系统中起的作用是有限的。 为了给计算机 自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成 果,在语法知识库的基础上构建语义知识库。不仅要进行系统的语义分类,而且对词 义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个 与语言工程应用紧
显示全部
相似文档