基于语料库的现代汉语新词语研究.pdf
文本预览下载声明
基于语料库的现代汉语新词语研究
基于语料库的现代汉语新词语研究①
亢世勇
(山东烟台师范学院)
随着中国社会的快速发展,科学技术的日益普及,汉语新词语不断涌现。对这些新词语
进行整理,研究其产生和应用的规律,无沦对现代汉语词汇的研究还是对中文信息处理都有
积极的意义.同时也对实际应用起到积极的指导作用。现代汉语新词语的研究受到了国内外
的广泛关注,学者们做了大量的研究,产生了一些引人注目的研究成果。出版了新词语词典
及词语集三十多种、新词语研究专著一本。总的来看,新词语的研究还有一定的局限,主要
表现在以下方面:
第一,这些研究成果都是印刷品,没有有效的电子版成果,不能实现资源高度共享。
第二,这些成果都是为人用的,而没有考虑到计算机应用,应用范围受到了限制。
第三,由于研究技术和研究条件的限制,各种词典收词量有限,词语的解释及引例都有
不尽完善之处,更重要的是词典提供的信息量极其有限。
由于以上的不足,造成现有的各种新词词典应用价值不高。我们拟利用计算机数据库技
术,建成现代汉语薪词语信息电子词典,再加上其他文本语料以及相关的语料库技术,开发
出现代汉语新词语语料库。在此基础上对新词语的产生途径、语法特征、音节构成、词类、
构词法、应用领域等方面进行定量的、’穷尽性的、全面的研究,说明新词语产生和发展的
规律。
一、现代汉语新词语信息电子词典的研究与实现
我们主持的科研项目。《现代汉语新词语信息电子词典》的开发与应用”2001年谈批准
确定为中国国家哲学社会科学规划项目(项目编号:叭cYvooz)。该电子词典的主要收录对
象是新词语。我们认定的新词语主要是指具有新意义或新形式的词语。电子词典收词所坚持
的原则有全面性原则、规范性与描写性相结合原则、普遍性原则、实用性原则、音节原则
等。收录的词语主要包括新造词、旧词新用、外来词、方言词、术语进入普通词汇的词、简
略词、由修辞方式固定下来的新词语等。目前已收录新词语38000多个。该电子词典在新词
①本项研究得到国家哲学社科规划项目(编号:OIcYY002)和山东省教育厅科研项目的支持。
237
汉藏语言研究
语信息的描写上采用的是分类与属性描述相结合,以属性描述为主的方法。在粗分类的基础
上进行语法属性的描述,属性描述尽可能详尽。在确立语法属性项目时主要是根据计算机分
析和生成汉语句子的需要。涉及了词法、句法、语义、语用等几个方面的信息,几乎包括了
新词语在具体文本中所可能具有的全部词法信息、句法信息和部分语义信息。具体做法是首
先确定具体的功能标准以建立汉语的词语分类系统,并对照一个词语的句法功能表现把它归
人某个词类;然后是以功能理念指导词语语法属性项目的设置,并根据一个词语的实际用法
情况标记它的属性值。这样就可以全面系统地描写新词语的语法属性,事实上,电子词典的
每一个词语下都将汇集一大群可能有的各种语法属性。这种描述记录一个词的功能用法特征
feature
set)一类的形式化手段。电子词典正
的方式类似于国外流行的复杂特征集(complex
是复杂特征集的形式化描述方法在汉语新词语的语法知识形式化方面的一次大规模的实践。
在离散式的复杂特征集的外衣下,3,8万汉语新词语的语法知识靠词组本位语法理论统一起
来,成为一个有机整体。
电子词典采用关系数据库技术(在ACCESS环境下实现),用简单明了的汉字表示各种
属性信息。整个电子词典设立总库一个,子库5个。这些库构成上下位关系,便于信息的获
取。总库的信息主要包括词语、义项、拼音、音节、例句、词性、产生途径、应用领域、构
词法、时间等。5个子库是名词库、动词库、形容词库、区别词库、构词法库。目前,总库
标注已经完成,各个分库的标注工作正在进行。该词典可应用于汉语新词语的学习和研究,
尤其可以作为中文信息处理的基本资源。
以下是基于已经标注的电子词典总库的新词语几个方面的研究,总库中标注的词语有
38659个。我们希望:第
显示全部