文档详情

吴语五地词汇相关度的计量研究.pdf

发布:2024-01-07约1.01万字共7页下载文档
文本预览下载声明

吴语五地词汇相关度的计量研究

零概念的界定

(一)词段:从话语语流中抽取出来的语言单位,是词的音段表现形式,

包括一个声母和一个韵母,不包括超音段的声调。虽然在同一语音系统中不能

辨义,但在不同语音系统的比较中,在词目确定的前提下,语义已经确定。

(二)词的相关度:词的相关指同一个词目在不同地区说法异同的程度:

所有的词段都相同则说这个词在这些地区的说法相同,相关度为1;完全不同

的,相关度为0;部分词段相同或某些词段在语音上有相关的对应,则说这个

词在这些地区有相关性,相关度可以通过一定的计算方法求出。

(三)词的读法:指一条词目在某地的语音表现形式,包括所有语素的语

音表现形式。记录时,用国际音标表示,不用汉字表示。

一词汇相关度计量研究述评

对方言间和不同语言间词汇接近率的计量研究,曾有过下述六种方法:

1.1语言年代学(glottochronology)

日本学者王育德1960年发表用语言年代学方法研究汉语五大方言接近率及

其分化年代的成果。该研究主要对比词的文字表现形式的异同,不涉及语音的

对比。王育德所使用的统计工作包括两部分。第一部分是比较二百个基本词汇

在各方言中的异同数,所用的方法是算术统计法。第二部分根据M.Swadesh提

出的计算公式,计算五大方言分化的年代。

1.2相关系数统计法

这种方法由郑锦全于1973年最早提出。他用“皮尔逊相关”和“非加权平

均系联法”计算不同方言的字音和词汇文字表现形式的亲疏程度,同时提供方

言分区的方案。参加比较的词目共905条。在相关系数统计结果的基础上,再

做聚类分析。

郑锦全的相关系数统计法利用计算机处理庞大的方言资料,用树形图对18

种方言间的亲疏程度作出直观而细密的描写。显然,相关系数统计法比算术统

计法要精密、合理得多。不过它有两个主要缺点:一是没有考虑词频这个重要

因素;二是比较词汇异同,只考虑词形异同,并不顾及词内部词根或中心语素

的异同。如“太阳”和“日头”词形不同,两者的相同率为0;“太阳”和

“太阳佛”词形不同,两者的相同率也为0。实际上“太阳佛”的中心语素跟

“太阳”完全相同,将两者的相同率当作0来处理是不合理的。1.1中所述的

算术统计法也有这两个缺点。

王士元和沈钟伟于1992年撰文批评郑锦全的方法在语言学上和计算上的不

合理性,提出在汉语方言分类上,计算的基本单位应该是语素,而不是词。他

们进一步完善了相关系数统计法和聚类分析法,并且对吴语内部三十三个点的

方言词汇的亲疏关系进行了计量研究。

1.3算术统计法

这种方法将不同方言的词汇的同或异,用加减法进行统计,然后以百分比

计算接近率。詹伯慧和张日升曾根据他们所编《珠江三角洲方言词汇对照》

(1988)的材料,比较北京话和粤语词汇的接近率。参加比较的词汇有1001个,

两者相同的只有140多个,仅占10.4%。

王育德和詹伯慧等人使用的方法都是算术统计法,但是所得结果相差甚

远。原因显然是两者参加比较的词汇的数量不同,王育德所用是两百个基本词

汇(结果70.77%),詹伯慧等人所用的词汇则有一千个至八千个。可见基本词

汇相同率较高,一般词汇相同率较低。

1.4概率法

借词和同源词向来是比较难区分的。陈保亚在《论语言接触与语言联盟》

(1996)中试图用概率的方法解决这个问题。陈保亚认为,语音对应规律不能作

为确定同源关系的充分条件,这是因为语音对应规律本身不能说明最早时间层

次的关系词是同源词还是借词。但语音对应规律的另一个重要作用是排除偶然

相似。当两种语言的一系列词在语音上有对应时,很难用偶然巧合加以解释。

于是,他根据声母、韵母和声调的对应规则,用卡方分布和泊松分布,计算出

某词在两地属于同源词的概率。陈保亚采用M.Swadesh1952年从印欧语言中挑

选出的人类语言中最稳定的200个词和1955年从这200个核心词中筛选出的

100个更稳定的核心词作为分析材料,并把100个最稳定的核心词称为第一阶

词,把第二个100词称为第二阶词。通过概率计算,陈得出结论:侗台语和南

岛语的关系词第100词高于第200词,应当承认侗台语和南岛语有同源关系。

这种计量法将词汇和语音的因素结合在一起考虑,从音类的必然变化和音

素的偶然变化入手,运用概率将这两种变化区分开,将同源词在语音上的变化

归为音类的必

显示全部
相似文档