文档详情

吴语五地词汇相关度的计量研究.pdf

发布：2024-01-07约1.01万字共7页下载文档

文本预览下载声明

吴语五地词汇相关度的计量研究

零概念的界定

（一）词段：从话语语流中抽取出来的语言单位，是词的音段表现形式，

包括一个声母和一个韵母，不包括超音段的声调。虽然在同一语音系统中不能

辨义，但在不同语音系统的比较中，在词目确定的前提下，语义已经确定。

（二）词的相关度：词的相关指同一个词目在不同地区说法异同的程度：

所有的词段都相同则说这个词在这些地区的说法相同，相关度为1；完全不同

的，相关度为0；部分词段相同或某些词段在语音上有相关的对应，则说这个

词在这些地区有相关性，相关度可以通过一定的计算方法求出。

（三）词的读法：指一条词目在某地的语音表现形式，包括所有语素的语

音表现形式。记录时，用国际音标表示，不用汉字表示。

一词汇相关度计量研究述评

对方言间和不同语言间词汇接近率的计量研究，曾有过下述六种方法：

1.1语言年代学(glottochronology)

日本学者王育德1960年发表用语言年代学方法研究汉语五大方言接近率及

其分化年代的成果。该研究主要对比词的文字表现形式的异同，不涉及语音的

对比。王育德所使用的统计工作包括两部分。第一部分是比较二百个基本词汇

在各方言中的异同数，所用的方法是算术统计法。第二部分根据M.Swadesh提

出的计算公式，计算五大方言分化的年代。

1.2相关系数统计法

这种方法由郑锦全于1973年最早提出。他用“皮尔逊相关”和“非加权平

均系联法”计算不同方言的字音和词汇文字表现形式的亲疏程度，同时提供方

言分区的方案。参加比较的词目共905条。在相关系数统计结果的基础上，再

做聚类分析。

郑锦全的相关系数统计法利用计算机处理庞大的方言资料，用树形图对18

种方言间的亲疏程度作出直观而细密的描写。显然，相关系数统计法比算术统

计法要精密、合理得多。不过它有两个主要缺点：一是没有考虑词频这个重要

因素；二是比较词汇异同，只考虑词形异同，并不顾及词内部词根或中心语素

的异同。如“太阳”和“日头”词形不同，两者的相同率为0；“太阳”和

“太阳佛”词形不同，两者的相同率也为0。实际上“太阳佛”的中心语素跟

“太阳”完全相同，将两者的相同率当作0来处理是不合理的。1.1中所述的

算术统计法也有这两个缺点。

王士元和沈钟伟于1992年撰文批评郑锦全的方法在语言学上和计算上的不

合理性，提出在汉语方言分类上，计算的基本单位应该是语素，而不是词。他

们进一步完善了相关系数统计法和聚类分析法，并且对吴语内部三十三个点的

方言词汇的亲疏关系进行了计量研究。

1.3算术统计法

这种方法将不同方言的词汇的同或异，用加减法进行统计，然后以百分比

计算接近率。詹伯慧和张日升曾根据他们所编《珠江三角洲方言词汇对照》

(1988)的材料，比较北京话和粤语词汇的接近率。参加比较的词汇有1001个，

两者相同的只有140多个，仅占10.4%。

王育德和詹伯慧等人使用的方法都是算术统计法，但是所得结果相差甚

远。原因显然是两者参加比较的词汇的数量不同，王育德所用是两百个基本词

汇（结果70.77%），詹伯慧等人所用的词汇则有一千个至八千个。可见基本词

汇相同率较高，一般词汇相同率较低。

1.4概率法

借词和同源词向来是比较难区分的。陈保亚在《论语言接触与语言联盟》

(1996)中试图用概率的方法解决这个问题。陈保亚认为，语音对应规律不能作

为确定同源关系的充分条件，这是因为语音对应规律本身不能说明最早时间层

次的关系词是同源词还是借词。但语音对应规律的另一个重要作用是排除偶然

相似。当两种语言的一系列词在语音上有对应时，很难用偶然巧合加以解释。

于是，他根据声母、韵母和声调的对应规则，用卡方分布和泊松分布，计算出

某词在两地属于同源词的概率。陈保亚采用M.Swadesh1952年从印欧语言中挑

选出的人类语言中最稳定的200个词和1955年从这200个核心词中筛选出的

100个更稳定的核心词作为分析材料，并把100个最稳定的核心词称为第一阶

词，把第二个100词称为第二阶词。通过概率计算，陈得出结论：侗台语和南

岛语的关系词第100词高于第200词，应当承认侗台语和南岛语有同源关系。

这种计量法将词汇和语音的因素结合在一起考虑，从音类的必然变化和音

素的偶然变化入手，运用概率将这两种变化区分开，将同源词在语音上的变化

归为音类的必

显示全部

相似文档