以中文十亿词语料库为基础之兩岸词汇对比研究.PDF
文本预览下载声明
Computational Linguistics and Chinese Language Processing
Vol. 18, No. 2, June 2013, pp. 19-34 19
© The Association for Computational Linguistics and Chinese Language Processing
以中文十億詞語料庫為基礎之兩岸詞彙對比研究
Cross-Strait Lexical Differences: A Comparative Study
based on Chinese Gigaword Corpus
∗ +
洪嘉馡 、黃居仁
Jia-Fei Hong and Chu-Ren Huang
摘要
近幾年來,由於兩岸交流頻繁,兩岸使用的詞彙,也因此互相影響甚重,語言
學界對於漢語詞彙的研究,不論在語音、語義或語用上的探討,發現兩岸對使
用相同漢語時的詞彙差異有著微妙性的區別。而兩岸卻又的確是使用漢字體系
的書寫系統,只有字形上有可預測的規律性對應。本文在以兩岸皆使用中文文
字的原則上,在繁體中文與簡體中文的使用狀況來比對兩岸使用詞彙的特性與
現象,以探究與語義對應與演變等相關的議題。
首先,在 Hong 和 Huang (2006) 的對應上,藉以英文 WordNet 為比對標準,
藉由比較北京大學的中文概念辭典(Chinese Concept Dictionary (CCD))與中央
研究院語言所的中文詞網(Chinese Wordnet (CWN))兩個 WordNet 中文版所使
用的詞彙,探討兩岸對於相同概念詞彙的使用狀況。本文進一步使用中文概念
辭典與中文詞網所使用的詞彙,在 Gigaword Corpus 中繁體語料與簡體語料的
相對使用率,探究兩岸對於使用相同詞彙,或使用不同詞彙的現象與分佈情
形,並以 Google 網頁中所搜尋到的繁體資料與簡體資料進行比對、驗證。
關鍵詞:CCD, CWN, WordNet, Gigaword Corpus, Google, 兩岸詞彙, 詞義, 概
念
∗ 國立臺灣師範大學 National Taiwan Normal University
E-mail: jiafeihong@
+ 香港理工大學 The Hong Kong Polytechnic University
E-mail: churenhuang@
20 洪嘉馡、黃居仁
Abstract
Studies of cross-strait lexical differences in the use of Mandarin Chinese reveal that
a divergence has become increasingly evident. This divergence is apparent in
phonological, semantic, and pragmatic analyses and has become an obstacle to
knowledge-sharing and information exchange. Given the wide range of divergences,
it seems
显示全部