文档详情

以中文十亿词语料库为基础之兩岸词汇对比研究.PDF

发布:2018-10-08约2.36万字共16页下载文档
文本预览下载声明
Computational Linguistics and Chinese Language Processing Vol. 18, No. 2, June 2013, pp. 19-34 19 © The Association for Computational Linguistics and Chinese Language Processing 以中文十億詞語料庫為基礎之兩岸詞彙對比研究 Cross-Strait Lexical Differences: A Comparative Study based on Chinese Gigaword Corpus ∗ + 洪嘉馡 、黃居仁 Jia-Fei Hong and Chu-Ren Huang 摘要 近幾年來,由於兩岸交流頻繁,兩岸使用的詞彙,也因此互相影響甚重,語言 學界對於漢語詞彙的研究,不論在語音、語義或語用上的探討,發現兩岸對使 用相同漢語時的詞彙差異有著微妙性的區別。而兩岸卻又的確是使用漢字體系 的書寫系統,只有字形上有可預測的規律性對應。本文在以兩岸皆使用中文文 字的原則上,在繁體中文與簡體中文的使用狀況來比對兩岸使用詞彙的特性與 現象,以探究與語義對應與演變等相關的議題。 首先,在 Hong 和 Huang (2006) 的對應上,藉以英文 WordNet 為比對標準, 藉由比較北京大學的中文概念辭典(Chinese Concept Dictionary (CCD))與中央 研究院語言所的中文詞網(Chinese Wordnet (CWN))兩個 WordNet 中文版所使 用的詞彙,探討兩岸對於相同概念詞彙的使用狀況。本文進一步使用中文概念 辭典與中文詞網所使用的詞彙,在 Gigaword Corpus 中繁體語料與簡體語料的 相對使用率,探究兩岸對於使用相同詞彙,或使用不同詞彙的現象與分佈情 形,並以 Google 網頁中所搜尋到的繁體資料與簡體資料進行比對、驗證。 關鍵詞:CCD, CWN, WordNet, Gigaword Corpus, Google, 兩岸詞彙, 詞義, 概 念                                                         ∗ 國立臺灣師範大學 National Taiwan Normal University E-mail: jiafeihong@ + 香港理工大學 The Hong Kong Polytechnic University E-mail: churenhuang@ 20 洪嘉馡、黃居仁 Abstract Studies of cross-strait lexical differences in the use of Mandarin Chinese reveal that a divergence has become increasingly evident. This divergence is apparent in phonological, semantic, and pragmatic analyses and has become an obstacle to knowledge-sharing and information exchange. Given the wide range of divergences, it seems
显示全部
相似文档