Ch3 語料庫:語言智識ê另外一種表達形式.ppt
文本预览下载声明
計算語言學概論 Ch3 語料庫:語言智識ê另外一種表達形式 楊允言 3.1 語料庫研究概況 Khng語言材料ê倉庫 語料庫khng ê是ti語言實際使用中真正出現過ê語言材料 語料庫是khng ti電腦內底ê語言智識ê基礎資源 真實語料愛經過分析、加工、處理,chiah會tàng chian做有路用ê基礎資源 3.1 語料庫研究概況-2 中研院平衡語料庫 企業(Na)競爭(VA)的(DE)遊戲(Na)規則(Na),都(D)已(D)因(Cbb)他們(Nh)... London-Lund英語口語語料庫 ^aren’t you. going to sit d/own# - / ^quite a nice . room to !s\it in (actually))# / 語料庫內底ê語言材料是真實ê書面語iah是口語,並且ti這個基礎頂面,做語言學ê加工kah分析 3.1 語料庫研究概況-3 語料庫分類 書面語 vs 口語 單語 vs 雙語 vs 多語 為著無kang ê應用目標,做無kang層次ê加工 3.1 語料庫研究概況-4 語料庫ê應用 編辭典 Lexicography (專家 vs 語料) 語言學研究 歷時 (台語ti無kang時代ê差異) 共時 (kang時陣 ê華語(台灣、中國、新加坡、香港、…) / 英語(美國、英國、澳洲、…) 語言教學 文學/社會學研究 … 3.1 語料庫研究概況-5 語料庫發展簡史 Chomsky反對語料庫研究 自然語言本身會tàng產生無限ê話句,語料庫koh-khah大,ma kan-na是一小部分 真實語料一般無包括錯誤ê話句,ma無包含無禮貌ê話句 研究者個人ê語言直覺ti語言研究中ê重要性 3.1 語料庫研究概況-6 第一代:1970年代~1980年代 Brown Corpus 美國Brown大學ti 60年代初期,建立世界第一個根據系統性原則採集樣本ê標準語料庫,規模是100萬word tokens,代表當時ê美國英語。 70年代,利用規則方法建立詞性標記系統TAGGIT,正確率大約77% 3.1 語料庫研究概況-7 第一代:1970年代~1980年代 LOB Corpus 70年代初期,英國Lancaster大學語言學家Leech提議,Norway Oslo大學主持,最後khng ti Norway Bergen大學Norway人文科學計算中心 80年代Leech領導ê UCREL (Univ. Centre for Corpus Research on Language)研究小組替LOB設計133個標記,用統計方法開發CLAWS詞性標記系統,正確率有96% 3.1 語料庫研究概況-8 第一代:1970年代~1980年代 London-Lund Corpus (LLC) 60年代初期,錄2000點鐘 ê講話kah廣播語料,整理做書面資料 後來瑞典 Lund 大學ka轉做電子檔案,1975年建立 London-Lund 英語口語語料庫 以上三個語料庫lóng khng ti Norway Bergen大學 ICAME (International Computer Archive of Modern English) ê資料庫內底 3.1 語料庫研究概況-9 第二代:1980年代~1990年代 COBUILD語料庫 第一個為著編辭典建立ê語料庫。 英國Birmingham大學kah Collins出版社合作,規模是2,000萬詞 1987年出版英語辭典,詞條ê選擇、用法說明、解說、例句lóng 根據語料庫 3.1 語料庫研究概況-10 第二代:1980年代~1990年代 Longman語料庫 80年代開始建立,包括(1) Longman/Lancaster英語語料庫 (2) Longman口語語料庫 (3) Longman英語學習語料庫 目標:編英語學習辭典,服務學習英語ê外國人 規模:5,000萬詞 第二代ùi純學術研究行向編辭典ê應用,而且商業上得著成功 3.1 語料庫研究概況-11 第三代:1990年代~ ACL/DCI 語料庫 美國計算語言學會(ACL)提議發起 收集範圍包括Wall Street Journal、 Collins英語辭典、Brown Corpus、Upenn tree bank、部分雙語/多語文本 包括tagged corpus kah untagged corpus(raw corpus) 採用SGML(Structured Generalized Markup Language),Tagging遵照 TEI (Text Encoding Initiative) 標準 3.1 語料庫研究概況-12 第三代:1990年代~ UPenn Tree B
显示全部