文档详情

Ch3 語料庫：語言智識ê另外一種表達形式.ppt

发布：2016-06-03约5.66千字共31页下载文档

文本预览下载声明

計算語言學概論 Ch3 語料庫：語言智識ê另外一種表達形式楊允言 3.1 語料庫研究概況 Khng語言材料ê倉庫語料庫khng ê是ti語言實際使用中真正出現過ê語言材料語料庫是khng ti電腦內底ê語言智識ê基礎資源真實語料愛經過分析、加工、處理，chiah會tàng chian做有路用ê基礎資源 3.1 語料庫研究概況-2 中研院平衡語料庫企業(Na)競爭(VA)的(DE)遊戲(Na)規則(Na)，都(D)已(D)因(Cbb)他們(Nh)... London-Lund英語口語語料庫 ^aren’t you. going to sit d/own# - / ^quite a nice . room to !s\it in (actually))# / 語料庫內底ê語言材料是真實ê書面語iah是口語，並且ti這個基礎頂面，做語言學ê加工kah分析 3.1 語料庫研究概況-3 語料庫分類書面語 vs 口語單語 vs 雙語 vs 多語為著無kang ê應用目標，做無kang層次ê加工 3.1 語料庫研究概況-4 語料庫ê應用編辭典 Lexicography (專家 vs 語料) 語言學研究歷時 (台語ti無kang時代ê差異) 共時 (kang時陣 ê華語(台灣、中國、新加坡、香港、…) / 英語(美國、英國、澳洲、…) 語言教學文學/社會學研究 … 3.1 語料庫研究概況-5 語料庫發展簡史 Chomsky反對語料庫研究自然語言本身會tàng產生無限ê話句，語料庫koh-khah大，ma kan-na是一小部分真實語料一般無包括錯誤ê話句，ma無包含無禮貌ê話句研究者個人ê語言直覺ti語言研究中ê重要性 3.1 語料庫研究概況-6 第一代：1970年代~1980年代 Brown Corpus 美國Brown大學ti 60年代初期，建立世界第一個根據系統性原則採集樣本ê標準語料庫，規模是100萬word tokens，代表當時ê美國英語。 70年代，利用規則方法建立詞性標記系統TAGGIT，正確率大約77% 3.1 語料庫研究概況-7 第一代：1970年代~1980年代 LOB Corpus 70年代初期，英國Lancaster大學語言學家Leech提議，Norway Oslo大學主持，最後khng ti Norway Bergen大學Norway人文科學計算中心 80年代Leech領導ê UCREL (Univ. Centre for Corpus Research on Language)研究小組替LOB設計133個標記，用統計方法開發CLAWS詞性標記系統，正確率有96% 3.1 語料庫研究概況-8 第一代：1970年代~1980年代 London-Lund Corpus (LLC) 60年代初期，錄2000點鐘 ê講話kah廣播語料，整理做書面資料後來瑞典 Lund 大學ka轉做電子檔案，1975年建立 London-Lund 英語口語語料庫以上三個語料庫lóng khng ti Norway Bergen大學 ICAME (International Computer Archive of Modern English) ê資料庫內底 3.1 語料庫研究概況-9 第二代：1980年代~1990年代 COBUILD語料庫第一個為著編辭典建立ê語料庫。英國Birmingham大學kah Collins出版社合作，規模是2,000萬詞 1987年出版英語辭典，詞條ê選擇、用法說明、解說、例句lóng 根據語料庫 3.1 語料庫研究概況-10 第二代：1980年代~1990年代 Longman語料庫 80年代開始建立，包括(1) Longman/Lancaster英語語料庫 (2) Longman口語語料庫 (3) Longman英語學習語料庫目標：編英語學習辭典，服務學習英語ê外國人規模：5,000萬詞第二代ùi純學術研究行向編辭典ê應用，而且商業上得著成功 3.1 語料庫研究概況-11 第三代：1990年代~ ACL/DCI 語料庫美國計算語言學會(ACL)提議發起收集範圍包括Wall Street Journal、 Collins英語辭典、Brown Corpus、Upenn tree bank、部分雙語/多語文本包括tagged corpus kah untagged corpus(raw corpus) 採用SGML(Structured Generalized Markup Language)，Tagging遵照 TEI (Text Encoding Initiative) 標準 3.1 語料庫研究概況-12 第三代：1990年代~ UPenn Tree B

显示全部

相似文档