1 / 17

雙語對應語料庫及其研製

雙語對應語料庫及其研製. Yen-Hsi Lin. 語料庫語言學. 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域. 語料庫. 單語:BNC、CBECobuild、Brown、TEC 雙語/多語 Parallel corpora:ENPC

lajos
Download Presentation

雙語對應語料庫及其研製

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 雙語對應語料庫及其研製 Yen-Hsi Lin

  2. 語料庫語言學 • 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。 • 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域

  3. 語料庫 • 單語:BNC、CBECobuild、Brown、TEC • 雙語/多語 • Parallel corpora:ENPC • I'm Huang Baile. I'm 36 years old and I've represented Taiwan in international rock climbing competitions for over ten years. • 我,黃百樂,今年36歲,身為中華民國職業攀岩國手已經超過10年

  4. 語料庫 • 雙語/多語 • Comparable corpora:IEC • 民視新聞英文 • Translational corpora:TEC

  5. 翻譯理論 語言對比 • Parallel corpora:同一內容如何用兩種語言表達的(有翻譯腔) • 對MT、CAT較有用 • EBMT、TM、CLIR • Comparable corpora:不同語言的母語文本,缺少翻譯研究方面的優勢 • 慎選翻譯方向

  6. 單語語料庫 • 專業領域的理解 • 術語的準確選用 • 習慣表達

  7. chap 2 國內外雙語語料庫現狀 • Early 60's:LOB、BROWN • Early 90's:英文和歐洲其他各語言 • Later :擴展到英文及歐洲之外一些語言 • Now :幾乎覆蓋所有主要語言 • 中文 • The Babel English-Chinese Parallel Corpus * • Wu HKUST中英對應語料庫 • Gao Sinorama 中英對應語料庫

  8. chap 2 建立語料庫注意事項 • 翻譯質量 • 平衡語料庫 或 特殊語體、題材 • 取樣:全文收錄?取樣收錄?

  9. chap 3 語料標注 • 主要處理 • 中文分詞* • 文本結構*及文本來源:題目、段落、句子、作者 • 詞性標注* (ICT、CKIP) • 句子結構標注(syntactic parsing) • 語意

  10. chap 3 語料對齊 • 最常見:句對應 • 基於句子長度 • 基於詞彙對譯數目

  11. chap 3 語料庫對齊的應用 • 軟體: • Gate:Proper name detection • ParaConc: sentence alignment • MLCT:generates concordances and wordlists on Unicode font. Works • 雙語詞庫提取、辭典編寫 • 機器翻譯 • Example-based MT • 翻譯知識:提取翻譯模型、提取翻譯規則 • CLIR

  12. chap 4 翻譯轉換研究(以被動句為例) • 英 • 有施事的被動句 • 無施事的被動句 • 準被動句 • 中 • 那台電腦是上個月才買的 • 在實踐過程中學員們的水準得到了提高 • 去年又發現了一種稀有元素

  13. chap 4 翻譯文體/風格研究 • 由UMIST教授Mona Baker 發展 • 譯者情形 翻譯類型 源語 原書情況 都是翻譯風格的重要信息 • 詞類/標記比例、平均句長、敘事結構(關鍵詞語/頻率/復現模式)

  14. chap 4 辭典研編 • 辭典中未收錄 • 在辭典和語料庫中表達不同,或道地、或精簡 及另一種選擇 • 對應的詞語、短語、句子、都可找到更多對應

  15. chap 5 通用漢英對應語料庫 • 中國外語教育研究中心(王克非) • 通用漢英雙語對應語料庫 • 翻譯文本庫 • 百科語料庫 • 對譯語料庫 • 語料加工 • 雙語對應->篇章級對齊->段級對齊->句級對齊->標記 • 語料校對

  16. chap 6 漢日對應語料庫 • 中日對譯語料庫(北京外國語大學) • 收入2013萬餘字 • 語料:對譯小說文本 詩歌 散文 傳記 .etc • 各作分詞 詞性標注 • 中:北京大學 slex ;日:chasen • 建立專名辭典 • 結合人工校對提升準確率 • 具備字串檢索、句型檢索、RE檢索等適應各種語言研究和翻譯研究要求的檢索。

  17. THANK YOU

More Related