180 likes | 343 Views
雙語對應語料庫及其研製. Yen-Hsi Lin. 語料庫語言學. 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域. 語料庫. 單語:BNC、CBECobuild、Brown、TEC 雙語/多語 Parallel corpora:ENPC
E N D
雙語對應語料庫及其研製 Yen-Hsi Lin
語料庫語言學 • 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。 • 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域
語料庫 • 單語:BNC、CBECobuild、Brown、TEC • 雙語/多語 • Parallel corpora:ENPC • I'm Huang Baile. I'm 36 years old and I've represented Taiwan in international rock climbing competitions for over ten years. • 我,黃百樂,今年36歲,身為中華民國職業攀岩國手已經超過10年
語料庫 • 雙語/多語 • Comparable corpora:IEC • 民視新聞英文 • Translational corpora:TEC
翻譯理論 語言對比 • Parallel corpora:同一內容如何用兩種語言表達的(有翻譯腔) • 對MT、CAT較有用 • EBMT、TM、CLIR • Comparable corpora:不同語言的母語文本,缺少翻譯研究方面的優勢 • 慎選翻譯方向
單語語料庫 • 專業領域的理解 • 術語的準確選用 • 習慣表達
chap 2 國內外雙語語料庫現狀 • Early 60's:LOB、BROWN • Early 90's:英文和歐洲其他各語言 • Later :擴展到英文及歐洲之外一些語言 • Now :幾乎覆蓋所有主要語言 • 中文 • The Babel English-Chinese Parallel Corpus * • Wu HKUST中英對應語料庫 • Gao Sinorama 中英對應語料庫
chap 2 建立語料庫注意事項 • 翻譯質量 • 平衡語料庫 或 特殊語體、題材 • 取樣:全文收錄?取樣收錄?
chap 3 語料標注 • 主要處理 • 中文分詞* • 文本結構*及文本來源:題目、段落、句子、作者 • 詞性標注* (ICT、CKIP) • 句子結構標注(syntactic parsing) • 語意
chap 3 語料對齊 • 最常見:句對應 • 基於句子長度 • 基於詞彙對譯數目
chap 3 語料庫對齊的應用 • 軟體: • Gate:Proper name detection • ParaConc: sentence alignment • MLCT:generates concordances and wordlists on Unicode font. Works • 雙語詞庫提取、辭典編寫 • 機器翻譯 • Example-based MT • 翻譯知識:提取翻譯模型、提取翻譯規則 • CLIR
chap 4 翻譯轉換研究(以被動句為例) • 英 • 有施事的被動句 • 無施事的被動句 • 準被動句 • 中 • 那台電腦是上個月才買的 • 在實踐過程中學員們的水準得到了提高 • 去年又發現了一種稀有元素
chap 4 翻譯文體/風格研究 • 由UMIST教授Mona Baker 發展 • 譯者情形 翻譯類型 源語 原書情況 都是翻譯風格的重要信息 • 詞類/標記比例、平均句長、敘事結構(關鍵詞語/頻率/復現模式)
chap 4 辭典研編 • 辭典中未收錄 • 在辭典和語料庫中表達不同,或道地、或精簡 及另一種選擇 • 對應的詞語、短語、句子、都可找到更多對應
chap 5 通用漢英對應語料庫 • 中國外語教育研究中心(王克非) • 通用漢英雙語對應語料庫 • 翻譯文本庫 • 百科語料庫 • 對譯語料庫 • 語料加工 • 雙語對應->篇章級對齊->段級對齊->句級對齊->標記 • 語料校對
chap 6 漢日對應語料庫 • 中日對譯語料庫(北京外國語大學) • 收入2013萬餘字 • 語料:對譯小說文本 詩歌 散文 傳記 .etc • 各作分詞 詞性標注 • 中:北京大學 slex ;日:chasen • 建立專名辭典 • 結合人工校對提升準確率 • 具備字串檢索、句型檢索、RE檢索等適應各種語言研究和翻譯研究要求的檢索。