slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
雙語對應語料庫及其研製 PowerPoint Presentation
Download Presentation
雙語對應語料庫及其研製

Loading in 2 Seconds...

play fullscreen
1 / 17

雙語對應語料庫及其研製 - PowerPoint PPT Presentation


  • 138 Views
  • Uploaded on

雙語對應語料庫及其研製. Yen-Hsi Lin. 語料庫語言學. 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域. 語料庫. 單語:BNC、CBECobuild、Brown、TEC 雙語/多語 Parallel corpora:ENPC

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '雙語對應語料庫及其研製' - lajos


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2
語料庫語言學
  • 計算機儲存大量真實語料,作各種帶有研究目的的加工標注。利用工具對標注語料進行快捷的搜尋及分類,以發現並分析以往未能注意的語言現象。
  • 有助於辭典研編、翻譯、語言教學、文體、語言對比、計算語言學等研究領域
slide3
語料庫
  • 單語:BNC、CBECobuild、Brown、TEC
  • 雙語/多語
    • Parallel corpora:ENPC
      • I'm Huang Baile. I'm 36 years old and I've represented Taiwan in international rock climbing competitions for over ten years.
      • 我,黃百樂,今年36歲,身為中華民國職業攀岩國手已經超過10年
slide4
語料庫
  • 雙語/多語
    • Comparable corpora:IEC
      • 民視新聞英文
    • Translational corpora:TEC
slide5
翻譯理論 語言對比
  • Parallel corpora:同一內容如何用兩種語言表達的(有翻譯腔)
    • 對MT、CAT較有用
    • EBMT、TM、CLIR
  • Comparable corpora:不同語言的母語文本,缺少翻譯研究方面的優勢
  • 慎選翻譯方向
slide6
單語語料庫
  • 專業領域的理解
  • 術語的準確選用
  • 習慣表達
slide7
chap 2國內外雙語語料庫現狀
  • Early 60's:LOB、BROWN
  • Early 90's:英文和歐洲其他各語言
  • Later :擴展到英文及歐洲之外一些語言
  • Now :幾乎覆蓋所有主要語言
  • 中文
    • The Babel English-Chinese Parallel Corpus *
    • Wu HKUST中英對應語料庫
    • Gao Sinorama 中英對應語料庫
slide8
chap 2建立語料庫注意事項
  • 翻譯質量
  • 平衡語料庫 或 特殊語體、題材
  • 取樣:全文收錄?取樣收錄?
slide9
chap 3語料標注
  • 主要處理
    • 中文分詞*
    • 文本結構*及文本來源:題目、段落、句子、作者
    • 詞性標注* (ICT、CKIP)
    • 句子結構標注(syntactic parsing)
    • 語意
slide10
chap 3語料對齊
  • 最常見:句對應
  • 基於句子長度
  • 基於詞彙對譯數目
slide11
chap 3語料庫對齊的應用
  • 軟體:
    • Gate:Proper name detection
    • ParaConc: sentence alignment
    • MLCT:generates concordances and wordlists on Unicode font. Works
  • 雙語詞庫提取、辭典編寫
  • 機器翻譯
    • Example-based MT
    • 翻譯知識:提取翻譯模型、提取翻譯規則
  • CLIR
slide12
chap 4翻譯轉換研究(以被動句為例)
    • 有施事的被動句
    • 無施事的被動句
    • 準被動句
    • 那台電腦是上個月才買的
    • 在實踐過程中學員們的水準得到了提高
    • 去年又發現了一種稀有元素
slide13
chap 4翻譯文體/風格研究
  • 由UMIST教授Mona Baker 發展
  • 譯者情形 翻譯類型 源語 原書情況 都是翻譯風格的重要信息
  • 詞類/標記比例、平均句長、敘事結構(關鍵詞語/頻率/復現模式)
slide14
chap 4辭典研編
  • 辭典中未收錄
  • 在辭典和語料庫中表達不同,或道地、或精簡 及另一種選擇
  • 對應的詞語、短語、句子、都可找到更多對應
slide15
chap 5 通用漢英對應語料庫
  • 中國外語教育研究中心(王克非)
  • 通用漢英雙語對應語料庫
  • 翻譯文本庫
  • 百科語料庫
  • 對譯語料庫
  • 語料加工
    • 雙語對應->篇章級對齊->段級對齊->句級對齊->標記
  • 語料校對
slide16
chap 6 漢日對應語料庫
  • 中日對譯語料庫(北京外國語大學)
    • 收入2013萬餘字
  • 語料:對譯小說文本 詩歌 散文 傳記 .etc
  • 各作分詞 詞性標注
    • 中:北京大學 slex ;日:chasen
    • 建立專名辭典
    • 結合人工校對提升準確率
  • 具備字串檢索、句型檢索、RE檢索等適應各種語言研究和翻譯研究要求的檢索。