1 / 48

Statistical Phrased-Based Translation

Statistical Phrased-Based Translation. GVHD : PGS. TS. Đinh Điền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng. Mục lục. Phrase-based SMT. 1. Improve Phrase-based SMT. 2. Tools & Demo. 3. Động lực. Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê

Download Presentation

Statistical Phrased-Based Translation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistical Phrased-Based Translation GVHD: PGS. TS. ĐinhĐiền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng

  2. Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

  3. Độnglực • Dịchtheongữlàcáchtốtnhấtđểthựchiệndịchmáythốngkê • Độthựcthitốtnhấttrongcácđánhgiá DARPA gầnđây • Kháđơngiản • Đãcócáccôngcụmiễnphí • Xâydựngmộtbảngdịchngữnhưthếnào?

  4. Mụctiêu • So sánhcáccáchtiếpcậnhọcngữkhácnhau • Xemxétcáctínhchấtcủadịchtheongữ • Cúphápvàcácngữ

  5. Tổngquan • Đánhgiá framework • Môhìnhchung • Bộgiảimã • Ngữliệu • Ba phươngpháphọcngữ • Cácngữsinhtừliênkếttừ (word-alignment induced phrases) • Cácngữcúpháp (syntactic phrases) • Liênkếtngữ (phrase alignment) • Thínghiệm

  6. Môhình S NP VP NP Adj Noun Verb Adj Noun Old men love classical music S NP VP NP Noun Adj Verb Noun Adj Nhữngngườiđànông già thích nhạc cổđiển

  7. Môhình (2) Morgen fliege ich nachKanada ZurKonferenz in Canada will fly Tomorrow I to the conference

  8. Môhình(3) natuerlich hat john spass am spiel fun with the has of course john game

  9. Môhình(3) • Luật Bayes: • Câungoạingữf đượcphânđoạnthành ngữ • Mỗingữđượcdịchvới • Cácngữđượcsắpxếplạivới • Dùngmôhìnhngônngữvà word penalty

  10. Bộgiảimã: Tìmkiếm Beam • Xâydựngtiếnganhbằngviệcmởrộnggiảthuyết • Từtrái sang phải • Khônggiantìmkiếmtheosốmũvớichiềudàicâu • giảmbớtbằngcáchlượcbỏgiảthuyếtyếunhờướclượng chi phítươnglai

  11. Bộgiảimã: TìmkiếmBeam (2) e: … did • f: *--------- p: .122 e: Mary • f: *--------- p: .534 e: … slap • f: *-***----- p: .043 e: • f: ---------- p: 1 e: witch • f: --------*- p: .182

  12. ĐánhgiátrênngữliệuEuroparl • Thu thậptừCácVụKiệnNghịSĩChâuÂu • Cósẵntrênhttp://www.isi.edu/~koehn/ • 11 ngônngữ, 20 triệutừmỗingônngữ • Tậpkiểmnghiệm • Đức-Anh • 1755 câucóchiềudài 5-15

  13. Cácphươngpháphọcngữ • Cácngữcảmsinhliênkếttừ • Tươngtựvớicácmẫuliênkết[Och et al., 1999] • Cácngữcúpháp • Chỉcácngữcúphápđượchọc • Cùnghạnchếvớicácmôhìnhchuyểnđổicúphápđượcđềxuấtgầnđây • Liênkếtngữ • Môhìnhkết[Marcu and Wong, 2002]

  14. Cácngữcảmsinhliênkếttừ • Liênkếttừđượcphátsinhbằngcáchdùngmôhình IBM 4 • Liênkếthaichiềuef, fe • Giaocácliênkết • Thêmcácđiểmliênkếtbổ sung với heuristic • Thu thậpcáccặpngữphùhợpvớiliênkếttừ • Đâylàmẫuliênkếtmàkhôngcầncáclớptừ[Och et al., 1999]

  15. Cácngữcảmsinhliênkếttừ (2) • (Maria, Mary), (no, did not), (slap, dabaunabofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no dabaunabofetada, did not slap), (dabaunabofetada a la, slap the), (brujaverde, green witch)

  16. Cácngữcảmsinhliênkếttừ (3) • (Maria no dabaunabofetada, Mary did not slap), (no dabaunabofetada a la, did not slap the), (a la brujaverde, the green witch), (Maria no dabaunabofetada a la, Mary did not slap the),

  17. Cácngữcảmsinhliênkếttừ (4) • (dabaunabofetada a la brujaverde, slap the green witch), (no dabaunabofetada a la brujaverde, did not slap the green witch), (Maria no dabaunabofetada a la brujaverde, Mary did not slap the green witch)

  18. Cácngữcúpháp • Cácngữcúphápnốivớitoànbộthànhphầntrongcâyphântích • Độnglực • Chỉnhữngngữnàyđượcdùngcácmôhìnhchuyểnđổicúpháp • Vd: [Yamada and Knight, 2002] • Cúpháplợihay hại? • Tríchcáccặpngữcúpháp • Phântíchcảhaiphía (vớicácbộphântíchthốngkê) • Sửdụngliênkếttừnhưtrước • Giớihạncácngữtớicácthànhphầncúpháptrongcâyphântích

  19. Liênkếtngữ • Liênkếtngữtrựctiếptừngữliệu song song[Marcu and Wong, 2002] • Generative Story • Mộtsốkháiniệmđượctạora • Mỗikháiniệmphátsinhmộtcặpngữtiếnganhvàngoạingữ

  20. Liênkếtngữ (2) Morgen fliege ich nachKanada ZurKonferenz 1 2 3 4 5 Tomorrow I will fly to the conference in Canada

  21. Thínghiệm • So sánhcácphươngphápchính • Chiềudàingữtốiđa • Trọngsốtừvựng • Các heuristic tríchxuấtngữ • Cácmôhìnhliênkếttừđơngiảnhơn • Cáccặpngônngữkhác

  22. So sánhcácphươngphápchính • Cùngbộgiảimã, cùngdữliệuhuấnluyện, cùngmôhìnhngônngữ • Ngoạitrừmôhình IBM 4 sửdụngbộgiảimãtham lam [Germann et al., 2001]

  23. So sánhcácphươngphápchính (2) • WAIPhtốtnhấtvàcácngữcúpháprấttệ • CácthínghiệmtiếptheochỉtrênWAIPh

  24. Chiềudàingữtốiđa • Giớihạntốiđachochiềudàingữ • Giớihạncàngcao bảngdịchngữcànglớn • Tấtcảcácbảngvẫncònphùhợpvớibộnhớcủacácmáyhiệnđại

  25. Chiềudàingữtốiđa (2) • Tácđộngcủagiớihạnlênchấtlượngdịch • Cảithiệnkhôngquánhiềunếuchiềudàitốiđavượtquá 3 • Độclậpvớikíchthướcngữliệuhuấnluyện

  26. Trọngsốtừvựng • Tăng xácsuấtdịchngữvớidịchtừvựng • Trọngsốtừvựng

  27. Trọngsốtừvựng • Tăngchấtlượngdịch

  28. Cáccặpngônngữkhác • Tìmảnhhưởngchocáccặpngônngữkhác, ngữliệukhác • Dịchngữtốthơnmôhình IBM 4 • Cósựtrợgiúptừvựng (+ khoảng 0.01 BLUE)

  29. Kếtluận • Dịchtheongữtốthơndịchtheotừ • Giớihạnngữcúphápcóhạirấtnhiều • Cácngữnhỏ (tăngtới 3 từ) đủtốt • Trọngsốtừvựnghữudụng

  30. Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

  31. Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với 2 heuristic : • Word penalty : cho phép điều chỉnh chiều dài câu được dịch. • Phrase penalty : cho phép điều chỉnh chiều dài trung bình của những phrases được sử dụng trong quá trình dịch của mô hình dịch.

  32. Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với Word-based Lexicon : • Mục đích : Làm mượt xác suất dịch ngữ. • Mô tả : • Từ f của ngôn ngữ nguồn dịch thành ngữ trong ngôn ngữ đích. • Ta có phép xấp xỉ sau :

  33. Cải tiến Pharse-based SMT • Monotone Search : • Q(j,e) : Xác suất lớn nhất của một ngữ kết thúc với từ e và kéo dài từ vị trí 1 đến j của câu nguồn. • Q(J + 1, $) : Xác suất của phép dịch tối ưu $ : là ký hiệu đánh dấu ranh giới câu • M : Chiều dài tối đa của ngữ trong ngôn ngữ nguồn • Ta có phép đệ quy :

  34. Cải tiến Pharse-based SMT • Monotone Search : • Hiệu quả tính toán cao, độ phức tạp tuyến tính với chiều dài câu • Đặc biệt rất hiệu quả khi dùng với những ngôn ngữ có thứ tự từ tương tự nhau. • Ngược lại độ chính xác không tốt đối với trường hợp phải sắp xếp lại vị trí ngữ sau khi dịch.

  35. Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

  36. Công cụ hỗ trợ Phrase-based SMT • Moses • GIZA++ • SRILM • IRSTLM

  37. GIZA++ Aligned words GIZA++ Parallelcorpus sequences of words

  38. SRILM, IRSTLM Training corpus ngram-count count file step1 Lexicon • ngram-count LM step2 Test data ngram ppl step3

  39. Định dạng ARPA (SRILM, IRSTLM)

  40. Huấn luyện LM n-grams f*(w | x y) và xác suất của n-gram xyw tùy thuộc vào xy và yw p(w | x y) = f*(w | x y) + (x y)p(w | y)

  41. Smoothing • Witten Bell: • Absolute discounting: • Kneser-Ney: • , ,

  42. Huấn luyện LM (Bước 1)

  43. Huấn luyện LM (Bước 2)

  44. Huấn luyện LM (Bước 3)

  45. Huấn luyện LM (Bước 4)

  46. Huấn luyện LM (Bước 5)

  47. Demo

  48. Cảmơn anh chị đã lắngnghe

More Related