Statistical Phrased-Based Translation

Statistical Phrased-Based Translation GVHD: PGS. TS. ĐinhĐiền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng

Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3

Độnglực • Dịchtheongữlàcáchtốtnhấtđểthựchiệndịchmáythốngkê • Độthựcthitốtnhấttrongcácđánhgiá DARPA gầnđây • Kháđơngiản • Đãcócáccôngcụmiễnphí • Xâydựngmộtbảngdịchngữnhưthếnào?

Mụctiêu • So sánhcáccáchtiếpcậnhọcngữkhácnhau • Xemxétcáctínhchấtcủadịchtheongữ • Cúphápvàcácngữ

Tổngquan • Đánhgiá framework • Môhìnhchung • Bộgiảimã • Ngữliệu • Ba phươngpháphọcngữ • Cácngữsinhtừliênkếttừ (word-alignment induced phrases) • Cácngữcúpháp (syntactic phrases) • Liênkếtngữ (phrase alignment) • Thínghiệm

Môhình S NP VP NP Adj Noun Verb Adj Noun Old men love classical music S NP VP NP Noun Adj Verb Noun Adj Nhữngngườiđànông già thích nhạc cổđiển

Môhình (2) Morgen fliege ich nachKanada ZurKonferenz in Canada will fly Tomorrow I to the conference

Môhình(3) natuerlich hat john spass am spiel fun with the has of course john game

Môhình(3) • Luật Bayes: • Câungoạingữf đượcphânđoạnthành ngữ • Mỗingữđượcdịchvới • Cácngữđượcsắpxếplạivới • Dùngmôhìnhngônngữvà word penalty

Bộgiảimã: Tìmkiếm Beam • Xâydựngtiếnganhbằngviệcmởrộnggiảthuyết • Từtrái sang phải • Khônggiantìmkiếmtheosốmũvớichiềudàicâu • giảmbớtbằngcáchlượcbỏgiảthuyếtyếunhờướclượng chi phítươnglai

Bộgiảimã: TìmkiếmBeam (2) e: … did • f: *--------- p: .122 e: Mary • f: *--------- p: .534 e: … slap • f: *-***----- p: .043 e: • f: ---------- p: 1 e: witch • f: --------*- p: .182

ĐánhgiátrênngữliệuEuroparl • Thu thậptừCácVụKiệnNghịSĩChâuÂu • Cósẵntrênhttp://www.isi.edu/~koehn/ • 11 ngônngữ, 20 triệutừmỗingônngữ • Tậpkiểmnghiệm • Đức-Anh • 1755 câucóchiềudài 5-15

Cácphươngpháphọcngữ • Cácngữcảmsinhliênkếttừ • Tươngtựvớicácmẫuliênkết[Och et al., 1999] • Cácngữcúpháp • Chỉcácngữcúphápđượchọc • Cùnghạnchếvớicácmôhìnhchuyểnđổicúphápđượcđềxuấtgầnđây • Liênkếtngữ • Môhìnhkết[Marcu and Wong, 2002]

Cácngữcảmsinhliênkếttừ • Liênkếttừđượcphátsinhbằngcáchdùngmôhình IBM 4 • Liênkếthaichiềuef, fe • Giaocácliênkết • Thêmcácđiểmliênkếtbổ sung với heuristic • Thu thậpcáccặpngữphùhợpvớiliênkếttừ • Đâylàmẫuliênkếtmàkhôngcầncáclớptừ[Och et al., 1999]

Cácngữcảmsinhliênkếttừ (2) • (Maria, Mary), (no, did not), (slap, dabaunabofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no dabaunabofetada, did not slap), (dabaunabofetada a la, slap the), (brujaverde, green witch)

Cácngữcảmsinhliênkếttừ (3) • (Maria no dabaunabofetada, Mary did not slap), (no dabaunabofetada a la, did not slap the), (a la brujaverde, the green witch), (Maria no dabaunabofetada a la, Mary did not slap the),

Cácngữcảmsinhliênkếttừ (4) • (dabaunabofetada a la brujaverde, slap the green witch), (no dabaunabofetada a la brujaverde, did not slap the green witch), (Maria no dabaunabofetada a la brujaverde, Mary did not slap the green witch)

Cácngữcúpháp • Cácngữcúphápnốivớitoànbộthànhphầntrongcâyphântích • Độnglực • Chỉnhữngngữnàyđượcdùngcácmôhìnhchuyểnđổicúpháp • Vd: [Yamada and Knight, 2002] • Cúpháplợihay hại? • Tríchcáccặpngữcúpháp • Phântíchcảhaiphía (vớicácbộphântíchthốngkê) • Sửdụngliênkếttừnhưtrước • Giớihạncácngữtớicácthànhphầncúpháptrongcâyphântích

Liênkếtngữ • Liênkếtngữtrựctiếptừngữliệu song song[Marcu and Wong, 2002] • Generative Story • Mộtsốkháiniệmđượctạora • Mỗikháiniệmphátsinhmộtcặpngữtiếnganhvàngoạingữ

Liênkếtngữ (2) Morgen fliege ich nachKanada ZurKonferenz 1 2 3 4 5 Tomorrow I will fly to the conference in Canada

Thínghiệm • So sánhcácphươngphápchính • Chiềudàingữtốiđa • Trọngsốtừvựng • Các heuristic tríchxuấtngữ • Cácmôhìnhliênkếttừđơngiảnhơn • Cáccặpngônngữkhác

So sánhcácphươngphápchính • Cùngbộgiảimã, cùngdữliệuhuấnluyện, cùngmôhìnhngônngữ • Ngoạitrừmôhình IBM 4 sửdụngbộgiảimãtham lam [Germann et al., 2001]

So sánhcácphươngphápchính (2) • WAIPhtốtnhấtvàcácngữcúpháprấttệ • CácthínghiệmtiếptheochỉtrênWAIPh

Chiềudàingữtốiđa • Giớihạntốiđachochiềudàingữ • Giớihạncàngcao bảngdịchngữcànglớn • Tấtcảcácbảngvẫncònphùhợpvớibộnhớcủacácmáyhiệnđại

Chiềudàingữtốiđa (2) • Tácđộngcủagiớihạnlênchấtlượngdịch • Cảithiệnkhôngquánhiềunếuchiềudàitốiđavượtquá 3 • Độclậpvớikíchthướcngữliệuhuấnluyện

Trọngsốtừvựng • Tăng xácsuấtdịchngữvớidịchtừvựng • Trọngsốtừvựng

Trọngsốtừvựng • Tăngchấtlượngdịch

Cáccặpngônngữkhác • Tìmảnhhưởngchocáccặpngônngữkhác, ngữliệukhác • Dịchngữtốthơnmôhình IBM 4 • Cósựtrợgiúptừvựng (+ khoảng 0.01 BLUE)

Kếtluận • Dịchtheongữtốthơndịchtheotừ • Giớihạnngữcúphápcóhạirấtnhiều • Cácngữnhỏ (tăngtới 3 từ) đủtốt • Trọngsốtừvựnghữudụng

Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với 2 heuristic : • Word penalty : cho phép điều chỉnh chiều dài câu được dịch. • Phrase penalty : cho phép điều chỉnh chiều dài trung bình của những phrases được sử dụng trong quá trình dịch của mô hình dịch.

Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với Word-based Lexicon : • Mục đích : Làm mượt xác suất dịch ngữ. • Mô tả : • Từ f của ngôn ngữ nguồn dịch thành ngữ trong ngôn ngữ đích. • Ta có phép xấp xỉ sau :

Cải tiến Pharse-based SMT • Monotone Search : • Q(j,e) : Xác suất lớn nhất của một ngữ kết thúc với từ e và kéo dài từ vị trí 1 đến j của câu nguồn. • Q(J + 1, $) : Xác suất của phép dịch tối ưu $ : là ký hiệu đánh dấu ranh giới câu • M : Chiều dài tối đa của ngữ trong ngôn ngữ nguồn • Ta có phép đệ quy :

Cải tiến Pharse-based SMT • Monotone Search : • Hiệu quả tính toán cao, độ phức tạp tuyến tính với chiều dài câu • Đặc biệt rất hiệu quả khi dùng với những ngôn ngữ có thứ tự từ tương tự nhau. • Ngược lại độ chính xác không tốt đối với trường hợp phải sắp xếp lại vị trí ngữ sau khi dịch.

Công cụ hỗ trợ Phrase-based SMT • Moses • GIZA++ • SRILM • IRSTLM

GIZA++ Aligned words GIZA++ Parallelcorpus sequences of words

SRILM, IRSTLM Training corpus ngram-count count file step1 Lexicon • ngram-count LM step2 Test data ngram ppl step3

Định dạng ARPA (SRILM, IRSTLM)

Huấn luyện LM n-grams f*(w | x y) và xác suất của n-gram xyw tùy thuộc vào xy và yw p(w | x y) = f*(w | x y) + (x y)p(w | y)

Smoothing • Witten Bell: • Absolute discounting: • Kneser-Ney: • , ,

Huấn luyện LM (Bước 1)

Demo

Cảmơn anh chị đã lắngnghe

Statistical Phrased-Based Translation