480 likes | 625 Views
Statistical Phrased-Based Translation. GVHD : PGS. TS. Đinh Điền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng. Mục lục. Phrase-based SMT. 1. Improve Phrase-based SMT. 2. Tools & Demo. 3. Động lực. Dịch theo ngữ là cách tốt nhất để thực hiện dịch máy thống kê
E N D
Statistical Phrased-Based Translation GVHD: PGS. TS. ĐinhĐiền HVTH: Lê Quốc Hưng Nguyễn Hồng Bửu Long Nguyễn Đức Hoàng
Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3
Độnglực • Dịchtheongữlàcáchtốtnhấtđểthựchiệndịchmáythốngkê • Độthựcthitốtnhấttrongcácđánhgiá DARPA gầnđây • Kháđơngiản • Đãcócáccôngcụmiễnphí • Xâydựngmộtbảngdịchngữnhưthếnào?
Mụctiêu • So sánhcáccáchtiếpcậnhọcngữkhácnhau • Xemxétcáctínhchấtcủadịchtheongữ • Cúphápvàcácngữ
Tổngquan • Đánhgiá framework • Môhìnhchung • Bộgiảimã • Ngữliệu • Ba phươngpháphọcngữ • Cácngữsinhtừliênkếttừ (word-alignment induced phrases) • Cácngữcúpháp (syntactic phrases) • Liênkếtngữ (phrase alignment) • Thínghiệm
Môhình S NP VP NP Adj Noun Verb Adj Noun Old men love classical music S NP VP NP Noun Adj Verb Noun Adj Nhữngngườiđànông già thích nhạc cổđiển
Môhình (2) Morgen fliege ich nachKanada ZurKonferenz in Canada will fly Tomorrow I to the conference
Môhình(3) natuerlich hat john spass am spiel fun with the has of course john game
Môhình(3) • Luật Bayes: • Câungoạingữf đượcphânđoạnthành ngữ • Mỗingữđượcdịchvới • Cácngữđượcsắpxếplạivới • Dùngmôhìnhngônngữvà word penalty
Bộgiảimã: Tìmkiếm Beam • Xâydựngtiếnganhbằngviệcmởrộnggiảthuyết • Từtrái sang phải • Khônggiantìmkiếmtheosốmũvớichiềudàicâu • giảmbớtbằngcáchlượcbỏgiảthuyếtyếunhờướclượng chi phítươnglai
Bộgiảimã: TìmkiếmBeam (2) e: … did • f: *--------- p: .122 e: Mary • f: *--------- p: .534 e: … slap • f: *-***----- p: .043 e: • f: ---------- p: 1 e: witch • f: --------*- p: .182
ĐánhgiátrênngữliệuEuroparl • Thu thậptừCácVụKiệnNghịSĩChâuÂu • Cósẵntrênhttp://www.isi.edu/~koehn/ • 11 ngônngữ, 20 triệutừmỗingônngữ • Tậpkiểmnghiệm • Đức-Anh • 1755 câucóchiềudài 5-15
Cácphươngpháphọcngữ • Cácngữcảmsinhliênkếttừ • Tươngtựvớicácmẫuliênkết[Och et al., 1999] • Cácngữcúpháp • Chỉcácngữcúphápđượchọc • Cùnghạnchếvớicácmôhìnhchuyểnđổicúphápđượcđềxuấtgầnđây • Liênkếtngữ • Môhìnhkết[Marcu and Wong, 2002]
Cácngữcảmsinhliênkếttừ • Liênkếttừđượcphátsinhbằngcáchdùngmôhình IBM 4 • Liênkếthaichiềuef, fe • Giaocácliênkết • Thêmcácđiểmliênkếtbổ sung với heuristic • Thu thậpcáccặpngữphùhợpvớiliênkếttừ • Đâylàmẫuliênkếtmàkhôngcầncáclớptừ[Och et al., 1999]
Cácngữcảmsinhliênkếttừ (2) • (Maria, Mary), (no, did not), (slap, dabaunabofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no dabaunabofetada, did not slap), (dabaunabofetada a la, slap the), (brujaverde, green witch)
Cácngữcảmsinhliênkếttừ (3) • (Maria no dabaunabofetada, Mary did not slap), (no dabaunabofetada a la, did not slap the), (a la brujaverde, the green witch), (Maria no dabaunabofetada a la, Mary did not slap the),
Cácngữcảmsinhliênkếttừ (4) • (dabaunabofetada a la brujaverde, slap the green witch), (no dabaunabofetada a la brujaverde, did not slap the green witch), (Maria no dabaunabofetada a la brujaverde, Mary did not slap the green witch)
Cácngữcúpháp • Cácngữcúphápnốivớitoànbộthànhphầntrongcâyphântích • Độnglực • Chỉnhữngngữnàyđượcdùngcácmôhìnhchuyểnđổicúpháp • Vd: [Yamada and Knight, 2002] • Cúpháplợihay hại? • Tríchcáccặpngữcúpháp • Phântíchcảhaiphía (vớicácbộphântíchthốngkê) • Sửdụngliênkếttừnhưtrước • Giớihạncácngữtớicácthànhphầncúpháptrongcâyphântích
Liênkếtngữ • Liênkếtngữtrựctiếptừngữliệu song song[Marcu and Wong, 2002] • Generative Story • Mộtsốkháiniệmđượctạora • Mỗikháiniệmphátsinhmộtcặpngữtiếnganhvàngoạingữ
Liênkếtngữ (2) Morgen fliege ich nachKanada ZurKonferenz 1 2 3 4 5 Tomorrow I will fly to the conference in Canada
Thínghiệm • So sánhcácphươngphápchính • Chiềudàingữtốiđa • Trọngsốtừvựng • Các heuristic tríchxuấtngữ • Cácmôhìnhliênkếttừđơngiảnhơn • Cáccặpngônngữkhác
So sánhcácphươngphápchính • Cùngbộgiảimã, cùngdữliệuhuấnluyện, cùngmôhìnhngônngữ • Ngoạitrừmôhình IBM 4 sửdụngbộgiảimãtham lam [Germann et al., 2001]
So sánhcácphươngphápchính (2) • WAIPhtốtnhấtvàcácngữcúpháprấttệ • CácthínghiệmtiếptheochỉtrênWAIPh
Chiềudàingữtốiđa • Giớihạntốiđachochiềudàingữ • Giớihạncàngcao bảngdịchngữcànglớn • Tấtcảcácbảngvẫncònphùhợpvớibộnhớcủacácmáyhiệnđại
Chiềudàingữtốiđa (2) • Tácđộngcủagiớihạnlênchấtlượngdịch • Cảithiệnkhôngquánhiềunếuchiềudàitốiđavượtquá 3 • Độclậpvớikíchthướcngữliệuhuấnluyện
Trọngsốtừvựng • Tăng xácsuấtdịchngữvớidịchtừvựng • Trọngsốtừvựng
Trọngsốtừvựng • Tăngchấtlượngdịch
Cáccặpngônngữkhác • Tìmảnhhưởngchocáccặpngônngữkhác, ngữliệukhác • Dịchngữtốthơnmôhình IBM 4 • Cósựtrợgiúptừvựng (+ khoảng 0.01 BLUE)
Kếtluận • Dịchtheongữtốthơndịchtheotừ • Giớihạnngữcúphápcóhạirấtnhiều • Cácngữnhỏ (tăngtới 3 từ) đủtốt • Trọngsốtừvựnghữudụng
Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3
Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với 2 heuristic : • Word penalty : cho phép điều chỉnh chiều dài câu được dịch. • Phrase penalty : cho phép điều chỉnh chiều dài trung bình của những phrases được sử dụng trong quá trình dịch của mô hình dịch.
Cải tiến Pharse-based SMT • Tinh chỉnh lại mô hình dịch phrase-based với Word-based Lexicon : • Mục đích : Làm mượt xác suất dịch ngữ. • Mô tả : • Từ f của ngôn ngữ nguồn dịch thành ngữ trong ngôn ngữ đích. • Ta có phép xấp xỉ sau :
Cải tiến Pharse-based SMT • Monotone Search : • Q(j,e) : Xác suất lớn nhất của một ngữ kết thúc với từ e và kéo dài từ vị trí 1 đến j của câu nguồn. • Q(J + 1, $) : Xác suất của phép dịch tối ưu $ : là ký hiệu đánh dấu ranh giới câu • M : Chiều dài tối đa của ngữ trong ngôn ngữ nguồn • Ta có phép đệ quy :
Cải tiến Pharse-based SMT • Monotone Search : • Hiệu quả tính toán cao, độ phức tạp tuyến tính với chiều dài câu • Đặc biệt rất hiệu quả khi dùng với những ngôn ngữ có thứ tự từ tương tự nhau. • Ngược lại độ chính xác không tốt đối với trường hợp phải sắp xếp lại vị trí ngữ sau khi dịch.
Mục lục Phrase-based SMT 1 Improve Phrase-based SMT 2 Tools & Demo 3
Công cụ hỗ trợ Phrase-based SMT • Moses • GIZA++ • SRILM • IRSTLM
GIZA++ Aligned words GIZA++ Parallelcorpus sequences of words
SRILM, IRSTLM Training corpus ngram-count count file step1 Lexicon • ngram-count LM step2 Test data ngram ppl step3
Huấn luyện LM n-grams f*(w | x y) và xác suất của n-gram xyw tùy thuộc vào xy và yw p(w | x y) = f*(w | x y) + (x y)p(w | y)
Smoothing • Witten Bell: • Absolute discounting: • Kneser-Ney: • , ,