140 likes | 215 Views
Inter-set SMT med MOSES og POS. Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007. Disposition. Lidt mere om BLEU Translation Edit rate: TER Resultater fra udviklingstest Forslag til diskussion. BLEU: Automatisk metode til MT-evaluering.
E N D
Center for Sprogteknologi Inter-set SMT med MOSES og POS Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007
Center for Sprogteknologi Disposition • Lidt mere om BLEU • Translation Edit rate: TER • Resultater fra udviklingstest • Forslag til diskussion
Center for Sprogteknologi BLEU: Automatisk metode til MT-evaluering • Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 • Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse • Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne • Hvis der er god overensstemmelse, er MT-oversættelsen god • Man ”tæller” n-grammer: • 1-gram, 2-gram, 3-gram, • 4-gram i oversættelsen i • forhold til reference-tekster • Værdier mellem 0-1
Center for Sprogteknologi Bleu 2 • Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer • Har ulemper, fordi man ikke helt forstår hvad Bleu måler • Ord der har anden placering i output end reference straffes ikke • Der vægtes ikke mht. indholdsord • Forbedringer ses måske ikke i Bleu-målet… • Re-evaluating the Role of BLEU in Machine Translation Research
Center for Sprogteknologi TER – Translation edit rate • Translation Edit Rate • Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne • Lav værdi bedst! • Reference: • A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006
Center for Sprogteknologi TER – Fejltyper • Fejltyper: • Insertion • Deletion • Substitution • Shift • Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: • Insertion – indsættelse af manglende ord/ordsekvens • REF: hvis problemet fortsætter , skal du frakoble strømkilden og kontakte din - forhandler . • SMT:hvis problemet fortsætter , skal du fjerner strømforsyningen og kontakte - forhandleren .
Center for Sprogteknologi TER – Deletion • Deletion – sletning af ord/ordsekvens • REF:optagetiden ved brug af camcordere , der anvender digital8 -systemet på / standard 8 mm -bånd , udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder , der anvender / standard 8 mm -systemet . • SMT: optagetiden , når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd , er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder , der anvender / standard 8 mm -systemet .
Center for Sprogteknologi TER – Substitution • Substitution– omplaceret ord/ordsekvens • REF: hvis problemet fortsætter , skal du frakoble strømkilden og kontakte din - forhandler . • SMT:hvis problemet fortsætter , skal du fjerner strømforsyningen og kontakte – forhandleren .
Center for Sprogteknologi TER – Shift • shift – omplacering af ord eller ordsekvens • REF: hvis du ved et uheld indsætter en " " uden en -adapter , skal du holde camcorderen , så " " -åbningen vender nedad . • SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld , hold camcorderen så “ ” åbningen er nedad , og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud . • Hvorfor shifts: • Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU
Center for Sprogteknologi TER – Translation edit rate • Alle fejl tæller som en editering • Evalueringen sker automatisk • Der benyttes en ”greedy search” • Der udregnes iterativt ”min-edit distance (Levenstein) • En specifik udgave: HTER • HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output
Center for Sprogteknologi Udviklings test: BLEU og TER • Reference materiale: tokeniseret og uden ”casing” • Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere
Center for Sprogteknologi Udviklings test: TER detaljer • Hypothesis File: testd.da.smt.id • Reference File: testdu.da.id • Ave-Reference File: testdu.da.id • Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER • ------------------------------------------------------------------------------------- • 1:Camcorder | 208 | 160 | 604 | 103 | 137 | 1075.0 | 3313 | 32.448 • 2:Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | 1044.0 | 7353 | 14.198 • 3:DVD_afspillere | 181 | 146 | 527 | 128 | 147 | 982.0 | 2454 | 40.016 • 4:Lexmarkny | 103 | 99 | 258 | 110 | 132 | 570.0 | 2050 | 27.805 • 5:Nokia | 148 | 117 | 387 | 81 | 133 | 733.0 | 3244 | 22.596 • ------------------------------------------------------------------------------------- • TOTAL | 883 | 731 | 2264 | 526 | 772 | 4404.0 | 18414 | 23.917
Center for Sprogteknologi Udviklings test: TER detaljer • Hypothesis File: testdwp_1lm.da.smt.id • Reference File: testdu.da.id • Ave-Reference File: testdu.da.id • Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER • ------------------------------------------------------------------------------------- • 1:Camcorder | 150 | 235 | 566 | 106 | 138 | 1057.0 | 3313.000 | 31.905 • 2:Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | 1055.0 | 7353.000 | 14.348 • 3:DVD_afspillere | 148 | 178 | 512 | 139 | 165 | 977.0 | 2454.000 | 39.813 • 4:Lexmarkny | 76 | 122 | 262 | 96 113 | 556.0 | 2050.000 | 27.122 • 5:Nokia | 122 | 188 | 405 | 82 | 140 | 797.0 | 3244.000 | 24.568 • ------------------------------------------------------------------------------------- • TOTAL | 662 | 1013 | 2240 | 527 | 765 | 4442.0 | 18414 | 24.123 • |
Center for Sprogteknologi Forslag til diskussion • Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags • Hvad skal systemet testes på? • Hvilke under-domæner, måske vælge to? • 2 personer vurderer fluency og adequacy, skala 1-3 • samme 50-100 sætninger vurderes • Måske forbedre/opdatere system i testfasen • Efterredigering af system output: • Brug af HTER • Trados <> SMT tidsmåling