140 likes | 227 Views
Learn about the BLEU and TER metrics for evaluating Machine Translation output quality, including their methods, advantages, and disadvantages. Discover how Translation Edit Rate (TER) measures editing requirements for system output compared to reference translations.
E N D
Center for Sprogteknologi Inter-set SMT med MOSES og POS Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007
Center for Sprogteknologi Disposition • Lidt mere om BLEU • Translation Edit rate: TER • Resultater fra udviklingstest • Forslag til diskussion
Center for Sprogteknologi BLEU: Automatisk metode til MT-evaluering • Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 • Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse • Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne • Hvis der er god overensstemmelse, er MT-oversættelsen god • Man ”tæller” n-grammer: • 1-gram, 2-gram, 3-gram, • 4-gram i oversættelsen i • forhold til reference-tekster • Værdier mellem 0-1
Center for Sprogteknologi Bleu 2 • Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer • Har ulemper, fordi man ikke helt forstår hvad Bleu måler • Ord der har anden placering i output end reference straffes ikke • Der vægtes ikke mht. indholdsord • Forbedringer ses måske ikke i Bleu-målet… • Re-evaluating the Role of BLEU in Machine Translation Research
Center for Sprogteknologi TER – Translation edit rate • Translation Edit Rate • Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne • Lav værdi bedst! • Reference: • A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006
Center for Sprogteknologi TER – Fejltyper • Fejltyper: • Insertion • Deletion • Substitution • Shift • Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: • Insertion – indsættelse af manglende ord/ordsekvens • REF: hvis problemet fortsætter , skal du frakoble strømkilden og kontakte din - forhandler . • SMT:hvis problemet fortsætter , skal du fjerner strømforsyningen og kontakte - forhandleren .
Center for Sprogteknologi TER – Deletion • Deletion – sletning af ord/ordsekvens • REF:optagetiden ved brug af camcordere , der anvender digital8 -systemet på / standard 8 mm -bånd , udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder , der anvender / standard 8 mm -systemet . • SMT: optagetiden , når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd , er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder , der anvender / standard 8 mm -systemet .
Center for Sprogteknologi TER – Substitution • Substitution– omplaceret ord/ordsekvens • REF: hvis problemet fortsætter , skal du frakoble strømkilden og kontakte din - forhandler . • SMT:hvis problemet fortsætter , skal du fjerner strømforsyningen og kontakte – forhandleren .
Center for Sprogteknologi TER – Shift • shift – omplacering af ord eller ordsekvens • REF: hvis du ved et uheld indsætter en " " uden en -adapter , skal du holde camcorderen , så " " -åbningen vender nedad . • SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld , hold camcorderen så “ ” åbningen er nedad , og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud . • Hvorfor shifts: • Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU
Center for Sprogteknologi TER – Translation edit rate • Alle fejl tæller som en editering • Evalueringen sker automatisk • Der benyttes en ”greedy search” • Der udregnes iterativt ”min-edit distance (Levenstein) • En specifik udgave: HTER • HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output
Center for Sprogteknologi Udviklings test: BLEU og TER • Reference materiale: tokeniseret og uden ”casing” • Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere
Center for Sprogteknologi Udviklings test: TER detaljer • Hypothesis File: testd.da.smt.id • Reference File: testdu.da.id • Ave-Reference File: testdu.da.id • Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER • ------------------------------------------------------------------------------------- • 1:Camcorder | 208 | 160 | 604 | 103 | 137 | 1075.0 | 3313 | 32.448 • 2:Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | 1044.0 | 7353 | 14.198 • 3:DVD_afspillere | 181 | 146 | 527 | 128 | 147 | 982.0 | 2454 | 40.016 • 4:Lexmarkny | 103 | 99 | 258 | 110 | 132 | 570.0 | 2050 | 27.805 • 5:Nokia | 148 | 117 | 387 | 81 | 133 | 733.0 | 3244 | 22.596 • ------------------------------------------------------------------------------------- • TOTAL | 883 | 731 | 2264 | 526 | 772 | 4404.0 | 18414 | 23.917
Center for Sprogteknologi Udviklings test: TER detaljer • Hypothesis File: testdwp_1lm.da.smt.id • Reference File: testdu.da.id • Ave-Reference File: testdu.da.id • Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER • ------------------------------------------------------------------------------------- • 1:Camcorder | 150 | 235 | 566 | 106 | 138 | 1057.0 | 3313.000 | 31.905 • 2:Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | 1055.0 | 7353.000 | 14.348 • 3:DVD_afspillere | 148 | 178 | 512 | 139 | 165 | 977.0 | 2454.000 | 39.813 • 4:Lexmarkny | 76 | 122 | 262 | 96 113 | 556.0 | 2050.000 | 27.122 • 5:Nokia | 122 | 188 | 405 | 82 | 140 | 797.0 | 3244.000 | 24.568 • ------------------------------------------------------------------------------------- • TOTAL | 662 | 1013 | 2240 | 527 | 765 | 4442.0 | 18414 | 24.123 • |
Center for Sprogteknologi Forslag til diskussion • Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags • Hvad skal systemet testes på? • Hvilke under-domæner, måske vælge to? • 2 personer vurderer fluency og adequacy, skala 1-3 • samme 50-100 sætninger vurderes • Måske forbedre/opdatere system i testfasen • Efterredigering af system output: • Brug af HTER • Trados <> SMT tidsmåling