1 / 14

Inter-set SMT med MOSES og POS

Inter-set SMT med MOSES og POS. Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007. Disposition. Lidt mere om BLEU Translation Edit rate: TER Resultater fra udviklingstest Forslag til diskussion. BLEU: Automatisk metode til MT-evaluering.

toby
Download Presentation

Inter-set SMT med MOSES og POS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Center for Sprogteknologi Inter-set SMT med MOSES og POS Lene Offersgaard, Claus Povlsen Center for Sprogteknologi SDMT-SMV2 workshop 25. september 2007

  2. Center for Sprogteknologi Disposition • Lidt mere om BLEU • Translation Edit rate: TER • Resultater fra udviklingstest • Forslag til diskussion

  3. Center for Sprogteknologi BLEU: Automatisk metode til MT-evaluering • Papineni et al.: BLEU: A method for automatic evaluation of Machine Translation, IBM report, 2001 • Metode: Man får den tekst, man vil bruge som test af sit MT-system, oversat af flere forskellige oversættere (mennesker): referenceoversættelse • Metoden bygger på at man måler (statistisk) overensstemmelsen mellem det MT-oversatte og referenceoversættelserne • Hvis der er god overensstemmelse, er MT-oversættelsen god • Man ”tæller” n-grammer: • 1-gram, 2-gram, 3-gram, • 4-gram i oversættelsen i • forhold til reference-tekster • Værdier mellem 0-1

  4. Center for Sprogteknologi Bleu 2 • Meget brugt mål til evaluering af systemudvikling i forskningen, når fokus er på algoritmer • Har ulemper, fordi man ikke helt forstår hvad Bleu måler • Ord der har anden placering i output end reference straffes ikke • Der vægtes ikke mht. indholdsord • Forbedringer ses måske ikke i Bleu-målet… • Re-evaluating the Role of BLEU in Machine Translation Research

  5. Center for Sprogteknologi TER – Translation edit rate • Translation Edit Rate • Et fejlmål/kvalitetsmål for MT som måler antal nødvendige editeringer der er nødvendige for at ændre system-output til en af reference-oversættelserne • Lav værdi bedst! • Reference: • A Study of Translation Edit Rate with Targeted Human Annotation Matthew Snover and Bonnier Dorr, Procedings of AMTA 2006

  6. Center for Sprogteknologi TER – Fejltyper • Fejltyper: • Insertion • Deletion • Substitution • Shift • Eksempler på TER-fejltyper fra de modtagne dokumenter fra Interset: • Insertion – indsættelse af manglende ord/ordsekvens • REF: hvis problemet fortsætter , skal du frakoble strømkilden og kontakte din - forhandler . • SMT:hvis problemet fortsætter , skal du fjerner strømforsyningen og kontakte - forhandleren .

  7. Center for Sprogteknologi TER – Deletion • Deletion – sletning af ord/ordsekvens • REF:optagetiden ved brug af camcordere , der anvender digital8 -systemet på / standard 8 mm -bånd , udgør 2 / 3 af optagetiden ved brug af en almindelig camcorder , der anvender / standard 8 mm -systemet . • SMT: optagetiden , når du anvender camcorderen med digital8 -systemet på / standard 8 mm -bånd , er optagetiden 2 / 3 af optagetiden ved brug af en almindelig camcorder , der anvender / standard 8 mm -systemet .

  8. Center for Sprogteknologi TER – Substitution • Substitution– omplaceret ord/ordsekvens • REF: hvis problemet fortsætter , skal du frakoble strømkilden og kontakte din - forhandler . • SMT:hvis problemet fortsætter , skal du fjerner strømforsyningen og kontakte – forhandleren .

  9. Center for Sprogteknologi TER – Shift • shift – omplacering af ord eller ordsekvens • REF: hvis du ved et uheld indsætter en " " uden en -adapter , skal du holde camcorderen , så " " -åbningen vender nedad . • SMT:hvis du vil indsætte en “ ” uden en adapter ved et uheld , hold camcorderen så “ ” åbningen er nedad , og hold dækslet toothpick objekt eller en side med lignende at lade “ ” skub ud . • Hvorfor shifts: • Shifts: output hvor der er blot er flyttet om på en række ord, straffes ikke så hårdt som ved WER eller BLEU

  10. Center for Sprogteknologi TER – Translation edit rate • Alle fejl tæller som en editering • Evalueringen sker automatisk • Der benyttes en ”greedy search” • Der udregnes iterativt ”min-edit distance (Levenstein) • En specifik udgave: HTER • HTER (TER with human targeted references) Baseres på at man måler forskelen til en post-editeret version af system-output

  11. Center for Sprogteknologi Udviklings test: BLEU og TER • Reference materiale: tokeniseret og uden ”casing” • Meget forskel på resultaterne for de forskellige dele af testmaterialet :Noget lidt bedre, noget lidt dårligere

  12. Center for Sprogteknologi Udviklings test: TER detaljer • Hypothesis File: testd.da.smt.id • Reference File: testdu.da.id • Ave-Reference File: testdu.da.id • Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER • ------------------------------------------------------------------------------------- • 1:Camcorder | 208 | 160 | 604 | 103 | 137 | 1075.0 | 3313 | 32.448 • 2:Dan_P11_Endu. | 243 | 209 | 488 | 104 | 223 | 1044.0 | 7353 | 14.198 • 3:DVD_afspillere | 181 | 146 | 527 | 128 | 147 | 982.0 | 2454 | 40.016 • 4:Lexmarkny | 103 | 99 | 258 | 110 | 132 | 570.0 | 2050 | 27.805 • 5:Nokia | 148 | 117 | 387 | 81 | 133 | 733.0 | 3244 | 22.596 • ------------------------------------------------------------------------------------- • TOTAL | 883 | 731 | 2264 | 526 | 772 | 4404.0 | 18414 | 23.917

  13. Center for Sprogteknologi Udviklings test: TER detaljer • Hypothesis File: testdwp_1lm.da.smt.id • Reference File: testdu.da.id • Ave-Reference File: testdu.da.id • Sent Id | Ins | Del | Sub | Shft | WdSh | NumEr | NumWd | TER • ------------------------------------------------------------------------------------- • 1:Camcorder | 150 | 235 | 566 | 106 | 138 | 1057.0 | 3313.000 | 31.905 • 2:Dan_P11_Endu. | 166 | 290 | 495 | 104 | 209 | 1055.0 | 7353.000 | 14.348 • 3:DVD_afspillere | 148 | 178 | 512 | 139 | 165 | 977.0 | 2454.000 | 39.813 • 4:Lexmarkny | 76 | 122 | 262 | 96 113 | 556.0 | 2050.000 | 27.122 • 5:Nokia | 122 | 188 | 405 | 82 | 140 | 797.0 | 3244.000 | 24.568 • ------------------------------------------------------------------------------------- • TOTAL | 662 | 1013 | 2240 | 527 | 765 | 4442.0 | 18414 | 24.123 • |

  14. Center for Sprogteknologi Forslag til diskussion • Diskussion af: Forskellige under-domæner Udvidelse af træningsmateriale Udnyttelse af pos-tags • Hvad skal systemet testes på? • Hvilke under-domæner, måske vælge to? • 2 personer vurderer fluency og adequacy, skala 1-3 • samme 50-100 sætninger vurderes • Måske forbedre/opdatere system i testfasen • Efterredigering af system output: • Brug af HTER • Trados <> SMT tidsmåling

More Related