Cesta campagne d valuation des syst mes de traduction automatique
This presentation is the property of its rightful owner.
Sponsored Links
1 / 31

CESTA : Campagne d’évaluation des systèmes de traduction automatique PowerPoint PPT Presentation


  • 134 Views
  • Uploaded on
  • Presentation posted in: General

CESTA : Campagne d’évaluation des systèmes de traduction automatique. Andrei Popescu-Belis Université de Genève i-expo, Paris, 14 juin 2007. Pourquoi évaluer des systèmes de traduction automatique (TA) ?. La qualité des systèmes de TA augmente ils possèdent déjà de nombreuses applications

Download Presentation

CESTA : Campagne d’évaluation des systèmes de traduction automatique

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


CESTA : Campagne d’évaluation des systèmesde traduction automatique

Andrei Popescu-Belis

Université de Genève

i-expo, Paris, 14 juin 2007


Pourquoi évaluer des systèmes de traduction automatique (TA) ?

  • La qualité des systèmes de TA augmente

    • ils possèdent déjà de nombreuses applications

  • Les utilisateurs ont besoin de critères

    • pour acheter, utiliser, ou remplacer des systèmes

  • Des méthodes d’évaluation fiables permettent d’améliorer les systèmes de TA et aident les utilisateurs dans leurs choix

CESTA | i-expo | 14 juin 2007


Pourquoi est-ce difficile d’évaluerdes systèmes de TA ?

  • Il n’y a pas une seule, mais de nombreuses traductions correctes d’un texte donné

    • l’ensemble de ces traductions est difficile à cerner

  • Il est donc impossible de comparer une traduction produite par un système à « la traduction correcte »

    • il faut trouver d’autres méthodes pour en estimer la qualité

    • De plus, la qualité de la traduction n’est pas le seul facteur qui détermine l’utilité d’un système de TA

CESTA | i-expo | 14 juin 2007


CESTA (2003-2006) : objectifs

  • Définir un protocole fiable pour l’évaluation de la TA

    • mesures de qualité nécessitant des juges humains

    • mesures de qualité automatiques

  • Évaluer des systèmes de TA

    • industriels et académiques

    • traduisant de l’anglais et de l’arabe vers le français

    • dans plusieurs domaines et conditions d’utilisation

  • Mettre à disposition de la communauté des ressources et des outils pour l’évaluation de la TA

  • CESTA  EVALDA  Technolangue

    • synergies avec ARCADE2, CESART, EQueR, EVASY

CESTA | i-expo | 14 juin 2007


Organisateurs et comité scientifique

  • Organisateurs

    • Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA)

    • Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi (Université de Lille 3, IDIST/CERSATES)

  • Comité scientifique

    • Christian Boitet (Université de Grenoble)

    • Stéphane Chaudiron (Ministère de la Recherche)

    • Anthony Hartley (Université de Leeds/CTS)

    • Philippe Langlais (Université de Montréal/RALI)

    • Andrei Popescu-Belis (Université de Genève)

    • Martin Rajman (EPFL/LIA)

CESTA | i-expo | 14 juin 2007


Plan de la présentation

1. Spécifications et méthodes

  • mesures de la qualité de la TA

  • scénarios des deux campagnes réalisées

  • ressources linguistiques : données de test

    2. Exemples de résultats obtenus

  • scores des systèmes

  • étude de la fiabilité des métriques

    3. Apports et perspectives

CESTA | i-expo | 14 juin 2007


Première partie

Spécifications et méthodes de CESTA


Première campagne

CIMOS

Comprendium

RALI

SDL

Softissimo

Systran

Seconde campagne

Comprendium

RALI

RWTH

Softissimo

Systran

UPC

Systèmes de TA participant à CESTA

CESTA | i-expo | 14 juin 2007


Mesures de qualité automatiques (1/2)

  • Principe: mesurer la qualité d’un texte traduit en comparant celui-ci à une ou plusieurs traductions de référence

  • Objectif de CESTA: tester la fiabilité de plusieurs de ces métriques, pour les traductions vers le français

  • Mesures employées dans CESTA

    • BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001)

      • moyenne pondérée du nombre de mots en commun, du nombre de bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4)

      • fiabilité inconnue pour des langues cible à morphologie riche

    • NIST (Doddington, 2002)

      • variante de BLEU: gain d’information et pénalités selon la taille

    • WNM : Weighted n-gram metric (Babych & Hartley 2004)

      • pondère les comparaisons de n-grammes selon leur fréquence

      • autorise une certaine variation dans la traduction

CESTA | i-expo | 14 juin 2007


Mesures de qualité automatiques (2/2)

  • Mesures employées dans CESTA [suite]

    • X-Score (Rajman & Hartley, 2001)

      • analyse la grammaticalité du texte traduit en comparant la distribution morpho-syntaxique du texte avec un corpus de référence

      • mesure expérimentale implémentée par l’ELDA pour CESTA

    • D-Score (Rajman & Hartley, 2001)

      • analyse de la préservation du contenu sémantique en comparant la représentation sémantique vectorielle du texte traduit avec celle d’un texte de référence

      • mesure expérimentale implémentée par l’ELDA pour CESTA

    • Distances d’édition de chaînes de caractères (Leusch et al., 2003)

      • mWER: Multi-reference Word Error Rate

      • mPER: Multi-reference Position-independant Word Error Rate

CESTA | i-expo | 14 juin 2007


Mesures d’évaluation fondées sur des jugements humains

  • Objectifs de CESTA

    • l’évaluation humaine des systèmes (référence de la qualité)

    • la méta-évaluation des métriques automatiques

      • en comparant leurs scores avec ceux des juges humains

  • Développement par l’ELDA d’une interface pour l’évaluation humaine en ligne, via HTTP

  • Scores d’adéquation (sémantique) et de fluidité

    • échelle de 1 à 5

    • chaque segment est évalué par deux juges différents

    • les segments sont présentés aléatoirement

CESTA | i-expo | 14 juin 2007


Interface d’évaluation de l’adéquation

CESTA | i-expo | 14 juin 2007


Première et seconde campagnes

  • Première campagne: domaine « général »

    • pas de phase d’adaptation au domaine des textes

    • mise en place du protocole d’évaluation

  • Seconde campagne: avant et après adaptation à un domaine spécifique =santé

    • comparaison des résultats des systèmes de TA dans les deux conditions

    • perfectionnement et réutilisation du protocole d’évaluation

    • analyse de la fiabilité des métriques

CESTA | i-expo | 14 juin 2007


Données : anglais  français

  • 1ère campagne

    • test à blanc : 20.000 mots extraits du JOC

      • 1 traduction de référence

    • test réel : 20.000 mots extraits du JOC + 200.000 mots extraits de MLCC pour le masquage (répartition aléatoire)

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

  • 2nde campagne

    • adaptation : 20.000 mots extraits du site Santé Canada

      • sous-corpus du corpus CESART français

      • 1 traduction de référence

    • test réel : 20.000 mots extraits du même site + 200.000 mots pour le masquage

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

CESTA | i-expo | 14 juin 2007


Données : arabe  français [similaires]

  • 1ère campagne

    • test à blanc : 20.000 mots extraits du Monde Diplomatique

      • 1 traduction de référence

    • test réel : 20.000 mots extraits du monde Diplomatique (2002) + 200.000 mots extraits de Al-Hayat (1998) pour le masquage

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

  • 2nde campagne

    • adaptation : 20.000 mots extraits des sites UNICEF, OMS et Family Health International

      • 1 traduction de référence

    • test réel : 20.000 mots extraits des mêmes sites + 200.000 mots pour le masquage

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

CESTA | i-expo | 14 juin 2007


Déroulement

  • Test à blanc : août 2004

    • données semblables à la campagne d’évaluation

       vérifier le format des fichiers et l’échange des données

  • 1ère campagne

    • 1er au 8 février 2005 : phase de test des systèmes

    • avril à juin 2005 : évaluations humaines

  • 2nde campagne

    • 27 septembre au 10 octobre 2005 : phase d’adaptation

    • 11 au 18 octobre 2005 : phase de test

    • octobre 2005 à février 2006 : évaluations humaines

CESTA | i-expo | 14 juin 2007


Deuxième partie

Exemples de résultats obtenus par CESTA

Le rapport final est disponible à l’adresse : http://www.technolangue.net/article199.html


Pourcentage d’accord entre les scores humains en fonction de la distance [2e c.]

CESTA | i-expo | 14 juin 2007


Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine]

CESTA | i-expo | 14 juin 2007


Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine]

CESTA | i-expo | 14 juin 2007


Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation]

CESTA | i-expo | 14 juin 2007


Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation]

CESTA | i-expo | 14 juin 2007


Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR]

CESTA | i-expo | 14 juin 2007


Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR]

CESTA | i-expo | 14 juin 2007


Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR]

CESTA | i-expo | 14 juin 2007


Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR]

CESTA | i-expo | 14 juin 2007


Troisième partie

Apports et perspectives


Bilan global de CESTA

  • Production d’une grande quantité de données

    • corpus parallèles : texte source + 4 traductions de référence (officielle, agences) + 5 traductions automatiques

    • anglais/français et arabe/français

  • Analyse de nombreuses métriques automatiques récentes

  • Développement et étude de deux métriques expérimentales

  • Protocole d’évaluation

  • Site web pour l’évaluation humaine

CESTA | i-expo | 14 juin 2007


Apports de la campagne CESTA

  • Aux chercheurs

    • nouveaux résultats sur l’applicabilité des métriques automatiques au français  elles sont moins fiables que pour l’anglais

  • Aux développeurs de systèmes de TA ENFR et ARFR

    • utiliser le package CESTA pour mesurer leurs progrès

      • les intervalles de confiance et les corrélations de CESTA permettent d’estimer la fiabilité d’autres résultats obtenus

      • les valeurs obtenues dans CESTA permettent de comparer les systèmes avec l’état de l’art en 2005-2006

  • Aux utilisateurs de TA

    • utiliser le package CESTA pour comparer des systèmes de TA

  • Le meilleur système ou le système le plus adapté ?!

    • beaucoup de qualités peuvent être utiles en réalité

      répertoire FEMTI : http://www.issco.unige.ch/femti

CESTA | i-expo | 14 juin 2007


Publications

Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action Technolangue (2002-2006), Hermès, Paris, 24 p.

Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit XI, Copenhagen, 8 p.

O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160

O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184

Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN, Leuven, Belgium, April 10-13, pages 217-226 .

S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K. Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124.

M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11.

V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, May 2004, p.381-384.

W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-in-Progress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Geneva, Switzerland, August 2004.

CESTA | i-expo | 14 juin 2007


CESTA remercie chaleureusement tous les systèmes ayant participé à la campagne !

COMPRENDIUM - Translendium SL, www.translendium.com[ENFR]

MLTS - CIMOS, www.cimos.com[ARFR]

RALI, Université de Montréal [ENFR]

REVERSO - Softissimo, www.softissimo.com, www.reverso.net[ENFR]

Université Technologique de Aachen (RWTH) [ARFR]

SDL Enterprise Translation Server – SDL Int., www.sdl.com[ENFR]

SYSTRAN, www.systran.fr[ARFR et ENFR]

Université Polytechnique de Catalogne [ENFR]

CESTA | i-expo | 14 juin 2007


  • Login