Cesta campagne d valuation des syst mes de traduction automatique
This presentation is the property of its rightful owner.
Sponsored Links
1 / 31

CESTA : Campagne d’évaluation des systèmes de traduction automatique PowerPoint PPT Presentation


  • 122 Views
  • Uploaded on
  • Presentation posted in: General

CESTA : Campagne d’évaluation des systèmes de traduction automatique. Andrei Popescu-Belis Université de Genève i-expo, Paris, 14 juin 2007. Pourquoi évaluer des systèmes de traduction automatique (TA) ?. La qualité des systèmes de TA augmente ils possèdent déjà de nombreuses applications

Download Presentation

CESTA : Campagne d’évaluation des systèmes de traduction automatique

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Cesta campagne d valuation des syst mes de traduction automatique

CESTA : Campagne d’évaluation des systèmesde traduction automatique

Andrei Popescu-Belis

Université de Genève

i-expo, Paris, 14 juin 2007


Pourquoi valuer des syst mes de traduction automatique ta

Pourquoi évaluer des systèmes de traduction automatique (TA) ?

  • La qualité des systèmes de TA augmente

    • ils possèdent déjà de nombreuses applications

  • Les utilisateurs ont besoin de critères

    • pour acheter, utiliser, ou remplacer des systèmes

  • Des méthodes d’évaluation fiables permettent d’améliorer les systèmes de TA et aident les utilisateurs dans leurs choix

CESTA | i-expo | 14 juin 2007


Pourquoi est ce difficile d valuer des syst mes de ta

Pourquoi est-ce difficile d’évaluerdes systèmes de TA ?

  • Il n’y a pas une seule, mais de nombreuses traductions correctes d’un texte donné

    • l’ensemble de ces traductions est difficile à cerner

  • Il est donc impossible de comparer une traduction produite par un système à « la traduction correcte »

    • il faut trouver d’autres méthodes pour en estimer la qualité

    • De plus, la qualité de la traduction n’est pas le seul facteur qui détermine l’utilité d’un système de TA

CESTA | i-expo | 14 juin 2007


Cesta 2003 2006 objectifs

CESTA (2003-2006) : objectifs

  • Définir un protocole fiable pour l’évaluation de la TA

    • mesures de qualité nécessitant des juges humains

    • mesures de qualité automatiques

  • Évaluer des systèmes de TA

    • industriels et académiques

    • traduisant de l’anglais et de l’arabe vers le français

    • dans plusieurs domaines et conditions d’utilisation

  • Mettre à disposition de la communauté des ressources et des outils pour l’évaluation de la TA

  • CESTA  EVALDA  Technolangue

    • synergies avec ARCADE2, CESART, EQueR, EVASY

CESTA | i-expo | 14 juin 2007


Organisateurs et comit scientifique

Organisateurs et comité scientifique

  • Organisateurs

    • Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA)

    • Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi (Université de Lille 3, IDIST/CERSATES)

  • Comité scientifique

    • Christian Boitet (Université de Grenoble)

    • Stéphane Chaudiron (Ministère de la Recherche)

    • Anthony Hartley (Université de Leeds/CTS)

    • Philippe Langlais (Université de Montréal/RALI)

    • Andrei Popescu-Belis (Université de Genève)

    • Martin Rajman (EPFL/LIA)

CESTA | i-expo | 14 juin 2007


Plan de la pr sentation

Plan de la présentation

1. Spécifications et méthodes

  • mesures de la qualité de la TA

  • scénarios des deux campagnes réalisées

  • ressources linguistiques : données de test

    2. Exemples de résultats obtenus

  • scores des systèmes

  • étude de la fiabilité des métriques

    3. Apports et perspectives

CESTA | i-expo | 14 juin 2007


Premi re partie

Première partie

Spécifications et méthodes de CESTA


Syst mes de ta participant cesta

Première campagne

CIMOS

Comprendium

RALI

SDL

Softissimo

Systran

Seconde campagne

Comprendium

RALI

RWTH

Softissimo

Systran

UPC

Systèmes de TA participant à CESTA

CESTA | i-expo | 14 juin 2007


Mesures de qualit automatiques 1 2

Mesures de qualité automatiques (1/2)

  • Principe: mesurer la qualité d’un texte traduit en comparant celui-ci à une ou plusieurs traductions de référence

  • Objectif de CESTA: tester la fiabilité de plusieurs de ces métriques, pour les traductions vers le français

  • Mesures employées dans CESTA

    • BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001)

      • moyenne pondérée du nombre de mots en commun, du nombre de bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4)

      • fiabilité inconnue pour des langues cible à morphologie riche

    • NIST (Doddington, 2002)

      • variante de BLEU: gain d’information et pénalités selon la taille

    • WNM : Weighted n-gram metric (Babych & Hartley 2004)

      • pondère les comparaisons de n-grammes selon leur fréquence

      • autorise une certaine variation dans la traduction

CESTA | i-expo | 14 juin 2007


Mesures de qualit automatiques 2 2

Mesures de qualité automatiques (2/2)

  • Mesures employées dans CESTA [suite]

    • X-Score (Rajman & Hartley, 2001)

      • analyse la grammaticalité du texte traduit en comparant la distribution morpho-syntaxique du texte avec un corpus de référence

      • mesure expérimentale implémentée par l’ELDA pour CESTA

    • D-Score (Rajman & Hartley, 2001)

      • analyse de la préservation du contenu sémantique en comparant la représentation sémantique vectorielle du texte traduit avec celle d’un texte de référence

      • mesure expérimentale implémentée par l’ELDA pour CESTA

    • Distances d’édition de chaînes de caractères (Leusch et al., 2003)

      • mWER: Multi-reference Word Error Rate

      • mPER: Multi-reference Position-independant Word Error Rate

CESTA | i-expo | 14 juin 2007


Mesures d valuation fond es sur des jugements humains

Mesures d’évaluation fondées sur des jugements humains

  • Objectifs de CESTA

    • l’évaluation humaine des systèmes (référence de la qualité)

    • la méta-évaluation des métriques automatiques

      • en comparant leurs scores avec ceux des juges humains

  • Développement par l’ELDA d’une interface pour l’évaluation humaine en ligne, via HTTP

  • Scores d’adéquation (sémantique) et de fluidité

    • échelle de 1 à 5

    • chaque segment est évalué par deux juges différents

    • les segments sont présentés aléatoirement

CESTA | i-expo | 14 juin 2007


Interface d valuation de l ad quation

Interface d’évaluation de l’adéquation

CESTA | i-expo | 14 juin 2007


Premi re et seconde campagnes

Première et seconde campagnes

  • Première campagne: domaine « général »

    • pas de phase d’adaptation au domaine des textes

    • mise en place du protocole d’évaluation

  • Seconde campagne: avant et après adaptation à un domaine spécifique =santé

    • comparaison des résultats des systèmes de TA dans les deux conditions

    • perfectionnement et réutilisation du protocole d’évaluation

    • analyse de la fiabilité des métriques

CESTA | i-expo | 14 juin 2007


Donn es anglais fran ais

Données : anglais  français

  • 1ère campagne

    • test à blanc : 20.000 mots extraits du JOC

      • 1 traduction de référence

    • test réel : 20.000 mots extraits du JOC + 200.000 mots extraits de MLCC pour le masquage (répartition aléatoire)

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

  • 2nde campagne

    • adaptation : 20.000 mots extraits du site Santé Canada

      • sous-corpus du corpus CESART français

      • 1 traduction de référence

    • test réel : 20.000 mots extraits du même site + 200.000 mots pour le masquage

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

CESTA | i-expo | 14 juin 2007


Donn es arabe fran ais similaires

Données : arabe  français [similaires]

  • 1ère campagne

    • test à blanc : 20.000 mots extraits du Monde Diplomatique

      • 1 traduction de référence

    • test réel : 20.000 mots extraits du monde Diplomatique (2002) + 200.000 mots extraits de Al-Hayat (1998) pour le masquage

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

  • 2nde campagne

    • adaptation : 20.000 mots extraits des sites UNICEF, OMS et Family Health International

      • 1 traduction de référence

    • test réel : 20.000 mots extraits des mêmes sites + 200.000 mots pour le masquage

      • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation

CESTA | i-expo | 14 juin 2007


D roulement

Déroulement

  • Test à blanc : août 2004

    • données semblables à la campagne d’évaluation

       vérifier le format des fichiers et l’échange des données

  • 1ère campagne

    • 1er au 8 février 2005 : phase de test des systèmes

    • avril à juin 2005 : évaluations humaines

  • 2nde campagne

    • 27 septembre au 10 octobre 2005 : phase d’adaptation

    • 11 au 18 octobre 2005 : phase de test

    • octobre 2005 à février 2006 : évaluations humaines

CESTA | i-expo | 14 juin 2007


Deuxi me partie

Deuxième partie

Exemples de résultats obtenus par CESTA

Le rapport final est disponible à l’adresse : http://www.technolangue.net/article199.html


Pourcentage d accord entre les scores humains en fonction de la distance 2 e c

Pourcentage d’accord entre les scores humains en fonction de la distance [2e c.]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR]

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR]

CESTA | i-expo | 14 juin 2007


Troisi me partie

Troisième partie

Apports et perspectives


Bilan global de cesta

Bilan global de CESTA

  • Production d’une grande quantité de données

    • corpus parallèles : texte source + 4 traductions de référence (officielle, agences) + 5 traductions automatiques

    • anglais/français et arabe/français

  • Analyse de nombreuses métriques automatiques récentes

  • Développement et étude de deux métriques expérimentales

  • Protocole d’évaluation

  • Site web pour l’évaluation humaine

CESTA | i-expo | 14 juin 2007


Apports de la campagne cesta

Apports de la campagne CESTA

  • Aux chercheurs

    • nouveaux résultats sur l’applicabilité des métriques automatiques au français  elles sont moins fiables que pour l’anglais

  • Aux développeurs de systèmes de TA ENFR et ARFR

    • utiliser le package CESTA pour mesurer leurs progrès

      • les intervalles de confiance et les corrélations de CESTA permettent d’estimer la fiabilité d’autres résultats obtenus

      • les valeurs obtenues dans CESTA permettent de comparer les systèmes avec l’état de l’art en 2005-2006

  • Aux utilisateurs de TA

    • utiliser le package CESTA pour comparer des systèmes de TA

  • Le meilleur système ou le système le plus adapté ?!

    • beaucoup de qualités peuvent être utiles en réalité

      répertoire FEMTI : http://www.issco.unige.ch/femti

CESTA | i-expo | 14 juin 2007


Cesta campagne d valuation des syst mes de traduction automatique

Publications

Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action Technolangue (2002-2006), Hermès, Paris, 24 p.

Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit XI, Copenhagen, 8 p.

O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160

O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184

Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN, Leuven, Belgium, April 10-13, pages 217-226 .

S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K. Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124.

M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11.

V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, May 2004, p.381-384.

W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-in-Progress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Geneva, Switzerland, August 2004.

CESTA | i-expo | 14 juin 2007


Cesta remercie chaleureusement tous les syst mes ayant particip la campagne

CESTA remercie chaleureusement tous les systèmes ayant participé à la campagne !

COMPRENDIUM - Translendium SL, www.translendium.com[ENFR]

MLTS - CIMOS, www.cimos.com[ARFR]

RALI, Université de Montréal [ENFR]

REVERSO - Softissimo, www.softissimo.com, www.reverso.net[ENFR]

Université Technologique de Aachen (RWTH) [ARFR]

SDL Enterprise Translation Server – SDL Int., www.sdl.com[ENFR]

SYSTRAN, www.systran.fr[ARFR et ENFR]

Université Polytechnique de Catalogne [ENFR]

CESTA | i-expo | 14 juin 2007


  • Login