caroline lavecchia kamel sma li et david langlois loria groupe parole vandoeuvre l s nancy france l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Caroline Lavecchia , Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France PowerPoint Presentation
Download Presentation
Caroline Lavecchia , Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France

Loading in 2 Seconds...

play fullscreen
1 / 24

Caroline Lavecchia , Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France - PowerPoint PPT Presentation


  • 181 Views
  • Uploaded on

Caroline Lavecchia , Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France. Les Triggers inter-langues pour la Traduction Automatique. Plan. Positionnement en Traduction Automatique Nouvelle approche : les triggers inter-langues

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Caroline Lavecchia , Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France' - ratana


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
caroline lavecchia kamel sma li et david langlois loria groupe parole vandoeuvre l s nancy france
Caroline Lavecchia, Kamel Smaïli et David Langlois

LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France

Les Triggers inter-langues pour la Traduction Automatique

Journée Atala 1er Décembre 2007

slide2
Plan
  • Positionnement en Traduction Automatique
  • Nouvelle approche : les triggers inter-langues
  • Mise en œuvre des triggers inter-langues :
    • Construction et évaluation d’un dictionnaire bilingue Français-Anglais
    • Construction et évaluation d’une table de Traduction dédiée à la traduction automatique
  • Conclusion et Perspectives

Journée Atala 1er Décembre 2007

slide3

Description d’un système de traduction Parole-Parole

La traduction automatique statistique

Les modèles d’IBM

Positionnement en Traduction Automatique

Un système de traduction Parole-Parole :

Phrase Source

Système de Reconnaissance de la Parole

Signal de Parole

Langue source

Module de Traduction Automatique

Langue cible

Système de Synthèse de la Parole

Signal de Parole

Phrase Cible

Journée Atala 1er Décembre 2007

but de la traduction automatique statistique

Description d’un système de traduction Parole-Parole

La traduction automatique statistique

Les modèles d’IBM

Positionnement en Traduction Automatique

But de la traduction automatique statistique :
  • Approche du canal bruité
  • Trouver la meilleure phrase cible t* sachant la phrase source s

t*= argmaxt P(t|s)

t* = argmaxtP(t)* P(s|t)

Modèle de Langage

Modèle de Traduction

Journée Atala 1er Décembre 2007

proc d

Description d’un système de traduction Parole-Parole

La traduction automatique statistique

Les modèles d’IBM

Positionnement en Traduction Automatique

Procédé :

Corpus parallèles alignés

Apprentissage du modèle de traduction

Table de Traduction

P(si/tj)

si,tjЄ Vocabulaires

Décodeur

« Phrase Cible »

« Phrase Source »

Modèle de Langage

Journée Atala 1er Décembre 2007

slide6

Description d’un système de traduction Parole-Parole

La traduction automatique statistique

Les modèles d’IBM

Positionnement en Traduction Automatique

Exemple de corpus parallèles alignés :

Le chat est gris

Je vous en prie entrez

Never ever take your eye off the ball

Encore du poisson pour le dîner

The cat is grey

Please come in

Jamais tu ne quittes la balle des yeux

Fish for supper again

Corpus Source

Corpus Cible

Journée Atala 1er Décembre 2007

slide7

Description d’un système de traduction Parole-Parole

La traduction automatique statistique

Les modèles d’IBM

Positionnement en Traduction Automatique

Apprentissage des modèles de traduction :

  • Les modèles d’ IBM (Brown et al, 1993)

P(s|t) = a P(s, a|t)

Avec a, un alignement possible entre la phrase source s et la phrase cible t

    • Modèle 1 : tous les alignements sont équiprobables
    • Modèle 2 : introduction de probabilités d’alignement
    • Nombre conséquent de paramètres à estimer
    • Modèles complexes et coûteux
  • EGYPT(Al-Onaizan, 1999 ), GIZA++ (Och, 2003)

Journée Atala 1er Décembre 2007

slide8

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Rappel sur les triggers :

  • Triggers classiques intra-langues calculés à partir de l’ Information Mutuelle (Kim et Khudanpur, 2004)

Boris Kasparov is a chess champion

  • Combinaison avec des modèles n-grammes en modélisation du langage

Journée Atala 1er Décembre 2007

slide9

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Les triggers inter-langues :

  • Pour chaque couple de mots (mot_source, mot_cible) et chaque paire k du corpus parallèle, calcul d’une IM partielle :
  • Pour chaque couple de mots (mot_source, mot_cible), calcul d’une IM globale sur toutes les S paires du corpus :

Journée Atala 1er Décembre 2007

slide10

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Les triggers inter-langues :

  • Pour chaque mot source, nous gardons comme triggers inter-langues, lesnmeilleurs mots cibles suivant la valeur de l’IM globale.

Boris Kasparov is a chess champion | Boris Kasparov est un champion d’échecs

Triggers intra-langues

Triggers inter-langues

Journée Atala 1er Décembre 2007

slide11

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Méthode de construction du dictionnaire bilingue :

  • Trigger(ei) : l’ensemble des mots déclenchés par ei
  • Trigger(fj) : l’ensemble des mots déclenchés par fj
  • Si fjЄ Trigger(ei) et si eiЄ Trigger(fj) alors ajout de l’entrée fj : ei dans le dictionnaire
  • A chaque mot sont associées ses p meilleures traductions possibles suivant l’ IM

eiЄ Trigger(fj)

fjЄ Trigger(ei)

fj : ei

Dictionnaire

fj : échecs

Échecs : chess

ei : chess

Journée Atala 1er Décembre 2007

slide12

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Apprentissage :

  • Les données
    • Extrait des actes du Parlement Européen (Koehn, 2005)
    • 598014 paires de phrases Français-Anglais
    • Vocabulaires :
        • 19588 mots anglais les plus fréquents
        • 26811 mots français les plus fréquents
    • ei, fjЄ Vocabulaires, génération des 10 meilleurs triggers anglais et des 10 meilleurs triggers français selon l’ IM

Journée Atala 1er Décembre 2007

slide13

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Exemples de triggers générés :

Triggers inter-langues Ang-Fr

Triggers inter-langues Fr-Ang

Journée Atala 1er Décembre 2007

slide14

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Extraits des dictionnaires bilingues obtenus :

Dictionnaire inter-langues Ang-Fr

Dictionnaire Anglais/Français

Dictionnaire inter-langues Fr-Ang

Dictionnaire Français/Anglais

Journée Atala 1er Décembre 2007

slide15

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Évaluation du dictionnaire Français-Anglais :

  • Comparaison de notre dictionnaire automatique Français-Anglais TrigDic avec deux dictionnaires existants :
    • Un dictionnaire distribué par ELRA de 70832 entrées françaises ( dont 10405 se retrouvent dans notre vocabulaire français)
    • Un dictionnaire du projet XDXF de 41398 entrées (dont 11265 se retrouvent dans notre vocabulaire français)

Journée Atala 1er Décembre 2007

slide16

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Résultats en terme de Rappel :

Nombre de mots français correctement traduits dans TrigDic

Rappel =

Nombre de mots français en commun avec ELRA ou XDXF

  • Pour chaque entrée française de notre dictionnaire automatique:
    • Test A : seule la meilleure traduction possible est prise en compte
    • Test B : ses 5 meilleures traductions possibles sont prises en compte

Journée Atala 1er Décembre 2007

slide17

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Analyse et perspectives :

  • Analyse :
    • Seulement 5 traductions possibles par mot
    • Certaines traductions possibles dans TrigDic sont pertinentes mais n’apparaissent pas dans le dictionnaire ELRA
    • Les traductions proposées par le dictionnaire ELRA ne sont pas toujours très courantes
  • Perspectives :
    • Augmenter le nombre de traductions possibles dans TrigDic
    • Comparer TrigDic à un dictionnaire construit manuellement

Journée Atala 1er Décembre 2007

slide18

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

IMG(f, e1)

 IMG(f, ei)

j=1 …p

Du dictionnaire bilingue à la table de traduction :

  • Dictionnaire TrigDic

 f Є Vocabulaire, f : e1(IMG(f,e1)), … ep(IMG(f,ep))

  • Table de traduction TrigDic

 f Є Vocabulaire, P(e1|f) = , …, P(ep|f) =

IMG(f, ep)

IMG(f, ei)

j=1 …p

Journée Atala 1er Décembre 2007

slide19

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Évaluation de la table de traduction TrigDic :

  • Intégration dans un module de traduction automatique Anglais vers Français

Table de traduction TrigDic

Table de Traduction

Table de traduction générée à l’aide de Giza++

Décodeur

59530 traductions candidates

59530 phrases Anglaises

Pharaoh (Koehn, 2004)

BLEU

Modèle de Langage Français

Modèle trigramme

Journée Atala 1er Décembre 2007

slide20

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Évaluation de la table de traduction TrigDic :

  • Comparaison en terme de score BLEU (Papineni, 2002)
    • Entre les traductions références et les traductions produites par Pharaoh avec la table de traduction TrigDic
    • Entre les traductions références et les traductions produites par Pharaoh avec la table de traduction générée par l’outil Giza++ avec le modèle 2 d’IBM (G)
    • T1: 10 meilleurs triggers Fr-Ang, 10 meilleurs triggers Ang-Fr, 5 meilleures traductions probables pour chaque mot f du Vocabulaire

Journée Atala 1er Décembre 2007

slide21

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Améliorations apportées :

  • T2: 50 meilleurs triggers Fr-Ang, 50 meilleurs triggers Ang-Fr, 10 traductions probables pour chaque mot Français f du vocabulaire
  • T3: T2 + ajout d’une probabilité P(null | f) pour chaque mot Français f du vocabulaire

Journée Atala 1er Décembre 2007

slide22

Le concept de triggers inter-langues

Construction d’un dictionnaire bilingue

Construction d’une table de traduction

Nouvelle approche: les triggers inter-langues

Comparaison TrigDic-Giza++ :

T2

  • Comparaison des tables de traduction pour le mot Français Coopération

Modèle 2 d’IBM

T1

654 traductions probables pour Coopération avec le modèle 2 d’IBM

Journée Atala 1er Décembre 2007

slide23

Conclusion

Conclusion et perspectives

Conclusion :

  • Résultats encourageants
    • Les triggers inter-langues permettent de construire une table de traduction appropriée pour la traduction automatique
    • Résultats en terme de BLEU proches de ceux des méthodes classiquement utilisées
        • Modèles d’IBM : complexes, calculs itératifs longs
        • Triggers inter-langues : simple (une seule itération) et rapide à mettre en œuvre
  • Travaux sur des corpus de sous-titres
    • Meilleures performances que le modèle 3 d’IBM

Journée Atala 1er Décembre 2007

slide24

Conclusion

Conclusion et perspectives

Perspectives :

  • Traduction automatique basée sur les séquences
    • Triggers de séquences (plusieurs mots déclenchent plusieurs mots)
  • Mise en place de triggers de traits
    • Singulier déclenche Singulier
    • Adj-Nom en Anglais déclenche Nom-Adj en Français
    • Will en Anglais déclenche verbe futur en Français
    • Etc …
  • Mise en place d’un décodeur dédié aux triggers (en cours de test)

Journée Atala 1er Décembre 2007