1 / 19

Extraction de terminologie bilingue Méthodes et Applications

Extraction de terminologie bilingue Méthodes et Applications. Éric Gaussier Eric.Gaussier@xrce.xerox.com. Plan de la présentation. Extraction de lexiques bilingues de corpus parallèles De l’alignement de mots (problématique et méthodes) À l’alignement de termes Deux classes d’applications

duaa
Download Presentation

Extraction de terminologie bilingue Méthodes et Applications

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extraction de terminologie bilingueMéthodes et Applications Éric Gaussier Eric.Gaussier@xrce.xerox.com

  2. Plan de la présentation • Extraction de lexiques bilingues de corpus parallèles • De l’alignement de mots (problématique et méthodes) • À l’alignement de termes • Deux classes d’applications • Aide à la traduction automatique • Recherche d’information multilingue

  3. … Du corpus parallèle à l’alignement de mots

  4. Exemple Section 1.4 introduces the status of existing satellite communications systems. Le 1.4 expose l’état des systèmes de télécommunications par satellite. --- Examples of link budget calculations are given in annex II. Des exemples de calcul de bilan de liaison sont donnés dans l’annexe II. … Section 1.4introduces the status of existing satellitecommunicationssystems.  Le 1.4expose l’état des systèmes de télécommunications par satellite.

  5. Bref historique des travaux en extraction de lexiques bilingues • Au niveau du corpus • Comparaison des distributions des mots sur l’ensemble des phrases alignées • Kay & Röscheisen, 1988; Brown et al., 1988; Church & Gale, 1991; • Au niveau des phrases • Affinement des paramètres avec ajout de contraintes et recherche du meilleur alignement entre mots (filtrage des associations indirectes) • Brown et al., 1993; Vögel et al., 1996; • Dagan et al., 1993; Melamed, 1997; Hiemstra, 1997; Gaussier, 1998;

  6. Principes généraux de l’extraction bilingue • Méthode intuitive (Dagan, Church & Gale) • Extraction de lexiques bilingues pondérés au niveau du corpus • Programmation dynamique pour l’alignement, de type 1-1 • Estimation initiale (?), alignements complexes (?) • Alignements – variables cachées (Brown) • Utilisation de l’algorithme EM sur des modèles de complexité croissante • Taille du corpus d’apprentissage (?), sens privilégié (?), complexité (?) • Méthodes mixtes (Melamed, Hiemstra, Gaussier) • E-step: meilleur alignement (ou approximation) • IPFP – approximation (?), alignements complexes (?), positions relatives (?) • Graphes bipartis – alignements complexes (?), positions relatives (?) • Flots et réseaux – positions relatives (?)

  7. 1 1 1 1 1 [0;1] [0;1] [0;1] 1 1 1 1 1 1 Flots et réseaux: présentation intuitive The first geostationary satellite was launched in 1963. Le premier satellite géostationnaire fut lancé en 1963.

  8. Flots et réseaux: concepts • Soit G=(N,A) un graphe connexe orienté • un flot  dans G satisfait:  (i+) =  (i-) • si l’on munit les arcs de G d’intervalles de capacité [bu;cu],  est compatible si bu u  cu • si de plus l’on munit les arcs de G d’un coût u, un flot de coût minimal est un flot compatible pour lequel  x  est minimal ( x  = uu x u) • En choisissant : u = - ln(p(ei,fi)), le flot decoût minimal correspond au meilleur alignement (le plus probable) • Remarque : avec des bornes de capacité entières, le flot sur chaque arc est un entier

  9. Algorithme général • Initialisation des paramètres (coûts) • Pour chaque couple de phrases, calcul du flot de coût minimum (meilleur alignement), et mise à jour des comptes correspondants • Normalisation des comptes (probabilités) • Retour en 2 jusqu’à satisfaction d’une condition d’arrêt (vraisemblance stable)

  10. Paramètres généraux • Probabilités d’association • Associations directes entre mots • Positions absolues, informations morpho-syntaxiques • Associations dépendent de la position et/ou des parties du discours des mots en correspondance • Associations dérivées de ressources existantes • Dictionnaires, thésaurus, ontologies • Alignements complexes (n-p) / “fertilité” des mots • Intervalles de capacité sur les flots entrant et sortant • Intervalles plus larges sur les connexions interlangues • Pas de positions relatives

  11. Extraction de terminologie bilingue • Méthode analyse-analyse (Kupiec, 93; Gaussier, 95) • Extraction des termes dans chacune des langues puis alignement • Unités extraites diffèrent (grammaires monolingues différentes) • Méthode analyse-analyse étendue (Debili & Zribi, 96;  Hull, 98) • Alignement des mots, puis utilisation de dépendances syntaxiques Qualité de l’alignement de mots (Debili & Zribi), pb. ci-dessus (Hull) • Méthode analyse-aligne (Gaussier, 98) • Extraction des termes dans une langue, alignement avec des séquences de l’autre langue • Peu adaptée à des unités libres • Méthode analyse parallèle (Wu, 97) • Construction d’une analyse grammaticale bilingue des phrases • Moins robuste car plus ambitieuse

  12. Terminologie informatique – généralités • Caractérisation morpho-syntaxique (étiquetage, lemmatisation) • Hypothèse de contiguïté des termes • Complexité dépend de la langue : de l’anglais vers le français • Termes anglais • Deux patrons de base : N N, Adj N • Quatre opérations de composition Juxtaposition satellite propagation delay Subsitution digital circuit multiplication Modification adjectivale ou adverbiale nearly circular polarization Coordination time or frequency division

  13. [1;3] [1;4] 2 A 2 3 [0;2] [0;2] … … 1 B C D [0;1] [0;1] [1;3] [1;3] [1;3] [1;3] Modèle, conflits et alignements désambiguïsés … bandwidth used in [FSS telecommunications]… … largeur de bande utilisée dans les télécommunications SFS …

  14. Expérience : méthodologie • Test sur un corpus bilingue de 1000 phrases • Étiquetage, lemmatisation en anglais et français, repérage des candidats termes anglais • Initialisation des paramètres • Pour chaque couple de phrases, désambiguïsation des alignements • Extraction et “figement” des 100 meilleures associations • Retour en 2

  15. Résultats

  16. Exemples new satellite system nouveau système de satellite système de satellite nouveau système de satellite entièrement nouveau free-space attenuation affaiblissament en espace libre wavelength longueur d’onde offer proposer, offrir satellite system transmission plan système de transmission par satellite devant

  17. Applications – aide à la traduction • Constitution de bases terminologiques multilingues • Utilisation dans les systèmes de mémoire de traduction • Appariement de la phrase à traduire avec les phrasees traduites stockées • Dans le cas d’un appariement non exact, travail de correction • Exploitation plus fine des terminologies bilingues dans la mémoire, termes alignés deviennent des variables appariement opère sur les suqelettes obtenus les variables sont remplacés par les termes adéquats Proceed with customization. Passez à l’étape de personnalisation. Proceed with T1. Passez à l’étape de Tt1. Proceed with installation checking. Passez à l’étape de vérification de l’installation.

  18. Applications – recherche d’information multilingue • Terminologies bilingues pour la traduction des requêtes • Adaptées au corpus (corpus comparables) • “When Better is Worse” (Brown, 1998) • Utilisation directe de corpus parallèles T1 T2 Tp T’1 T’n 0 1 … 0 D1 D2 1 0 … 1 sim(Aq,Bd) q: langue source d: langue cible … … Dp 1 1 … 1 A B

  19. Conclusions • Alignement de mots et de termes dans des corpus parallèles • Degré de maturité, performances raisonables • Aide à la traduction automatique (précision primordiale) • Recherche d’information multilingue (rappel) • Extraction de lexiques bilingues de corpus comparables • Recherche en développement

More Related