confection de ressources dictionnairiques et textuelles multilingues
Download
Skip this Video
Download Presentation
Confection de ressources dictionnairiques et textuelles multilingues

Loading in 2 Seconds...

play fullscreen
1 / 17

Confection de ressources dictionnairiques et textuelles multilingues - PowerPoint PPT Presentation


  • 70 Views
  • Uploaded on

TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue. Projet Technolangue EurADiC . Confection de ressources dictionnairiques et textuelles multilingues.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Confection de ressources dictionnairiques et textuelles multilingues' - cheyenne


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
confection de ressources dictionnairiques et textuelles multilingues
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Projet

Technolangue

EurADiC 

Confection de ressources dictionnairiques et textuelles multilingues
confection de ressources dictionnairiques et textuelles multilingues1
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Réalisation de dictionnaires monolingues de formes pour les langues : français, anglais, allemand, espagnol et italien

Forme, partie du discours, genre, nombre, temps, mode, personne, lemme correspondant

Permet de réaliser une analyse morphologique très simple.

Réalisation de dictionnaires bilingues bidirectionnels entre le français et l’anglais, l’allemand, l’espagnol et l’italien

Les mots simples français de chaque dictionnaire bilingue sont des lemmes du dictionnaire français monolingue

Confection de ressources dictionnairiques et textuelles multilingues
confection de ressources dictionnairiques et textuelles multilingues2
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Bonne couverture des dictionnaires monolingues

FR : 112 235 lemmes EN : 171 722 lemmes

DE : 157 807 lemmes SP : 75 040 lemmes

IT : 45 955 lemmes

Dictionnaires bilingues :

FR-EN : 243 539 liens FR-DE : 170 967 liens

FR-SP : 102 941 liens FR-IT : 119 047 liens

FR-AR : 125 000 liens

Confection de ressources dictionnairiques et textuelles multilingues
confection de ressources dictionnairiques et textuelles multilingues3
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

On disposait au départ de dictionnaires ayant une couverture insuffisante en particulier pour l’espagnol.

On a procédé par fusions successives de dictionnaires provenant de différentes sources

On est en général parti de dictionnaires bilingues pour faire des dictionnaires monolingues (sauf pour le français) et ainsi assurer une certaine homogénéité.

De telles fusions ne sont pas évidentes en particulier du fait que certains dictionnaires sont au départ destinés à un usage humain

De plus le codage des termes n’est pas homogènes

Confection de ressources dictionnairiques et textuelles multilingues
confection de ressources dictionnairiques et textuelles multilingues4
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Problème de codage des parties du discours (NP ou non)

Fautes de frappes (nombreuses malgré la qualité des rédacteurs) d’où un contrôle (vérification qu’un mot français d’un dictionnaire bilingue est bien dans le monolingue français)

Écriture de gentilé (Français ou français)

Problèmes pour les noms d’espèces (avec ou sans majuscule, au singulier ou au pluriel) (Abiétacée – Abiétacées – abiétacée -

Abiétacées)

Confection de ressources dictionnairiques et textuelles multilingues
confection de ressources dictionnairiques et textuelles multilingues5
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Pour les mots que l’on utilise souvent ou toujours au pluriel, comment les code-t-on ?

Comment écrire les sigles (avec points ou sans) et les mots composés avec ou sans tirets (électroencéphalogramme ou électro-encéphalogramme)

Il a fallu souvent ajouter le genre des nom propres

Certains mots trouvés dans des dictionnaires bilingues sont rares, il a fallu vérifier sur le web leur existence, leur genre pour les noms, leur transitivité pour les verbes

Confection de ressources dictionnairiques et textuelles multilingues
confection de ressources dictionnairiques et textuelles multilingues6
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

A cela il faut ajouter les difficultés de traitement de la définition en cas de dictionnaires destinés à l’humain : séparateurs ambigus (virgule séparateur de traduction ou interne à la traduction, utilisation de « ou » pour ne pas répéter une partie

Mots composés en allemand dont la partie commune n’est pas répétée

Traductions qui sont des définitions

Confection de ressources dictionnairiques et textuelles multilingues
annotation interactive de corpus arabes
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Traitement de l’arabe

Analyse morphologique de l’arabe

Annotation interactive des étiquettes grammaticales, des lemmes, et des vocalisations

Analyse automatique vs Analyse interactive : De l’évaluation des procédures d’annotation interactive à leur impact sur la définition des algorithmes d’étiquetage, de lemmatisation, de voyellation

Extraction et visualisation d’occurrences lemmatiques, grammaticales, ou vocaliques en contexte : Sibawayh

Vers une représentation unifiée Corpus Lexique Grammaire

Annotation interactive de corpus arabes
annotation interactive de corpus arabes1
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Voyeller manuellement un mot arabe non ou partiellement voyellé équivaut, en nombre de frappes au clavier, à le ressaisir entièrement voyellé.

Annotation interactive de corpus arabes
annotation interactive de corpus arabes2
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Analyse automatique vs Analyse interactive

L’analyse interactive utilise les résultats de l’analyse automatique

La séquentialité des opérations d’étiquetage, lemmatisation, et voyellation, permettant de conduire aux meilleurs résultats n’est pas la même.

Les performances de l’annotation automatique et de l’annotation interactive ne se mesurent pas de la même façon

Faisant intervenir l’action manuelle, les performances de l’annotation interactive se mesurent en fait au nombre de ces interventions et aux coûts qu’elles engendrent exprimés en nombre de manipulations (frappes au clavier, clics de souris, pointages sur un écran tactile, etc.).

Un système d’annotation est d’autant plus performant sous l’angle interactif que le nombre de manipulations imposées à l’annotateur pour accomplir une tâche donnée est petit.

Annotation interactive de corpus arabes
annotation interactive de corpus arabes4
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Traitements automatiquesTraitements interactifs

Etiquette Lemme Voyellation 

Lemme Voyellation Etiquette Voyellation Etiquette Lemme

Voyellation Lemme Voyellation Etiquette Lemme Etiquette

Annotation interactive de corpus arabes
annotation interactive de corpus arabes5
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Extraction et visualisation d’occurrences

lemmatiques

grammaticales

vocaliques

en contexte : le logiciel Sibawayh

Annotation interactive de corpus arabes
annotation interactive de corpus arabes8
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Corpus annoté arabe

85 textes arabes du Monde diplomatique ont été manuellement voyellés, lemmatisés, étiquetés.

Annotation interactive de corpus arabes
annotation interactive de corpus arabes9
TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR

Atelier Technolangue

Corpus parallèle françaisarabe

42 paires de textes français arabes du Monde diplomatique ont été manuellement appariés au niveau de la phrase.

Annotation interactive de corpus arabes
ad