1 / 17

Confection de ressources dictionnairiques et textuelles multilingues

TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue. Projet Technolangue EurADiC . Confection de ressources dictionnairiques et textuelles multilingues.

cheyenne
Download Presentation

Confection de ressources dictionnairiques et textuelles multilingues

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Projet Technolangue EurADiC  Confection de ressources dictionnairiques et textuelles multilingues

  2. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Réalisation de dictionnaires monolingues de formes pour les langues : français, anglais, allemand, espagnol et italien Forme, partie du discours, genre, nombre, temps, mode, personne, lemme correspondant Permet de réaliser une analyse morphologique très simple. Réalisation de dictionnaires bilingues bidirectionnels entre le français et l’anglais, l’allemand, l’espagnol et l’italien Les mots simples français de chaque dictionnaire bilingue sont des lemmes du dictionnaire français monolingue Confection de ressources dictionnairiques et textuelles multilingues

  3. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Bonne couverture des dictionnaires monolingues FR : 112 235 lemmes EN : 171 722 lemmes DE : 157 807 lemmes SP : 75 040 lemmes IT : 45 955 lemmes Dictionnaires bilingues : FR-EN : 243 539 liens FR-DE : 170 967 liens FR-SP : 102 941 liens FR-IT : 119 047 liens FR-AR : 125 000 liens Confection de ressources dictionnairiques et textuelles multilingues

  4. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue On disposait au départ de dictionnaires ayant une couverture insuffisante en particulier pour l’espagnol. On a procédé par fusions successives de dictionnaires provenant de différentes sources On est en général parti de dictionnaires bilingues pour faire des dictionnaires monolingues (sauf pour le français) et ainsi assurer une certaine homogénéité. De telles fusions ne sont pas évidentes en particulier du fait que certains dictionnaires sont au départ destinés à un usage humain De plus le codage des termes n’est pas homogènes Confection de ressources dictionnairiques et textuelles multilingues

  5. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Problème de codage des parties du discours (NP ou non) Fautes de frappes (nombreuses malgré la qualité des rédacteurs) d’où un contrôle (vérification qu’un mot français d’un dictionnaire bilingue est bien dans le monolingue français) Écriture de gentilé (Français ou français) Problèmes pour les noms d’espèces (avec ou sans majuscule, au singulier ou au pluriel) (Abiétacée – Abiétacées – abiétacée - Abiétacées) Confection de ressources dictionnairiques et textuelles multilingues

  6. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Pour les mots que l’on utilise souvent ou toujours au pluriel, comment les code-t-on ? Comment écrire les sigles (avec points ou sans) et les mots composés avec ou sans tirets (électroencéphalogramme ou électro-encéphalogramme) Il a fallu souvent ajouter le genre des nom propres Certains mots trouvés dans des dictionnaires bilingues sont rares, il a fallu vérifier sur le web leur existence, leur genre pour les noms, leur transitivité pour les verbes Confection de ressources dictionnairiques et textuelles multilingues

  7. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue A cela il faut ajouter les difficultés de traitement de la définition en cas de dictionnaires destinés à l’humain : séparateurs ambigus (virgule séparateur de traduction ou interne à la traduction, utilisation de « ou » pour ne pas répéter une partie Mots composés en allemand dont la partie commune n’est pas répétée Traductions qui sont des définitions Confection de ressources dictionnairiques et textuelles multilingues

  8. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Traitement de l’arabe Analyse morphologique de l’arabe Annotation interactive des étiquettes grammaticales, des lemmes, et des vocalisations Analyse automatique vs Analyse interactive : De l’évaluation des procédures d’annotation interactive à leur impact sur la définition des algorithmes d’étiquetage, de lemmatisation, de voyellation Extraction et visualisation d’occurrences lemmatiques, grammaticales, ou vocaliques en contexte : Sibawayh Vers une représentation unifiée Corpus Lexique Grammaire Annotation interactive de corpus arabes

  9. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Voyeller manuellement un mot arabe non ou partiellement voyellé équivaut, en nombre de frappes au clavier, à le ressaisir entièrement voyellé. Annotation interactive de corpus arabes

  10. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Analyse automatique vs Analyse interactive L’analyse interactive utilise les résultats de l’analyse automatique La séquentialité des opérations d’étiquetage, lemmatisation, et voyellation, permettant de conduire aux meilleurs résultats n’est pas la même. Les performances de l’annotation automatique et de l’annotation interactive ne se mesurent pas de la même façon Faisant intervenir l’action manuelle, les performances de l’annotation interactive se mesurent en fait au nombre de ces interventions et aux coûts qu’elles engendrent exprimés en nombre de manipulations (frappes au clavier, clics de souris, pointages sur un écran tactile, etc.). Un système d’annotation est d’autant plus performant sous l’angle interactif que le nombre de manipulations imposées à l’annotateur pour accomplir une tâche donnée est petit. Annotation interactive de corpus arabes

  11. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Annotation interactive de corpus arabes

  12. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue ● Traitements automatiquesTraitements interactifs Etiquette Lemme Voyellation  Lemme Voyellation Etiquette Voyellation Etiquette Lemme Voyellation Lemme Voyellation Etiquette Lemme Etiquette Annotation interactive de corpus arabes

  13. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Extraction et visualisation d’occurrences lemmatiques grammaticales vocaliques en contexte : le logiciel Sibawayh Annotation interactive de corpus arabes

  14. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Annotation interactive de corpus arabes

  15. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Annotation interactive de corpus arabes

  16. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Corpus annoté arabe 85 textes arabes du Monde diplomatique ont été manuellement voyellés, lemmatisés, étiquetés. Annotation interactive de corpus arabes

  17. TALN’2006, Leuven, 10-13 avril 2006 Fathi DEBILI Christian FLUHR Atelier Technolangue Corpus parallèle françaisarabe 42 paires de textes français arabes du Monde diplomatique ont été manuellement appariés au niveau de la phrase. Annotation interactive de corpus arabes

More Related