1 / 25

Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI

EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés. Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI. Plan de l’exposé. É tat de l’art de différents systèmes Présentation du processus global

Download Presentation

Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche, Thomas Heitz, Oriane Matte-Tailliez, Yves Kodratoff LRI – Université Paris XI JADT'04 - Mars 2004, Belgique

  2. Plan de l’exposé • État de l’art de différents systèmes • Présentation du processus global • Les paramètres d’EXIT (EXtraction Itérative de la Terminologie) • Généralité sur les paramètres • Description de mesures statistiques • Évaluation des mesures • Conclusions et Perspectives JADT'04 - Mars 2004, Belgique

  3. État de l’Art de différents systèmes • Trois types de méthodes • Méthodes linguistiques : LEXTER, ANA, FASTR, etc. • Méthodes statistiques : Xtract, etc. • Méthodes mixtes : ACABIT, EXIT, etc. JADT'04 - Mars 2004, Belgique

  4. Exemples : + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Termes nominaux Termes Nom-Prép-Nom avec l’information mutuelle + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 1. beurre de karité (3) 2. jéjunum de rat (3) 3. puy en velay (3) 4. chalon sur saône (4) … -------------------------------------------------------- -------------------------------------------------------- Corpus brut Termes Nom-Prép-Nom avec le rapport de vraisemblance 1. mise en place (111) 2. traitement de texte (57) 3. assistante de direction (60) 4. hôtesse de caisse (28) … Termes variants Termes variants + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Termes verbaux Collocations verbales -------------------------------------------------------- + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Corpus nettoyé Collocations nominales Processus global en terminologie Corpus étiqueté avec ETIQ [Amrani et al., 04] JADT'04 - Mars 2004, Belgique

  5. Les paramètres d’EXIT • Élagage. • Privilégier les termes qui apparaissent dans des textes différents. • Règles lexicales pour valider ou rejeter des termes semi automatiquement. • Choix des mesures. JADT'04 - Mars 2004, Belgique

  6. Les mesures (1/2) • Information Mutuelle [Church et Hanks, 90] JADT'04 - Mars 2004, Belgique

  7. Les mesures (2/2) • Rapport de Vraisemblance [Dunning, 93] RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) D’autres mesures : information mutuelle au cube, mesure d’association, coefficient de Dice et mesures du domaine de l’extraction des règles d’association [Roche et al., 03] JADT'04 - Mars 2004, Belgique

  8. Évaluation des mesures (1/5) La précision 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Collocations extraites - Utilisation des courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de collocations proposées à l’expert. JADT'04 - Mars 2004, Belgique

  9. Évaluation des mesures (2/5) Le rappel Impossible à calculer ! JADT'04 - Mars 2004, Belgique

  10. Évaluation des mesures (3/5) Les corpus • Corpus de Ressources Humaines (société PerformanSe) - 3784 Ko (en français) • Corpus de CV (Groupe VediorBis) – 2470 Ko (en français) • Corpus d’introductions d’articles sur la Fouille de Données – 369 Ko (en anglais) • Corpus de résumés d’articles sur la Biologie Moléculaire – 9424 Ko (en anglais) JADT'04 - Mars 2004, Belgique

  11. Évaluation des mesures (4/5) L’expertise des termes • Corpus de Fouille de Données, de CV, de Ressources Humaines : termes pertinents qui sont des traces de concepts (resp. 642, 412 et 2960 termes sur les corpus de Fouille de Données, de CV et des Ressources Humaines). • Corpus de Biologie Moléculaire : termes pertinents et non valides(7057 termes). JADT'04 - Mars 2004, Belgique

  12. Évaluation des mesures (5/5) Courbe d’élévation (Relation Adjectif-Nom) JADT'04 - Mars 2004, Belgique

  13. L’interface graphique JADT'04 - Mars 2004, Belgique

  14. Conclusions • Le rapport de vraisemblance donne de meilleurs résultats pour notre tâche. • Impossible de calculer le rappel. JADT'04 - Mars 2004, Belgique

  15. Perspectives • Solution proposée : calculer le rappel sur un sous-ensemble des corpus. • Déterminer une combinaison de mesures statistiques pour classer les termes. JADT'04 - Mars 2004, Belgique

  16. ANNEXE JADT'04 - Mars 2004, Belgique

  17. Quelques mesures (1/4) • Information Mutuelle [Church et Hanks, 90] • Information Mutuelle au Cube [Daille, 94] JADT'04 - Mars 2004, Belgique

  18. Quelques mesures (2/4) • Mesure d’Association [Jacquemin, 97] : • isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences. JADT'04 - Mars 2004, Belgique

  19. Quelques mesures (3/4) • Coefficient de Dice [Smadja, 96] JADT'04 - Mars 2004, Belgique

  20. Exemples : emploi solidarité action communication fichier client service achat … Expérimentations : corpus de Fouille de Données, de CV et des Ressources Humaines • Elagage à 3 JADT'04 - Mars 2004, Belgique

  21. Expérimentations : corpus des Ressources Humaines (relation Nom-Adjectif) • Courbes d’élévation avec cinq mesures. JADT'04 - Mars 2004, Belgique

  22. Expérimentations : corpus de Biologie Moléculaire • Elagage à 4 JADT'04 - Mars 2004, Belgique

  23. Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Précision avec cinq mesures. JADT'04 - Mars 2004, Belgique

  24. Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Courbes d’élévation avec cinq mesures. JADT'04 - Mars 2004, Belgique

  25. Expérimentations : corpus de Biologie Moléculaire (relation Nom-Nom) • Classement selon le nombre d’occurrences + une mesure statistique pour les collocations ayant le même nombre d’occurrences. JADT'04 - Mars 2004, Belgique

More Related