1 / 33

Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008

Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la RI médicale. Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008. Contexte. Recherche d’information orientée précision

Download Presentation

Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision :application aux graphes pour la RI médicale Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008

  2. Contexte • Recherche d’information orientée précision • Des besoins experts et ciblés • Des besoins multilingues • Les mots-clés ne suffisent plus  Besoin d’expressivité • Modéliser l’expressivité • Comparer les modèles • Choisir le modèle approprié Supports de vocabulaires • "Montre-moi des images d'une pneumonie du lobe médial droit." 

  3. Je suis à la recherche des dangers des plombages au mercure chez l’enfant Je suis à la recherche des dangers des plombages au mercure chez l’enfant document Mots clefs Ensemble de mots Relations Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. mercure, danger, amalgame, dentaire, enfant, … {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) …       La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. nocivité, mercure, poisson, plombage, dentaire, … {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} (nocivité - mercure) (plombage - mercure) …     Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour l’enfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) …     Mercury in Fillings Mercury in dental work does not hinder children's development. mercury, filling, hinder, children, ... {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (plombage - mercure) (Mercure - enfant) …    

  4. Rendre compte de l’expressivité • L’expressivité • Plusieurs points de vue • L’espace d’expression de chacun de ces points de vue. • Modéliser l’expressivité par des supports de vocabulaires • Plusieurs vocabulaires • Vocabulaire Mots-Clefs Langages complexes Faible Forte Expressivité

  5. Objectifs • Modéliser l’expressivité en recherche d’information • Proposer des modèles à expressivité forte • Modèle de recherche d’information Local • Modèle de recherche d’information Global • Appliquer ces modèles à la recherche d’information ? Pertinence Besoin d’information Corpus de documents Modèle de requête Modèle de document modèle Support de vocabulaires Support de vocabulaires Correspondance Requête Indexation Expressivité

  6. Corpus de documents Corpus de documents Application des modèles à la recherche d’information orienté précision Système orienté précision Modélisation de l’expressivité Cadre de modélisation Instanciation au texte Application au médical Deux Modèles d’expressivité forte Représentation & Correspondance Modèle local Modèle intermédiaire Modèle Représentation intermédiaire Supports de vocabulaires Modèle global Représentation & Correspondance

  7. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  8. La dimension expressivité en recherche d’information (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) Modèles intégrant la dépendance Informations sémantiques Informations syntaxiques Familles de langages d’indexation en recherche d’information Syntagmes Structure sémantique Structures syntaxiques Concepts Mots-Clefs Faible Forte Expressivité (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) (Vintar et al., 2003) (Aronson et al., 1994)

  9. Bilan • Comparer l’expressivité des modèles est difficile • Quels sont les vocabulaires ? • Quel est leur espace d’expression ? • Comment sont-ils utilisés ?  Modéliser l’expressivité • Pour la recherche d’information orientée précision • Plusieurs vocabulaires • Forte expressivité • Graphe de concepts • Difficulté d’extraction Faible Forte Expressivité

  10. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  11. Modélisation de l’expressivité en recherche d’information Cadre de modélisation Deux Modèles d’expressivité forte Modèle local Modèle Supports de vocabulaires Modèle global

  12. Support de vocabulaires Vocabulaire simple C081(poumon) C022(cage thoracique),… Support de vocabulaires Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… V1 V2 V3 vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … SV=(V1, V2, …,Vn) Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… T1 T2 types Support de types Nom de relation localisation, mesure, partie de, touche, … ST=(T1, T2, …,Tn)

  13. Représenter à l’aide d’un support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à l’aide d’un support de vocabulaire

  14. Modèle de recherche d’information basé sur des supports de vocabulaires ? Pertinence Utilisateur Besoin d’information Corpus de documents Support de types ST modèle Support de vocabulaires de requête SVQ Support de vocabulaires de document SVD Modèle de requête Modèle de document Relation de correspondance RC Correspondance Requête Indexation M= (ST, SVQ, SVD, RC)

  15. Deux modèles expressifs C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) )

  16. Récapitulatif:Modélisation de l’expressivité Cadre de modélisation Deux modèles d’expressivité forte Modèle local Supports de vocabulaires de requête Supports de vocabulaires de document RC Modèle Support de types Support de types Supports de vocabulaires de requête Supports de vocabulaires de document Supports de vocabulaires de requête Supports de vocabulaires de document RC RC Modèle global

  17. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  18. Système orienté précision Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire UMLS représentation intermédiaire détection Corpus de documents Modèle global Représentation & Correspondance

  19. Modèle intermédiaire • Ensemble de graphes • Un par phrase • Support de vocabulaire • Concepts • Relations • Utilise deux pondérations • Fréquence • Score de confiance • Défini à l’aide d’UMLS (Unified Medical Language System) • Concepts : méta-thésaurus • Relations : réseau sémantique C081(poumon) | 2 ,0.3 touche |1,0.62 C003(plèvre) |1,0.2 partie de | 1,0.1 partie de|1,0.25 C022(cage thoracique) | 1,0.5

  20. Méthodes de détection de la représentation intermédiaire UMLS • Détection des concepts : 3 méthodes • MapTreeTagger • Analyse morphosyntaxique TreeTagger • Correspondance de termes • MapMiniPar • Analyse morphosyntaxique MiniPar • Correspondance de termes • MetaMap (Aronson, 2001) • Détection des relations • Détection au niveau de la phrase • Calcul d’un score de confiance a posteriori sur MapMiniPar représentation intermédiaire phrase Détection des concepts Détection des relations

  21. Représentation et correspondance Représentation & Correspondance Modèle expressif représentation intermédiaire

  22. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  23. Plan d’expérimentation • Mise en œuvre • Collection CLEF médicale (2005-07) • 85 requêtes • 50 000 documents • Ressources UMLS • 1 million de concepts pour 5 millions de termes • 54 relations sémantiques • Mesures • Précision moyenne • Précision à 5 documents • Expériences • Modèle intermédiaire • Détection des concepts • Modèle local • Méthode MapMiniPar (avec confiance sur les relations) • Modèle global • Avec étiquettes

  24. Modèle intermédiaire :détection des concepts • Détection des concepts MapTreeTagger • Correspondance • Filtrages • Comparaison des méthodes

  25. Modèle local : MapMiniPar avec confiance(relation) • Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) • Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle intermédiaire Modèle local Modèle intermédiaire Modèle local

  26. Modèle Global : avec étiquettes • Précision moyenne Collection CLEF médical 2005 et 2006 • Précision à 5 documents Collection CLEF médical 2005 et 2006

  27. Comparaison des deux modèles • Meilleurs résultats des deux méthodes Collection CLEF médical 2006 • Résultats • Précisions moyennes fortement différentes • Précisions à 5 documents proches • Modèles • Modèle global : adapté à des corpus stables • Modèle local : bons résultats sur les premiers documents

  28. Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives

  29. Contributions • Niveau modélisation • Proposition d’un cadre générique pour la modélisation de l’expressivité • Description de deux modèles expressifs dans ce cadre • Niveau traitement • Méthodes d’extraction de graphe • Score de confiance • Méthode générique en deux étapes • Non supervisé • Résultats • Meilleurs résultats à CLEF 2007 sur la tâche médicale • Montre l’intérêt des modèle à expressivité forte

  30. Étude de Intérêt de l’expressivité • 4 Modèles d’expressivité variable • Cadre de modélisation similaire • Variations du tf.idf et Produits scalaires Structures syntaxiques Mots-Clefs Concepts Graphes Forte Faible Expressivité

  31. Perspectives • Court terme • Détection des graphes • Améliorer la détection des concepts et des relations • Apprentissage ou interactif • Modèle • Autres types de relations • Autres corpus • CLEF 08 • Long terme • Autres domaines • Textes généraux (vecteur conceptuel) • Autres médias • Images, vidéo • Applications • Aide au diagnostic, annotation médicale • Story Link détection, Novelty Détection, opinion

  32. MERCI

  33. Portée des représentations de documents Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique Explorer les possibilités du support de vocabulaires • Deux modèles Modèle global Modèle local Expressivité

More Related