330 likes | 430 Views
Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la RI médicale. Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008. Contexte. Recherche d’information orientée précision
E N D
Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision :application aux graphes pour la RI médicale Présentation de Loïc Maisonnasse Équipe DRIM, laboratoire LIRIS Le 19 septembre 2008
Contexte • Recherche d’information orientée précision • Des besoins experts et ciblés • Des besoins multilingues • Les mots-clés ne suffisent plus Besoin d’expressivité • Modéliser l’expressivité • Comparer les modèles • Choisir le modèle approprié Supports de vocabulaires • "Montre-moi des images d'une pneumonie du lobe médial droit."
Je suis à la recherche des dangers des plombages au mercure chez l’enfant Je suis à la recherche des dangers des plombages au mercure chez l’enfant document Mots clefs Ensemble de mots Relations Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. mercure, danger, amalgame, dentaire, enfant, … {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) … La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. nocivité, mercure, poisson, plombage, dentaire, … {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} (nocivité - mercure) (plombage - mercure) … Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour l’enfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) … Mercury in Fillings Mercury in dental work does not hinder children's development. mercury, filling, hinder, children, ... {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (plombage - mercure) (Mercure - enfant) …
Rendre compte de l’expressivité • L’expressivité • Plusieurs points de vue • L’espace d’expression de chacun de ces points de vue. • Modéliser l’expressivité par des supports de vocabulaires • Plusieurs vocabulaires • Vocabulaire Mots-Clefs Langages complexes Faible Forte Expressivité
Objectifs • Modéliser l’expressivité en recherche d’information • Proposer des modèles à expressivité forte • Modèle de recherche d’information Local • Modèle de recherche d’information Global • Appliquer ces modèles à la recherche d’information ? Pertinence Besoin d’information Corpus de documents Modèle de requête Modèle de document modèle Support de vocabulaires Support de vocabulaires Correspondance Requête Indexation Expressivité
Corpus de documents Corpus de documents Application des modèles à la recherche d’information orienté précision Système orienté précision Modélisation de l’expressivité Cadre de modélisation Instanciation au texte Application au médical Deux Modèles d’expressivité forte Représentation & Correspondance Modèle local Modèle intermédiaire Modèle Représentation intermédiaire Supports de vocabulaires Modèle global Représentation & Correspondance
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
La dimension expressivité en recherche d’information (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) Modèles intégrant la dépendance Informations sémantiques Informations syntaxiques Familles de langages d’indexation en recherche d’information Syntagmes Structure sémantique Structures syntaxiques Concepts Mots-Clefs Faible Forte Expressivité (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) (Vintar et al., 2003) (Aronson et al., 1994)
Bilan • Comparer l’expressivité des modèles est difficile • Quels sont les vocabulaires ? • Quel est leur espace d’expression ? • Comment sont-ils utilisés ? Modéliser l’expressivité • Pour la recherche d’information orientée précision • Plusieurs vocabulaires • Forte expressivité • Graphe de concepts • Difficulté d’extraction Faible Forte Expressivité
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Modélisation de l’expressivité en recherche d’information Cadre de modélisation Deux Modèles d’expressivité forte Modèle local Modèle Supports de vocabulaires Modèle global
Support de vocabulaires Vocabulaire simple C081(poumon) C022(cage thoracique),… Support de vocabulaires Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… V1 V2 V3 vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … SV=(V1, V2, …,Vn) Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… T1 T2 types Support de types Nom de relation localisation, mesure, partie de, touche, … ST=(T1, T2, …,Tn)
Représenter à l’aide d’un support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à l’aide d’un support de vocabulaire
Modèle de recherche d’information basé sur des supports de vocabulaires ? Pertinence Utilisateur Besoin d’information Corpus de documents Support de types ST modèle Support de vocabulaires de requête SVQ Support de vocabulaires de document SVD Modèle de requête Modèle de document Relation de correspondance RC Correspondance Requête Indexation M= (ST, SVQ, SVD, RC)
Deux modèles expressifs C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) )
Récapitulatif:Modélisation de l’expressivité Cadre de modélisation Deux modèles d’expressivité forte Modèle local Supports de vocabulaires de requête Supports de vocabulaires de document RC Modèle Support de types Support de types Supports de vocabulaires de requête Supports de vocabulaires de document Supports de vocabulaires de requête Supports de vocabulaires de document RC RC Modèle global
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Système orienté précision Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire UMLS représentation intermédiaire détection Corpus de documents Modèle global Représentation & Correspondance
Modèle intermédiaire • Ensemble de graphes • Un par phrase • Support de vocabulaire • Concepts • Relations • Utilise deux pondérations • Fréquence • Score de confiance • Défini à l’aide d’UMLS (Unified Medical Language System) • Concepts : méta-thésaurus • Relations : réseau sémantique C081(poumon) | 2 ,0.3 touche |1,0.62 C003(plèvre) |1,0.2 partie de | 1,0.1 partie de|1,0.25 C022(cage thoracique) | 1,0.5
Méthodes de détection de la représentation intermédiaire UMLS • Détection des concepts : 3 méthodes • MapTreeTagger • Analyse morphosyntaxique TreeTagger • Correspondance de termes • MapMiniPar • Analyse morphosyntaxique MiniPar • Correspondance de termes • MetaMap (Aronson, 2001) • Détection des relations • Détection au niveau de la phrase • Calcul d’un score de confiance a posteriori sur MapMiniPar représentation intermédiaire phrase Détection des concepts Détection des relations
Représentation et correspondance Représentation & Correspondance Modèle expressif représentation intermédiaire
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Plan d’expérimentation • Mise en œuvre • Collection CLEF médicale (2005-07) • 85 requêtes • 50 000 documents • Ressources UMLS • 1 million de concepts pour 5 millions de termes • 54 relations sémantiques • Mesures • Précision moyenne • Précision à 5 documents • Expériences • Modèle intermédiaire • Détection des concepts • Modèle local • Méthode MapMiniPar (avec confiance sur les relations) • Modèle global • Avec étiquettes
Modèle intermédiaire :détection des concepts • Détection des concepts MapTreeTagger • Correspondance • Filtrages • Comparaison des méthodes
Modèle local : MapMiniPar avec confiance(relation) • Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) • Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle intermédiaire Modèle local Modèle intermédiaire Modèle local
Modèle Global : avec étiquettes • Précision moyenne Collection CLEF médical 2005 et 2006 • Précision à 5 documents Collection CLEF médical 2005 et 2006
Comparaison des deux modèles • Meilleurs résultats des deux méthodes Collection CLEF médical 2006 • Résultats • Précisions moyennes fortement différentes • Précisions à 5 documents proches • Modèles • Modèle global : adapté à des corpus stables • Modèle local : bons résultats sur les premiers documents
Plan • État de l’art à travers l’expressivité • Modélisation de l’expressivité basée sur les supports de vocabulaires • Cadre de formalisation • Modèle finaux : modèle local et modèle global • Application à la recherche d’information orientée précision • Modèle intermédiaire • Modèle finaux : modèle local et modèle global • Expérimentation • Modèle intermédiaire • Modèle local • Modèle global • Conclusion • Contributions • Perspectives
Contributions • Niveau modélisation • Proposition d’un cadre générique pour la modélisation de l’expressivité • Description de deux modèles expressifs dans ce cadre • Niveau traitement • Méthodes d’extraction de graphe • Score de confiance • Méthode générique en deux étapes • Non supervisé • Résultats • Meilleurs résultats à CLEF 2007 sur la tâche médicale • Montre l’intérêt des modèle à expressivité forte
Étude de Intérêt de l’expressivité • 4 Modèles d’expressivité variable • Cadre de modélisation similaire • Variations du tf.idf et Produits scalaires Structures syntaxiques Mots-Clefs Concepts Graphes Forte Faible Expressivité
Perspectives • Court terme • Détection des graphes • Améliorer la détection des concepts et des relations • Apprentissage ou interactif • Modèle • Autres types de relations • Autres corpus • CLEF 08 • Long terme • Autres domaines • Textes généraux (vecteur conceptuel) • Autres médias • Images, vidéo • Applications • Aide au diagnostic, annotation médicale • Story Link détection, Novelty Détection, opinion
Portée des représentations de documents Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique Explorer les possibilités du support de vocabulaires • Deux modèles Modèle global Modèle local Expressivité