1 / 28

Fouille de textes : Extraction Itérative de la Terminologie

Fouille de textes : Extraction Itérative de la Terminologie. Mathieu ROCHE ( Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003 . Axe « fouille de textes » de l’équipe IA-TAO. Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez

hei
Download Presentation

Fouille de textes : Extraction Itérative de la Terminologie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003

  2. Axe « fouille de textes » de l’équipe IA-TAO Yves Kodratoff Ahmed Amrani Jérôme Azé Thomas Heitz Oriane Matte-Tailliez Mathieu Roche Journée de l'Ecole Doctorale 2003

  3. Plan de l’exposé • Approche globale • EXIT : EXtraction Itérative de la Terminologie • La méthode utilisée • L’évaluation des résultats • Conclusion et perspectives Journée de l'Ecole Doctorale 2003

  4. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Nettoyeur Etiqueteur Corpus brut Corpus nettoyé Corpus étiqueté EXIT Extraction d’informations • découverte de règles d’association • extraction d’information par patrons d’extraction - - - - - - - - - - - - - - - Détection des traces de concepts Termes Traces de concepts Approche globale Journée de l'Ecole Doctorale 2003

  5. Étape 1 : Nettoyage • Description du corpus La question biologique :Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae. MEDLINE - NCBI DNA-binding proteins Yeast  6000 textes (10 Mo) 6000 résumés d’articles = CORPUS Journée de l'Ecole Doctorale 2003

  6. 1: Biochim Biophys Acta 2001 Dec 30;1522(3):175-86 The modulation of the biological activities of mitochondrial histone Abf2p by yeast PKA and its possible role in the regulation of mitochondrial DNA content during glucose repression. Cho JH, Lee YK, Chae CB. Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, 790-784, Pohang, South Korea The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential for the maintenance of mitochondrial DNA (mtDNA) and appears to play an important role in the recombination and copy number determination of mtDNA. PMID: 11779632 [PubMed - in process] Étape 1 : Nettoyage • Nettoyage lié au format du corpus Journée de l'Ecole Doctorale 2003

  7. Étape 1 : Nettoyage • Uniformisation du corpus Règles : Grâce à une liste de près de 2000 alias de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique. Ex : ISE1, LIS1, SED6  ERG6 alias Journée de l'Ecole Doctorale 2003

  8. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ... Étiqueteur de Brill Étape 2 : Étiquetage Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The modulation of the biological activities of mitochondrial histone Abf2-protein ... Journée de l'Ecole Doctorale 2003

  9. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étape 2 : Étiquetage Étiqueteur grammatical Corpus étiqueté Corpus nettoyé ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI). Journée de l'Ecole Doctorale 2003

  10. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - DNA binding TATA binding binding motif transcription factor Liste de termes Corpus étiqueté Étape 3 : EXIT (Extraction Itérative de la Terminologie) • Termes extraits : • Nom-Nom • Adjectif-Nom • Nom-Préposition-Nom • Nom-verbe_gérondif • Formule-Nom Journée de l'Ecole Doctorale 2003

  11. Étape 4 : Détection de traces de concepts TRANSCRIPTION • Exemple de traces de concepts en biologie TRANSCRIPTION REGULATION TRANSCRIPTION INITIATION TRANSCRIPTION- ACTIVATOR-GENE TRANSCRIPTION INITIATION MACHINERY TFIID-complex SAGA-complex MSN4 MSN2 Journée de l'Ecole Doctorale 2003

  12. Étape 4 : Détection de traces de concepts • Exemples d’instances de concepts • (bending:Sujet,influence:Verbe) Bendng • transcription-factor Regulfactor • Caractérisation des traces de concepts dans les textes • utilisation du logiciel de visualisation ROWAN • induction en extension sur les concepts Journée de l'Ecole Doctorale 2003

  13. Étape 5 : Extraction d’informations • Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription :  MSN2 encodes SpécificitéFacteur  MSN4 encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003

  14. Étape 5 : Extraction d’informations • Extraction d'informations par patrons d'extraction Exemple: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Journée de l'Ecole Doctorale 2003

  15. Étape 5 : Extraction d’informations • Extraction de règles d’associations [Kodratoff et al., 2003] (bending:Sujet,influence:Verbe)Bendng DNA-duplex DNAconformatn transcription-factor Regulfactor gal4-binding Regulfactor interaction-with-TFIIB Transcriptn Bendng, DNAconformatn, Regulfactor  Transcriptn Journée de l'Ecole Doctorale 2003

  16. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Nettoyeur Etiqueteur Corpus brut Corpus nettoyé Corpus étiqueté EXIT Extraction d’informations • découverte de Règles d’association • extraction d’informations par patrons d’extraction - - - - - - - - - - - - - - - Détection des traces de concepts Termes Traces de concepts Approche globale Journée de l'Ecole Doctorale 2003

  17. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - EXIT : la méthode utilisée (1/5) Étiqueteur grammatical Corpus étiqueté Corpus nettoyé Extraction des collocations Sélection des “meilleurs” collocations DNA binding TATA binding binding motif transcription factor insertion mutation hydrogen peroxide DNA binding SH2 domain Journée de l'Ecole Doctorale 2003

  18. EXIT : la méthode utilisée (2/5) • Une méthode statistique • Information Mutuelle[Church et Hanks, 1990] Journée de l'Ecole Doctorale 2003

  19. EXIT : la méthode utilisée (3/5) • Une méthode statistique • Rapport de vraisemblance[Dunning, 1993] • RV = a log(a) + b log(b) + c log(c) + d log(d) - (a+b) log(a+b) - (a+c) log(a+c) - (b+d) log(b+d) - (c+d) log(c+d) + (a+b+c+d) log(a+b+c+d) Journée de l'Ecole Doctorale 2003

  20. EXIT : la méthode utilisée (4/5) • Paramètres ajoutés [Roche, 2003] • Privilégier les termes qui apparaissent dans des textes différents. … Journée de l'Ecole Doctorale 2003

  21. EXIT : la méthode utilisée (5/5) • Interface développée en Java par Thomas Heitz Journée de l'Ecole Doctorale 2003

  22. 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … 1. real world 2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes … Termes extraits EXIT : évaluation des résultats (1/5) • La précision Journée de l'Ecole Doctorale 2003

  23. EXIT : évaluation des résultats (2/5) • Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert Journée de l'Ecole Doctorale 2003

  24. EXIT : évaluation des résultats(3/5) • Le rappel Impossible à calculer !! Journée de l'Ecole Doctorale 2003

  25. EXIT : évaluation des résultats(4/5) • Comparaison de mesures [Roche et al., 2003] Journée de l'Ecole Doctorale 2003

  26. EXIT : évaluation des résultats(5/5) • Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance Journée de l'Ecole Doctorale 2003

  27. Conclusion et perspectives • Expérimenter les mesures d’induction mises en place • Étudier les textes entiers. Journée de l'Ecole Doctorale 2003

  28. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Nettoyeur Etiqueteur Corpus brut Corpus nettoyé Corpus étiqueté EXIT Extraction d’informations • découverte de règles d’association • extraction d’information par patrons d’extraction - - - - - - - - - - - - - - - Détection des traces de concepts Termes Traces de concepts Approche globale Journée de l'Ecole Doctorale 2003

More Related