Participation de l irit ic3 geonto l.jpg
This presentation is the property of its rightful owner.
Sponsored Links
1 / 33

Participation de l’IRIT – IC3 à GEONTO PowerPoint PPT Presentation


  • 87 Views
  • Uploaded on
  • Presentation posted in: General

Participation de l’IRIT – IC3 à GEONTO. Nathalie Aussenac-GillesCR IRIT – CNRS Ollivier HaemmerléPR IRIT - UTM Mouna KamelMCIRIT – Univ. Perpignan. Plan. Présentation de l’IRIT et de l’équipe IC3 Compétences de l’IRIT en extraction de relations L’approche par patrons

Download Presentation

Participation de l’IRIT – IC3 à GEONTO

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Participation de l irit ic3 geonto l.jpg

Participation de l’IRIT – IC3 à GEONTO

Nathalie Aussenac-GillesCR IRIT – CNRS

Ollivier HaemmerléPR IRIT - UTM

Mouna KamelMCIRIT – Univ. Perpignan

IRIT-IC3 M. Kamel, O. Haemmerlé


Slide2 l.jpg

Plan

  • Présentation de l’IRIT et de l’équipe IC3

  • Compétences de l’IRIT en extraction de relations

    • L’approche par patrons

    • 2 outils pour extraire des relations par patrons

      • Caméléon

      • Gate

    • Elargissement à l’extraction de relations distribuées sur plusieurs phrases

    • Extraction de relations à partir de tableaux

  • Notre rôle dans le projet

    • Contribution aux lots

    • Innovations et élargissements prévus dans Géonto

IRIT-IC3 M. Kamel, O. Haemmerlé


Slide3 l.jpg

Institut de Recherche

en Informatique de Toulouse

IRIT-IC3 M. Kamel, O. Haemmerlé


Les 7 th mes de recherche de l irit 20 quipes l.jpg

Les 7 thèmes de recherche de l’IRIT(20 équipes)

  • Analyse et synthèse de l’information (4)

  • Indexation et recherche d’informations (2)

  • Interaction, autonomie, dialogue et coopération (4)

  • Raisonnement et décision (3)

  • Modélisation, algorithmes, calcul haute performance (1)

  • Architecture, systèmes et réseaux (4)

  • Sûreté de développement du logiciel (2)

IRIT-IC3 M. Kamel, O. Haemmerlé


Place de ic3 dans l irit l.jpg

Place de IC3 dans l’IRIT

  • Interaction, autonomie, dialogue et coopération

    IC3 : Ingénierie des Connaissances, de la Cognition et de la Coopération

    • Responsable : Nathalie Aussenac-Gilles

    • 12 Permanents, 12 thésards, 1 post-doc

      • Ontologies et textes

      • Systèmes coopératifs

      • Ergonomie, ingénierie de la cognition (Gric)

IRIT-IC3 M. Kamel, O. Haemmerlé


Ontologies et textes dans ic3 l.jpg

“Ontologies et textes” dans IC3

  • 8 permanents, 3 thésards, 1 post-doc

  • Thèmes de recherche

    • Construction et maintenance de modèles de connaissances à partir de texteset de données

      • Méthodes, cycle de maintenance

      • Outils, approches basées sur le TAL, réutilisation de thésaurus, lexiques - > extraction de relations et de concepts

      • Représentation de ressources termino-ontologiques

      • Utilisation des graphes conceptuels

    • Utilisation d’ontologies pour l’annotation sémantique et la recherche documentaire dans des domaines spécialisés

      • Outils pour l’annotation sémantique -> patrons d’annotation

      • Distances sémantiques

      • Modes d’interrogation des documents annotés

    • Confrontation d’ontologies et de textes pour la gestion des connaissances

      • Évolution dans le temps, repérage de changements, …

IRIT-IC3 M. Kamel, O. Haemmerlé


Slide7 l.jpg

Plan

  • Présentation de l’IRIT et de l’équipe IC3

  • Compétences de l’IRIT en extraction de relations

    • L’approche par patrons

    • 2 outils pour extraire des relations par patrons

      • Caméléon

      • Gate

    • Elargissements :

      • extraction de relations distribuées sur plusieurs phrases

      • extraction de relations à partir de tableaux

  • Notre rôle dans le projet

    • Contribution aux lots

    • Innovations et élargissements prévus dans Géonto

IRIT-IC3 M. Kamel, O. Haemmerlé


Extraction de relations partir de textes l.jpg

Extraction de relations à partir de textes

  • Buts possibles

    • Construction d’ontologie : identification de classes (concepts) et de relations entre concepts

    • Annotation de documents : repérage d’instances

  • Approche linguistique

    • Termes partageant des contextes syntaxiques similaires peuvent être mis en relation (analyse syntaxique des textes : Tree Tagger, Cordial Université)

    • Patrons lexicaux, lexico-syntaxiques

  • Approche statistique

    • Étude de termes co-occurrents, segments répétés

    • Analyse distributionnelle

    • SVM

  • Limites : ne permettent pas d’interpréter la nature des relations

  • IRIT-IC3 M. Kamel, O. Haemmerlé


    Extraction de relations l aide de patrons l.jpg

    Extraction de relations à l’aide de patrons

    • Un patron caractérise le contexte linguistique dans lequel une relation lexicale peut être observée

      Patron lexical : to define 1mot* as

      A Software Project may bedefined as a Development Process.

      Patron lexico-syntaxique: to define{Prp.*|Noun|Adj|Num|pro.*|Adv|Det.*}*as

      The GDP manual definesSoftware projectas a Development Process

    • Projeter des patrons sur les textes requiert des traitements linguistiques préalables

      • Mise en forme du texte pour le traitement, donner un identifiant à chaque phrase …

      • Tokenisation, lemmatisation, Etiquetage grammatical …

    • Particularités des relations

      • La même relation peut être exprimée sous différentes formes.

      • Le sens donné à un patron (la relation qu’il traduit) peut changer d’un corpus à l’autre.

        Ex. « est constitué de » peut exprimer soit une relation entre Composant/objet entier soit entre matière/Object

      • Pour un type de relation donné, les patrons dépendent du corpus.

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Des textes vers une ontologie l.jpg

    1 – projection des patrons

    2 – Définition de concepts et de relations

    4 – Représentation des connaissances

    Def-concept A:B

    att a-pour-partie C

    att

    Relations Formelles

    Relations conceptuelles

    Relations lexicales

    Corpus

    Des textes vers une ontologie

    • Corpus : ensemble de textes sélectionnés pour leur pertinence

    • Etape 1 : comporte du TAL, suppose la définition et la projection de patrons

    • Etapes 2 et 3 : interprétation humaine indispensable

    3 - Normalisation

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Des textes aux annotations un index l.jpg

    1 – projection des patrons

    2 – marquage des textes /annotation

    corpus

    Motorisation

    Phase moteur : accélération

    Manque de puissance

    En roulant, le moteur manque de puissance en accélération

    et en vitesse de pointe.

    Phase véhicule : grande vitesse

    2 – création d’un index

    Passages de texte

    Liste de concepts ou relations + localisation

    Des textes aux annotations / à un index

    corpus

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Cam l on s gu la 2000 version de 2006 l.jpg

    Caméléon (Séguéla, 2000, version de 2006)

    • Caméléon : assiste les étapes de projection et de définition des concepts/relations de l’extraction de relations pour construire un modèle

    • 2 grandes étapes

      • A- Mise au point de patrons spécifiques au corpus

        Suppose un corpus étiqueté par analyseur (TreeTagger,

        Cordial ) : Paramétrable

      • B- Interprétation de la projection des patrons sur le corpus et enrichissement de l’ontologie

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Cam l on a mise au point des patrons d un projet l.jpg

    Caméléon : A-Mise au point des patrons d’un projet

    A X B Y C

    • Forme d’un patron

      où A, B et C sont des marqueurs linguistiques et

      X et Y sont les termes recherchés

    • 2 possibilités pour définir 1 patron

      • Par adaptation d’un patron de la bibliothèque

      • Création à partir de l’interprétation (lecture) de contextes par l’ananlyste

    • 4 étapes pour la mise au point d’un patron

      • Écrire ou modifier le patron (éditeur)

      • Le projeter

      • L’évaluer : Observer / valider quelques phrases retournées

      • Décider de retenir /modifier le patron (retour à 1)

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Pattern evaluation in cam l on l.jpg

    Pattern evaluation in Caméléon

    Pattern

    Sentences where the pattern occur

    Precision rate

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Cam l on b enrichir le mod le l.jpg

    Caméléon : B- enrichir le modèle

    • Étapes

      • Projeter les patrons

      • Pour chaque phrase retournée, fixer les termes en relation

      • Charger un modèle en cours de construction

      • Enrichir le modèle

        • Pour chaque concept existant,

          • Consulter les relations impliquant ses termes associés

          • Décider de les ajouter ou non au modèle

        • Ou : pour chaque hypothèse de relation

          • Définir les concepts associés aux termes s’ils n’existent pas

          • Ajouter la relation

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Bilan sur cam l on l.jpg

    Bilan sur Caméléon

    • Limites

      • Processus faisant intervenir beaucoup l’humain

      • Lent sur gros corpus

      • Lourd à installer (MySql, TreeTagger, Emdros, Java, Code Caméléon)

      • Pas de classe sémantique à l’intérieur des patrons

      • Partie “enrichissement d’ontologie” à améliorer

      • Outil fermé

    • Points forts

      • Gratuit et disponible

      • Patrons disponibles : 70 patrons documentés (historique : phrases filtrées /corpus) , validés sur 8 corpus, pour des relations de définition (“est-un” en français)

      • Adaptation des patrons

      • Patrons définis par des non informaticiens

      • Méthode / principes réutilisables

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations l.jpg

    Gate : Outil pour l’Extraction de Concepts et de Relations

    ► Gate : General Architecture for Text Engineering

    ► Gate : Plate-forme d’ingénierie linguistique [Cunningam et al., 2002]

    ► Largement utilisé pour l’extraction d’informations dans différentes langues

    ► Principe : application successive (pipeline) de ressources linguistiques (Processing Ressources)

    ► Peut être utilisé :

    - en environnement de développement

    - bibliothèque

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations18 l.jpg

    Processing Ressources

    • Tokeniser

    • Sentence Splitter

    • Pos Tagger (pas de lemmatisation)  Tree Tagger

    • Gazetteer (compagnies, organisations, …)

    • Coréférencers (nominal, pronominal)

    • Morphological Analyser

    • Parser (Minîpar, Supple, RASP)

    • Chunker (VP, noun phrase)

    • Jape Transducer

    • etc.

    Corpus

    GATE

    Corpus annoté (1)

    Corpus annoté (2)

    Corpus annoté (n)

    Corpus annoté

    Gate : Outil pour l’Extraction de Concepts et de Relations

     Possibilité de créer ses propres ressources

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations19 l.jpg

    Gate : Outil pour l’Extraction de Concepts et de Relations

    • Jape Transducer :

      • permet dedéfinir des patrons lexico-syntaxiques

      • utilise les annotationsfournies par les différentes ressources de traitement préalablement appliquées

    • Gate intègre le langage Java :

      • Traitement des annotations

      • Projection d’une ontologie (OWL, RDFS) sur un corpus

      • Enrichissement d’une ontologie

      • Peuplement d’une ontologie

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations20 l.jpg

    Gate : Outil pour l’Extraction de Concepts et de Relations

    Un exemple d’annotation :

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations21 l.jpg

    Gate : Outil pour l’Extraction de Concepts et de Relations

    • Classes Java

      • Ontology

        • addClass(Oclass), removeClass(Oclass), createClass(String, String)

        • getClassByName(String), containsClassByName(String)

        • getTaxonomicDistance(Oclass, Oclass)

    • Oclass

      • addSubClass(Oclass), removeSubClass(Oclass)

      • addSuperClass(Oclass), removeSuperClass(Oclass)

      • addInstance(Oclass, String)

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Bilan sur gate l.jpg

    Bilan sur Gate

    • Limites

      • Lent sur gros corpus

      • Utilisable par des informaticiens

  • Points forts

    • Gratuit et disponible

    • Facile à installer

    • Application de ressources disponibles ou possibilité de créer ses propres ressources

    • Intègre le langage Java

    • Utilisation avec interface graphique ou de façon embarquée dans des applications autonomes

    • Largement utilisé dans différentes communautés

    • Systèmes utilisant Gate prennent part aux campagnes d’évaluation dans le domaine du traitement du langage naturel depuis 1995

  • IRIT-IC3 M. Kamel, O. Haemmerlé


    Choix cam l on gate l.jpg

    Choix Caméléon - Gate

    • Nature des utilisateurs (informaticien ou non)

    • Objectifs :

      • Enrichir une ontologie

      • Peupler une ontologie

      • Annoter des documents

      • Indexer des documents

  • Stabilité ou non des relations recherchées

  • Nécessité de gérer de grandes listes d’entités nommées

  • IRIT-IC3 M. Kamel, O. Haemmerlé


    Elargissement extraction d informations distribu es sur plusieurs phrases l.jpg

    Elargissement : extraction d’informations distribuées sur plusieurs phrases

    • Patrons lexico-syntaxiques : relations exprimées au sein de la même phrase

    • Information distribuée sur plusieurs phrases ?

    • Information pertinente dépend :

      • du corpus étudié

      • du type d’application

    • Modèles de connaissances envisagés pour la résolution :

      • graphes conceptuels

      • structures de frame

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Slide25 l.jpg

    Elargissement : extraction d’informations distribuées sur plusieurs phrases

    • Etude d’un corpus du domaine de la génomique

    • les coréférences : "The authors used CGH analysis. They show deletion on 13q32.1 on 12 cases."

    • les anaphores : "Deletion at 13q32.1 was showed by FISH. This analysis is also performed on 12 patients affected with EA."

    • les ellipses qui :

      • reposent sur des connaissances du domaine : "12 patients with MM were studied. DNA was extracted and subjected to CGH analysis."

    • concernent les liens de cohérence et de cohésion existant entre différents paragraphes du texte: "A CGH analysis was performed on 22 Multiple Myeloma cases. 12 patients show deletion at 13q32.1."

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Slide26 l.jpg

    Sixteen patients with MM were studied

    Graphe de Référence pour le contexte Conditions Expérimentales

    DNA was subjected to CGH analysis

    Traduction

    Appariement

    RASP

    Elargissement : extraction d’informations distribuées sur plusieurs phrases

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Slide27 l.jpg

    Elargissement : extraction de relations à partir de tableaux

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Contribution au projet l.jpg

    Contribution au projet

    • Construction automatique d’ontologie(s)

      • À partir de spécifications de schémas de BD (COGIT)

      • À partir de textes grand public (fourni par LIUPPA)

    • Usage

      • Apparier les schémas de BD

      • Indexer automatiquement les documents en vue de développer des techniques de recherche d’information

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Contribution au projet29 l.jpg

    Contribution au projet

    • Extraction de concepts

      • À partir de ressources lexicales et ontologiques disponibles

      • Règles de nommage pour identifier les EN (morphologie des termes)

      • Utilisation d’outils éprouvés

    • Extraction de relations

      • Réadapter les patrons lexico-syntaxiques relatifs aux relations hiérarchiques (hyperonymie, méronymie, définition) et de synonymie

      • Définir des patrons qui tiennent compte :

        • Du type de document (exploitation des champs)

        • De la structure du document (disposition matérielle et ponctuation)

    • Rechercher les paramètres d’une relation en exploitant les relations argumentatives

    • Identifier les relations exprimées sur plusieurs phrases si besoin est

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Questions l.jpg

    Questions

    • Particularités des corpus à analyser

    • ontologies existantes

      • Taille et volume

      • Types de relations spécifiques à chacun

        • Disposer d’échantillons

      • « Élargissements » nécessaires de la notion de patron

        • Idem, évaluation des limites des patrons sur une phrase

        • Besoin de disposer de relations « attendues » et voir si elles peuvent être retrouvées par patron

    • Particularité des modèles

      • Distinguer termes et concepts

      • Disposer des termes associés aux concepts / les extraire

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations31 l.jpg

    Gate : Outil pour l’Extraction de Concepts et de Relations

    ({Token}):Onto -->

    { gate.AnnotationSet ontos = (gate.AnnotationSet)bindings.get("Onto");

    gate.Annotation ontoAnn = (gate.Annotation)ontos.iterator().next();

    String className = (String)ontoAnn.getFeatures().get("string");

    boolean aClass = ontology.containsClassByName(className);

    if (aClass)

    { gate.FeatureMap feature = Factory.newFeatureMap();

    feature.put("Classe",ontoAnn.getFeatures().get("string"));

    outputAS.add(ontos.firstNode(), ontos.lastNode(), "Onto", feature);

    }

    }

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Gate outil pour l extraction de concepts et de relations32 l.jpg

    Gate : Outil pour l’Extraction de Concepts et de Relations

    ({Lookup}):l -->

    { String instances ;

    gate.AnnotationSet popus =gate.AnnotationSet)bindings.get("l");

    gate.Annotation popuAnn = (gate.Annotation)popus.iterator().next();

    String nomclasse = (String)popuAnn.getFeatures().get("majorType");

    boolean aClass = ontology.containsClassByName(nomclasse);

    if (aClass)

    { int begOffset=popus.firstNode().getOffset().intValue();

    int endOffset=popus.lastNode().getOffset().intValue();

    String mydocContent=doc.getContent().toString();

    String matchedString=mydocContent.substring(begOffset,endOffset);

    ontology.addInstance(matchedString,

    (OClass)ontology.getClassByName(nomclasse)); } }

    • Gate intègre le langage Java

      • Enrichissement d’une ontologie

      • Peuplement d’une ontologie

    IRIT-IC3 M. Kamel, O. Haemmerlé


    Slide33 l.jpg

    IRIT-IC3 M. Kamel, O. Haemmerlé


  • Login