L apport des grammaires cat gorielles dans l extraction multilingues des termes complexes
This presentation is the property of its rightful owner.
Sponsored Links
1 / 16

L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes PowerPoint PPT Presentation


  • 70 Views
  • Uploaded on
  • Presentation posted in: General

L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes. (*)(**) Ismaïl Biskri, (**) Jean-Guy Meunier, (*) Sylvain Joyal, (**) Simon Lemieux, (*) Frédéric Gayton (*) Département de Mathématiques & Informatique Université du Québec à Trois-Rivières

Download Presentation

L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


L apport des grammaires cat gorielles dans l extraction multilingues des termes complexes

L'apport des grammaires catégorielles dans l'extraction multilingues des termes complexes

(*)(**)Ismaïl Biskri, (**)Jean-Guy Meunier, (*)Sylvain Joyal,

(**)Simon Lemieux, (*)Frédéric Gayton

(*) Département de Mathématiques & Informatique

Université du Québec à Trois-Rivières

(**) Laboratoire d’ANalyse Cognitive de l’Information

Université du Québec À Montréal

[email protected] ca

http://www.uqtr.ca/~biskri


Tat de l art

État de l’art

  • Outils automatiques.

    • Lexter (Bourigault, 1994),

    • Acabit (Daille, 1994),

    • Ana (Enguehardt, 1993),

    • Xtract (Smadja,1993),

  • Approches Linguistiques : Pas de multilinguisme

  • Approches Numériques : Bruit

ACFAS - 2003


Nouvel approche

Nouvel approche

  • Notre approche est hybride : filtres linguisiques + calcul numérique

  • Notre approche est interactive et sous le contrôle constant de l’usager.

  • Nous voulons que l’objectif, les connaissances et la subjectivité de l’usager influent sur le résultat.

  • Il n’y aura donc pas un seul résultat possible, mais plusieurs.

ACFAS - 2003


Approche hybride

Texte Brut

Word1 Word2 … Wordi …Wordn

Word1

Word2

Wordj

wordn

Matrice de collocation

Base de connaissance

Termes complexes définitifs

Candidat termes

+ probabilités

apprentissage

Filtre numérique

filtres linguistiques

Approche Hybride

ACFAS - 2003


Filtre num rique

Filtre Numérique

  • basé sur la formule de Bayes :

    Prob ( W1…n ) 1…k Prob ( W k | Wk-1 )

  • Ce filtre élimine les candidats termes dont la probabilité d’apparition dans le texte est inférieur à un certain seuil défini par l’usager.

ACFAS - 2003


Filtres linguistiques

Filtres Linguistiques

  • Linguistic filters based on contextual exploration.

    • Le premier filtre élimine les candidats termes qui commencent ou se terminent par un mot fonctionnel.

    • Le second filtre élimine les candidats termes qui commencent ou se terminent par un mot choisi par l’usager.

    • Le troisième filtre élimine les candidats termes qui commencent ou se terminent par un mot d’une catégorie syntaxique spécifique: verbes, adverbes, etc.

    • Le quatrième filtre élimine les candidats termes qui ne sont pas des groupes nominaux. La grammaire utilisée ici est universelle : Grammaire Catégorielle Combinatoire Applicative

ACFAS - 2003


Gcca quelques r gles

GCCA : Quelques règles

  • Règles Applicatives : X/Y - Y  X(>)

    Y – X\Y  X(<)

  • Règle de changement de type : X  Y/(Y\X(>T)

  • Composition fonctionnelle :X/Y - Y/Z  X/Z(>B)

ACFAS - 2003


Gcca quelques exemples

GCCA : quelques exemples

  • (i) Nom Adjectif :

    • données fausses ;

  • (ii) Nom “de” Nom :

    • base de données ;

  • (iii) Nom “de” Nom Adjectif :

    • base de données relationnelle ;

  • (iv) Nom “de” “la” Nom “des” Nom :

    • fondement de la théorie des nombres

  • ACFAS - 2003


    Gcca exemple i

    GCCA : exemple (i)

    Donnéesfausses

    ----------------------

    NN\N

    --------------------------------<

    N

    ACFAS - 2003


    Gcca exemple ii

    GCCA : exemple (ii)

    Base de données

    ---------------------

    N(N\N)/NN

    ---->T

    N/(N\N)

    ---------------------------------->B

    N/N

    ----------------------------------------------->

    N

    ACFAS - 2003


    Gcca exemple iii

    GCCA : exemple (iii)

    Base de donnéesrelationnelle

    -------------------------------------

    N(N\N)/NNN\N

    ---->T

    N/(N\N)

    ------------------>B

    N/N

    ---------------------------------<

    N

    ---------------------------------->

    N

    ACFAS - 2003


    Gcca exemple iv

    GCCA : exemple (iv)

    Fondement de la théorie desnombres

    -------------- ---------------- ----------------

    N(N\N)/NN/NN(N\N)/N N

    ---->T

    N/(N\N)

    ------------------------------------------>B

    N/N

    ----------------------------------------------------------------->B

    N/N

    ---->T

    N/(N\N)

    ------------------------>B

    N/N

    --------------------------------------->

    N

    ---------------------------------------------------------------------------------->

    N

    ACFAS - 2003


    Apprentissage

    Apprentissage

    • Apprentissage avec utilisation de la base de connaissance (exemple : si acide Chlorhydrique est dans la base de connaissance alors acide sulfurique peut être considéré comme un terme complexe).

    • N-Grams de caractères : Bigrams, tri-grams, quadri-grams, etc.

      • Exemple :

        Bigrams de « Hello World » : He, el, ll, lo, o , W, Wo, or, rl, ld

        Trigrams de « Hello World » : Hel, ell, llo, lo , o W, Wo, Wor, orl, rld

    ACFAS - 2003


    Apprentissage1

    Apprentissage

    Comparaison de deux termes complexes :

    • Bigrams ; seuil = 0,3

    • est ce que “acide sulfurique” est similaire à “acide ascorbique” ?

      • Bigrams(acide sulfurique) =(ac, ci, id, de, e , s, su, ul, lf, fu, ur, ri, iq, qu, ue)

      • Bigrams(acide ascorbique) =(ac, ci, id, de, e , a, as, sc, co, or, rb, bi, iq, qu, ue)

      • Union = 22 bigrams

      • Intersection = 8 bigrams communs

      • Intersection / Union = 0.36

      • Décision : “acide sulfurique” similaire à “acide ascorbique”.

    ACFAS - 2003


    User interface

    User Interface

    ACFAS - 2003


    R sultat

    Résultat

    • Texte Anglais

      • livre en ligne : Out of Control par Kevin Kelly http://www.well.com/user/kk/OutOfControl/index.html

    • 90 pages approximativement

      • 54 147 mots (606 mots par page)

    • Termes complexes extraits (20 premiers termes) :

      • hive mind, complex systems, feedback loop, swarm systems, von neumann, world war, nonzero sum, th century, gun barrel, fast cheap, artificial intelligence, zero sum, automatic control, living organisms, self control, steam engine, mark pauline, san francisco, mirrored box, stuart pimm.

    ACFAS - 2003


  • Login