1 / 53

Syntex, analyseur syntaxique de corpus

Syntex, analyseur syntaxique de corpus. Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/

yvonne
Download Presentation

Syntex, analyseur syntaxique de corpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/ * Société Synomia

  2. Motivations initiales du projet Syntex • Réaliser un outil opérationnel d’analyse syntaxique utilepour : 1) Applications en terminologie et ingénierie des connaissances : • Construction de ressources terminologiques et ontologique à partir de corpus Analyse syntaxique d’un corpus (spécialisé)extraction et structuration d’un réseau de syntagmes (nominaux, verbaux) (Lexter  Syntex) • Indexation de sites Web (Synomia) 2) Recherches en linguistique • Observatoire pour des recherches sur la langue : • Un ensemble de corpus variés et de grande taille, analysés syntaxiquement (morphologie, syntaxe, sémantique, discours) • Analyse distributionnelle Syntex : un « instrument » pour le linguiste (Habert, 2005) D. Bourigault Syntex

  3. Motivations initiales : applications en terminologie Lexter Extracteur de groupes nominaux terminologiques (Bourigault, 1994) De Lexter à Syntex : du Nom au Verbe Les syntagmes verbaux sont des unités à décrire au même titre que les syntagmes nominaux branchement de l’imprimante / brancher l’imprimante les syntagmes nominaux sont extraits de façon plus précise. On observe [ une charge importante en trouble ] dans les rivières L'érosion a disséqué [ le plateau rocheux ] en chevrons. les syntagmes verbaux fournissent les contextes le plus riches pour l’analyse distributionnelle. [ scanner , écographie ]sujets des verbes : confirmer, montrer, objectiver, révéler, … (dans un corpus de compte rendus de réanimation chirurgicale) D. Bourigault Syntex

  4. Motivations initiales : instrument pour des recherches en linguistique de corpus • Observatoires : des corpus volumineux analysés syntaxiquement • Le Monde (500 000 articles 1991-2000, 200 millions de mots) • Frantext (515 romans XXème siècle, 30 millions de mots) • Premières exploitations • Extraction de propriétés de sous-catégorisation syntaxique • proba(accorder,à)=0.57 ; proba(conformité,avec)=0.51 • Extraction de propriétés lexico-distributionnelles • Deux bases lexico-distributionnelles : Les Voisins de Le Monde, les voisins de Frantext Le Monde : (sec, humide) : {froid, sable, sol, climat, …} Frantext : (sec, humide) : {asphalte, froid, pré, pavé, sable, sol, …} (sec, léger) : {déclic, craquement, claquement, bruissement, …} D. Bourigault Syntex

  5. Le paradigme des grammaires d’unification • Grammaires d’unification • des formalismes et des théories linguistiques • Grammaire lexicale fonctionnelle (LFG), Grammaire syntagmatique généralisée (GPSG), Grammaire d’arbres adjoints (TAG), Grammaire syntagmatique guidée par les têtes (HPSG) • Type de représentation : structures de traits ; formalismes déclaratifs et monotones • Séparation données linguistiques (grammaires) / programmes de traitement (analyseurs) • Utilisation des grammaires en analyse et en génération • Utilisation d’un même analyseur pour différentes grammaires • Analyseurs • Algorithmes : CYK, Earley, coin gauche, coin tête, etc. D. Bourigault Syntex

  6. Le paradigme de la robustesse • Depuis le début des années 90 « We think of robustness as the ability of a language analyzer to provide useful analyses for real-world input texts. By useful analyses, we mean analyses that are (at least partially) correct and usable in some automatic task or application. That definition implies two requirements: first, a robust system should product (at least) one analysis for any real-world input. (…) A robust system should also limit the number of concurrent analyses it produces or a least give indications on which are the preferred ones. » (Aït-Mokhtar, Chanod et Roux, 2002, p. 122–123) • Dès les débuts de la Traduction Automatique : • TAL « empirique » vs « théorique » (Cori et Léon, 2002) • pression des applications • Le concept d’utilité domine celui de robustesse D. Bourigault Syntex

  7. Quelques travaux en analyse syntaxique (robuste) • P. Garvin (1960) : analyseur Fulcrum • University of Georgetown, puis Ramo-Wooldridge Corporation • Système « bipartite » : dictionnaire + algorithme (vs « tripartite » : dictionnaire + règles + algorithme) • Traitement en passes, fulcrum (mot pivot) D. Bourigault Syntex

  8. Quelques travaux en analyse syntaxique (robuste) • L’analyseur du projet TDAP (1958-1959) • Université de Pennsylvania, Transformations and Discourse Analysis Project, dirigé par Zellig S. Harris : L. Gleitman, A. Joshi, B. Kauffman et N. Sager • Traitement en passes : première application des transducteurs d’état fini à l’analyse syntaxique (Joshi et Hopeley, 1996) • Déterministe ordre d’enchaînement des transducteurs, sens de parcours, stratégie du plus long chemin D. Bourigault Syntex

  9. Quelques travaux en analyse syntaxique (robuste) • F. Debili (1980) • Université Paris XI, équipe dirigée par A. Andreewsky, TAL et recherche documentaire • Traitement de la paraphrase : • « Qui nomme le premier ministre ? », « Le premier ministre est nommé par le président de la république. »  « La nomination du premier ministre par le président de la république a été (… ) » • Analyseur syntaxique • Traitement en passes • Chaînes nominales, chaînes verbales • relations homosyntaxiques, relations hétérosyntaxiques • matrices de succession  automates d’état fini • « apprentissage endogène » D. Bourigault Syntex

  10. Quelques travaux en analyse syntaxique (robuste) • Le projet PLNLP (années 80) • Centre de Recherche d’IBM à Yorktown, projet PLNLP (« Programming Language for Natural Language Processing »), K. Jensen, G. Heidorn • Analyse syntaxique pour la correction grammaticale et la vérification de style • Traitement en deux passes : • Analyse « classique » basée sur une grammaire de base • Procédure d’ajustement d’analyse (« fitted parse ») • Difficultés d’analyse : • « punctuation horrors » D. Bourigault Syntex

  11. Quelques travaux en analyse syntaxique (robuste) • L’analyse par chunks de S. Abney • Fiabilité et profondeur d’analyse ET robustesse et rapidité • La notion de « chunk » • Ambiguïté de rattachement : au sein d’un chunk nominal  au sein d’une proposition [cherry picker exhaust manifold] John [VP [met] [NP the woman] [CP he married] [PP in Italy]]  Traitement en cascade (partage des tâches) • Repérage des chunks • Repérage des propositions • repérage des relations entre chunks (au sein des propositions) • Principes généraux • easy-first parsing  • islands of certainty  • containment of ambiguity  D. Bourigault Syntex

  12. Quelques travaux en analyse syntaxique (robuste) • J. Vergne : l’analyseur 98 • Critique (virulente) du paradigme des grammaires formelles • Les grammaires formelles ne sont pas du tout adaptées à la description des langues naturelles • redondance des formes • récursivité très limitée des segments • Rolycatégorie • Approche en deux étapes : • Etiquetage et identification de syntagmes non récursifs (SNR,  chunks) • Identification de relations de dépendance entre SNR • Principe méthodologique : • La phrase est analysée en une seule passe, de gauche à droite »  Utilisation de « mémoire » de stockage des SNR D. Bourigault Syntex

  13. Quelques travaux en analyse syntaxique (robuste) • J.-P. Chanod • Dans la lignée des positions de K. Jensen sur la robustesse en analyse syntaxique “Still robustness is not about statistical vs. rule-based methods. (…) Robustness is about exploring all constructions humans actually produce, be they grammatical, conformant to formal models, frequent or not.” (Chanod, 2002) • Le concept d’incrémentalité • Concept clé pour réaliser des analyseurs syntaxiques qui soient à la fois robustes et profonds • Analyseurs : IFSP (Incremental Finite-State Parsing), puis XIP (Xerox Incremental Parser) • Principes de base : • Autonomie des règles • Décomposition descriptive D. Bourigault Syntex

  14. Syntex, un analyseur de corpus robuste • Contraintes imposées par les motivations initiales du projet • L’analyseur doit traiter en entrée des corpus de textes : • quelques milliers à quelques centaines de milliers de phrases • sur des domaines divers et appartenant à des genres variés  Contraintes • Robustesse et efficacité • Couverture et précision • Adaptativité • Choix méthodologique • Pas de grammaire • Dans l’esprit de Garvin, Vergne, … (≠ XIP) • Les connaissances grammaticales sont « dans » les algorithmes • L’analyse syntaxique automatique vue comme une tâche de reconnaissance de formes et non de compilation D. Bourigault Syntex

  15. Le chat mange la souris Le chat mange la souris Analyse syntaxique en dépendance • Mode de représentation de la structure syntaxique d’une phrase : Dépendances vs. Constituants • Syntaxe de dépendance • Tesnière (1959) « Eléments de syntaxe structurale », Mel’čuk (1998), … • Equivalence formelle • Le choix d’un mode de représentation de la structure syntaxique n’implique pas celui d’une méthode informatique d’analyse particulière • Il existe des grammaires de dépendance formelles, et il existe des analyseurs en constituants robustes • Beaucoup d’analyseurs robustes sont des analyseurs en dépendance. • Analyse en dépendance plus “naturelle” D. Bourigault Syntex

  16. Analyse modulaire en cascade • Syntex prend en entrée un corpus étiqueté. • Il est constitué de modules, dont chacun traite une relation de dépendance syntaxique particulière. • Chaque phrase est analysé en plusieurs passes : • Un ou plusieurs modules à chaque passe. • Chaque module exploite les étiquettes morphosyntaxiques et les relations syntaxiques posées par les autres modules. • … et peut modifier ces étiquettes et ces relations (retour en arrière). • Chaque module résout « ses » cas d’ambiguïté. • Le corpus est analysé en plusieurs passes : • Les modules exploitant des données d’apprentissage endogène traitent deux fois le corpus : • une première fois pour acquérir des informations sur l’ensemble du corpus • Une seconde fois pour les exploiter dans la résolution d’ambiguïtés d’analyse D. Bourigault Syntex

  17. Implémentation informatique • Chaque module est constitué d’un ensemble d’heuristiques • Parcours de la chaîne de mots, étiquetée et partiellement annotée • Point de départ : le mot source de la relation syntaxique, • point d’arrivée : le mot cible de la relation syntaxique • Pour chaque mot rencontré sur le parcours, 2 décisions à prendre : • Choisir comme cible ou non • Arrêter le parcours ou continuer • Parcours et décisions guidés par des contraintes • structurelles, positionnelles, d’accord, de distance, … • Le choix de l’ordre d’enchaînement des modules est un problème crucial. • Illustrations… D. Bourigault Syntex

  18. ? ? ? ? ? Parcours « normal » Réétiquetage Le très petit chat D Av Aj N La linguistique est … D Aj V N Enchaînement + contrainte de projectivité contrainte d’accord avec le très petit chat P D Av Aj N grammaires de dépendance formelles Nfp P Nfs Ajfp Ambiguïté Ambiguïté Il donne du lait au chat Pr V D N P N grammaire de dépendance formelle Nfs P Nfs Ajfs D. Bourigault Syntex

  19. Méthodologie de développement • Les modules sont programmés • en Perl • Par des linguistes informaticiens • Méthode de développement • relation par relation • basée sur corpus : nombreux tests, sur corpus variés • autorisée par l’efficacité du système (200 000 mots : ~ 2mn) D. Bourigault Syntex

  20. Exploitation des ressources lexicales • Minimale : « uniquement le nécessaire » • Intégrées au fur et à mesure des besoins • Exemples : • Liste des verbes qui font leur passé composé avec l’auxiliaire être • Propriétés de sous-catégorisation syntaxique : proba(mot,prep) • Ex : proba(accéder,à)=0.79 proba(conformité,avec)=0.51 • Ressources de 2 types : • Endogènes : informations acquises sur le corpus en cours de traitement • Le corpus est objet du traitement ET source d’informations • Exogènes : exploitées quel que soit le corpus • Exemple : les propriétés de sous-catégorisation syntaxiques • acquises automatiquement à partir d’un corpus de 200 millions de mots (Le Monde) • À l’aide de l’analyseur lui-même D. Bourigault Syntex

  21. Etiquetage préalable • L’analyseur Syntex est intégré dans une chaîne d’analyse syntaxique 1-Pré-étiquetage • Entités nommées : dates, mesures, titres, adresses, … • Mots complexes : prépositions, conjonctions, adverbes, … • réalisé par Synomia 2-Etiquetage (TreeTagger) • réalisé par Université de Stuttgart 3-Post-étiquetage • Correction d’erreurs connues du TT, conversion au jeu d’étiquettes Syntex • réalisé par ERSS et Synomia 4-Analyse syntaxique (Syntex) • réalisé par ERSS • Dépendance forte de Syntex avec des modules antérieurs ! D. Bourigault Syntex

  22. Analyse en dépendance : contraintes relation • Gouverneur unique Un mot a au plus un gouverneur • Projectivité Deux mots en relation de dépendance ne peuvent être séparés que par des mots qui dépendent directement ou indirectement de l’un d’eux (Les relations de dépendance ne peuvent se croiser) • Tout mot a un gouverneur … à l’exception du verbe de la proposition principale gouverneur dépendant non non mot mot mot mot mot mot mot D. Bourigault Syntex

  23. Analyse en dépendance : les principales relations D. Bourigault Syntex

  24. Principaux modules relation Parcours de recherche : gouverneur dépendant D. Bourigault Syntex

  25. ? Coordination REL CC CC • Représentation • Relation CC du coordonnantvers chacun des coordonnés • Le coordonnant est la cibleou la source des relations de dépendance • Traitement : le plus difficile ! • Où placer le traitement de la coordination dans la chaîne d’analyse syntaxique ?  Choix actuel : « tôt » • Traitement des virgules coordinatives X et Y XPREP PREP SUJ Le chat de Marie , Jean et Alain dort D N P NP T NP CC NP V D. Bourigault Syntex

  26. SUJ DET SUJ ATTS REL OBJ REL SUJ REL PREP SUJ Antécédence relative • Représentation • Relation REL du pronom relatif vers l’antécédent Le chat qui mange est gris Le chat de gouttière que je vois Le chat avec lequel Marie joue D. Bourigault Syntex

  27. Analyse « profonde » • Structures à contrôle de l’infinitif : sujet profond • N0 V Vinf Marie souhaite partir • N0 V à Vinf Marie pense à partir • N0 V de Vinf Marie s’efforce de partir • N0 V N1à Vinf Marie autorise Jean à partir • N0 V N1de Vinf Marie prie Jean de partir • N0 V à N1à Vinf Marie apprend à Jean à nager • N0 V à N1de Vinf Marie demande à Jean de partir D. Bourigault Syntex

  28. Ambiguïté de rattachement prépositionnel rocheux + en ? plateau + en ? disséquer + en ? PREP ? • Il faut disposer de propriétés de sous-catégorisation syntaxique • Pour les verbes, noms, adjectifs • Dans Syntex • Probabilité (mot, prep) • 2 ressources : • Toutes les deux construites automatiquement à partir de corpus • Ressource exogène : construite préalablement à partir d’un « gros » corpus d’apprentissage (200 M mots du Monde), utilisée pour chaque corpus • Ressource endogène : acquise au moment de l’analyse à partir du corpus en cours d’analyse, puis « oubliée » ensuite L'érosion a disséqué le plateau rocheux en chevrons D. Bourigault Syntex

  29. Méthode de résolution des ambiguïtés de rattachement prépositionnel • En entrée : une phrase étiquetée, partiellement analysée • 1ère étape : rechercher_candidats : • Etant donné une préposition p, qui régit un mot m’, rechercher dans le contexte gauche l’ensemble des mots mj susceptibles de régir la préposition p • des règles qui décrivent dans quelles configurations • conserver un mot comme candidat • « sauter » un mot • arrêter la recherche • 2ème étape : choisir_candidat • Sur la base d’indices affectés à chacun des candidats  Principal indice : probabilité que le mot candidat mj se construise avec la préposition p : proba(mj, p) D. Bourigault Syntex

  30. Recherche des candidats La France défendra ses intérêts avec la plus grande fermeté . Le problème est triple : insuffisance de la recherche sur des pathologies, … Certains pays réclament l'élimination totale des subventions agricoles à l' exportation Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario D. Bourigault Syntex

  31. Acquisition de propriétés de sous-catégorisation • Calcul de probabilités de sous-catégorisation • A partir d’un corpus annoté manuellement (PTB) • A partir d’un corpus étiqueté automatiquement • A partir du Web • Méthode • A partir d’un corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10) • Grande taille • Thématiquement diversifié  Ressources génériques • Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex) D. Bourigault Syntex

  32. Je l’ai donné à Marie Procédure d’acquisition à partir du corpus LM10 • Deux itérations sur le corpus LM10 1) Amorçage : • n’exploiter que les informations acquises dans des contextesnon ambigus • Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p) 2) Consolidation : • Utiliser le lexique construit à l’étape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel • construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus) nb d’occurrences où le mot m régit la préposition p proba(m,p) = nb total d’occurrences du mot m D. Bourigault Syntex

  33. rechercher_candidat Calcul proba(m,p) Calcul proba(m,p) Procédure d’acquisition à partir du corpus LM10 LM10étiqueté 1- Amorçage 2- Consolidation Résolution :Le candidat de plus forte probabilité.Par défaut : le premier choisir_candidat cas de rattachement prépositionnel non ambigus cas de rattachement prépositionnel résolus avec L0 Lexique L0 Lexique L1 Lexique final D. Bourigault Syntex

  34. Probabilités de sous-catégorisation syntaxique • Ressource exogène (journal Le Monde, 200 millions de mots) D. Bourigault Syntex

  35. Probabilités de sous-catégorisation syntaxique • Exemple de ressource endogène (corpus médical, réanimation chirurgicale, 400 000 mots) D. Bourigault Syntex

  36. Sur des corpus de genres variés Annotation manuelle de plusieurs centaines de cas 4 stratégies Base : candidat le plus éloigné Endo : candidat avec la probabilité endogène la plus élevée Exo : candidat avec la probabilité exogène la plus élevée Mixte : candidat avec la probabilité endogène ou exogène la plus élevée Evaluation du module de rattachement prépositionnel D. Bourigault Syntex

  37. Evaluation du module de rattachement prépositionnel % précision 100 90 80 70 60 50 base endo exo mixte D. Bourigault Syntex

  38. Couverture de Syntex D. Bourigault Syntex

  39. Synthèse • Un analyseur robuste • et aussi, précis et à (relativement) large couverture • Opérationnel • diffusé • Pas de théorie syntaxique • Les connaissances linguistiques ne sont présentes sous la forme de règles de grammaires, mais : • architecture informatique • algorithmes et heuristiques de recherche de recteurs ou régis • Pas de notion de « bonne formation » de phrases : analyse locale ascendante : pas de contrôle global • Syntaxe théorique vs syntaxe opérationnelle (Bar-Hillel, 1961) • Un analyseur peu lexicalisé • Analyse guidée par la phrase vs. analyse guidée par le lexique D. Bourigault Syntex

  40. II – Utilisations de Syntex • Extraction de termes • Construction de ressources terminologiques (thesaurus, index, ontologies, …) • Recherche d’informations sur sites Internet (Synomia) • Interrogation de corpus annotés • Tiger (Université de Stuttgart) • Analyse distributionnelle • Upery D. Bourigault Syntex

  41. On observe une charge importante en trouble important trouble T E T E E charge en trouble observer une érosion oberver une perte … … charge en argile charge en poussière … « séries paradigmatiques » Construction d’un « réseau terminologique » Analyse syntaxique Extraction de syntagmes observer charge observer une charge … charge importante en trouble charge importante D. Bourigault Syntex

  42. D. Bourigault Syntex

  43. D. Bourigault Syntex

  44. D. Bourigault Syntex

  45. www.liberation.fr D. Bourigault Syntex

  46. Interrogation de corpus annotés à l’aide de TigerSearch • Conversion analyses en dépendance  arbres syntaxiques • Pour interrogation par TigerSearch • Pour extraction de candidats termes S H m1 m m2 m1 m m2 P Le chat mange la souris Le chat mange la souris D. Bourigault Syntex

  47. TigerSearch • Université de Stuttgart http://www.ims.uni-stuttgart.de/projekte/TIGER/ • Outil d’interrogation de corpus arborés (banques d’arbres) D. Bourigault Syntex

  48. D. Bourigault Syntex

  49. D. Bourigault Syntex

  50. D. Bourigault Syntex

More Related