Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante

Bilan Groupe Ascendant ANNODISrécit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret, Caroline Atallah + Laurent Prévot (au début) IRIT : Nicholas Asher, Philippe Muller, Laure Vieu, Farah Benamara, Stergos Afantenos (Post-Doc Annodis 2009-2010)

Objectifs • Disposer d’un corpus annoté en relations de discours pour le français • Expériences d’annotation, mise au point d’une méthode • Vérification intuitions liées aux relations de discours • Validations de certains points théoriques

Principe d’annotation • Segmentation en Unité de Discours Elémentaires (UDE) • Construction récursive de constituants plus complexes en reliant les UDE avec des relations de discours : • Recherche d’un point d’attachement • Choix d’une Relation de Discours

Phases de l’annotation ascendante Annotation Exploratoire Annotation Naïve Annotation de Référence 2 annotateurs explorateurs 45 textes doublement annotés 3 annotateurs naïfs 42 textes doublement annotés 4096 segments 3691 relations 7 annotateurs experts 86 textes 7 membres autres groupes du projet 7 textes doublement annotés Rédaction des guides (par passes successives) : • Segmentation • Annotation en RD

Bilan annotateurs experts versant analyse linguistique • Plongée dans les données, mise au jour de nombreux phénomènes (marqueurs, structures, …) à décrire et à analyser • Beaucoup de discussions sur beaucoup de phénomènes linguistiques • Mais difficultés d’une approche en largeur (pour toutes les relations, sur du texte tout venant …)

Bilan annotation naïve • Accord inter-annotateurs faible : • Attachement brut : 65% • Relations (étant donné 1 attachement commun) : kappa =0.45 sans tenir compte des structures équivalentes et des incomplétudes (ilôts non rattachés) • Guides perfectibles : • Volontairement peu directifs (pour tester hypothèses) • Erreurs stratégiques sur marqueurs • Outil d’annotation GLOZZ perfectible (inversion arguments, ilots non rattachés, absence graphes …) • Mais ilôts stables apparaissent dans annotation

 a1 Elaboration b* c* Narration Frame Frame Narr c1 b1 b2  a1 Elaboration Elaboration b* c* Narration Frame Frame Narr c1 b1 b2

Premières exploitations des annotations • Test hypothèses théoriques • Apprentissage de la segmentation • Analyses linguistiques des Relations de Discours • Apprentissage d'attachement en cours

Test hypothèses théoriques • Vérification de contrainte de la frontière droite (CFD) de la SDRT : • 96% des EDU s’attachent à la FD au moins par une RD • 92% des attachements (EDU ou segments complexes) vérifient la CFD • 40 % attachements non locaux (pas avec EDU prec) • Cas intéressants de subordination discursive « non typique » dans les 4% qui ne respectent pas la FD

Apprentissage automatique • Développement d’un segmentateur automatique en EDU à partir des annotations exploratoires [Bien que celle-ci soit géographiquement située en Afrique,] [l'Art de l'Égypte antique, [né il y a environ cinq mille ans,] est l'une des principales sources de l'art en Europe.] • Classification par token (ouverture/fermeture/intérieur)+post-traitement • Résultats : • ~ 90% de F-score sur les bornes individuelles (G || D, sans post-traitement) • ~ 75% de F-score sur les EDUs (G && D, avec post-traitement)

Analyses linguistiques des Relations de Discours • Relation d’Elaboration : Thèse Marianne Vergez-Couret (15 Novembre 2010) • Elab relation la plus fréquente dans corpus Annodis • Exploitation d’une petite partie du corpus • Double perspective sémasiologique/onomasiologique • Relations de causalité : Master 2 Caroline Atallah (Juin 2010) Résultat, Explication

Les relations causales • Objectif : • Etudier le marquage des relations causales en s’appuyant sur les premières annotations ascendantes • 4 relations étudiées : • Explication et Résultat • Explication* et Résultat*

Explication • Explication (explanation) La relation d’explication lie deux segments dont le second (celui qui est attaché) explique le premier (la cible) de façon explicite ou non. [Le chômage baisse en 2008]_1 [parce qu’il y a moins d’actifs.]_2 Explanation (1,2) Marqueurs suggérés : car, parceque, à cause de, du fait de, par la faute de, grâce à, si 1 c’est parce que 2, depuis (si causalité évidente)

Résultat • Résultat (result) La relation Résultat caractérise des liens entre deux segments portant sur deux éventualités (événements ou états) dont la 2e résulte de la première. [Nicholas avait bu trop de vin]_1 [et a donc dû rentrer chez lui en métro.]_2 Result (1,2) Marqueurs suggérés : ducoup, donc, parconséquent, enconséquence, parsuite, à la suite de quoi

Relations « meta-talk » Dans certains cas, les effets sémantiques du lien rhétorique qui s’établit entre deux segments ne portent pas sur les événements décrits dans les segments, mais sur les actes de parole eux-mêmes. • Explication* [Ferme la porte,]_1 [il fait froid.]_2 • Résultat* [Il fait froid,]_1 [ferme la porte.]_2  Pas de suggestion de marqueurs potentiels

Constitution d’un corpus de travail • Mise en place d’un outil informatique • Rapprochements effectués entre annotations • Résultats des confrontations

Mise en place d’un outil informatique • Développer un outil capable de confronter chaque relation d’Explication ou de Résultat repérée par un annotateur avec celles de son collègue et réciproquement • Phase naïve : 43 textes doublement annotés par ANN1, ANN2 et ANN3, soient trois binômes • Pour chaque texte, trois fichiers textes : segmentation, annotations 1 et annotations 2 • Structure d’un fichier de sortie du programme informatique : • Titre du texte • Texte intégral • Annotations correspondant à ce texte

Annotations « identiques » : Annot. issues de rapprochement entre segments pour une même RD • Inversion Attachement : • Result (20/21) par ANN1 Result (21/20) par ANN2  Result (20/21) par ANN2 • Attachement partiel : • Explanation ([19,20,21,23,24,25]/26) par ANN1 • Explanation (25/26) par ANN2 • Autres cas possibles (autres textes) : • Explanation (10, [11-12]) et Explanation (10,11) • Result ([21,22,23],[24,25]) et Result (23,24)

Inversion Attachement partiel : • Result ([19,20,21]/[23,24,25]) par ANN1 • Result ([23,24,25]/[17,18,20,21]) par ANN2  Result ([17,18,20,21]/[23,24,25]) par ANN2 Explication ([31,32]/33) par ANN1 Explication (33/31) par ANN2  Explication (31/33) par ANN2

Annotations différentes : Annot. issues de rapprochement entre segments pour une RD différente • Annotations appariables : • Parallel([9,10]/11) par ANN1 • Explanation(11/[8,9,10] par ANN2 • Annotations non appariables : • 2 segments reliés par 1 RD chez ANN1 • pas reliés chez ANN2

Résultats des confrontations • Annotations identiques vs annotations différentes • Annotations appariables vs annotations non appariables Traitement réalisé par notre outil 1 fichier texte Annotationsidentiques 1 fichier texte Annotationsdifférentes 22

Données récupérées • 47 cas d’annotations identiques (94 annotations) • 202 cas d’annotations différentes • Au total, 296 annotations concernant les relations d’Explication et de Résultat  Corpus d’étude limité aux cas d’annotations identiques. 23

Analyse du corpus et résultats • Observations sur la qualité des annotations • Marqueurs de relations causales dans le corpus

Observations sur la qualité des annotations • Correction (ou validation) de chaque annotation • Désaccord sur les arguments de la relation • Problème de la formation des segments complexes • Désaccord sur la nature de la relation • Aucune relation pragmatique repérée • Confusion entre des relations : [C’est probablement l’explication de l’expression française. ]_26 • Rôle important des marqueurs linguistiques dans la tâche d’annotation

Marqueurs de relations causales dans le corpus Marqueurs les plus « fréquents » : • Résultat : donc (6 occurrences) • Explication : car (10 occurrences) + le cas des connecteurs de nature prépositionnelle : pour, par, à cause de, en raison de, sous

Donc • Introduit une conclusion logique • « A donc B » équivalent à « Si A, alors B » • Permet l’inférence d’une relation située au niveau du raisonnement « L’information est une mesure abstraite dépendant de choix donc une mesure probabiliste et pas seulement statistique. »  Identification de Résultat-Inférentiel pour 6 cas sur 8

Car • Dans 6 cas sur 11, identification d’une relation métalinguistique, Explication* • présence d’indices discursifs décrivant l’expression d’un jugement de la part de l’énonciateur « La route moderne est probablement un tracé traditionnel, car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial. » (Mariana, Wikipédia) • Mais car pas exclusivement marqueur d’Explication* « J’étais prêt à partir (…) car à 32 ans, il s’agissait sans doute de ma dernière chance de signer un nouveau contrat. » (Pablo Correa, Est Républicain)

Pour, par, en raison de, àcause de, sous • Non négligeables : ont guidé les annotateurs • Des liens de natures particulières • « Ce bouchage en force permet de s’assurer que le bouchon ne sautera pas tout seul, sous la pression du gaz contenu dans le vin. » On ne peut pas vraiment parler de relation d’Explication.  On laisse de côté ce type de relation causale.

Conclusion sur les marqueurs relevés dans le corpus • Des liens causaux présents dans différents niveaux de la langue : • Relation de cause à effet strictement sémantique : pour, par, sous… • Relation rhétorique entre des éventualités (états ou événements) : Explication (car), Résultat (donc) • Relation pragmatique entre des actes de parole (niveau illocutoire) : Explication* (car) • Relation entre des états mentaux (niveau épistémique) : Résultat-Inférentiel (donc)

Bilan première exploitation du corpus annoté en RD • Mise en évidence des difficultés qui peuvent être posées lors d’une campagne d’annotation • Difficultés posées par la rédaction d’un guide satisfaisant • Tâche des annotateurs très complexe • Apports des annotations naïves dans cette campagne ? • Distinguer des marqueurs plus forts (donc, car) • Ouvrir la question sur la définition même d’une relation de discours (le cas de par, sous, …) • Faire émerger des confusions courantes avec d’autres relations (explication et élaboration)

Bilan publications et mémoires utilisant corpus annoté Annodis • Afantenos Stergos, Asher Nicholas. 2010. Testing SDRT’s Right Frontier. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). pp 1-9. Beijing, China • Afantenos Stergos, Denis Pascal, Muller Philippe, Danlos Laurence. 2010. Learning recursive segments for discourse parsing. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta. • Vergez-Couret Marianne. Sémantique du discours Le cas de la relation d’Élaboration : Etude en corpus de la relation et de son marquage, Thèse de doctorat. Université Toulouse-Le Mirail, 2010. • Atallah Caroline. Les relations de causalité dans le discours, mémoire de Master 2 en Sciences du Langage parcours TAL, Université Toulouse-Le Mirail, 2010.

Bilan publications pertinentes pour Annodis Adam Clémentine & Vergez-Couret Marianne (2010). Signalling Elaboration : Combining Gerund Clauses with Lexical Cues. In Proceedings of Signalling Text Organisation (Multidisciplinary Approaches to Discourse 10), Moissac (France), 17-20 mars 2010. Asher Nicholas, Prévot Laurent & Vieu Laure, 'Setting the Background in Discourse', Discours(e), 2008. Bras Myriam, Prévot Laurent & Vergez-Couret Marianne (2008). "Quelle(s) relation(s) de discours pour les structures énumératives ? ", Actes du Colloque Mondial de Linguistique Française CMLF'08, Durand, J., Habert, B., Laks, B. (éds.), pp. 1945-1964, Paris, 9-12 juillet 2008. Bras Myriam & Schnedecker Catherine (2009). Dans un (premier+second+nième) temps et les relations de discours : de l’élaboration à la contre-argumentation, LPTS, Paris (France) 21-23 septembre 2009. Bras Myriam & Le Draoulec Anne (2009). D’abord marqueur de structuration du discours, Journal of French Language Studies, 19, pp. 229-248. Prévot Laurent, Vieu Laure & Asher Nicholas (2009). Une formalisation plus précise pour une annotation moins confuse: la relation d’élaboration d’entité. Journal of French Language Studies, 19, pp. 207-228. Vergez-Couret Marianne, Prévot Laurent, Bras Myriam (2008) " Interleaved discourse structures, the case of two-step enumerations", Proc. of Constraints in Discourse CID'III, Benz, A., Kühnlein, P., Stede, M. (eds.), pp. 85-94, Potsdam, 30 juillet - 1er aout 2008. Vergez-Couret Marianne (2009b). Vers un marqueur, plus particulièrement de la relation d’Élaboration, LPTS, Paris (France) 21-23 septembre 2009. Vergez-Couret Marianne (2009a). Le rôle de l'adverbe notamment dans la mise en oeuvre des relations de discours, Journal of French Language Studies, 19, pp. 249-268.

Interface Ascendant/Macro • Structures Enumératives • Quelles RD pour les SE? • SE à 2 temps • Exploration des SE, recherche d’isomorphisme avec des « Structures Elaboratives » : thèse Marianne • Structure du document • Prise en compte segmentation en paragraphe • Titres • Liens avec segmentation thématique

Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante