1 / 39

Réunion du groupe de travail

Réunion du groupe de travail. Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1 er juin 2012. 23/10/2014. 1. 1. Plan de la présentation.

lilka
Download Presentation

Réunion du groupe de travail

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1er juin 2012 23/10/2014 1 1

  2. Plan de la présentation • Présentation du consortium corpus écrits et objectifs du groupe de travail • Annotations syntaxiques • Annotations sémantiques • Annotations discursives et de la référence • Proposition de grille pour le catalogage des données et discussion 23/10/2014 2 2

  3. 1. L’Infrastructure de recherche Corpus 23/10/2014 Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS) Portée par le CNRS et l’Université Aix-Marseille Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin d’accompagner et de favoriser les effets d’apprentissage et les synergies pour la constitution et le développement de l’usage des sources numériques par les chercheurs des sciences humaines et sociales. » 3 3

  4. 4 consortiums 23/10/2014 Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM) Consortium anthropologique « Consortium Archive des ethnologues » Consortium linguistique « Corpus Écrits » Consortium littérature et philosophie « CAHIER » 4 4

  5. Consortium corpus écrits - Pilotage 23/10/2014 Comité de pilotage (4 ans)Frank Neveu pour l’ILF, FR 2393 Jean-Marie Pierrel pour l’ATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR 7597 - Université Denis Diderot - Paris 7Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR 6039 - Université Nice Sophia AntipolisSerge Heiden pour ICAR - UMR 5191 - Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR 7110 - Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7 Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu. 5 5

  6. Corpus écrits 23/10/2014 • Objectifs • Partage d’information, homogénéisation des pratiques, mise en conformité avec des standards internationaux • Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits • Collaborations importantes : • ATILF (CNRTL) • CLARIN (d’infrastructure européenne partagée pour les SHS (Common Language Resources and Technology Infrastructure: www.clarin.eu)) • TEI (Text Encoding Initiative) 6 6

  7. Corpus écrits 23/10/2014 • Actions • Recensement des ressources et diffusion des bonnes pratiques (standards européens : TEI, CLARIN) • Mise en place de groupe de travail • Support : • Petit financement pour organiser des journées d’études, des réunions • Embauche d’un ingénieur de recherche CDD pour aider au recensement et diffusion des corpus : Linda Hriba 7 7

  8. 10 groupes de travail 23/10/2014 Groupe de travail n°1 Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...) Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…) Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…) Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …) Groupe de travail n°6 Description de corpus collaborative - Metadonnées Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication. Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...) Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …) Groupe de travail n°10 Exploration de corpus (Méthodes, outils…) Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR) 8 8

  9. Objectifs du groupe de travail – Annotations de haut niveau 23/10/2014 • Recenser les corpus du français existants avec une annotation de « haut niveau » • Proposer une grille de description de ces corpus (métadonnées) • Associer linguistes et spécialistes du TAL dans la réflexion sur l’annotation • Retour d’expériences sur les projets constituant des corpus annotés • Guide de « bonnes pratiques » 9 9

  10. Objectifs du groupe de travail – Annotations de haut niveau (II) • Proposer des journées de formation (aux normes, aux logiciels d’annotation, aux logiciels d’interrogation) • Proposer des journées d’information : journées thématiques, journées de travail 23/10/2014 10

  11. Outils de communication • le wiki de la liste • https://listes.cru.fr/wiki/corpus-ecrits/public/groupe-8 • s'inscrire sur la liste • corpus-ecrits-annot-haut-niveau@groupes.renater.fr

  12. Les phénomènes de haut niveau • Syntaxe • Sémantique • Discours et relations textuelles • Référence 23/10/2014 12 12

  13. 2. L’annotation syntaxique • Objectifs : • création de ressources pour les analyseurs automatiques • études des phénomènes linguistiques • Identification des constituants • catégories de constituants • annotations continues ou discontinues • annotations imbriquées ou simples • ambiguïtés • règles de grammaires indépendantes d'une théorie particulière? 23/10/2014 13 13

  14. 2. L’annotation syntaxique (II) 23/10/2014 • Identification des fonctions syntaxiques/dépendances • grammaires de dépendance vs. étiquetage des corpus annotés • phénomènes locaux vs. phénomènes de dépendances à distance • indépendance par rapport aux théories existantes 14 14

  15. Corpus arborés pour d’autres langues 23/10/2014 • Penn Treebank (U.Pennsylvania) • 1 000 000 mots • annotation syntaxique et sémantique • constituants et en dépendances • SUSANNE : 130 000 mots (G. Sampson) annotations de catégories et fonctions • LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl) • 1 000 000 mots • Corpus d’entraînement et de test CONLL (2009) 15 15

  16. Corpus arborés pour d’autres langues (II) 23/10/2014 • Prague Dependency TreeBank (Charles University) 1 500 000 mots • Annotation syntaxique, sémantique, coréférence • ItalianTreeBanks • ISST (Pise): multiples niveaux • TUT (Turin) : dépendances • VIT (Venise) : multi-domaine, X-bar • GermanTreeBanks : • Negra (Saarland) : constituants et dépendances • Tiger (IMS Stuttgart) : indépendant de théories 16 16

  17. Corpus arborés - FR • Français contemporain • French Treebank (Abeillé, et al 2003) • extrait de Le Monde • correction manuelle • constituants et fonctions (sujets, objets etc.) • fonctions de surface • les constituants sont simples • compatibilité avec plusieurs analyseurs • Séquoia (Candito et Seddah, 2012) • Multi-domaine, multi-genre, libre de droit • constituants et dépendances 23/10/2014 17 17

  18. Corpus arborés – FR (II) 23/10/2014 • Corpus arborés de français contemporain interrogeables en ligne • L’arboratoire (syntaxe de contrainte, Bick) : textes français interrogeables en ligne (Europarl)http://corp.hum.sdu.dk/arboratoire.html • Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault)http://scientext.msh-alpes.fr 18 18

  19. Corpus arborés – FR (III) 23/10/2014 • Français médieval: SRCMF (projet ANR piloté par Lattice, IMS Stuttgart) • dépendances • modèle : SRCMF • 1 verbe principal=1 phrase • catégories hiérarchisées • possibilité de catégories sous-déterminées en cas de doute • annotation manuelle, 2 annotateurs • XML, compatible TigerSearch 19 19

  20. Corpus arborés – FR (IV) • Corpus CLASSYN (Univ. Strasbourg et IMS Stuttgart) • textes de vulgarisation et articles scientifiques • domaines : médecine, informatique • Corpus comparables (fr, de) • environ 700000 tokens/genre/domaine (fr) • dépendances (analyseur de B.Bohnet (2009)) • pas de correction manuelle 23/10/2014 20

  21. 3. L’annotation sémantique • L’annotation sémantique de corpus est très diverse : • Types sémantiques et référentiels • Exemples : Entités nommées, expressions calendaires et temporelles • Opinions et sentiments • Désambiguïsation • Repérage du « bon » sens du mot • Rôles sémantiques (à l’interface de la syntaxique et de la sémantique) • Rôle sémantique du mot et du constituant 23/10/2014 21 21

  22. 3. L’annotation sémantique (II) • L’annotation sémantique de corpus est aussi complexe : difficile d’atteindre un bon accord interannotateurs • Tâches comportant une forte part de subjectivité • Souvent pas de standard de référence • Difficile d’automatiser la tâche d’annotation 23/10/2014 22 22

  23. Les corpus annotés sémantiquement pour d’autres langues • De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC): • désambiguïsation: SemCor (Princeton) : anglais, annoté avec WordNet • identification de rôles semantiques : FrameNet (Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de) • identification des opinions : corpus de citations des débats politiques annotés (JRC Trento) • extraction d’information : évenements et les participants : corpus MUC-7 23/10/2014 23 23

  24. Les corpus annotés pour le français : un premier inventaire (à compléter) • Entités nommées : • Corpus ESTER utilisé dans des campagnes d’évaluation, annotation des personnes, lieux, organisation (transcription d’émissions de radios) (diffusé par ELRA) • Corpus SxPipe (une centaine de dépêches AFP) librement diffusé. 23/10/2014 24 24

  25. Les corpus annotés pour le français (II) • Sentiment et opinion (de très nombreux corpus) : • Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html • Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/ • Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires) 23/10/2014 25 25

  26. Les corpus annotés pour le français (III) • Expressions temporelles : • French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) 23/10/2014 26 26

  27. Les corpus annotés pour le français (V) • Désambiguïsation : • Corpus de la campagne ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA. 23/10/2014 27 27

  28. Annotation discursive et textuelle • De nombreux phénomènes : • Structure textuelle : aspects structurels • Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) • Connecteurs implicites ou explicites • Relations de discours hiérarchiques ou indépendantes • Référence, co-référence, phénomènes anaphoriques • Délimitation des expressions référentielles • Relations anaphoriques ou de co-référence • Divers catégories d’expressions 23/10/2014 28 28

  29. Ressources pour d'autres langues • Relations de discours : Penn Discourse Treebank • Indépendant d’une théorie • Relations simples • Connecteurs • Coréférence : • ACE (tâche limitée : co-référence entre personnes, organisations, lieux) • MUC 6/7 • OntoNotes • tâches SEMEVAL: corpus disponibles en en, es, it, de, nl 23/10/2014 29

  30. Premier état des lieux pour le français • Annotations textuelles • Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumérativesCorpus variés. Bientôt disponible. • Corpus Géopo :Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations.http://redac.univ-tlse2.fr/corpus/geopo.html 23/10/2014 30 30

  31. Premier état des lieux pour le français (II) • Discours, relations discursives • French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) • ANNODIS (en partie) • LELIE, projet ANR (IRIT) • Textes procéduraux (8000 textes) • relations du discours, structure des verbes • Annotation automatique révisé (partiellement) • TextCoop + Dislog analyseur de discours 23/10/2014 31 31

  32. Premier état des lieux pour le français (III) • Corpus annotés au plan de la coréférence et des anaphores • Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots • Corpus DEDE : Description définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/ • Corpus ANNODIS : chaines topicalisées (614943 mots) • Corpus EvalRefGen : (15 192 mots) multi-genre 23/10/2014 32 32

  33. Premier état des lieux pour le français (IV) • Projet MC4 (PEPS INS2I – INSHS, porté par Lattice) • Objectifs : • étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs • établir une méthodologie d’annotation • amélioration d’outils d’annotation manuelle et automatique • Annotation manuelle: Analec (Victorri, 2010) • Corpus annoté en chaines de co-référence 23/10/2014 33

  34. Premier état des lieux pour le français (V) • Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique) • Objectifs : • Utilisation des relations discursives pour améliorer les systèmes de traduction automatique • Corpus multilingue (extrait d’Europarl), dont le français • Annotation manuelle : connecteurs de discours, pronoms • 3600 mots 23/10/2014 34

  35. 5 Autres types?? 23/10/2014 35 35

  36. 6 Proposition de grille de description • La grille doit être compatible avec les métadonnées proposés par d’autres projets: • CLARIN • Labex Empirical Foundations on Linguistics (http://www.labex-efl.org) • FlaReNet 23/10/2014 36 36

  37. Nom du corpus : • Date de création/diffusion : • Auteurs : • Laboratoire (Université) : • Adresse postale : • E-mail : • Description du corpus : • URL : • Documentation : • Publication à citer : • Projet associé : • Type de données : écrit/oral/oral transcrit • Sources des données : • Période couverte par le corpus : • Genre (journalistique, littéraire, etc.) • Format de représentation (XML, TEI, CES, format propriétaire etc.): • Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : • Langue(s) : • Taille (nb de mots) : • Types d'informations linguistiques (fonctions syntaxiques, relations sémantiques, phénomènes discursifs etc.) : 23/10/2014 37

  38. Codage des caractères (UTF-8, UTF-16, Latin-1, Latin-15) : • État d'avancement de la ressource : en cours/achevé • Modèle linguistique (LFG, FrameNet etc.) : • Metadonnées normalisées : TEI/Dublin Core/Open Archive/Non • Type d'annotation (manuelle, automatique, automatique révisée) : • Domaines couverts par le corpus (médecine, économie, etc.): • Outils d'annotation : • Interface Web : • Guide d'annotation : • Droit d'accès (libre, payant, sous conditions) : • Licence (GPL, Creative Commons…) : • Coût éventuel : • Commentaires (outils associés, taille, usages, …) : • Description disponible dans un autre GT 23/10/2014 38

  39. Références • Guillot, C., Heiden, S. et Lavrentiev A. (2007). « Typologie des textes et des phénomèneslinguistiques pour l’analyse du changement linguistique avec la Base de FrançaisMédiéval », LINX, n° spécial, 2007, p. 125-139. • Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht. 23/10/2014 39

More Related