390 likes | 567 Views
Réunion du groupe de travail. Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1 er juin 2012. 23/10/2014. 1. 1. Plan de la présentation.
E N D
Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1er juin 2012 23/10/2014 1 1
Plan de la présentation • Présentation du consortium corpus écrits et objectifs du groupe de travail • Annotations syntaxiques • Annotations sémantiques • Annotations discursives et de la référence • Proposition de grille pour le catalogage des données et discussion 23/10/2014 2 2
1. L’Infrastructure de recherche Corpus 23/10/2014 Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS) Portée par le CNRS et l’Université Aix-Marseille Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin d’accompagner et de favoriser les effets d’apprentissage et les synergies pour la constitution et le développement de l’usage des sources numériques par les chercheurs des sciences humaines et sociales. » 3 3
4 consortiums 23/10/2014 Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM) Consortium anthropologique « Consortium Archive des ethnologues » Consortium linguistique « Corpus Écrits » Consortium littérature et philosophie « CAHIER » 4 4
Consortium corpus écrits - Pilotage 23/10/2014 Comité de pilotage (4 ans)Frank Neveu pour l’ILF, FR 2393 Jean-Marie Pierrel pour l’ATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR 7597 - Université Denis Diderot - Paris 7Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR 6039 - Université Nice Sophia AntipolisSerge Heiden pour ICAR - UMR 5191 - Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR 7110 - Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7 Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu. 5 5
Corpus écrits 23/10/2014 • Objectifs • Partage d’information, homogénéisation des pratiques, mise en conformité avec des standards internationaux • Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits • Collaborations importantes : • ATILF (CNRTL) • CLARIN (d’infrastructure européenne partagée pour les SHS (Common Language Resources and Technology Infrastructure: www.clarin.eu)) • TEI (Text Encoding Initiative) 6 6
Corpus écrits 23/10/2014 • Actions • Recensement des ressources et diffusion des bonnes pratiques (standards européens : TEI, CLARIN) • Mise en place de groupe de travail • Support : • Petit financement pour organiser des journées d’études, des réunions • Embauche d’un ingénieur de recherche CDD pour aider au recensement et diffusion des corpus : Linda Hriba 7 7
10 groupes de travail 23/10/2014 Groupe de travail n°1 Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...) Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…) Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…) Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …) Groupe de travail n°6 Description de corpus collaborative - Metadonnées Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication. Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...) Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …) Groupe de travail n°10 Exploration de corpus (Méthodes, outils…) Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR) 8 8
Objectifs du groupe de travail – Annotations de haut niveau 23/10/2014 • Recenser les corpus du français existants avec une annotation de « haut niveau » • Proposer une grille de description de ces corpus (métadonnées) • Associer linguistes et spécialistes du TAL dans la réflexion sur l’annotation • Retour d’expériences sur les projets constituant des corpus annotés • Guide de « bonnes pratiques » 9 9
Objectifs du groupe de travail – Annotations de haut niveau (II) • Proposer des journées de formation (aux normes, aux logiciels d’annotation, aux logiciels d’interrogation) • Proposer des journées d’information : journées thématiques, journées de travail 23/10/2014 10
Outils de communication • le wiki de la liste • https://listes.cru.fr/wiki/corpus-ecrits/public/groupe-8 • s'inscrire sur la liste • corpus-ecrits-annot-haut-niveau@groupes.renater.fr
Les phénomènes de haut niveau • Syntaxe • Sémantique • Discours et relations textuelles • Référence 23/10/2014 12 12
2. L’annotation syntaxique • Objectifs : • création de ressources pour les analyseurs automatiques • études des phénomènes linguistiques • Identification des constituants • catégories de constituants • annotations continues ou discontinues • annotations imbriquées ou simples • ambiguïtés • règles de grammaires indépendantes d'une théorie particulière? 23/10/2014 13 13
2. L’annotation syntaxique (II) 23/10/2014 • Identification des fonctions syntaxiques/dépendances • grammaires de dépendance vs. étiquetage des corpus annotés • phénomènes locaux vs. phénomènes de dépendances à distance • indépendance par rapport aux théories existantes 14 14
Corpus arborés pour d’autres langues 23/10/2014 • Penn Treebank (U.Pennsylvania) • 1 000 000 mots • annotation syntaxique et sémantique • constituants et en dépendances • SUSANNE : 130 000 mots (G. Sampson) annotations de catégories et fonctions • LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl) • 1 000 000 mots • Corpus d’entraînement et de test CONLL (2009) 15 15
Corpus arborés pour d’autres langues (II) 23/10/2014 • Prague Dependency TreeBank (Charles University) 1 500 000 mots • Annotation syntaxique, sémantique, coréférence • ItalianTreeBanks • ISST (Pise): multiples niveaux • TUT (Turin) : dépendances • VIT (Venise) : multi-domaine, X-bar • GermanTreeBanks : • Negra (Saarland) : constituants et dépendances • Tiger (IMS Stuttgart) : indépendant de théories 16 16
Corpus arborés - FR • Français contemporain • French Treebank (Abeillé, et al 2003) • extrait de Le Monde • correction manuelle • constituants et fonctions (sujets, objets etc.) • fonctions de surface • les constituants sont simples • compatibilité avec plusieurs analyseurs • Séquoia (Candito et Seddah, 2012) • Multi-domaine, multi-genre, libre de droit • constituants et dépendances 23/10/2014 17 17
Corpus arborés – FR (II) 23/10/2014 • Corpus arborés de français contemporain interrogeables en ligne • L’arboratoire (syntaxe de contrainte, Bick) : textes français interrogeables en ligne (Europarl)http://corp.hum.sdu.dk/arboratoire.html • Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault)http://scientext.msh-alpes.fr 18 18
Corpus arborés – FR (III) 23/10/2014 • Français médieval: SRCMF (projet ANR piloté par Lattice, IMS Stuttgart) • dépendances • modèle : SRCMF • 1 verbe principal=1 phrase • catégories hiérarchisées • possibilité de catégories sous-déterminées en cas de doute • annotation manuelle, 2 annotateurs • XML, compatible TigerSearch 19 19
Corpus arborés – FR (IV) • Corpus CLASSYN (Univ. Strasbourg et IMS Stuttgart) • textes de vulgarisation et articles scientifiques • domaines : médecine, informatique • Corpus comparables (fr, de) • environ 700000 tokens/genre/domaine (fr) • dépendances (analyseur de B.Bohnet (2009)) • pas de correction manuelle 23/10/2014 20
3. L’annotation sémantique • L’annotation sémantique de corpus est très diverse : • Types sémantiques et référentiels • Exemples : Entités nommées, expressions calendaires et temporelles • Opinions et sentiments • Désambiguïsation • Repérage du « bon » sens du mot • Rôles sémantiques (à l’interface de la syntaxique et de la sémantique) • Rôle sémantique du mot et du constituant 23/10/2014 21 21
3. L’annotation sémantique (II) • L’annotation sémantique de corpus est aussi complexe : difficile d’atteindre un bon accord interannotateurs • Tâches comportant une forte part de subjectivité • Souvent pas de standard de référence • Difficile d’automatiser la tâche d’annotation 23/10/2014 22 22
Les corpus annotés sémantiquement pour d’autres langues • De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC): • désambiguïsation: SemCor (Princeton) : anglais, annoté avec WordNet • identification de rôles semantiques : FrameNet (Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de) • identification des opinions : corpus de citations des débats politiques annotés (JRC Trento) • extraction d’information : évenements et les participants : corpus MUC-7 23/10/2014 23 23
Les corpus annotés pour le français : un premier inventaire (à compléter) • Entités nommées : • Corpus ESTER utilisé dans des campagnes d’évaluation, annotation des personnes, lieux, organisation (transcription d’émissions de radios) (diffusé par ELRA) • Corpus SxPipe (une centaine de dépêches AFP) librement diffusé. 23/10/2014 24 24
Les corpus annotés pour le français (II) • Sentiment et opinion (de très nombreux corpus) : • Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html • Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/ • Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires) 23/10/2014 25 25
Les corpus annotés pour le français (III) • Expressions temporelles : • French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) 23/10/2014 26 26
Les corpus annotés pour le français (V) • Désambiguïsation : • Corpus de la campagne ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA. 23/10/2014 27 27
Annotation discursive et textuelle • De nombreux phénomènes : • Structure textuelle : aspects structurels • Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) • Connecteurs implicites ou explicites • Relations de discours hiérarchiques ou indépendantes • Référence, co-référence, phénomènes anaphoriques • Délimitation des expressions référentielles • Relations anaphoriques ou de co-référence • Divers catégories d’expressions 23/10/2014 28 28
Ressources pour d'autres langues • Relations de discours : Penn Discourse Treebank • Indépendant d’une théorie • Relations simples • Connecteurs • Coréférence : • ACE (tâche limitée : co-référence entre personnes, organisations, lieux) • MUC 6/7 • OntoNotes • tâches SEMEVAL: corpus disponibles en en, es, it, de, nl 23/10/2014 29
Premier état des lieux pour le français • Annotations textuelles • Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumérativesCorpus variés. Bientôt disponible. • Corpus Géopo :Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations.http://redac.univ-tlse2.fr/corpus/geopo.html 23/10/2014 30 30
Premier état des lieux pour le français (II) • Discours, relations discursives • French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) • ANNODIS (en partie) • LELIE, projet ANR (IRIT) • Textes procéduraux (8000 textes) • relations du discours, structure des verbes • Annotation automatique révisé (partiellement) • TextCoop + Dislog analyseur de discours 23/10/2014 31 31
Premier état des lieux pour le français (III) • Corpus annotés au plan de la coréférence et des anaphores • Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots • Corpus DEDE : Description définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/ • Corpus ANNODIS : chaines topicalisées (614943 mots) • Corpus EvalRefGen : (15 192 mots) multi-genre 23/10/2014 32 32
Premier état des lieux pour le français (IV) • Projet MC4 (PEPS INS2I – INSHS, porté par Lattice) • Objectifs : • étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs • établir une méthodologie d’annotation • amélioration d’outils d’annotation manuelle et automatique • Annotation manuelle: Analec (Victorri, 2010) • Corpus annoté en chaines de co-référence 23/10/2014 33
Premier état des lieux pour le français (V) • Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique) • Objectifs : • Utilisation des relations discursives pour améliorer les systèmes de traduction automatique • Corpus multilingue (extrait d’Europarl), dont le français • Annotation manuelle : connecteurs de discours, pronoms • 3600 mots 23/10/2014 34
5 Autres types?? 23/10/2014 35 35
6 Proposition de grille de description • La grille doit être compatible avec les métadonnées proposés par d’autres projets: • CLARIN • Labex Empirical Foundations on Linguistics (http://www.labex-efl.org) • FlaReNet 23/10/2014 36 36
Nom du corpus : • Date de création/diffusion : • Auteurs : • Laboratoire (Université) : • Adresse postale : • E-mail : • Description du corpus : • URL : • Documentation : • Publication à citer : • Projet associé : • Type de données : écrit/oral/oral transcrit • Sources des données : • Période couverte par le corpus : • Genre (journalistique, littéraire, etc.) • Format de représentation (XML, TEI, CES, format propriétaire etc.): • Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : • Langue(s) : • Taille (nb de mots) : • Types d'informations linguistiques (fonctions syntaxiques, relations sémantiques, phénomènes discursifs etc.) : 23/10/2014 37
Codage des caractères (UTF-8, UTF-16, Latin-1, Latin-15) : • État d'avancement de la ressource : en cours/achevé • Modèle linguistique (LFG, FrameNet etc.) : • Metadonnées normalisées : TEI/Dublin Core/Open Archive/Non • Type d'annotation (manuelle, automatique, automatique révisée) : • Domaines couverts par le corpus (médecine, économie, etc.): • Outils d'annotation : • Interface Web : • Guide d'annotation : • Droit d'accès (libre, payant, sous conditions) : • Licence (GPL, Creative Commons…) : • Coût éventuel : • Commentaires (outils associés, taille, usages, …) : • Description disponible dans un autre GT 23/10/2014 38
Références • Guillot, C., Heiden, S. et Lavrentiev A. (2007). « Typologie des textes et des phénomèneslinguistiques pour l’analyse du changement linguistique avec la Base de FrançaisMédiéval », LINX, n° spécial, 2007, p. 125-139. • Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht. 23/10/2014 39