1 / 39

Thierry Chanier , Université Blaise Pascal

Corpus-écrits GT7, nouv-com. https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/. Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français. Thierry Chanier , Université Blaise Pascal.

ginger
Download Presentation

Thierry Chanier , Université Blaise Pascal

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal 2ème journées : Corpus de référence du français 28-29 mars 2013, Paris

  2. 1 Merci à Alexander Geyken(BBAW) et Lothar Lemnitzer (Berlin-Brandebourg) Corpus en allemand DWDSDigitales Wörterbuch der deutschenSprache

  3. Principaux projets corpus en allemand Allemand des 20 et 21 ème Allemand 1650-1900

  4. Objectif DWDS Noyau • Construire un dictionnaire rendant • compte des usages de l’allemand moderne • à partir d’un corpus équilibré d’écrits- 60% électronique- 40% papier au départ • Métadonnées pour tous les documents

  5. DWDS-E étendu • Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.) • Corpus étendu de type opportuniste • Base importante à partir de journaux et de l’Internet (pb droits plus facile à régler) • Tous les corpus DWDS et DTA, ainsi que les dictionnaires sont structurés en TEI/P5

  6. Planification du projet DWDS Dico DWDS basé sur dico WDG (1961-75) Wörterbuch der deutschen Gegenwartssprache

  7. AvH BBAW Patrons et ressources Akademienunion Financé par “Akademienunion » sur 18 ans

  8. DWDS noyau : tâches principales Accès : voir infra -TAGH : morpho composé -STTS : POS - GermaNet : sém.

  9. www.dwds.de : un site en accès libre

  10. Par décennies et genres Les corpus 71% des textes en accès libre dans DWDS noyau

  11. Statistiques en accès libres faites sur ensemble corpus On voit plus de textes après identification

  12. 2 Merci à NellekeOostdijk (RadboudUniversityNijmegen) STEVIN Nederlandstalig Referentiecorpus Corpus de référence en hollandais, SoNaR

  13. Objectifs • Construire un corpus de référence de du hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des analyses linguistiques et au développement de technologies du langage. • Inclure dès le début des écrits provenant des médias traditionnels et de l’Internet • Auparavant corpus oral de 9 M tokens (transcript + audio), collecte entre 1998 et2003

  14. Une grande variété initialement prévue

  15. Du prévu à la réalité prévu réalisé Flamand NC Holland. Phase 1

  16. Du prévu à la réalité • Question de droits : grande variété, chronophage • Grande variété de formats, délaisser formats trop complexes (PDF) • Approche opportuniste avec Internet • Collectes faciles (Tweets, forum, clav) ou difficile (SMS) • Droits difficiles (Sites, blogues) ou libres (licences CC ou GPL) • Maintenir équilibre global, collecter plus que ce qui sera intégré dans corpus référence

  17. D’abord un corpus pilote

  18. SoNaR: organisation Chercheurs Industrie Éval extérieure Qualité Annotations sémantiques Constitution corpus

  19. Développement: collaboration nationale

  20. Diagramme de flux

  21. Ressources financières

  22. Ressources financières + 1 ETP par université pour tâche A et temps partiels des autres pour début Budget ne comprend pas les missions internes, ni conf.

  23. 3 Salut s que <NOM_4> c dcd à ht 1 dvd pr sa cop ki e pa la 2main? Projet de corpus CMC en français SMS / textos Tweets Blogues Forums Clavardage Etc.

  24. Rappel objectifs projet 2013-14 • Créer un noyau (pas encore le corpus de référence !) de corpus CMC en français • Ensembles de conversations intervenant sur la Toile et les réseaux • Couvrir variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc.

  25. Rappel objectifs projet 2013-14 • Le faire suivant standard (TEI, CLARIN, OLAC?) • Diffuser en accès libre ce corpus en 2014 sur Ortolang • Travailler en partenarait avec Europe (projet consortium TEI, DARIAH) • Intégrer ce noyau au « Corpus de référence du français »

  26. Macrostructure discursive (Beißwenger et al., 2012)

  27. Macro et microstructure

  28. Audio Clavardage Multimodalité (LETEC corpus Archi21 : archi21-slrefl-av-j2)

  29. sms brut sms anonymisé sms transcodé sms annoté Salut s que <NOM_4> c dcd à ht 1 dvd pr sa cop ki e pa la 2main? Salut s que 2nis c dcd à ht 1 dvd pr sa cop ki e pa la 2main? anonymisation transcodage Salut est-ce que <NOM_4> s'est décidé à acheter 1 dvd pour sa copine qui est pas là demain? Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là <MOD_2main> demain <TYP_espace_avant_?_manquante> ? annotation

  30. Variability (orthographique) can only in part be explained in terms of errors, as a great deal of variation is intentional is a research topic in itself complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.) Han & Baldwin (2012: 368):“We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.” Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 2013 8

  31. Expérience TAL dans notre groupe

  32. Groupes de travail du projet 2013 Droits, Amont : accept V0 Aval : accept V1 métadonnées Relations Ortolang corpus-écrits Prépa V1 TEI Tweets, wikipedia Nelles acquisitions Structuration méta Linda Ingénieur (Corpus-écrits + Ortolang)

  33. Flux de traitements Dépôts individuels GT traitements GT Validation V0 Clermont ingénieur

  34. Projet TEI-CMC européen

  35. 1) Modelling CMC in TEI: • briefoverviewof essential requirementsconcerningtherepresentationof CMC fromtheperspectiveofthefourprojects [8 min], • selectedaspectsfromtheDeRiK-TEI schemareviewedfromtheperspectiveofthefourprojects (suggestedfocus: elementposting, usermodelling, interactionsigns) [15 min], • problemsketches: (a) hypertextstructures/“linkeddata“ (cf. topicalfocusoftheconference), (b) multimodal CMC [5 minseach]. • 2) Challengesandperspectives in mappingfeaturesof computer-mediatedcommunicationtoelements in TEI-P5 • 3) Metadataforcmcdocuments: challenges & suggestions

  36. Participants a u projet Groupe GT7, corpus-écrits • Achille Falaise, LIG, Grenoble • Benoît Sagot, Alpage, INRIA , Univ. P7 • Béatrice Turpin, CRTF, Univ. de Cergy • Céline Poudat, UMR LDI, Univ. Paris 13 • CiaraWigham, LRL, Univ. Blaise Pascal • FiammettaNamer, ATILF, Nancy • Georges Antoniadis, LIDILEM, Univ Grenoble 3 • GeorgetaCislaru, CLESTHIA, Univ. Paris 3 • GudrunLedegen , PREFics, Univ. de Rennes 2 • Julien Longhi, CRTF, Univ. de Cergy • Mahé Ben Hamed, UMR BCL, Nice • Natalia Grabar, UMR STL, CNRS Univ. Lille 3 • Paloque-Berges, Camille, DICEN, CNAM • Rachel Panckhurst, UMR Praxiling, CNRS Univ. Montpellier 3 • Thierry Chanier, LRL, Univ. Blaise Pascal • TitaKyriacopoulou, LIGM, Univ. Marne-la-Vallée • Virginie Zampa, LIDILEM, Univ Grenoble 3 • Linda Hriba , corpus-écrits • Paul Lotin, ingénieur, LRL • Ingénieur à recruter (6 mois/ETP, sur fonds Ortolang et corpus-écrits)

  37. Pour nous suivre Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/

More Related