1 / 122

Analyse de corpus

Analyse de corpus. Détails administratifs. Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours Evaluation: dossier un corpus à constituer un outil d'exploration de corpus. Plan. Mise en place des notions:

jacob
Download Presentation

Analyse de corpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse de corpus

  2. Détails administratifs • Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol • Mardi, 8-10 tous les 15 jours • Evaluation: dossier • un corpus à constituer • un outil d'exploration de corpus

  3. Plan • Mise en place des notions: • Corpus: définition, exemples, formats • Apport théorique: utilisation d'un concordancier simple AntConc • Concordancier : définition, fonctionnement, fonctions génériques • Utilisation d'AntConc, concordancier gratuit.

  4. Plan (II) • Apport théorique/ utilisation de AtlasTi • Annotations de corpus • citations • réseau de citations • Apport théorique / utilisation de WeftQDA • annotations • exploration de corpus

  5. Corpus: définitions, exemples, formats

  6. Mise en place des notions • Définition des corpus • Corpus ou bases textuelles existants • Constitution de corpus • exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques • critères de sélection des corpus • Formats des corpus: texte brut, langage de balises (XML), annotations (TEI).

  7. Qu'est-ce que c'est un corpus? • Un corpus est un recueil de textes ou de paroles • en format électronique • sélectionnés pour un objectif précis • "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)

  8. Pourquoi des corpus? • étudier une phénomène linguistique particulier • vérifier les emplois "réels" • étudier l'évolution d'un dialecte ou d'une langue en diachronie • introduction de mots nouveaux, changement des formes • comparer les travaux de deux auteurs • lexique, syntaxe, figures de style

  9. Pourquoi des corpus (II)? • retrouver toutes les informations liés à un personnage historique ou à un pays • relations avec d'autres personnalités, avec les pays voisins, pour une période bien déterminée • analyser les sources d'un conflit social • acteurs, causes du conflit, phases du conflit • vérifier les emplois pour la traduction • rechercher les expressions pour voir si leur utilisation est fréquente

  10. Corpus • Taille de corpus: variable selon l'application • Des millions de mots • Quelques miliers de mots • oral/écrit • Annotations: • morpho-syntaxiques • sémantiques • commentaires • Texts complets ou fragments? • Biber 1988: 1000 mots sont suffisants • Habert 1993: texts complets

  11. Corpus (II) • disponibles en ligne ou téléchargeables (peu de disponibilités :0( ) • corpus "fermés", pas d'accès au texte intégral • outils d'exploration de corpus: les concordanciers • proposent les contextes d'un mot ou d'une expression • nécessitent l'apprentissage du langage d'intérrogation – pas toujours facile

  12. Exemples de corpus ou bases textuelles • Français • Linguistique: • base textuelle Frantext (textes littéraires et techniques) • http://www.frantext.fr • Corpus oral C-ORAL-ROM • http://www.elda.org/en/proj/coralrom.html • collection d'articles de journaux (L'Est républicain) http://www.cnrtl.fr/corpus/ • Sociolinguistique • corpus du français parlé à Ottawa-Hull • http://www.sociolinguistique.uottawa.ca/materiel/canadien-fa.html • Sociologie: CLAPI • http://clapi.univ-lyon2.fr/feuilleter.php

  13. FRANTEXT • www.frantext.fr, version non-catégorisé et catégorisée • accès gratuit via la bibliothèque virtuelle de l’UMB • base de textes littéraires (auteurs français) • dates: XIIIème-20ème • grande taille: • version non-catégorisé: 3952 textes, 237 582 579 mots • version catégorisée: 1940 textes, 126990750 mots • Définition d'un corpus selon plusieurs critères • Auteur, titre • Date, genre

  14. Frantext (II) • concordancier en ligne permettant : • recherche de cooccurrences • recherche par liste de mots • recherche de recherche par catégories "sûres" et "incertes" ou séquences d'étiquettes (version catégorisée)

  15. Exemples de corpus multilingues • débats parlementaires (Parlement européen) • http://corp.hum.sdu.dk/cqp.fr.html • corpus étiqueté, lemmatisé, disponible en plusieurs langues: • français, anglais, esperanto, danois, portugais, espagnol • corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues

  16. Anglais • Linguistique et TAL : • British National Corpus (http://www.natcorp.ox.ac.uk ) • Brown Corpus (http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html) • Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html) • Histoire : • ASChart (http://www.aschart.kcl.ac.uk/) • CELT Corpus of Electronic Texts (http://www.ucc.ie/celt/) • Sociolinguistique : • Corpus of Early English Correspondence Sampler (CEECS) (http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) • Sociologie : • Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)

  17. British National Corpus • corpus de référence • répartition uniforme de genres: • la partie écrite: • le domaine: 75% de textes "informatifs", le reste appartient à la fiction; • le support: 60% livres, 30% périodiques, supports de discours radio, télé etc. • la datation: fiction (1960-1993), informatifs (1975-1993) • la diffusion (meilleurs ventes, les ouvrages les plus prêtés) • la partie orale: echantillon démographique: âge, sexe, groupe social, région (dates, environnement, participants)

  18. Corpus en ligne – autres langues (I) • Allemand • TüPP-D/Z (articles de journaux, 200 millions de tokens) • http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml • Deutsches Referenzkorpus (DeReKo) • http://www.ids-mannheim.de/kl/projekte/korpora/ • Multilingue • Wortschatz http://corpora.informatik.uni-leipzig.de/ • Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html • norvégien, anglais, français, italien

  19. Corpus en ligne – autres langues (II) • Corpus international du portugais – 1 million de mots (http://cintil.ul.pt/index.jsp) • Corpus pour de production écrite pour l’apprentissage d’une langue étrangère – norvégien (http://ask.uib.no/index.page) • Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html) • 3,1 millions de mots • Corpus bulgare http://www.bultreebank.org/btbmorf/ • 1 million de mots • Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)

  20. Bases textuelles • Association des Bibliophiles Universels (ABU) • http://abu.cnam.fr/ • Gallica (BNF) • http://gallica.bnf.fr/ • Les bibliothèques virtuelles humanistes • http://www.bvh.univ-tours.fr/numerisation.asp • La bibliothèque virtuelle des manuscripts suisses • http://www.e-codices.unifr.ch/fr

  21. documents en format numérique recherche par des critères "classiques" auteur, titre, editeur, année la recherche plein texte n'est pas toujours accessible documents en format numérique critères de sélection spécifiques, selon objectif recherches avancées plein texte catégorie lexicale, fonction syntaxique, information sémantique... texte enrichi, documenté Bases textuelles vs. corpus

  22. Corpus électroniques • Corpus électronique = un ensemble de textes numériques qui sont • sélectionnés sur des critères bien définis (paramètres de Biber) • documentés (nom de la personne qui a numérisé le document, le format etc.) • couplés à des outils d'exploration (concordanciers)

  23. Comment constituer son propre corpus? • Developping Linguistic Corpora: a Guide for Good Practices • http://ahds.ac.uk/creating/guides/linguistic-corpora/index.htm

  24. Un exemple de constitution de corpus (sociolinguistique) • Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace • Corpus: entretiens avec plusieurs acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)

  25. Méthodologie de travail • identifier l'objectif de l'étude à effectuer sur corpus • définir des critères de sélection des textes en fonction de son objectif • identifier les sources pertinentes • définir les aspects techniques: • le format des documents • les informations d'annotation • les outils nécessaires pour rassembler les textes et pour les annoter • nettoyer le corpus constitué

  26. Critères de sélection des textes • typologie des textes, genres et registres (D.Biber,1999) • types de textes: ensemble de caractéristiques linguistiques • narratif, argumentatif, descriptif • genre: catégories reconnues par une communauté • registre : caractéristiques linguistiques utilisés avec un but communicatif

  27. Critères de sélection (II) • Paramètres situationnels(Biber 1999) • canal: écrit/parlé/écrit lu; • format: publié/non-publié; • cadre: institutionnel/autre cadre public/ privé-interpersonnel • destinataire • pluralité: pluriel/individuel/non-compté • présence: présent/absent • interaction: aucune/peu/beaucoup • connaissances partagées: générales/spécialisées/personnelles

  28. Critèresde sélection (III) • destinataire: • variation démographique: sexe, age, profession • statut: individu/institution • Factualité • informatif-factuel/intermédiaire/imaginaire • Objectifs • persuader, amuser, édifier, informer, expliquer, donner des consignes, etc. • Thèmes =>documenter le corpus annoter le corpus

  29. Paramètres linguistiques • Biber et Conrad (2009) • groupes nominaux complexes • longueur de la phrase • modifieurs (groupes prépositionnels, adverbes etc.) • préférence pour un temps ou un mode particulier • pronoms (personnels, impersonnels, demonstratifs)

  30. Exemples de corpus constitué (I) • Corpus Sociolinguistique • Source des textes: entretiens oraux transcrits • Critères de sélection: • Canal: oral • Interlocuteurs: • Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme) • Cadre: institutionnel/privé • Date • Entreprise: caractère multinational

  31. Exemple de corpus constitué (II) • Format : • Fichiers en format texte brut • Informations provenant de la transcription (pauses, reprises etc.) • Annotation: • Les locuteurs • La date • L’entreprise concernée

  32. Méthodologie de travail • identifier l'objectif de l'étude à effectuer sur corpus • définir des critères de sélection des textes en fonction de son objectif • identifier les sources pertinentes • définir les aspects techniques: • le format des documents • les informations d'annotation • les outils nécessaires pour rassembler les textes et pour les annoter • nettoyer le corpus constitué

  33. Où trouver des documents numériques? • Bibilothèques virtuelles • faciliter la navigation • utiliser des outils de recherchespécialisés • archiver et numériser des documents • outils de recherche (moteurs et méta-moteurs spécialisés) • portails spécialisés

  34. Portail • une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique • Pages Web • Forums, listes de discussions • Blog • Moteurs de recherches dédiés a chaque site

  35. Portail (II) • Quelques exemples • le portail de l'Education Nationale http://www.education.gouv.fr/ • le portail des revues en SHS http://www.revues.org/ • le portail du CNRS http://www.drei.cnrs.fr • le Bulletin Officiel http://www.education.gouv.fr/pid230/textes-officiels.html

  36. Bibilothèques virtuelles • Un portail regroupant des ressources ciblées • Bases de données bibliographiques • Accès aux revues électroniques • Collection de documents numériques: livres, images, vidéos etc. • Possibilités avancées de navigation et de recherche

  37. Moteurs de recherches dédiés • Moteur de recherche spécialisé pour la recherche des livres • http://books.google.com/ • Moteur de recherche spécialisé – indexation des articles scientifiques • http://scholar.google.com • HAL-SHS • http://www.archives-ouvertes.fr/ • Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)

  38. Le Web comme source • le Web n'est pas un corpus!! • taille importante • environ 76 milliards de mots (Kilgariff & Greffenstette2003) • hétérogénéité • pas de contrôle sur l'information publiée • disparité de ressources • thématique • langues • langage structuré – HTML

  39. Techniques • Aspiration directe d'un site • pertinence • choix des documents propres • Désavantage: il faut connaître les adresses des sites • exploiter les résultats des moteurs de recherche • automatisé, mais beaucoup des documents inutiles • plate-formes dédiées (Telanaute, projet SAFIR, BootCat)

  40. Problèmes • doublons • inclusions des documents • vérification manuelle du corpus impossible si taille trop importante • Pas de contrôle sur l’auteur du texte • documents indexés par les moteurs (taille variable de l'index)

  41. Exercice: Un exemple de constitution de corpus • Un corpus des nouvelles sur la reforme de la retraite • Quelle sources? • Quels critères de sélection? • Quelles informations annotées?

  42. Format (rappel) • application spécialisée pour créer les documents • texte, PDF, HTML (Page Web), document Microsoft Word etc. • extension du fichier = une indication sur l'application à utiliser • txt – texte non-formaté • pdf – Acrobat Reader • doc – Microsoft Word • html – Dreamweaver, Microsoft Word, Internet Explorer • Utiliser le logiciel approprié pour lire le contenu et convertir vers d'autres formats

  43. Formats (II) • texte brut • PDF • texte enrichi d'annotation • Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation) • format d'annotation de textes : TEI (Texte Encoding Initiative)

  44. Texte brut • une suite de lettres et de chiffres, sans mise en forme • seulement le caractère nouvelle ligne • pas de mise en forme • interprétable par tous les éditeurs de textes • tous systèmes d'exploitation: Windows, Linux, MacOS • code ASCII (limité à 128 caractères) • plusieurs encodages possibles • LATIN-1 • Unicode (UTF-8, UTF-7, UTF-16)

  45. Format HTML • Langage interprété par les navigateurs Internet • Visualisation du contenu et la navigation • Mise en forme: en gras, en couleurs etc. • Structuration du texte: paragraphes, tableaux, liens vers d’autres pages…

  46. Notion de balise • Une balisepermet de distinguer un document HTML d’un fichier texte • Les balises sont insérées dans le corps du document • Elles permettent de contrôler le formatage et la présentation d’un document • Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux … • Quatre balises sont obligatoires dans un document HTML • <html>, <head>, <body>, <title>

  47. Notion de balise (II)‏ • Une balise est encadrée par <…> et peut avoir aussi une balise de fin </…> • Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture • Par exemple <font size="+1"><b><i>texte</i></b></font>

  48. Notion de balise (III)‏ • Une balise peut avoir trois formes • <nombalise> • <br> passage à la ligne • <nombalise> … </nombalise> • <b>texte à mettre en gras</b> • <nombalise attribut1="valeur_1"… attributn="valeur_n"> texte </nombalise> • <body bgcolor="#80fff" text="red"> • le fond de la page sera de couleur bleu clair

  49. Limites du langage HTML • L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium • http://www.w3.org • Seulement la mise en forme ou la structure du texte • Pas de possibilité de marquer le contenu

More Related