Linguistique de corpus
Download
1 / 74

Linguistique de corpus - PowerPoint PPT Presentation


  • 230 Views
  • Uploaded on

Linguistique de corpus. Détails administratifs. Enseignants: Amalia Todirascu ( todiras@unistra.fr ), Daniela Capin, François Rousselot salle informatique 4S.12, bâtiment 4 au sous-sol des séances de 3 heures 13.10, 03.11, 10.11, 17.11, 24.11, 01.12, 08.12, 15.12

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Linguistique de corpus' - wan


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

D tails administratifs
Détails administratifs

  • Enseignants: Amalia Todirascu (todiras@unistra.fr), Daniela Capin, François Rousselot

  • salle informatique 4S.12, bâtiment 4 au sous-sol

  • des séances de 3 heures

    • 13.10, 03.11, 10.11, 17.11, 24.11, 01.12, 08.12, 15.12

  • évaluation: contrôle continu sur machine (2x1h)


Linguistique de corpus
Plan

  • Mise en place des notions:

    • Corpus: définition, exemples, formats

  • Apport théorique: utilisation d'un concordancier simple AntConc

    • Concordancier : définition, fonctionnement, fonctions génériques

    • Utilisation d'AntConc, concordancier gratuit

  • Corpus en ligne: Frantext


Plan ii
Plan (II)

  • Le concordancier Xaira : exploitation de données en format XML

  • Mesures statistiques

  • Corpus étiquetés

    • Etiquetage des textes : notions fondamentales, difficultés, outils

    • Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés.

  • Exploitation des informations syntaxiques avec TigerSearch



Mise en place des notions
Mise en place des notions

  • Définition des corpus

  • Corpus ou bases textuelles existants

  • Constitution de corpus

    • exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques

    • critères de sélection des corpus

  • Formats des corpus: texte brut, langage de balises (XML), annotations (TEI).


Qu est ce que c est un corpus
Qu'est-ce que c'est un corpus?

  • Un corpus est un recueil de textes ou de paroles

    • en format électronique

    • sélectionnés pour un objectif précis

  • "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)


Pourquoi des corpus
Pourquoi des corpus?

  • étudier une phénomène linguistique particulier

    • vérifier les emplois "réels"

  • constituer des ressources linguistiques pour une analyse automatique

  • étudier l'évolution d'un dialecte ou d'une langue en diachronie

    • introduction de mots nouveaux, changement des formes

  • comparer les travaux de deux auteurs

    • lexique, syntaxe, figures de style


Pourquoi des corpus ii
Pourquoi des corpus (II)?

  • retrouver toutes les informations liés à un personnage historique ou à un pays

    • relations avec d'autres personnalités, avec les pays voisins, pour une période bien déterminée

  • analyser les sources d'un conflit social

    • acteurs, causes du conflit, phases du conflit

  • vérifier les emplois pour la traduction

    • rechercher les expressions pour voir si leur utilisation est fréquente


Corpus
Corpus

  • Taille de corpus: variable selon l'application

    • Des millions de mots

    • Quelques miliers de mots

  • Oral/écrit

  • Annotations:

    • morpho-syntaxiques

    • sémantiques

    • commentaires

  • Texts complets ou fragments?

    • Biber 1988: 1000 mots sont suffisants

    • Habert 1993: texts complets


Corpus ii
Corpus (II)

  • disponibles en ligne ou téléchargeables (peu de disponibilités :0( )

    • corpus "fermés", pas d'accès au texte intégral

  • outils d'exploration de corpus: les concordanciers

    • proposent les contextes d'un mot ou d'une expression

    • nécessitent l'apprentissage du langage d'intérrogation – pas toujours facile


Exemples de corpus ou bases textuelles
Exemples de corpus ou bases textuelles

  • Français

    • Linguistique:

      • base textuelle Frantext (textes littéraires et techniques)

        • http://www.frantext.fr

      • Corpus oral C-ORAL-ROM

        • http://www.elda.org/en/proj/coralrom.html

      • collection d'articles de journaux (L'Est républicain) http://www.cnrtl.fr/corpus/

    • Sociolinguistique

      • corpus du français parlé à Ottawa-Hull

        • http://www.sociolinguistique.uottawa.ca/materiel/canadien-fa.html

    • Sociologie: CLAPI

      • http://clapi.univ-lyon2.fr/feuilleter.php


Exemples de corpus multilingues
Exemples de corpus multilingues

  • débats parlementaires (Parlement européen)

    • http://corp.hum.sdu.dk/cqp.fr.html

    • corpus étiqueté, lemmatisé, disponible en plusieurs langues:

      • français, anglais, esperanto, danois, portugais, espagnol

  • corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues


Anglais
Anglais

  • Linguistique et TAL :

    • British National Corpus (http://www.natcorp.ox.ac.uk )

    • Brown Corpus (http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html)

    • Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html)

  • Histoire :

    • ASChart (http://www.aschart.kcl.ac.uk/)

    • CELT Corpus of Electronic Texts (http://www.ucc.ie/celt/)

  • Sociolinguistique :

    • Corpus of Early English Correspondence Sampler (CEECS) (http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM)

  • Sociologie :

    • Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)


B ritish n ational c orpus
British National Corpus

  • corpus de référence

  • répartition uniforme de genres:

    • la partie écrite:

      • le domaine: 75% de textes "informatifs", le reste appartient à la fiction;

      • le support: 60% livres, 30% périodiques, supports de discours radio, télé etc.

      • la datation: fiction (1960-1993), informatifs (1975-1993)

      • la diffusion (meilleurs ventes, les ouvrages les plus prêtés)

    • la partie orale: echantillon démographique: âge, sexe, groupe social, région (dates, environnement, participants)


Corpus en ligne autres langues i
Corpus en ligne – autres langues (I)

  • Allemand

    • TüPP-D/Z (articles de journaux, 200 millions de tokens)

      • http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml

    • Deutsches Referenzkorpus (DeReKo)

      • http://www.ids-mannheim.de/kl/projekte/korpora/

  • Multilingue

    • Wortschatz http://corpora.informatik.uni-leipzig.de/

    • Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html

    • norvégien, anglais, français, italien


Corpus en ligne autres langues ii
Corpus en ligne – autres langues (II)

  • Corpus international du portugais – 1 million de mots (http://cintil.ul.pt/index.jsp)

  • Corpus pour de production écrite pour l’apprentissage d’une langue étrangère – norvégien (http://ask.uib.no/index.page)

  • Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html)

    • 3,1 millions de mots

  • Corpus bulgare http://www.bultreebank.org/btbmorf/

    • 1 million de mots

  • Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)


Bases textuelles
Bases textuelles

  • Association des Bibliophiles Universels (ABU)

    • http://abu.cnam.fr/

  • Gallica (BNF)

    • http://gallica.bnf.fr/

  • Les bibliothèques virtuelles humanistes

    • http://www.bvh.univ-tours.fr/numerisation.asp

  • La bibliothèque virtuelle des manuscripts suisses

    • http://www.e-codices.unifr.ch/fr


Bases textuelles vs corpus

documents en format numérique

recherche par des critères "classiques"

auteur, titre, editeur, année

la recherche plein texte n'est pas toujours accessible

documents en format numérique

critères de sélection spécifiques, selon objectif

recherches avancées

plein texte

catégorie lexicale, fonction syntaxique, information sémantique...

texte enrichi, documenté

Bases textuelles vs. corpus


Corpus lectroniques
Corpus électroniques

  • Corpus électronique = un ensemble de textes numériques qui sont

    • sélectionnés sur des critères bien définis (paramètres de Biber)

    • documentés (nom de la personne qui a numérisé le document, le format etc.)

    • couplés à des outils d'exploration (concordanciers)


Comment constituer son propre corpus
Comment constituer son propre corpus?

  • Developping Linguistic Corpora: a Guide for Good Practices

    • http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm


Un exemple de constitution de corpus sociolinguistique
Un exemple de constitution de corpus (sociolinguistique)

  • Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace

    • Corpus: entretiens avec plusieurs acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)


M thodologie de travail
Méthodologie de travail

  • identifier l'objectif de l'étude à effectuer sur corpus

  • définir des critères de sélection des textes en fonction de son objectif

  • identifier les sources pertinentes

  • définir les aspects techniques:

    • le format des documents

    • les informations d'annotation

    • les outils nécessaires pour rassembler les textes et pour les annoter

  • nettoyer le corpus constitué


Crit res de s lection des textes
Critères de sélection des textes

  • typologie des textes, genres et registres (D.Biber,1999)

    • types de textes: ensemble de caractéristiques linguistiques

      • narratif, argumentatif, descriptif

    • genre/registre: catégories intuitives qui utilisent les locuteurs pour répartir les productions langagières

      • thèmes

      • formes de textes


Crit res de s lection ii
Critères de sélection (II)

  • Paramètres situationnels(Biber 1999)

    • canal: écrit/parlé/écrit lu;

    • format: publié/non-publié;

    • cadre: institutionnel/autre cadre public/ privé-interpersonnel

    • destinataire

      • pluralité: pluriel/individuel/non-compté

      • présence: présent/absent

      • interaction: aucune/peu/beaucoup

      • connaissances partagées: générales/spécialisées/personnelles


Crit res de s lection ii i
Critèresde sélection (III)

  • destinataire:

    • variation démographique: sexe, age, profession

    • statut: individu/institution

  • Factualité

    • informatif-factuel/intermédiaire/imaginaire

  • Objectifs

    • persuader, amuser, édifier, informer, expliquer, donner des consignes, etc.

  • Thèmes

    =>documenter le corpus

    annoter le corpus


Exemples de corpus constitu i
Exemples de corpus constitué (I)

  • Corpus Sociolinguistique

    • Source des textes: entretiens oraux transcrits

    • Critères de sélection:

      • Canal: oral

      • Interlocuteurs:

        • Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme)

      • Cadre: institutionnel/privé

      • Date

      • Entreprise: caractère multinational


Exemple de corpus constitu ii
Exemple de corpus constitué (II)

  • Format :

    • Fichiers en format texte brut

    • Informations provenant de la transcription (pauses, reprises etc.)

  • Annotation:

    • Les locuteurs

    • La date

    • L’entreprise concernée


M thodologie de travail1
Méthodologie de travail

  • identifier l'objectif de l'étude à effectuer sur corpus

  • définir des critères de sélection des textes en fonction de son objectif

  • identifier les sources pertinentes

  • définir les aspects techniques:

    • le format des documents

    • les informations d'annotation

    • les outils nécessaires pour rassembler les textes et pour les annoter

  • nettoyer le corpus constitué


O trouver des d ocuments num riques
Où trouver des documents numériques?

  • Bibilothèques virtuelles

    • faciliter la navigation

    • utiliser des outils de recherchespécialisés

    • archiver et numériser des documents

  • outils de recherche (moteurs et méta-moteurs spécialisés)

  • portails spécialisés


Portail
Portail

  • une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique

    • Pages Web

    • Forums, listes de discussions

    • Blog

    • Moteurs de recherches dédiés a chaque site

    • Catalogues en ligne


Portail ii
Portail (II)

  • Quelques exemples

    • le portail de l'Education Nationale http://www.education.gouv.fr/

    • le portail des revues en SHS http://www.revues.org/

    • le portail du CNRS

      http://www.drei.cnrs.fr

    • le Bulletin Officiel

      http://www.education.gouv.fr/pid230/textes-officiels.html


Bibiloth ques virtuelles
Bibilothèques virtuelles

  • Un portail regroupant des ressources ciblées

    • Bases de données bibliographiques

    • Accès aux revues électroniques

    • Collection de documents numériques: livres, images, vidéos etc.

  • Possibilités avancées de navigation et de recherche


Moteurs de recherches d di s
Moteurs de recherches dédiés

  • Moteur de recherche spécialisé pour la recherche des livres

    • http://books.google.com/

  • Moteur de recherche spécialisé – indexation des articles scientifiques

    • http://scholar.google.com

  • HAL-SHS

    • http://www.archives-ouvertes.fr/

  • Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)


Le web comme source
Le Web comme source

  • le Web n'est pas un corpus!!

  • taille importante

    • environ 76 milliards de mots (Kilgariff & Greffenstette2003)

  • hétérogénéité

    • pas de contrôle sur l'information publiée

  • disparité de ressources

    • thématique

    • langues

  • langage structuré – HTML


Techniques
Techniques

  • Aspiration directe d'un site

    • pertinence

    • choix des documents propres

    • Désavantage: il faut connaître les adresses des sites

  • exploiter les résultats des moteurs de recherche

    • automatisé, mais beaucoup des documents inutiles

  • plate-formes dédiées (Telanaute, projet SAFIR, BootCat)


Probl mes
Problèmes

  • doublons

  • inclusions des documents

  • vérification manuelle du corpus impossible si taille trop importante

    • Pas de contrôle sur l’auteur du texte

  • documents indexés par les moteurs (taille variable de l'index)


Exercice un exemple de constitution de corpus
Exercice: Un exemple de constitution de corpus

  • Un corpus concernant le transport des marchandises dangereuses en Europe

    • Quelle sources?

    • Quels critères de sélection?

    • Quelles informations annotés?


Format
Format

  • en fonction de l'application utilisée pour créer les documents

    • PDF, HTML (Page Web), document Microsoft Word etc.

    • extension du fichier = une indication sur l'application à utiliser pour les lire

      • txt – texte non-formaté

      • pdf – Acrobat Reader

      • doc – Microsoft Word

      • html – Dreamweaver, Microsoft Word, Internet Explorer

  • Utiliser le logiciel approprié pour lire le contenu et convertir vers d'autres formats


Formats ii
Formats (II)

  • texte brut

  • PDF

  • texte enrichi d'annotation

    • Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation)

    • format d'annotation de textes : TEI (Texte Encoding Initiative)


Formats exercice
Formats - Exercice

  • Ouvrez Microsoft Word

  • tapez un texte dans le nouveau document, avec des mises en forme simples (gras, italique, liste, etc.)

    • enregistrer ce document dans le répertoire "Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier:

      • document Word (doc)

      • texte simple (Texte brut)

      • RTF (Rich Text Format)

      • HTML (PageWeb)


Formats exercice suite
Formats – Exercice (suite)

  • fermez Microsoft Word

  • ouvrez les applications suivantes et essayez de lire les fichiers que vous avez enregistré sous Word

    • Acrobat Reader

    • WordPad

    • Bloc Notes

    • Internet Explorer


Texte brut
Texte brut

  • une suite de lettres et de chiffres, sans mise en forme

    • seulement le caractère nouvelle ligne

  • pas de mise en forme

  • interprétable par tous les éditeurs de textes

    • tous systèmes d'exploitation: Windows, Linux, MacOS

    • code ASCII (limité à 128 caractères)

  • plusieurs encodages possibles

    • LATIN-1

    • Unicode (UTF-8, UTF-7, UTF-16)


Format html
Format HTML

  • Langage interprété par les navigateurs Internet

  • Visualisation du contenu et la navigation

    • Mise en forme: en gras, en couleurs etc.

    • Structuration du texte: paragraphes, tableaux, liens vers d’autres pages…


Notion de balise
Notion de balise

  • Une balisepermet de distinguer un document HTML d’un fichier texte

  • Les balises sont insérées dans le corps du document

    • Elles permettent de contrôler le formatage et la présentation d’un document

    • Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux …

    • Quatre balises sont obligatoires dans un document HTML

      • <html>, <head>, <body>, <title>


Notion de balise ii
Notion de balise (II)

  • Une balise est encadrée par <…> et peut avoir aussi une balise de fin </…>

  • Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture

    • Par exemple

      <font size="+1"><b><i>texte</i></b></font>


Notion de balise iii
Notion de balise (III)

  • Une balise peut avoir trois formes

    • <nombalise>

      • <br> passage à la ligne

    • <nombalise> … </nombalise>

      • <b>texte à mettre en gras</b>

    • <nombalise attribut1="valeur_1"… attributn="valeur_n">

      texte

      </nombalise>

      • <body bgcolor="#80fff" text="red">

        • le fond de la page sera de couleur bleu clair


Limites du langage html
Limites du langage HTML

  • L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium

    • http://www.w3.org

  • Seulement la mise en forme ou la structure du texte

    • Pas de possibilité de marquer le contenu


Texte annot xml
Texte annoté - XML

  • XML – Extended Markup Language

  • marquage de plusieurs zones de textes pour:

    • faciliter la recherche d'information

    • faciliter le partage des connaissances

  • Même principe que le langage HTML

    • On peut définir les balises adaptées à notre propre application

      • Annotation morpho-syntaxique

      • Annotation sémantique (les noms de personnes, d’organisations, de métiers)


Pourquoi xml
Pourquoi XML?

  • Structurer l'information

    • Identification du contenu des données

  • Accessibilité

    • divers types de présentations de données (XSL)

  • interopérabilité des données

    • re-utiliser les XML dans d'autres applications

    • possibilité de vérifier si le document est valide: DTD, XML schémas

    • définitions partagées


Texte annot ii
Texte annoté (II)

  • Outils pour l’annotation en format XML

    • Annotea, Gate, Oxygène, XML Starlet, Notepad++

  • Outils pour executer des requêtes sur les balises XML

    • Xaira, XQuery


Linguistique de corpus

<?xml version="1.0" encoding="UTF-8" ?>

  <!DOCTYPE corpus SYSTEM "def.dtd">

-<corpus>

- <nouvelle lang="fr">

  • Solution à la crise financière et économique : L’intervention de l’Etat est nécessaire, selon les rénovateurs La financière et économique dans laquelle est englué le monde ne peut être résolue que par le retour aux fondements de la social-démocratie dont l’un des principes majeurs est<solution>l’interventionnisme de l’Etat dans l’économie</solution>. Telle est la conviction de <organisation id="1">l’Unionpour le renouveau démocratique </organisation> qui a réfléchi sur le sujet lors de son université d’hivernage du week-end. Que doivent faire les socio-démocrates pour sortir de la crise ? A cette question, <Personne>Diégane Sène</Personne>, membre de la direction exécutive de <organisation id="1">l’Union pour le renouveau démocratique (Urd)</organisation> qui animait une conférence sur le thème : ‘Les recettes de la social-démocratie’ au deuxième jour de l’université d’hivernage de <organisation id="1">l’Urd</organisation>, tenue ce week-end, répond qu’il faut ‘retourner au fondement de la social démocratie’.

  • </nouvelle>

      </corpus>


Un premier exemple d annotation xml
Un premier exemple d’annotation XML

  • Elements XML

    • <corpus>, <nouvelles>, <Personne>, <organisation>, <solution>

  • Attributs:

    • Lang pour l’élément <nouvelles>

    • Id pour l’élément <organisation>


Un premier exemple ii
Un premier exemple (II)

  • Interprétation

    • Un document est constitué par un élément <corpus>

    • Un <corpus> est composé par un ou plusieurs éléments <nouvelles>

    • Un <nouvelles> est composé par plusieurs séquences de texte, par un ou plusieurs <organisation>, <Personne>, <solution>


Linguistique de corpus

  • MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

    Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection.

    L’Express, Date: lundi 4 mai 2009


Linguistique de corpus

<?xml version="1.0" encoding="ISO-8859-1"?> l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

<Lieu>MEXICO</Lieu>

<épidémie>

<épisode><pays>Le Mexique</pays> s'est dit sur <état type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse>

</épisode>.

<épisode><pays>Aux Etats-Unis </pays>aussi, les autorités se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse>

</épisode>.

<épisode>Malgré ces nouvelles rassurantes, <état type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays>

</épisode>

<épisode>et certains pays <état type="prévention">ont renforcé les mesures de protection.</état></épisode>

</épidémie>

<Source>L’Express</Source><Datepubli>lundi le 4 mai 2009</Datepubli>


Avantages du xml
Avantages du XML l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • Structuration de l’information

  • Définitions partagées

  • Facilite le développement des standards

    • TEI pour l’édition de corpus (http://www.tei-c.org/index.xml)

    • Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles

    • XCES pour l’annotation morpho-syntaxique (http://www.xces.org/)

    • OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)


Exercice
Exercice l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • Annotez le corpus constitué sur la crise financière avec vos propres balises


Normes tei
Normes - TEI l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • Text Encoding Initiative:

    • objectif: partage de l'information textuelle

    • normalisation de l'annotation

    • simple, clair et extensible

    • représentation complète de l'information textuelle

  • Proposé par

    • Association for Computers and the Humanities

    • the Association for Computational Linguistics

    • the Association for Literary and Linguistic Computing

  • Site officiel: http://www.tei-c.org/index.xml


Tei ii
TEI(II) l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • <TEI> <teiHeader><!-- [ TEI Header information ] --> </teiHeader> <text>  <front>  </front>  <body><!-- [ body of text ... ] -->  </body>  <back>  </back> </text></TEI>


Linguistique de corpus
TEI l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • beaucoup d'outils pour

    • l'édition des annotations et des meta-données

    • validation des annotations

  • plusieurs projets de bases textuelles et de corpus adopte le standard

    • http://www.tei-c.org/Activities/Projects/


Quelques r f rences
Quelques références l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html

  • Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press

  • Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys

  • Sinclair, J. (1991) Coocurrences, concordances, collocations


Autres ressources
Autres ressources l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • European Language Distribution Agency (http://www.elda.org/)

  • Linguistic Data Consortium (http://www.ldc.upenn.edu/)


Linguistique de corpus
Plan l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • Mise en place des notions:

    • Corpus: définition, exemples, formats

  • Apport théorique: utilisation d'un concordancier simple AntConc

    • Concordancier : définition, fonctionnement, fonctions génériques

    • Utilisation d'AntConc, concordancier gratuit

  • Corpus en ligne: Frantext


Concordanciers
Concordanciers l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • recherches dans le corpus et outils d'exploration de corpus

  • qu'est-ce que c'est un concordancier?

  • fonctions de base

  • un exemple: Antconc


Recherches sur les corpus
Recherches sur les corpus l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • en linguistique: trouver des exceptions ou renforcer une hypothèse linguistique

  • en traduction: chercher des emplois réels

  • en sociolinguistique: quel point de vue ont les divers acteurs?

  • en littérature: comparer le style de deux auteurs

  • en TAL: chercher les informations spécifiques: qui a fait quoi? quand? où?


Analyse quantitative vs analyse qualitative

quantitative l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

analyse factorielle

fréquence

distance intertextuelle

données structurées

volume de données important

qualitative

analyse fine du contenu

informations linguistiques à prendre en compte:

catégorie lexicale

fonctions syntaxiques

informations sémantiques

données non-structurées

volume de données limité (si analyse manuelle)

Analyse quantitative vs. analyse qualitative


Qu est ce que c est un concordancier
Qu'est-ce que c'est un concordancier? l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • un outil qui permet la recherche d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte

    • pivot = un mot, un groupe de mots, une expression

    • contextes

      • gauche et droit

      • à l'intérieur de la phrase

      • au sein du même paragraphe


Les fonctions d un concordancier
Les fonctions d'un concordancier l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • définir un pivot: mot, terme, expression

  • visualiser les contextes d'apparition du pivot

  • tri des contextes

  • sélection de contextes

  • extraire des n-grammes (séquences de 2 ou plusieurs mots)


Concordanciers1
Concordanciers l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • outils indépendants

    • Antconc, Lexico, Wordsmith, ParaConc

    • on peut les appliquer sur notre propre corpus

  • concordanciers en-ligne

    • interface Web permettant des recherches dans les corpus "fermés"


Antconc
Antconc l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • outil gratuit http://www.antlab.sci.waseda.ac.jp/

  • pivot: mot (avec respect de la casse) ou expression régulière

    • expression régulière: une suite de lettres, chiffres et caractères spéciaux: .,?,*,+

  • format de sortie KWIC

  • tri sur les contextes gauches ou droites

    • 50 caractères la taille du contexte


Antconc ii
Antconc (II) l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • taille de corpus limitée

  • visualisation d'occurences par rapport au corpus

  • formats divers:

    • fichier texte (Unicode, Latin-1)

    • format HTML (mais balises confondues avec le texte)

  • un petit tutoriel:

    • http://mariepaule.jacques.free.fr/FormationDoctorale/TutorielAntConc.pdf


Antconc iii
Antconc (III) l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

  • calcul de cooccurences

  • sélection des contextes

    • les contextes qui contiennent un ou plusieurs mots

  • liste de mots

    • exclusion des mots grammaticaux

    • comparaison avec un corpus de référence

  • extraction de n-gramms