analyse de corpus n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Analyse de corpus PowerPoint Presentation
Download Presentation
Analyse de corpus

Loading in 2 Seconds...

play fullscreen
1 / 122

Analyse de corpus - PowerPoint PPT Presentation


  • 253 Views
  • Uploaded on

Analyse de corpus. Détails administratifs. Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol Mardi, 8-10 tous les 15 jours Evaluation: dossier un corpus à constituer un outil d'exploration de corpus. Plan. Mise en place des notions:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Analyse de corpus' - jacob


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
d tails administratifs
Détails administratifs
  • Enseignant: Amalia Todirascu salle informatique 4S.12, bâtiment 4 au sous-sol
  • Mardi, 8-10 tous les 15 jours
  • Evaluation: dossier
    • un corpus à constituer
    • un outil d'exploration de corpus
slide3
Plan
  • Mise en place des notions:
    • Corpus: définition, exemples, formats
  • Apport théorique: utilisation d'un concordancier simple AntConc
    • Concordancier : définition, fonctionnement, fonctions génériques
    • Utilisation d'AntConc, concordancier gratuit.
plan ii
Plan (II)
  • Apport théorique/ utilisation de AtlasTi
    • Annotations de corpus
    • citations
    • réseau de citations
  • Apport théorique / utilisation de WeftQDA
    • annotations
    • exploration de corpus
mise en place des notions
Mise en place des notions
  • Définition des corpus
  • Corpus ou bases textuelles existants
  • Constitution de corpus
    • exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques
    • critères de sélection des corpus
  • Formats des corpus: texte brut, langage de balises (XML), annotations (TEI).
qu est ce que c est un corpus
Qu'est-ce que c'est un corpus?
  • Un corpus est un recueil de textes ou de paroles
    • en format électronique
    • sélectionnés pour un objectif précis
  • "A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)
pourquoi des corpus
Pourquoi des corpus?
  • étudier une phénomène linguistique particulier
    • vérifier les emplois "réels"
  • étudier l'évolution d'un dialecte ou d'une langue en diachronie
    • introduction de mots nouveaux, changement des formes
  • comparer les travaux de deux auteurs
    • lexique, syntaxe, figures de style
pourquoi des corpus ii
Pourquoi des corpus (II)?
  • retrouver toutes les informations liés à un personnage historique ou à un pays
    • relations avec d'autres personnalités, avec les pays voisins, pour une période bien déterminée
  • analyser les sources d'un conflit social
    • acteurs, causes du conflit, phases du conflit
  • vérifier les emplois pour la traduction
    • rechercher les expressions pour voir si leur utilisation est fréquente
corpus
Corpus
  • Taille de corpus: variable selon l'application
    • Des millions de mots
    • Quelques miliers de mots
  • oral/écrit
  • Annotations:
    • morpho-syntaxiques
    • sémantiques
    • commentaires
  • Texts complets ou fragments?
    • Biber 1988: 1000 mots sont suffisants
    • Habert 1993: texts complets
corpus ii
Corpus (II)
  • disponibles en ligne ou téléchargeables (peu de disponibilités :0( )
    • corpus "fermés", pas d'accès au texte intégral
  • outils d'exploration de corpus: les concordanciers
    • proposent les contextes d'un mot ou d'une expression
    • nécessitent l'apprentissage du langage d'intérrogation – pas toujours facile
exemples de corpus ou bases textuelles
Exemples de corpus ou bases textuelles
  • Français
    • Linguistique:
      • base textuelle Frantext (textes littéraires et techniques)
        • http://www.frantext.fr
      • Corpus oral C-ORAL-ROM
        • http://www.elda.org/en/proj/coralrom.html
      • collection d'articles de journaux (L'Est républicain) http://www.cnrtl.fr/corpus/
    • Sociolinguistique
      • corpus du français parlé à Ottawa-Hull
        • http://www.sociolinguistique.uottawa.ca/materiel/canadien-fa.html
    • Sociologie: CLAPI
      • http://clapi.univ-lyon2.fr/feuilleter.php
frantext
FRANTEXT
  • www.frantext.fr, version non-catégorisé et catégorisée
    • accès gratuit via la bibliothèque virtuelle de l’UMB
  • base de textes littéraires (auteurs français)
    • dates: XIIIème-20ème
    • grande taille:
      • version non-catégorisé: 3952 textes, 237 582 579 mots
      • version catégorisée: 1940 textes, 126990750 mots
  • Définition d'un corpus selon plusieurs critères
    • Auteur, titre
    • Date, genre
frantext ii
Frantext (II)
  • concordancier en ligne permettant :
    • recherche de cooccurrences
    • recherche par liste de mots
    • recherche de recherche par catégories "sûres" et "incertes" ou séquences d'étiquettes (version catégorisée)
exemples de corpus multilingues
Exemples de corpus multilingues
  • débats parlementaires (Parlement européen)
    • http://corp.hum.sdu.dk/cqp.fr.html
    • corpus étiqueté, lemmatisé, disponible en plusieurs langues:
      • français, anglais, esperanto, danois, portugais, espagnol
  • corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues
anglais
Anglais
  • Linguistique et TAL :
    • British National Corpus (http://www.natcorp.ox.ac.uk )
    • Brown Corpus (http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html)
    • Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html)
  • Histoire :
    • ASChart (http://www.aschart.kcl.ac.uk/)
    • CELT Corpus of Electronic Texts (http://www.ucc.ie/celt/)
  • Sociolinguistique :
    • Corpus of Early English Correspondence Sampler (CEECS) (http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM)
  • Sociologie :
    • Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)
b ritish n ational c orpus
British National Corpus
  • corpus de référence
  • répartition uniforme de genres:
    • la partie écrite:
      • le domaine: 75% de textes "informatifs", le reste appartient à la fiction;
      • le support: 60% livres, 30% périodiques, supports de discours radio, télé etc.
      • la datation: fiction (1960-1993), informatifs (1975-1993)
      • la diffusion (meilleurs ventes, les ouvrages les plus prêtés)
    • la partie orale: echantillon démographique: âge, sexe, groupe social, région (dates, environnement, participants)
corpus en ligne autres langues i
Corpus en ligne – autres langues (I)
  • Allemand
    • TüPP-D/Z (articles de journaux, 200 millions de tokens)
      • http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml
    • Deutsches Referenzkorpus (DeReKo)
      • http://www.ids-mannheim.de/kl/projekte/korpora/
  • Multilingue
    • Wortschatz http://corpora.informatik.uni-leipzig.de/
    • Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html
    • norvégien, anglais, français, italien
corpus en ligne autres langues ii
Corpus en ligne – autres langues (II)
  • Corpus international du portugais – 1 million de mots (http://cintil.ul.pt/index.jsp)
  • Corpus pour de production écrite pour l’apprentissage d’une langue étrangère – norvégien (http://ask.uib.no/index.page)
  • Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html)
    • 3,1 millions de mots
  • Corpus bulgare http://www.bultreebank.org/btbmorf/
    • 1 million de mots
  • Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)
bases textuelles
Bases textuelles
  • Association des Bibliophiles Universels (ABU)
    • http://abu.cnam.fr/
  • Gallica (BNF)
    • http://gallica.bnf.fr/
  • Les bibliothèques virtuelles humanistes
    • http://www.bvh.univ-tours.fr/numerisation.asp
  • La bibliothèque virtuelle des manuscripts suisses
    • http://www.e-codices.unifr.ch/fr
bases textuelles vs corpus
documents en format numérique

recherche par des critères "classiques"

auteur, titre, editeur, année

la recherche plein texte n'est pas toujours accessible

documents en format numérique

critères de sélection spécifiques, selon objectif

recherches avancées

plein texte

catégorie lexicale, fonction syntaxique, information sémantique...

texte enrichi, documenté

Bases textuelles vs. corpus
corpus lectroniques
Corpus électroniques
  • Corpus électronique = un ensemble de textes numériques qui sont
    • sélectionnés sur des critères bien définis (paramètres de Biber)
    • documentés (nom de la personne qui a numérisé le document, le format etc.)
    • couplés à des outils d'exploration (concordanciers)
comment constituer son propre corpus
Comment constituer son propre corpus?
  • Developping Linguistic Corpora: a Guide for Good Practices
    • http://ahds.ac.uk/creating/guides/linguistic-corpora/index.htm
un exemple de constitution de corpus sociolinguistique
Un exemple de constitution de corpus (sociolinguistique)
  • Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace
    • Corpus: entretiens avec plusieurs acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)
m thodologie de travail
Méthodologie de travail
  • identifier l'objectif de l'étude à effectuer sur corpus
  • définir des critères de sélection des textes en fonction de son objectif
  • identifier les sources pertinentes
  • définir les aspects techniques:
    • le format des documents
    • les informations d'annotation
    • les outils nécessaires pour rassembler les textes et pour les annoter
  • nettoyer le corpus constitué
crit res de s lection des textes
Critères de sélection des textes
  • typologie des textes, genres et registres (D.Biber,1999)
    • types de textes: ensemble de caractéristiques linguistiques
      • narratif, argumentatif, descriptif
    • genre: catégories reconnues par une communauté
    • registre : caractéristiques linguistiques utilisés avec un but communicatif
crit res de s lection ii
Critères de sélection (II)
  • Paramètres situationnels(Biber 1999)
    • canal: écrit/parlé/écrit lu;
    • format: publié/non-publié;
    • cadre: institutionnel/autre cadre public/ privé-interpersonnel
    • destinataire
      • pluralité: pluriel/individuel/non-compté
      • présence: présent/absent
      • interaction: aucune/peu/beaucoup
      • connaissances partagées: générales/spécialisées/personnelles
crit res de s lection ii i
Critèresde sélection (III)
  • destinataire:
    • variation démographique: sexe, age, profession
    • statut: individu/institution
  • Factualité
    • informatif-factuel/intermédiaire/imaginaire
  • Objectifs
    • persuader, amuser, édifier, informer, expliquer, donner des consignes, etc.
  • Thèmes

=>documenter le corpus

annoter le corpus

param tres linguistiques
Paramètres linguistiques
  • Biber et Conrad (2009)
    • groupes nominaux complexes
    • longueur de la phrase
    • modifieurs (groupes prépositionnels, adverbes etc.)
    • préférence pour un temps ou un mode particulier
    • pronoms (personnels, impersonnels, demonstratifs)
exemples de corpus constitu i
Exemples de corpus constitué (I)
  • Corpus Sociolinguistique
    • Source des textes: entretiens oraux transcrits
    • Critères de sélection:
      • Canal: oral
      • Interlocuteurs:
        • Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme)
      • Cadre: institutionnel/privé
      • Date
      • Entreprise: caractère multinational
exemple de corpus constitu ii
Exemple de corpus constitué (II)
  • Format :
    • Fichiers en format texte brut
    • Informations provenant de la transcription (pauses, reprises etc.)
  • Annotation:
    • Les locuteurs
    • La date
    • L’entreprise concernée
m thodologie de travail1
Méthodologie de travail
  • identifier l'objectif de l'étude à effectuer sur corpus
  • définir des critères de sélection des textes en fonction de son objectif
  • identifier les sources pertinentes
  • définir les aspects techniques:
    • le format des documents
    • les informations d'annotation
    • les outils nécessaires pour rassembler les textes et pour les annoter
  • nettoyer le corpus constitué
o trouver des d ocuments num riques
Où trouver des documents numériques?
  • Bibilothèques virtuelles
    • faciliter la navigation
    • utiliser des outils de recherchespécialisés
    • archiver et numériser des documents
  • outils de recherche (moteurs et méta-moteurs spécialisés)
  • portails spécialisés
portail
Portail
  • une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique
    • Pages Web
    • Forums, listes de discussions
    • Blog
    • Moteurs de recherches dédiés a chaque site
portail ii
Portail (II)
  • Quelques exemples
    • le portail de l'Education Nationale http://www.education.gouv.fr/
    • le portail des revues en SHS http://www.revues.org/
    • le portail du CNRS

http://www.drei.cnrs.fr

    • le Bulletin Officiel

http://www.education.gouv.fr/pid230/textes-officiels.html

bibiloth ques virtuelles
Bibilothèques virtuelles
  • Un portail regroupant des ressources ciblées
    • Bases de données bibliographiques
    • Accès aux revues électroniques
    • Collection de documents numériques: livres, images, vidéos etc.
  • Possibilités avancées de navigation et de recherche
moteurs de recherches d di s
Moteurs de recherches dédiés
  • Moteur de recherche spécialisé pour la recherche des livres
    • http://books.google.com/
  • Moteur de recherche spécialisé – indexation des articles scientifiques
    • http://scholar.google.com
  • HAL-SHS
    • http://www.archives-ouvertes.fr/
  • Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)
le web comme source
Le Web comme source
  • le Web n'est pas un corpus!!
  • taille importante
    • environ 76 milliards de mots (Kilgariff & Greffenstette2003)
  • hétérogénéité
    • pas de contrôle sur l'information publiée
  • disparité de ressources
    • thématique
    • langues
  • langage structuré – HTML
techniques
Techniques
  • Aspiration directe d'un site
    • pertinence
    • choix des documents propres
    • Désavantage: il faut connaître les adresses des sites
  • exploiter les résultats des moteurs de recherche
    • automatisé, mais beaucoup des documents inutiles
  • plate-formes dédiées (Telanaute, projet SAFIR, BootCat)
probl mes
Problèmes
  • doublons
  • inclusions des documents
  • vérification manuelle du corpus impossible si taille trop importante
    • Pas de contrôle sur l’auteur du texte
  • documents indexés par les moteurs (taille variable de l'index)
exercice un exemple de constitution de corpus
Exercice: Un exemple de constitution de corpus
  • Un corpus des nouvelles sur la reforme de la retraite
    • Quelle sources?
    • Quels critères de sélection?
    • Quelles informations annotées?
format rappel
Format (rappel)
  • application spécialisée pour créer les documents
    • texte, PDF, HTML (Page Web), document Microsoft Word etc.
    • extension du fichier = une indication sur l'application à utiliser
      • txt – texte non-formaté
      • pdf – Acrobat Reader
      • doc – Microsoft Word
      • html – Dreamweaver, Microsoft Word, Internet Explorer
  • Utiliser le logiciel approprié pour lire le contenu et convertir vers d'autres formats
formats ii
Formats (II)
  • texte brut
  • PDF
  • texte enrichi d'annotation
    • Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation)
    • format d'annotation de textes : TEI (Texte Encoding Initiative)
texte brut
Texte brut
  • une suite de lettres et de chiffres, sans mise en forme
    • seulement le caractère nouvelle ligne
  • pas de mise en forme
  • interprétable par tous les éditeurs de textes
    • tous systèmes d'exploitation: Windows, Linux, MacOS
    • code ASCII (limité à 128 caractères)
  • plusieurs encodages possibles
    • LATIN-1
    • Unicode (UTF-8, UTF-7, UTF-16)
format html
Format HTML
  • Langage interprété par les navigateurs Internet
  • Visualisation du contenu et la navigation
    • Mise en forme: en gras, en couleurs etc.
    • Structuration du texte: paragraphes, tableaux, liens vers d’autres pages…
notion de balise
Notion de balise
  • Une balisepermet de distinguer un document HTML d’un fichier texte
  • Les balises sont insérées dans le corps du document
    • Elles permettent de contrôler le formatage et la présentation d’un document
    • Mise en forme des paragraphes, insertion d’images, insertion de liens hypertexte, tableaux …
    • Quatre balises sont obligatoires dans un document HTML
      • <html>, <head>, <body>, <title>
notion de balise ii
Notion de balise (II)‏
  • Une balise est encadrée par <…> et peut avoir aussi une balise de fin </…>
  • Les balises peuvent être imbriquées mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture
    • Par exemple

<font size="+1"><b><i>texte</i></b></font>

notion de balise iii
Notion de balise (III)‏
  • Une balise peut avoir trois formes
    • <nombalise>
      • <br> passage à la ligne
    • <nombalise> … </nombalise>
      • <b>texte à mettre en gras</b>
    • <nombalise attribut1="valeur_1"… attributn="valeur_n">

texte

</nombalise>

      • <body bgcolor="#80fff" text="red">
        • le fond de la page sera de couleur bleu clair
limites du langage html
Limites du langage HTML
  • L’ensemble des balises est prédéfini, mais limité à celui défini par le World Wide Web consortium
    • http://www.w3.org
  • Seulement la mise en forme ou la structure du texte
    • Pas de possibilité de marquer le contenu
formats rappel
Formats (Rappel)
  • Ouvrez Microsoft Word
  • tapez un texte dans le nouveau document, avec des mises en forme simples (gras, italique, liste, etc.)
    • enregistrer ce document dans le répertoire "Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier:
      • texte simple (Texte brut)
        • avec l'encodage Windows, Europe occidentale
        • avec l'encodage Unicode, UTF-8
      • HTML
formats exercice suite
Formats – Exercice (suite)
  • fermez Microsoft Word
  • ouvrez les applications suivantes et essayez de lire les fichiers que vous avez enregistré sous Word
    • WordPad
    • Bloc Notes
    • Internet Explorer
    • Notepad++
formats exercice suite1
Formats – Exercice (suite)
  • Avec Microsoft Word, ouvrez le fichier .txt et changez l'encodage (du Latin vers du Unicode, UTF-7)
  • enregistrez à nouveau
texte annot xml
Texte annoté - XML
  • XML – Extended Markup Language
  • marquage de plusieurs zones de textes pour:
    • faciliter la recherche d'information
    • faciliter le partage des connaissances
  • Même principe que le langage HTML
    • On peut définir les balises adaptées à notre propre application
      • Annotation morpho-syntaxique
      • Annotation sémantique (les noms de personnes, d’organisations, de métiers)
pourquoi xml
Pourquoi XML?
  • Structurer l'information
    • Identification du contenu des données
  • Accessibilité
    • divers types de présentations de données (XSL)
  • interopérabilité des données
    • re-utiliser les XML dans d'autres applications
    • possibilité de vérifier si le document est valide: DTD, XML schémas
    • définitions partagées
texte annot ii
Texte annoté (II)
  • Outils pour l’annotation en format XML
    • Annotea, Gate, Oxygène, XML Starlet, Notepad++
  • Outils pour executer des requêtes sur les balises XML
    • Xaira, XQuery
slide57
<?xml version="1.0" encoding="ISO-8859-1"?>

<Article>

<Lieu>MEXICO</Lieu>

<Texte>

Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne.

Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection

</Texte>

<Source>L’Express</Source><Datepubli>lundi le 4 mai 2009</Datepubli>

<Auteur>Christian Dupont</Auteur>

<Commentaire auteur="A.Todirascu">un article sur la propagation de l'épidemie de grippe porcine</Commentaire></Article>

un premier exemple d annotation xml
Un premier exemple d’annotation XML
  • Elements XML
    • <Article>, <Texte><Lieu>, <Auteur>, <Source>, <Datepubli>, <Commentaire>
  • Attributs:
    • auteur pour l’élement <Commentaire>
    • Lang pour l’élément <Texte>
un premier exemple ii
Un premier exemple (II)
  • Interprétation
    • Un texte est constitué par un élément <Article>
    • Un <Article> est composé par un élément <Lieu><Texte><Source><Datepubli><Auteur><Commentaire>
la structure d un document xml
La structure d’un document XML
  • Une première ligne sur la version du XML
    • <?xml version="1.0"?>
    • <?xml version="1.0" encoding="ISO-8859-1"?>
  • Une deuxième ligne avec le fichier de définitions
    • Le fichier DTD ou le lien vers le XML schéma
  • Un ou plusieurs éléments XML
    • Un élement XML
      • <balise>texte</balise>
slide61
MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.

Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection.

L’Express, Date: lundi 4 mai 2009

slide62
<?xml version="1.0" encoding="ISO-8859-1"?>

<Lieu>MEXICO</Lieu>

<épidémie>

<épisode><pays>Le Mexique</pays> s'est dit sur <état type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse>

</épisode>.

<épisode><pays>Aux Etats-Unis </pays>aussi, les autorités se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse>

</épisode>.

<épisode>Malgré ces nouvelles rassurantes, <état type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays>

</épisode>

<épisode>et certains pays <état type="prévention">ont renforcé les mesures de protection.</état></épisode>

</épidémie>

<Source>L’Express</Source><Datepubli>lundi le 4 mai 2009</Datepubli>

avantages du xml
Avantages du XML
  • Structuration de l’information
  • Définitions partagées
  • Facilite le développement des standards
    • TEI pour l’édition de corpus (http://www.tei-c.org/index.xml)
    • Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles
    • XCES pour l’annotation morpho-syntaxique (http://www.xces.org/)
    • OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)
quelques r f rences
Quelques références
  • Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html
  • Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press
  • Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys
  • Sinclair, J. (1991) Coocurrences, concordances, collocations
concordanciers
Concordanciers
  • recherches dans le corpus et outils d'exploration de corpus
  • qu'est-ce que c'est un concordancier?
  • fonctions de base
  • un exemple: Antconc
recherches sur les corpus
Recherches sur les corpus
  • en linguistique: trouver des exceptions ou renforcer une hypothèse linguistique
  • en traduction: chercher des emplois réels
  • en sociolinguistique: quel point de vue ont les divers acteurs?
  • en littérature: comparer le style de deux auteurs
  • en TAL: chercher les informations spécifiques: qui a fait quoi? quand? où?
analyse quantitative vs analyse qualitative
quantitative

analyse factorielle

fréquence

distance intertextuelle

données structurées

volume de données important

qualitative

analyse fine du contenu

informations linguistiques à prendre en compte:

catégorie lexicale

fonctions syntaxiques

informations sémantiques

données non-structurées

volume de données limité (si analyse manuelle)

Analyse quantitative vs. analyse qualitative
qu est ce que c est un concordancier
Qu'est-ce que c'est un concordancier?
  • un outil qui permet la recherche d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte
    • pivot = un mot, un groupe de mots, une expression
    • contextes
      • gauche et droit
      • à l'intérieur de la phrase
      • au sein du même paragraphe
les fonctions d un concordancier
Les fonctions d'un concordancier
  • définir un pivot: mot, terme, expression
  • visualiser les contextes d'apparition du pivot
  • tri des contextes
  • sélection de contextes
  • extraire des n-grammes (séquences de 2 ou plusieurs mots)
antconc
Antconc
  • outil gratuit http://www.antlab.sci.waseda.ac.jp/
  • pivot: mot (avec respect de la casse) ou expression régulière
    • expression régulière: une suite de lettres, chiffres et caractères spéciaux: .,?,*,+
  • format de sortie KWIC (Keyword in Context)
  • tri sur les contextes gauches ou droites
    • 50 caractères la taille du contexte
antconc ii
Antconc (II)
  • taille de corpus limitée
  • visualisation d'occurences par rapport au corpus
  • formats divers:
    • fichier texte (Unicode, Latin-1)
    • format HTML (mais balises confondues avec le texte)
antconc iii
Antconc (III)
  • calcul de cooccurences
  • sélection des contextes
    • les contextes qui contiennent un ou plusieurs mots
  • liste de mots
    • exclusion des mots grammaticaux
    • comparaison avec un corpus de référence
  • extraction de n-grammes (séquences de n mots qui se succedent)
autres fonctions du antconc
Autres fonctions du Antconc
  • Plot: la position de chaque collocateur dans le fichier
  • Utiliser les balises:
    • pour séparer des parties du corpus
    • pour exclure des parties du corpus
    • pour faire des recherches sur les balises
recherches m thodologie
Recherches - méthodologie
  • quoi chercher?
    • établir la liste des mots les plus fréquents (mots contenus)
    • extraire les séquences de n mots les plus fréquentes
    • définir manuellement une liste de termes, mots, expressions pertinentes
recherches m thodologie ii
Recherches – méthodologie (II)
  • analyse des résultats
    • identification de contextes inutiles ou erronées
    • analyse des collocatifs
    • position dans le document
  • recherches complexes
    • sélection des contextes pertinentes
      • présence ou absence d'un mot dans les contextes
      • position par rapport au pivot
plan ii1
Plan (II)
  • Apport théorique: utilisation d'un concordancier WordSmith
    • Etiquetage des textes : notions fondamentales, difficultés, outils
    • Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés.
  • Apport théorique/utilisation de Lexico
    • Analyse lexicométrique : principes, intérêts et limites
    • Utilisation de Lexico, concordancier offrant des fonctionnalités d'analyse lexicométrique.
  • Apport théorique/ utilisation de AtlasTi
corpus tiquet s cat goris s
Corpus étiquetés (catégorisés)
  • corpus enrichi avec les informations morpho-syntaxiques
    • chaque mot est associé à une catégorie lexicale
    • parfois on spécifie le lemme et les propriétés morpho-syntaxiques associées:
      • nombre, genre, cas pour le nom
      • temps, mode, personne, nombre pour le verbe
    • annotation réalisée automatiquement à l'aide d'un outil de catégorisation, suivie d'une correction manuelle
slide78
Les DET:ARTle

turbulences NOMturbulence

de PRPde

l' DET:ARTle

année NOMannée

2003 NUM@card@

ont VER:presavoir

ébranlé VER:pperébranler

le DET:ARTle

secteur NOMsecteur

des PRP:detdu

transports NOMtransport

aériens ADJaérien

: PUN:

plus ADVplus

encore ADVencore

qu' KONque

en PRO:PERen

témoignent VER:subptémoigner

corpus tiquet s ressources disponibles
Corpus étiquetés: ressources disponibles
  • corpus pré-étiquetés
    • sélection de textes selon des critères bien définis
      • genre, registre, date, auteur, catégorie
    • jeu d'étiquettes spécifique
    • étiquetage automatique + correction manuelle
      • des erreurs existent toujours!
    • recherches à l'aide d'un outil de type concordancier (identification des contextes d'un mot ou d'une séquence des mots)
      • connaissance du jeu d'étiquettes et du langage d'interrogation
ressources disponibles en ligne
Ressources disponibles en ligne
  • Français
    • Frantext (http://www.frantext.fr payant!)
    • Freebank (http://freebank.loria.fr/)
    • French Treebank

(http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php)

  • Anglais
    • British National Corpus – 50 exemples (http://www.natcorp.ox.ac.uk/index.xml)
    • International Corpus of English

(http://www.ucl.ac.uk/english-usage/ice/)

  • Anglais américain
    • corpus Brown : LDC Online (https://online.ldc.upenn.edu/login.html)
europarl
Europarl
  • débats parlementaires (Parlement européen)
    • http://corp.hum.sdu.dk/cqp.fr.html
  • corpus étiqueté, lemmatisé, disponible en plusieurs langues:
    • français, anglais, esperanto, danois, portugais, espagnol
corpus en ligne autres langues i1
Corpus en ligne – autres langues (I)
  • Allemand
    • TüPP-D/Z (articles de journaux, 200 millions de tokens)
      • http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml
    • Deutsches Referenzkorpus (DeReKo)
      • http://www.ids-mannheim.de/kl/projekte/korpora/
  • Multilingue
    • Corpus Oslo – 2,6 millions de mots http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html
    • norvégien, anglais, français, italien
limites
Limites
  • possibilité de consulter le contenu, mais pas de rajouter de nouveaux textes
  • langage d'intérrogation complexe
    • intérface graphique pas toujours simple
  • jeu d'étiquettes spécifique pour chaque projet
cr er son propre corpus tiquet
Créer son propre corpus étiqueté
  • sélection d'un ensemble de textes pour créer un corpus
    • critères: date, auteur, genre, registre...
    • sources: le Web, textes libres de droit...
  • application d’un outil de catégorisation
  • correction manuelle des erreurs d'étiquetage et de lemmatisation
  • recherche d’information dans le corpus à l'aide d'un concordancier (WordSmith)
etiqueteur cat goriseur
Etiqueteur(Catégoriseur)
  • Un étiqueteur(catégoriseur) est un outil qui découpe le texte en unités (lexicales, polylexicales ou signes de ponctuation) et qui associe à chaque unité une catégorie lexicale (étiquette)
    • jeu d'étiquettes spécifique à chaque outil
    • lemmatisation parfois disponible
    • apprentisage à partir d'un corpus étiqueté manuellement
exemples d tiqueteurs
Exemples d'étiqueteurs
  • TreeTagger (IMS Stuttgart, Allemagne) (Schmid, 1994)
    • http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger
    • allemand, anglais, français, espagnol, italien
  • Catégoriseur de E.Brill (AdLabs, Microsoft Research)
    • http://research.microsoft.com/en-us/um/people/brill/
    • anglais, français
  • Cordial (payant!)
    • http://www.synapse-fr.com/
treetagger i
TreeTagger (I)
  • ressources disponibles pour le français
    • étiquetage et lemmatisation
  • manipulation facile
    • installation simple
    • interface graphique disponible (http://www.smo.uhi.ac.uk/~oduibhin/oideasra/interfaces/winttinterface.htm)
treetagger ii
TreeTagger (II)
  • utilisation d'un dictionnaire
  • proposition des étiquettes et des lemmes pour les mots inconnus
    • classes d'équivalence
  • possibilité d'apprendre des ressources sur des nouveaux corpus étiquétés
    • outil d'entraînement disponible
treetagger iii
TreeTagger (III)
  • entrée: texte brut ou SGML ou HTML
  • sortie: un mot par ligne, suivi de l'étiquette et du lemme, si le lemme est inconnu, alors marqué
  • possibilité de segmenter le texte (module intégré ou module propre)
    • expressions figées
    • abréviations
  • possibilité de préétiquetage
    • noms propres
    • mots étrangers
slide92

Jeu d'étiquettes utilisé par TreeTagger pour le français

  • PRP préposition
  • PRP:det préposition plus article (au,du,aux,des)
  • PUN ponctuation
  • PUN:cit citation
  • SENT fin de proposition
  • SYM symbole
  • VER:cond verbe conditionnel
  • VER:futu verbe futur
  • VER:impe verbe imperatif
  • VER:impf verbe imparfait
  • VER:infi verbe infinitif
  • VER:pper verbe participe passé
  • VER:ppre verbe participe présent
  • VER:pres verbe présent
  • VER:simp verbe passé simple
  • VER:subi verb subjonctif imparfait
  • VER:subp verb subjonctif présent
  • ABR abréviation
  • ADJ adjectif
  • ADV adverbe
  • DET:ART article
  • DET:POS pronom possessif (ma, ta, ...)
  • INT interjection
  • KON conjonction
  • NAM nom propre
  • NOM nom
  • NUM numéral
  • PRO pronom
  • PRO:DEM pronom démonstratif
  • PRO:IND pronom indéfini
  • PRO:PER pronom personnel
  • PRO:POS pronom possessif (mien, tien, ...)
  • PRO:REL pronom relatif
limites des cat goriseurs
Limites des catégoriseurs
  • erreurs d'étiquetage provoquées par une mauvaise segmentation en phrases
  • difficile d'identifier les catégories lexicales
    • entre: préposition et verbe
    • couvert: verbe participe passé, nom, adjectif participe passé
  • dépendant des genres textuels composant le corpus
    • taux d'erreurs important sur des textes spécialisés
  • correction manuelle nécessaire
    • coût important
    • accord entre annotateurs nécessaire
probl mes li s l tiquetage
Problèmes liés à l'étiquetage
  • étiquettes incomparables
    • niveau morphologique, syntaxique
  • divergences théoriques
    • possessifs: adjectifs ou déterminants
    • agrégats (du, des) ou de+le, de+les
  • ambiguïtés
    • déterminant mais aussi numéral
      • « J’ai vu hier un chat et trois souris »
      • « J’ai envoyé un courrier à Jean »
    • verbe futur, mais aussi mot étranger
      • « Il seramaire de Paris un jour »
      • « Corrierre de la sera »
  • différences entre les langues
wordsmith
Wordsmith
  • ensemble d'outils pour exploiter les textes
  • fonctions similaires à AntConc
  • Avantages
    • possibilité de travailler avec des fichiers de grande taille (plusieurs millions de mots)
    • plusieurs possibilités d'utiliser les balises pour faire les recherches
    • plusieurs formats disponibles comme sortie
wordsmith concordancier
WordSmith - Concordancier
  • langage d'interrogation
  • résultats affichés en format KWIC
  • possiblité de voir les collocations
    • plusieurs mesures statistiques
    • tri par occurences à gauche, à droite (1-5 positions)
langage d interrogation
Langage d'interrogation
  • * : - ignorer la fin du mot: bio*
    • ignorer le mot entier: book * hotel
  • ? : tout caractère simple (y compris laponctuation): Engl???
  • #n'importe quel chiffre entre 0 et 9$###
  • ^n'importe quelle lettre de l'alphabet: Alle^agn^
  • ==sensible à la casse: ==French==
  • /séparer les mots de recherche: may/can/will
  • <>début et fin de balises: <w NN1>
concordancier ii
Concordancier (II)
  • possibilité de sélectionner les contextes:
    • exclure les contextes incluant certains mots
    • sélectionner les contextes contenant:
      • un mot
      • une balise
      • une liste de mots et de balises
recherches
Recherches
  • possibilité de faire des recherches
    • suite des étiquettes, lemmes et mots
      • la sortie de TreeTagger sur plusieurs colonnes:
        • <mot> <étiquette> <lemme>
      • position: L1, L5, R1, R5
    • si balises, on peut identifier les élements entre les balises:
      • sélection des mots entre les balises
recherches exemples
Recherches - exemples
  • on cherche les séquences Det Nom Adj PronRel
    • DET:ART * * Nom * * Adj * * PronRel
  • on cherche les étiquetes du verbe suivi dans le contexte droit de l'étiquette NOM
  • combiner les recherche lemme+étiquette
    • faire * NOM
concordanciers colocateurs
Concordanciers: Colocateurs
  • les cooccurrences
    • triées par une relation statistique: information mutuelle
    • autres mesures: MI3
autres fonctions du concordancier
Autres fonctions du concordancier
  • cluster: identifier les séquences de n-grammes
  • Plot: la position de chaque collocateur dans le fichier
  • Utiliser les balises:
    • pour séparer des parties du corpus
    • pour exclure des parties du corpus
    • pour faire des recherches sur les balises
liste de mots cl s
Liste de mots clés
  • comparer son propre corpus avec un autre corpus de référence
    • établir les listes de mots de chaque corpus
    • mesure statistique pour calculer la distance entre le motx de la première liste et la distance entre le moty de la deuxième liste
plan ii2
Plan (II)
  • Apport théorique: utilisation d'un concordancier WordSmith
    • Etiquetage des textes : notions fondamentales, difficultés, outils
    • Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés.
  • Apport théorique/utilisation de Lexico
    • Analyse lexicométrique : principes, intérêts et limites
    • Utilisation de Lexico, concordancier offrant des fonctionnalités d'analyse lexicométrique.
  • Apport théorique/ utilisation de AtlasTi
atlas ti
ATLAS.Ti
  • outil pour l'analyse qualitative
    • outil payant :0(
    • www.atlasti.com
    • demo gratuite, avec des limitations en nombre de documents
  • analyse au niveau
    • textuel (découpage en segments thématiques, citations, codes)
    • conceptuel (représentation visuelle des annotations)
atlas ti ii
ATLAS.Ti (II)
  • pour le travail coopératif à plusieurs auteurs
  • partage d'annotations (citations, mémo)
  • partage de connaissances (codes, mémos, réseaux)
  • liens entre les divers mémos, citations, ségments
atlas ti iii
ATLAS.Ti (III)
  • Plusieurs catégories d'objets:
    • text
    • vidéo
    • audio transcrits
  • fonctions de correction
    • transcriptions
fonctions
Fonctions
  • Visualisation des informations
  • Intégration des informations (unité hermeneutique)
    • discussion autour des documents et des annotations du groupe
  • Navigation facilitée: pour retrouver des expressions ou mots saillants
  • Exploration des idées nouvelles
le projet
Le projet
  • l'unité hermeneutique
    • au moins un document principal
      • format divers
    • citations
      • définies à partir d'une sélection (d'un mot, d'une phrase, du paragraphe)
      • correspondent à des parties de textes thématiquement homogènes, ayant un interêt pour l'étude
      • liens à distance entre les citations
le projet ii
Le projet (II)
  • les codes
    • étiquettes permettant d'associer à une citation un thème
    • on peut associer une citation à plusieurs codes
    • on peut extraire des codes à partir des textes sélectionnées
le projet iii
Le projet (III)
  • les mémos
    • pour communiquer les informations entre les utilisateurs
    • discussions autour des notions, citations, etc.
    • contiennent des indications méthodologiques à mettre en application
    • associés à un document ou à une citation
le projet iv
Le projet (IV)
  • les familles
    • regroupements de mémos, de codes, de citations, documents
    • utiles pour plusieurs facettes du même concept
  • les points de vue sur les réseaux
    • visualisation graphique des objets
fonctions textuelles
Fonctions textuelles
  • définir des sélections, des citations
  • créer des mémos
  • recherche des mots, des expressions regulières ou des codes
  • associer des mémos et des citations
fonctions conceptuelles
Fonctions conceptuelles
  • définir des réseaux de noeuds
    • codes
    • citations
    • mémos
  • organiser les connaissances du domaine extraites à partir du texte
    • définir une théorie
    • identifier des concepts-clés
autres plateformes
Autres plateformes
  • Weft QDAWeft http://www.pressure.to/qda/
  • http://onlineqda.hud.ac.uk
exemples de sujets i
Exemples de sujets (I)
  • constituer un petit corpus d'articles scientifiques sur le sujet de votre mémoire (maximum 8 documents)
  • segmentez le corpus en fonction de la thématique (définir un ensemble de mots-clés)
  • définir les codes associés
  • construire un réseau des conceptes du domaine
exemples de sujets ii
Exemples de sujets (II)
  • sur un corpus journalistique comparable (anglais-français), qui vous sera fourni, effectuez des recherches, à l'aide d'un concordancier afin d'identifier les relations hiérarchiques ("chef de", "président de")
    • sélectionnez les contextes qui contiennent des entités de type personnes ou organisations
exemples de sujets iii
Exemples de sujets (III)
  • constituez un corpus journalistique concernant les chefs du parti socialiste (en France, en Angleterre, en Allemagne) sur des sources disponibles en ligne.
    • expliquez la procedure de constitution de corpus, les critères de sélection de corpus
exemple de sujet iv
Exemple de sujet (IV)
  • constituez un corpus trilingue parallèle (le même contenu en anglais, en français, en allemand) à partir de rapports financiers de la compagnie Swiss.com (à partir du avril 2008)
    • extraire le texte du PDF
    • comparer les textes pour identifier les différences
    • nettoyage éventuel
    • balisage avec la date du rapport
  • même sujet pour Lufthansa (anglais, allemand)