1 / 18

Corpus et concordances

Corpus et concordances. Qu'est ce qu'un corpus ?.

hina
Download Presentation

Corpus et concordances

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corpus et concordances

  2. Qu'est ce qu'un corpus ? « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage. » (Sinclair cité par B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Paris, Armand Colin,1997, p. 144)

  3. Taille des corpus • Gigantesque : British National Corpus (100 millions de mots), The Bank of English (320 millions de mots) • de taille moyenne (milliers de mots)

  4. Une concordanceC. de Laclos Les liaisons dangereuses

  5. Co-occurrence – Collocation- Concordance • Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble. En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. (ex. salaire de base) • Collocation des mots: “Association habituelle de 2 ou plusieurs termes (collocats) au sein d’un discours.”  Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue. • La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

  6. Types de corpus (1a) • corpus bruts : textes écrits ou transcriptions écrites de productions orales - enregistrements de textes à voix haute, de discours, d'émissions de radio, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

  7. Types de corpus (1b) • corpus annotés ou enrichis : indications relatives à la structure du texte, aux catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute) Pour l’annotation des corpus consultez le site Text Encoding Initiative Consortium (www.tei-c.org)

  8. Extrait corpus TALANA (avec syntagmes)TALANA (Traitement Automatique du Langage Naturel – Univ. Paris 7) • <S> <PP>Au_cours_de:P • <NP> la:Dfs conférence_de_presse:NC-fs • <Srel> <NP>qui:PROR-3fs </NP> • <VP> a:VP-3s clos:VK-ms </VP> • <NP> cette:D-fs rencontre:NC-fs </NP> </Srel> • </NP> </PP> ,:PONCT • <NP> le:D-ms premier_ministre:NC-ms <AP> est-allemand:A-ms </AP> </NP> • <VP> est:VP-3s revenu:VK-ms </VP> • <PP> sur:P <NP> les:D-mp incidents:NC-mp • <PP> de:P lundi:NC-ms soir:NC-ms </PP> • <Srel> • <PP>:au_cours_de:P <NP> lesquels:PROR-3mp </NP> </PP> • <NP>:de-les:D-mp manifestants:NC-mp </NP> • <VP> ont:VP-3p mis_à_sac:VK-ms </VP> • <NP> le:D-ms siège:NC-ms <AP> central:A-ms </AP> • <PP> de:P la:D-fs Stasi:NP-fs </PP> </NP> • </Srel> </NP> </PP> </S> • http://www.li.univ-tours.fr/taln-recital-2001/actes_taln01.html

  9. Types de corpus (2) • Monolingues (BNC…) • Bilingues ou multilingues • Languée parlée (CLAPI…) /langue écrite (CORIS/CORDIS)

  10. Types de corpus (3) • « Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables » [Sinclair, Preliminary recommendations on Corpus Typology. Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards), 1996. • Un corpus spécialisé est un corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

  11. Types de corpus (4) • corpus comparables : ensemble de corpus ayant été compilés selon les mêmes critères mais: - dans des variantes différentes d’une même langue - dans des langues différentes et en tenant compte des différences culturelles • corpus parallèles : couples de corpus dans des langues différentes et dont l’un est la traduction de l’autre. (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

  12. Corpus parallèle • Canadian Hansard Corpus (2001) • 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (http://transsearch.iro.umontreal.ca/)

  13. Corpus parallèle MULTEXT (1996) http://aune.lpl.univ-aix.fr/projects/multext/ 5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) 800.000 parole allineate a livello di frase (inglese come lingua “pivot”) a cura di vito pirrelli

  14. Types de corpus (5) • corpus d’apprenants : corpus qui contiennent des productions écrites et/ou orales des apprenants d’une langue seconde et sont utilisés - pour décrire l’interlangue et donc les difficultés des apprenants - élaborer une typologie des erreurs (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt) Learner Corpus around the World http://leo.meikai.ac.jp/~tono/lcorpuslist.html Learner Corpus Data http://www.eng.ritsumei.ac.jp/asao/lcorpus/

  15. Représentativité • domaines, situations… • sexe, âge… • variantes… • fréquence (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

  16. Software per l’analisi dei testi • Metasiti • Centre for Corpus Research • http://www.corpus.bham.ac.uk/links.htm • Corpora for Language Learning and Teaching • http://www.corpora4learning.net/resources/materials.html • Alphabit.net • http://www.alphabit.net/Corsi/IUlinks/Concwarelist.htm • Sito di Federico Zanettin • http://www.federicozanettin.net/sslmit/cl.htm

  17. Rôle des corpus • étude de la grammaire • analyse terminologique • construction des dictionnaires • étude sémantique • études comparatives pour la traduction assistée (Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

  18. Où trouver les corpus ? • Web • Cd-rom • Créer soi même

More Related