1 / 43

CORPUS

CORPUS. Types. I. DU PAPIER A L’OCTET. . I. Le SEU. The Survey of English Usage (SEU) Corpus (R. Quirk 1968) = corpus papier le plus important récolté pour la description de la grammaire. SEU.

ping
Download Presentation

CORPUS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CORPUS Types

  2. I. DU PAPIER A L’OCTET .

  3. I. Le SEU The Survey of English Usage (SEU) Corpus (R. Quirk 1968) = corpus papier le plus important récolté pour la description de la grammaire

  4. SEU Objectif en 1959: récolter 200 échantillons de 5000 mots chacun représentatifs de l’anglais britannique écrit et parlé = 1 000 000 mots 500 000 mots d’origine écrite 500 000 mots d’origine parlée

  5. . • Textes écrits (100) • Imprimés (46) • informatifs (28) • presse (8) • académiques (13) • administratifs (4) • juridiques (3) • instructions (6) • persuasifs (5) • fiction (7)

  6. . • Textes écrits • Manuscrits (36) • correspondance (21) • social (13) • non-social (8) • journaux intimes (4) • fiction (5) • informatifs (6)

  7. . • Textes écrits • Ecrits pour être dits (18) • discussions (6) • pièces de théâtre (4) • informations (3) • discours (3) • histoires (2)

  8. . • Retranscriptions d’anglais parlé (100) • Monologues (24) Spontanés (18) • discours (10) • commentaires sportifs (4) • commentaires (autres) (4) discours préparés mais non écrits (6)

  9. . • Anglais parlé • Dialogues (76) • conversations en face-à-face (60) • enregistrées à l ’insu des participants (34) • enregistrées ouvertement (26) • conversations téléphoniques (16)

  10. Un corpus précurseur • Fiches papier de 15X10 cm consultables à University College London: une fiche contient: • une occurrence • 17 lignes de texte • exemplifie l ’un des 65 traits syntaxiques ou des 400 mots grammaticaux • traits prosodiques pour l’anglais parlé

  11. II. CORPUS SPECIALISES .

  12. II. Types de corpus Critères de distinction des corpus • objectifs • représentativité • organisation • format

  13. Objectifs • étude de la grammaire • analyse terminologique • création et test d'un système de reconnaissance de la parole (conversations téléphoniques) • construction d'un dictionnaire d'une variante du français • recherche de néologismes • apprentissage par un programme d'étiquetage syntaxique (tagger) • étude comparative pour la traduction automatique

  14. Représentativité • Englobe tous les domaines, toutes les situations etc... dans lesquels la langue est utilisée! • écrit/parlé • genre, type, domaine • situation de communication • sexe, age, origine socio-culturelle • variantes • influences sur la langue • fréquence

  15. Organisation • textes complets/échantillons • mono-, bi-, multilingues • alignés • statique / dynamique • "tout-venant"

  16. Format • texte brut ou "nu" (anglais: raw text or data) • texte annoté • arboré • écrit • son • images

  17. Corpus généraux • répondent à des questions sur la grammaire, le vocabulaire, les structures discursives du langage, etc. • doivent être représentatifs

  18. Ex: If-clauses • If + Past + Conditional I • If + Pluperfect + Conditional II • If + Present + Simple Future => If + Present + Present 1/3 If it travels through the air, it is called « virus » If she has toast, she spreads it with jam => If + Present + could, should If you don’t know Glascow..., the ...words ...should have you on the first train If history is any guide, the Bank of england could force ...

  19. Corpus généraux <=> équilibrés • corpus équilibrés • SEU Corpus, Brown Corpus : premiers corpus généraux: 1 million de mots • BNC: seconde génération, mégacorpus: 100 millions de mots • corpus de référence Collins-Cobuild, BNC,

  20. Corpus spécialisés • Compilés pour des objectifs spécifiques • Taille et composition dépendent des objectifs • Pas équilibrés => donnent une vision déformée du langage en général. • Avantage: textes sélectionnés de telle manière que le phénomène à étudier survient beaucoup plus fréquemment que dans un corpus équilibré • pas nécessairement gigantesque (200 000 mots par exemple), mais précis

  21. EX: anglais de l ’informatique • Syntaxe: comparatif d ’égalité as Adj as as well as (1450), as long as (330), as soon as (240), as far as (90), as large as (48), as simple as (39) • Acronymes AFAIK CU ;-)

  22. . • Corpus d’entrainement • utilisés en TALN (Traitement Automatique des Langues Naturelles) par exemple pour "apprendre" à un étiqueteur les différentes étiquettes syntaxiques existantes (Air Traffic Control, TRAINS Spoken Dialogue Corpus ) • Corpus de test • utilisés pour tester les sytèmes de TALN

  23. . • Corpus régionaux, de dialectes, non standard • étude de variantes d'une langue, cf. les variantes du français étude de la langue d'une certaine catégorie de population (SUISTEXT, BELTEXT, QUEBETEXT )

  24. Variantes du français • Sam envoie Luc aux pelottes (F) • Sam envoie Luc à la moutarde (B) • Sam envoie Luc au balai (Q) • Sam envoie Luc aux pives (S) • Sam envoie Luc au diable (BFQS)

  25. . • Corpus historiques • permettent les études diachroniques sur l'évolution de la langue, rechercher des expressions vieillies en français standard, alors qu'elles sont utilisées dans des variantes exemple: le québécois "magané" = français "cassé"; le suisse "bouter le feu" = français "mettre le feu" (HELSINKY, LAMPETER-Old English Corpus )

  26. . • Corpus d’apprenants • contiennent des productions écrites et/ou orales faites par des apprenants d'une langue seconde servent à décrire l'interlangue et donc les difficultés des apprenants servent aussi à élaborer une typologie des erreurs pour l'utilisation dans un système de vérification grammaticale

  27. . • Corpus écrit, oral, de parole • corpus de parole ou parlés = son corpus oral = retranscription de productions orales (LDC,London-Lund Corpus)

  28. Corpus échantillonné • contiennent un ensemble fini de textes que l'on ne modifie plus par la suite • composés d'échantillons de textes ou de textes complets

  29. Corpus annotés • les mots sont étiquetés • les étiquettes peuvent fournir des informations de divers ordres: catégories syntaxiques, lemmes (forme canonique du mot fléchi), âge et sexe du locuteur, niveau d'études, etc...

  30. Corpus arborés • corpus parsés, contiennent des informations sur la structure de la phrase (Penn Treebank, SUZANNE)

  31. Corpus concordancés • ensemble de concordances sur un corpus Brown Corpus, London-Oslo-Bergen, London-Lund Corpus

  32. Corpus dynamiques • Corpus statique vs dynamique (moniteur) • corpus statique = ensemble fini de textes • corpus dynamique = corpus en expansion continue, reflétant et suivant l'évolution de la langue en temps réel (= corpus moniteur) • COBUILD => Bank of English

  33. Corpus comparables • ensemble de corpus ayant été compilés selon les mêmes critères, mais dans des variantes différentes d'une même langue • ensemble de corpus ayant été compilés selon les mêmes critères dans des langues différentes et en tenant compte des différences culturelles

  34. . • ces corpus sont indispensable pour l'élaboration de dictionnaires bi- ou multilingues. (ELRA) Sur le modèle du Brown Corpus of American English: LOB (échantillon du London-Oslo- Bergen of British English), Kholapur Corpus of Indian English (échantillon), Wellington corpus of New Zealand English, Australian Corpus of English ICE

  35. Corpus parallèles • couples de corpus dans des langues différentes et dont l'un est la traduction de l'autre -HANSARD, -WALL-Regeringsforklarungencorpus parallèles de l'OMS-Slovene-English Parallel Corpus

  36. Corpus saturés • corpus dans lequel le taux de croissance du vocabulaire arrête de décroître et se stabilise; le point de saturation est atteint lorsqu'il y a environ 8 nouveaux mot tous les 10000 mots additionnels.

  37. Corpus opportuniste • Archive ensemble de textes réunis sans critères précis Oxford text Archive Projet Gutenberg

  38. Interface

  39. exemple • Erreurs TR-DI: contre-sens (distorsion) [Il a droit aux]la-st-aw mêmes bénéfices sociaux et aux mêmes [réductions]tr-di fiscales que les travailleurs nationaux . He is entitled to the same social and tax benefits as national workers Il y bénéficie des mêmes avantages sociaux et fiscaux que les travailleurs nationaux. • Erreurs LA-TL-IN: erreur de langue, le terme est incorrect dans la langue cible The examination may be carried out either by one of the organisation's medical officers or by a medical practitioner chosen by the person concerned. L' examen peut être effectué soit par un [agent médical]la-tl-in de l' organisation , soit par un médecin généraliste choisi par la personne concernée Cet examen peut être effectué, soit auprès de l'un des médecins-conseil de l'Institution, soit auprès d'un médecin au choix de l'intéressé(e).

  40. Légal: contresens En He may be excluded from the management of bodies under public law and from the exercise of an office under public law. Fr[Il]la-hy-pu peut être exclu de la gestion d' [organismes]tr-om et [être démis de ses fonctions [au nom du droit public]tr-di. REF fr il peut être exclu de la participation à la gestion d'organismes de droit public et de l'exercice d'une fonction de droit public. En Any national of a Member State is entitled to take up and engage in gainful employment on the territory of another Member State in conformity with the relevant regulations applicable to national workers. Fr Tout [citoyen]la-tl-in d' un État membre a le droit d' exercer et de [conserver]tr-di un [emploi rémunéré]la-tl-ig sur le territoire d' un autre État membre conformément [aux [règlementations]la-ia-nu ]la-hy-ac en vigueur s' appliquant aux travailleurs [[locaux]tr-di ]la-tl-in REF frTout ressortissant d'un État membre a le droit d'accéder à une activité salariée et de l'exercer sur le territoire d'un autre État membre, conformément à la réglementation nationale pertinente applicable aux travailleurs nationaux.

  41. Journalistique En the middle classes have been hard hit; and more than a third of the country's active population is either unemployed or under-employed. Fr les classes moyennes ont été terriblement touchées et plus d' un tiers de la population active du pays est soit au chômage , soit [[mal-payée]tr-di ]la-st-aw ]la-ia-nu REF Fr la classe moyenne a été laminée, plus de la moitié des 37 millions d'habitants vivent maintenant dans la pauvreté, et plus du tiers de la population active est sans travail ou sous-employée. En The application of the free market modelhas translated into a continuous structural adjustment process, and in all the countries concerned its social consequences have been disastrous. Fr L' application du [[modèle économique fondé sur le libre marché]tr-di ]la-tl-in [[a entraîné]tr-di ]la-tl-in des ajustements structurels continuels , [et dans]la-st-aw tous les pays concernés , les conséquences sociales de ces changements furent désastreuses . REF Fr L'application du modèle libérals'est traduite par une sorte d'ajustement structurel permanent qui a entraîné, partout, des conséquences sociales désastreuses et se solde par un échec retentissant.

  42. Technique En system must make it easy to attach extension work surfaces (horizontal extension) and a structure supporting the superstructure (vertical extension); it shall also allow computer peripherals to be attached on/under the work surfaces or laterally, to the cantilever legs, Fr le système doit rendre simple (TR-SI-TL: trop littéral) TR-OM (omission)l’ajout(LA-TL-IN) aux surfaces de travail (LA-TL-NT: terme traduit par non terme) d’une rallonge, horizontale d’une part, et verticale d’autre part (structure supportant la structure dans son ensemble (TR-DI)) ; il doit également permettre le rattachement(LA-TL-IT: incohérence avec le TC) de périphériques(TR-OM) aux pieds en porte-à-faux(LA-TL-NT), que ce soit par le dessus, le dessous ou même sur le côté, Ref fr le système permet la fixation aisée de plateaux annexes (extension horizontale) et d’une structure supportant les éléments du 3e niveau (extension verticale). Il permet aussi la fixation de périphériques informatiques sur/sous les plateaux ou latéralement aux piétements,

  43. Administratif En If Officials and other servants wishing to be examined by one of the organisation's medical officers should apply to either of the medical offices. Fr1Les fonctionnaires et autres [employés]la-tl-it souhaitant être examinés par un [médecin d' entreprise]tr-di peuvent s' adresser à l' un des cabinets médicaux . Fr2Tout agent de la fonction publique désirant se faire examiner par l' un des [médecins de travail]la-tl-in agréés [devra]la-ia-ta [en notifier]tr-di l' un des [services]la-tl-in médicaux . Ref frLes fonctionnaires et agents désireux de passer la visite médicale auprès de l'un des médecins-conseil peuvent s'adresser à l'un des cabinets médicaux. EnThe examination may be carried out either by one of the organisation's medical officers or by a medical practitioner chosen by the person concerned. Fr[Votre]tr-di médecin traitant ou un [médecin de travail]la-tl-in agréé par l'administration [[mènera]la-ia-ta ]la-tl-in ces [examens médicaux]la-tl-fc . Ref fr Cet examen peut être effectué, soit auprès de l'un des médecins-conseil de l'Institution, soit auprès d'un médecin au choix de l'intéressé(e).

More Related