1 / 61

Aix-MARSEC : Une proposition de traitement automatique de corpus d’anglais britannique oral

Aix-MARSEC : Une proposition de traitement automatique de corpus d’anglais britannique oral. Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole & Langage Université de Provence. Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02. Aix-MARSEC. PLAN.

adeola
Download Presentation

Aix-MARSEC : Une proposition de traitement automatique de corpus d’anglais britannique oral

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aix-MARSEC : Une proposition de traitement automatique de corpus d’anglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole & Langage Université de Provence Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  2. Aix-MARSEC PLAN I) Petit tour d’horizon des Corpus en anglais 1) Des corpus nombreux et variés 2) Les corpus oraux 3) Les corpus oraux britanniques Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  3. Diapo 1 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés A titre d’exemple, on pourra citer les corpus disponibles à l’UCREL : * The British National Corpus (BNC) * The Lancaster/Oslo-Bergen Corpus (LOB) * The Brown University Corpus * The Kolhapur Corpus * The Longman-Lancaster Corpus * The Lancaster/IBM Spoken English Corpus (SEC) * The London-Lund Corpus * The ET10-63 Corpus * The International Telecommunications Union (ITU) or CRATER Corpus * The Helsinki Corpus (Diachronic Part) * The Lampeter Corpus of Early Modern English Tracts Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  4. Diapo 2 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Suite des corpus disponibles à l’UCREL : • * The Lancaster-Leeds Treebank • * The Lancaster Parsed Corpus (LPC) • The American Printing House for the Blind Treebank (APHB) • * The Associated Press Treebank (AP) • * The Canadian Hansard Treebank • * The IBM Manuals Treebank • * The Anaphoric Treebank • * The ACL/DCI CD-ROM • * The WordCruncher Disk Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  5. Diapo 3 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Sans oublier quelques travaux pré-électroniques : * cruden : Concordance of the Authorized version of the Bible (1736) * Johnson : Dictionary of the english language * The Oxford English Dictionary (1928) * Webster : An American Dictionary of the English Language (1928) * Wright : The English Dialect Dictionary (1898 - 1905) * Ellis : The Existing Phonology of English Dialects (1889) * Thorndike : Teacher’s Workbook (1921) * Thorndike & Lorge : The Teacher’s Workbook of 30,000 words (1944) * Jespersen : A Modern English Grammar on Historical Principles (1909 - 49) * Kruisinga : A Handbook of Present-Day English (1931-32) * Poutsma : A Grammar of Late Modern English (1926-29) * Fries : American English Grammar (1940) * Fries : The Structure of English (1952) * Quirk : The Survey of English Usage (1968) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  6. Diapo 4 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) • Corpus Orientés : • Oxford Psycholinguistic Database • Child Language Data Exchange System • European Science Foundation Second Language Databank • International Corpus of Learner’s English • Canterbury Corpus • BDBRUIT Database • … • Corpus Généralistes : • Brown University Corpus • LOB Corpus • Brittish National Corpus • Kohlapur Corpus of Indian English • Wellington Corpus of Written New Zealand English • Australian Corpus of English • … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  7. Diapo 5 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) • Par pays : • Wellington Corpus of New zealand English • Corpus of Spoken American English • Brown University Corpus • Australian Corpus of English • Corpus of English Canadian Writing • Kohlapur Corpus of Indian English • … • Par Groupes sociaux ou provinces : • COLT • IViE • PAC :o) • … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  8. Diapo 6 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Approche Stylistique (type de texte) • Par Style de texte : • Jiao Tang University Corpus of English in Science • COLT (London teenage colloquial English) • CRATER Corpus (telecom English) • Lampeter Corpus of Early Modern English Tracts • … Par modalité de production : Recours à une échelle de spontanéité Lecture de mots isolés … Lecture de phrases … MAP Task … Conversation guidée … Parole publique … conversation libre … Conversation libre enregistrée à l’insu des locuteurs Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  9. Diapo 7 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Approche Stylistique (type de texte) Nature des données enregistrées • Données écrites : • LOB Corpus • Brown University Corpus • Kohlapur Corpus • BNC (90 %) • … • Données orales : • BNC (10 %) • Lancaster/IBM Spoken English Corpus (SEC) • London-Lund Corpus • IviE • … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  10. Diapo 8 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Approche Stylistique (type de texte) Nature des données enregistrées Format des données disponibles (données enregistrées orales) • Transcriptions seules : • BNC • American National Corpus • Corpus of Spoken Professional American English • Canadian Hansard Treebank • … • Transcriptions et fichiers son : • MULTEXT • ICE (International Corpus of English) • SBCSAE • IViE • … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  11. Diapo 9 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Corpus Oraux = Corpus de données orales Disponibles sous un format audio Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  12. Diapo 9 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Corpus Oraux = Corpus de données orales Disponibles sous un format audio Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  13. Diapo 10 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Disponibles sous un format audio Mais encore ??? Nature des transcriptions ??? Format des Transcriptions ??? Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  14. Diapo 11 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Nature des transcriptions ??? Orthographique Annotée • Syntaxe (étiquetage “POS” / structures) • Phonétique / Phonologie • (segmental / “supra-segmental”) • Infos Conversationnelles • (Tours de parole, chevauchements, …) • Infos DISCURSIVES • (Structure informationnelle, référentielle, rhétorique, hiérarchique-fonctionnelle, …) Ponctuée / NON Ponctuée Annotée / Non annotée Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  15. Diapo 12 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Nature des transcriptions ??? NON-Orthographique Orthographique Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  16. Diapo 13 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Format des transcriptions ??? Texte “simple” (Plain Text) Fichiers au format ASCII, Non destinés à un logiciel particulier : Exploitation manuelle facilitée Mais Traitement exhaustif difficile Portabilité maximalisée Mais Traitement automatique direct impossible Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  17. Diapo 14 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Format des transcriptions ??? Exemple de Texte “simple” : LLC:c Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Version réduite du LLC (cf. Svartvick & Quirk 1980)

  18. Diapo 15 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Format des transcriptions ??? Exemple de Texte “simple” : MARSEC signal a0101 type 0 color 121 comment created by Caro et Cyril font -adobe-helvetica-medium-r-normal--14-140-75-75-p-77-iso8859-1 separator ; nfields 1 # 0.000000 122 || 0.570000 122 <Good 0.680000 122 `morning 1.160000 122 || 1.780000 122 >`more 1.940000 122 *news 2.281180 122 about 2.500000 122 the 2.630000 122 ~Reverend 2.950000 122 _Sun 3.290000 122 *Myung 3.643588 122 `Moon Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Transcription MARSEC

  19. Diapo 16 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Format des transcriptions ??? Texte “formaté” Fichiers au format ASCII ou “compilés”, destinés à un logiciel particulier : Portabilité minimalisée Mais Exploitation directe possible Exploitation manuelle plus difficilE Mais Exploitation exhaustive possible Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  20. Diapo 17 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Format des transcriptions ??? Exemple de Texte “Formaté” : BNC <bncDoc id=BDFX8 n=093802> <header type=text creator='natcorp' status=new update=1994-07-13> <fileDesc> <titStmt> <title> General Practitioners Surgery -- an electronic transcription </title> <respStmt> <resp> Data capture and transcription </resp> <name> Longman ELT </name> </respStmt> </titStmt> <ednStmt n=1> Automatically-generated header </ednStmt> <extent kb=7 words=128> </extent> <u who=FX8PS000> <s n=01> <w ITJ>Ah <w AV0>there <w PNP>we <w VBB>are<c PUN>, <unclear><c PUN>. <s n=02> <w AV0>Right <unclear> <w AJ0>abdominal <w NN1>wound<c PUN>, <w PNP>she<w VBZ>'s <w AT0>a <w AJ0>wee <w NN1>bit <pause> <w VVD>confused<c PUN>. <s n=03> <w PNP>She <w VDD>did<w XX0>n't <w VVI>bother <w TO0>to <w VVI>tell <w PNP>me <w CJT>that <w PNP>she<w VHD>'d <w AV0>only <w VVN>got <unclear> <w TO0>to <w VVI>call <w PNP>you<c PUN>, <w AV0>right<c PUN>? <s n=04> <w UNC>Erm <w PNP>she <w VBD>was<w XX0>n't <w PRP>in <w DPS>her <w NN1>nightdress <w CJC>but <w PNP>she <w AV0>only <w VVN>dressed <w PNX>herself<c PUN>, <w PNP>she <w VVD>said <ptr t=FX8LC001> <unclear> <ptr t=FX8LC002> </u> <u who=PS22T> <s n=05> <ptr t=FX8LC001> <w CJC>And <w PNP>you <unclear> <ptr t=FX8LC002> </u> Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Transcription BNC (Header) Transcription BNC

  21. Diapo 18 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Format des transcriptions ??? Exemple de Texte “Formaté” : IviE dans XWaves Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Transcription IviE

  22. Diapo 19 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Les transcriptions sont en général : orthographiques annotées Texte simple / formaté + / - Alignées Qu’en est-il des principaux corpus oraux d’anglais britannique ??? Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  23. Diapo 20 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Britanniques Description sommaire de DEUX corpus oraux d’anglais Britannique : ICE 2) IViE Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  24. Diapo 21 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux Britanniques ICE : The International Corpus of English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  25. Diapo 22 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques ICE-GB : LE composant britannique Début du programme : 1990 Objectif principal : Fournir les données nécessaires à une étude comparative des variantes nationales et régionales de l’anglais Nombre de partenaires : 20 centres Composition : 1 million de mots (200 textes écrits, 300 textes oraux) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  26. Diapo 23 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques ICE-GB : LE composant britannique Format des données : annotation syntaxique complète au format ICECUP (étiquetage + structure syntaxique) 83.394 arbres au total 59.640 arbres pour la partie orale Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  27. Diapo 24 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques ICE-GB : LE composant britannique ICE-GB : un véritable corpus oral ??? Version 1 du corpus : Transcriptions seules … Version 2 du Corpus : Transcriptions et fichiers son (Alignement ???) (si oui, QuelLe granularité d’alignement ???) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  28. Diapo 25 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  29. Diapo 26 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques IViE : Intonational Variation in English Début du programme : 1997 Objectif principal : Fournir les données et les outils nécessaires à une étude comparative des variantes intonatives régionales de l’anglais des îles britanniques Nombre de points d’enquête : 9 Composition : 36 heures de parole (dont 4h transcrites et 1h disponible en ligne) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  30. Diapo 27 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques IViE : Intonational Variation in English • Composition (suite) : 5 modalités de production : • Conversation • Interaction guidée (Map Task) • Récit “de mémoire” • Lecture de texte • Lecture de passages phonétiquement contrôlés Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  31. Diapo 28 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques IViE : Intonational Variation in English Format des données Format Xwaves (Entropic Soft.) sous Unix Possibilité d’Utilisation avec PitchWorks, WaveSurfer, Praat, … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  32. Diapo 28 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  33. Diapo 29 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques IViE : Intonational Variation in English IVIE : un véritable corpus oral d’anglais britannique Un corpus orienté (intonation, pas d’annotation syntaxique ni de concordance) Un corpus aligné au niveau du mot (fin d’unité) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  34. Diapo 30 Aix-MARSEC : Petit tour d’horizon des corpus en anglais Les corpus Oraux BritanNiques En Résumé • Les corpus sont nombreux mais rares sont ceux qui sont : • réellement oraux • sur l’anglais britannique • disponibles (cf. CIC) • Gratuits (ou presque …) • (cf. ICE : 477 € / EUROM 1 : 800-1600 € / …) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  35. Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  36. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 31 Origines de MARSEC MARSEC: MAchine Readable Spoken English Corpus SEC: Spoken English Corpus (Lancaster, Leeds, IBM) Corpus d’environ 55 000 mots Catégories de discours: bulletins d’informations, émissions religieuses, fiction, poésie, dialogues (de type mise en scène), commentaires sportifs). 53 locuteurs (17 locutrices et 36 locuteurs) Archives de la BBC (début des années 1980) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  37. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 32 Origines de MARSEC Durée : 339 minutes et 18 secondes, corpus divisé en fichiers de 60s environ Alignement (temporel) au niveau du mot Annotation prosodique: tonetic stress marks (G. Knowles & B. Williams) 80 passages de chevauchement (9% du corpus) pour comparaison Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  38. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 33 Origines de MARSEC • annotation prosodique (14 symboles ASCII) : • _ low level • ~ high level • < step-down • > step-up • /’ (high) rise-fall • ‘/ high fall-rise • / high rise • \ high fall • , low rise • ‘ low fall • ,\ (low rise-fall – not used) • \, low fall-rise • * stressed but unaccented • | minor intonation unit boundary • || major intonation unit boundary Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  39. Aix-MARSEC : Le corpus Aix-MARSEC De MARSEC à AIX-MARSEC Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  40. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 34 Traitements Homogénéisation du corpus • Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) • Mise en correspondance des noms de fichiers son avec les noms de fichiers d’étiquettes (correction) • Suppression des fichiers son défectueux • Suppression des fichiers avec étiquettes manquantes • - Suppression totale de 3 fichiers • - Élimination des doublons (= fichiers de chevauchement) avec préférence pour BJW (sur GOK) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  41. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 35 Traitements Vérification des étiquettes Vérification et correction de la totalité des étiquettes de mot avec PRAAT Fenêtre minimale de correction: 50ms (pas de modification dans le cas de décalages de moins de 50ms) Modification d’étiquette dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom (facilement identifiables) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  42. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 36 Traitements Prédiction de la durée des phonèmes Algorithme inspiré de Campbell 1992 Appliqué au niveau du mot Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  43. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 37 Traitements PHONETISATION DU CORPUS SAMPA / IPA I  e e {  Q  V  U  @  i: i: eI  aI  OI  u: : @U  aU  3: : A: : O: : I@  e@  U@  Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par ‘Oxford University Press’ Dictionnaire de transcription avec 71 000 mots en entrée Conversion en SAMPA (= computer readable phonetic alphabet) Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par Oxford University Press Dictionnaire de transcription avec 71 000 mots en entrée Conversion en SAMPA (= computer readable phonetic alphabet) Fonctionnement général : Recherche automatique de chaque mot du corpus dans le dictionnaire Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  44. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 38 Traitements Différentes étapes de la phonétisation (1) • CODAGE d’un Module perl traitant : • les nombres et combinaisons de lettres + nombres (codes postaux), • les suites de majuscules (abréviations), • les génitifs et les formes contractées. Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  45. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 39 Traitements Différentes étapes de la phonétisation (2) • Utilisation de ces formes dès lors • qu’elles apparaissent sans marque prosodique • dans le corpus • ex: « ‘/and » = /{nd/ • mais • « and » sans marque = /@nd/ • Traitement des formes réduites • dictionnaire : formes pleines uniquement (ex: « and » est transcrit /{nd/) • Création d’un dictionnaire avec la liste des formes réduites et leur réalisation ex: « and » est transcrit /@nd/ Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  46. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 40 Traitements Différentes étapes de la phonétisation (3) Lors de la phonétisation, 900 mots présents dans le corpus n’apparaissaient pas dans le dictionnaire. Constitution d’un troisième dictionnaire avec les 900 mots transcrits manuellement (à partir de Wells, 1990) … … et d’un quatrième avec la transcription des formes "problématiques"(hésitations, coupures en début/ fin de fichier). But : aucune modification du dictionnaire d’origine pour applications ultérieures Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  47. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 41 Traitements Différentes étapes de la phonétisation (3) Problèmes non résolus : Doublons Mots avec deux entrées dans le dictionnaire Ex: « object » (nom / verbe) ; « wind » (nom / verbe) Aucune solution automatique pour l’instant puisqu’on ne tient pas compte de l’accent lexical  en projet Dates Nombres entre 1000 et 1999 traités comme des dates (vérification prévue) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  48. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 42 Traitements Différentes étapes de la phonétisation (4) Traitement des élisions • Observation des élisions dans le corpus • Établissement de 14 règles phonotactiques d’élisions •  d’après Jones (1990), Wells (1990) • et Cruttenden (1997) •  d’après les données • - Application des 14 règles au corpus • - Suppression totale de 4027 phonèmes But : améliorer la transcription phonématique pour l’alignement automatique Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  49. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 43 Traitements Alignement automatique Alignement effectué au laboratoire du LIA (Laboratoire Informatique d’Avignon) - par Christophe Lévy - sous la direction de Pascal Nocéra Application d’un « force Viterbi » à partir de la liste de phonèmes fournie Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

  50. Aix-MARSEC : Le corpus Aix-MARSEC Diapo 44 Traitements Alignement automatique Evaluation de l’alignement automatique Erreur moyenne absolue : 22 ms Erreur moyenne : - 6,29 ms Aplatissement : 8,15 (forte concentration) Dyssimétrie : -0,94 (léger biais à gauche) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

More Related