projet des corpus crits des langues manding le bambara le maninka n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Projet des corpus écrits des langues manding  : le bambara, le maninka PowerPoint Presentation
Download Presentation
Projet des corpus écrits des langues manding  : le bambara, le maninka

Loading in 2 Seconds...

play fullscreen
1 / 13

Projet des corpus écrits des langues manding  : le bambara, le maninka - PowerPoint PPT Presentation


  • 175 Views
  • Uploaded on

Projet des corpus écrits des langues manding  : le bambara, le maninka. Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135). L’aire mandingue. Quelques informations sur le mandingue. Nombre de locuteurs (L1 + L2): jusqu’à 40 millions.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Projet des corpus écrits des langues manding  : le bambara, le maninka' - tillie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
projet des corpus crits des langues manding le bambara le maninka

Projet des corpus écrits des langues manding : le bambara, le maninka

ValentinVydrin

INALCO – LLACAN (CNRS, UMR-8135)

quelques informations sur le mandingue
Quelques informations sur le mandingue
  • Nombre de locuteurs (L1 + L2): jusqu’à 40 millions.
  • 4 variétés les plus importantes sociolinguistiquement: le bambara (Mali); le maninka (Guinée + Liberia, Sierra Leone); le dioula (Côte d’Ivoire, Burkina Faso); le mandinka (Gambie, Sénégal, Guinée Bissau).
  • Plusieurs variétés « secondaires »: khassonka, mahou, konya, manya, marke-dafing, bolong, etc.
  • Une « guerre des écritures »: latine, adjami, N’ko.
quelques caract ristiques linguistiques
Quelques caractéristiques linguistiques
  • langues isolantes, très peu de morphologie flexionnelle;
  • langues tonales, des nombreuses règles de modifications tonales contextuelles, un article tonal (les tons ne sont pas normalement notés dans les transcriptions latines; les réalisations tonales sont notées dans le N’ko).
l historique du projet corpus mandingue
L’historique du projet « Corpus mandingue »:
  • 2009: le démarrage
  • avril 2012 : le Corpus Bambara de Référence est affiché à l’Internet (1 mln. de mots)
  • février 2014: le Corpus Maninkade Référence est en ligne (3 mln. de mots, 90% en N’ko)
  • mai 2014: le Corpus Bambara de Référence a atteint 1 770 000 mots, dont 290 000 mots dans le sous-corpus désambiguïsé.
les logiciels daba kirill maslinsky
Les logiciels Daba (KirillMaslinsky)
  • le métaediteur (une interface graphique pour l’introduction des métadonnées);
  • l’analyseur morphologique;
  • le désambiguïsateur (une interface graphique pour la désambiguïsation semi-automatique);
  • les convertisseurs (l’ancienne orthographe  la nouvelle orthographe; le N’ko  l’orthographelatine) sontintégrésdansl’analyseurmorphologique.
dictionnaires
Dictionnaires:
  • Bamadaba (BamanaDataBase), dérivé du dictionnaire de Charles Bailleul (sérieusement modifié), en évolution permanente;
  • dictionnaires auxiliaires: prénoms humains; noms claniques; toponymes; «encyclopédique»
  • Malidaba, un dictionnaire maninka-français dérivé de la première version du corpus maninka.
caract ristiques du cbr
Caractéristiques du CBR
  • Un premier grand corpus d’une langue subsaharienne à l’accès libre.
  • Un corpus balancé: tous les genres écrits y sont représentés (journaux, prose, poésie, épopées, contes populaires, textes religieux, littérature fonctionnelle, documents juridiques…).
  • Un corpus annoté morphologiquement à plusieurs niveaux (POS, gloses françaises).
le processus de l int gration des textes dans le cbr
Le processus de l’intégration des textes dans le CBR
  • (une faible présence du bambara à l’Internet)
  • 1) la saisie manuelle double suivie du collationnement
  • 2) l’introduction de l’information métatextuelle
  • 3) l’analyse morphologique automatique
  • 4) l’intégration des textes dans le sous-corpus non-désambiguïsé, ou:
  • 5) désambiguïsation sémi-automatique
  • 6) intégration dans le sous-corpus désambiguïsé.
le corpus maninka
Le Corpus Maninka:
  • une grande activité sur l’Internet;
  • la disponibilité des textes électroniques en N’ko;
  • le retardement en ce qui concerne l’outillage (le dictionnaire, les données métatextuelles, l’élaboration du site).
les outils sur la base du cbr
Les outils sur la base du CBR
  • le correcteur d’orthographe bambara: commencé par AndrijRovenchak, continué par Jean Jacques Méric;
  • le logiciel pour l’OCR des textes bambara, par J.J.Méric
l utilisation du cbr dans l enseignement du bambara
L’utilisation du CBR dans l’enseignement du bambara
  • préparation des matériaux didactique pour l’enseignement du bambara;
  • désambiguïsation des textes par les étudiants;
  • études ponctuelles sur les sujets grammaticaux, orthographiques et sémantiques par les étudiants.