1 / 38

XML, DTD et TEI pour un dictionnaire étymologique des créoles

XML, DTD et TEI pour un dictionnaire étymologique des créoles. 12 Octobre 2007 Hélène Manuélian et Emmanuel Schang Universités de Cergy Pontoise et Orléans. Ressources textuelles. Données hétérogènes (en-t êtes, caractères spéciaux, illustrations, sens de l’écriture, etc.)

baird
Download Presentation

XML, DTD et TEI pour un dictionnaire étymologique des créoles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. XML, DTD et TEI pour un dictionnaire étymologique des créoles 12 Octobre 2007 Hélène Manuélian et Emmanuel Schang Universités de Cergy Pontoise et Orléans

  2. Ressources textuelles • Données hétérogènes (en-têtes, caractères spéciaux, illustrations, sens de l’écriture, etc.) • Informatisation≠lecture possible sur un écran • La solution : coder les données • Un problème : moyens pour le codage informatique souvent incompatibles entre eux et dédiés à une catégorie de texte • Une solution : NORMALISER !

  3. Quels éléments coder ? • Niveau physique : codage des caractères. • Niveau logique : • sémantique du codage • organisation de l'information • description explicite de cette information. • Niveau de présentation : indépendant du support de sortie (CD-Rom, Page Web, etc…) .

  4. Normalisation • Ressources portables : • Echanges possibles quels que soient les moyens informatiques de l’utilisateur • Archivage garanti, malgré l’évolution des technologies • Visibilité nationale et internationale • La référence : une instance internationale • Comité de l’ISO (International Standard Office) • Normes éditées par le TC 37 / SC 4 (Sous comité pour la standardisation des ressources textuelles)

  5. Au commencement… • SGML (Standard Generalized Markup Language) • Les données au format SGML ont un format d’arbre hiérarchique (comme en syntaxe !) • Représente les données textuelles avec des éléments de contenus encapsulés les uns avec les autres : balises

  6. <entry> <form> <orth>porte</orth> <pron>poRt</pron> </form> <gramGrp> <pos>n</pos> </gramGrp> <sense n="1"> <def>Ouverture pratiquée dans un des plans verticaux qui limitent un espace clos(…) </def> </sense> <sense n="2"> <def>Panneau mobile permettant d'obturer cette ouverture</def> </sense> </entry> Entry Form GramGrp Sense1 Sense2 Orth pron pos def def Exemple

  7. XML est … • Un protocole de stockage et de gestion de l’information • Une famille de technologies qui permettent d’effectuer le formatage de documents et l’extraction de données • Une philosophie de gestion de l’information qui recherche un maximum d’utilité et de souplesse en organisant les données sous la forme la plus pure et la plus structurée

  8. XML n’est pas… • A proprement parler un langage de balisage • En fait, c’est un ensemble de règles qui permettent le balisage

  9. Les balises servent à… • Délimiter un fragment de texte <paragraph> blablabla </paragraph> • Indiquer le rôle d’un fragment de texte <salutation> bonjour ! </salutation> • Indiquer la position d’un élément dans un texte <title> TITRE </title> <paragraph> BLABLA </paragraph> • Imbriquer des éléments les uns dans les autres <chapter><paragraph> blabla-truc </paragraph> <paragraph> blabla-bidule </paragraph> <paragraph> blabla-machin </paragraph> </chapter> • Faire des liens entre les fichiers <graphique fileref = "sourire.pict"/>

  10. Composition d’une balise <link type="coref” subtype="infidèle"lex-rel="hyper" /> Attributs "Valeurs" Autres valeurs possibles pour l’attribut type : "anaphor" "bridging" Autres valeurs possibles pour l’attribut subtype si type = "coref" : "direct" Autres valeurs possibles pour l’attribut lex-rel : ”hypo"”syn"

  11. Modèle de document • XML fournit ce qu’on appelle un modèle de document • Ce sont des règles propres à un type de document • Qui permettent de comparer le document produit à un document du même type et de dire s’il est conforme aux règles. On parle de validation. • Il en existe deux sortes : DTD (Document Type Definition) et Schéma XML. Je ne présente que les DTD ici.

  12. DTD • Ensemble de règles qui indiquent quelles balises le document peut utiliser en fonction de sa nature. • Elle fournit une description formelle de l’organisation de l’information au sein du document. • Elle fournit la liste des attributs possibles pour une balise et les valeurs possibles de ces attributs • On fait référence à la DTD utilisée au début du document pour que XML puisse valider le document

  13. La TEI • Text Encoding Initiative • Résultat d’un consensus entre diverses associations internationales spécialisées dans l’alliance entre linguistique et informatique • Propose des directives d’encodage des ressources textuelles (normes de codage et représentation uniforme des données)

  14. La TEI • A la fois rigoureuse et flexible : l’utilisateur élabore son propre schéma de codage à partir d’un ensemble d’éléments et d’attributs • Structure de base commune : tous les documents sont divisés en deux parties : l’entête et le texte. <teiHeader>informations générales sur le texte</teiHeader> <text>texte constituant la ressource textuelle</text>

  15. L’entête TEI • Mise au point par des experts en documentation • Contient la description complète du document en quatre parties <fileDesc> description du fichier </fileDesc> <encodingDesc> description du codage </encodingDesc> <profileDesc> profil textuel du document (classification du texte, thème, etc.) </profileDesc> <revisionDesc> historique des changements </revisionDesc>

  16. Texte TEI Exemple pour un ensemble d’articles : <text> <front> <group> <back> <text> <text> <text> <front> <body> <back> <div> <div> <div> <div> Exemple pour un roman <text> <front> <body> <back> <div> <div> <div> <div>

  17. Une norme en cours d’élaboration : LMF • Lexical Markup Framework • Deux perspectives: • La modélisation des dictionnaires • La construction de bases de données lexicales pour le TAL • Projet de spécification de structure de bases de données lexicales et lexicographiques qui unifie ces deux modèles

  18. Base de Données Lexicales 1..1 Extension Lexicale Extension Lexicale Extension Lexicale 0..n Entrée lexicale 1..1 1..1 1..1 1..1 0..n 1..1 0..n Sens Forme 1..1 Structure de LMF Info. globales

  19. Perspectives pour le dictionnaire des créoles • Utiliser la norme « Print Dictionaries » de la TEI. • Utiliser, voire contribuer à l’élaboration de la norme : la structure d’un dictionnaire des créoles pourrait montrer qu’une souplesse reste nécessaire • Propositions au TC37/SC4

  20. Problème • Structure des dictionnaires étymologiques du créoles peut-être problématique, parce que différente de la structure des dictionnaires étymologiques classiques, et des dictionnaires bi/multilingues

  21. Deux exemples

  22. <entry> <form> <orth>publish</orth> ... </form> <etym> <lang>ME.</lang> <mentioned>publisshen</mentioned> <lang>F.</lang> <mentioned>publier</mentioned> <lang>L.</lang> <mentioned>publicare, publicatum</mentioned>. <xr>See <ref>public</ref>; cf. 2d <ref>-ish</ref>. </xr> </etym> </entry> (From: Webster's Second International) <entry> <form> <orth>dresser</orth> </form> <sensen="a"> <usgtype="dom">Theat</usg> <cittype="translation"xml:lang="fr"> <quote>habilleur</quote> <gen>m</gen> </cit> </sense > <sense n=  "b" > <usgtype="dom">Comm</usg> <formtype="compound"> <orth> window <oRef/> </orth> </form> <cit type="translation"xml:lang="fr"> <quote>étalagiste</quote> <gen>mf</gen> </cit> </sense> <!-- ... -->ハ </entry> Exemples standards

  23. Exemple (C. Fontes) • Dictionnaire étymologique du forro • Particularité : à la fois dictionnaire trilingue et dictionnaire étymologique • Structure complexe : forro / Traduction(s) portugaise(s) / traduction(s) anglaise(s) / Etymologie : propriété 1 + propriété 2 + …

  24. Exemple de problème à résoudre

  25. <entry> <form> <orth>blagadu </orth> <pron>[blaˈgadu] </pron> </form> <gramGrp> <pos>adj</pos> </gramGrp> <trans n=“1”> P. desfeito; terminado; arregalado; </trans> <trans n=“2”> E. undone; ended; wide opened. </trans> <etym> <lang> P. </lang> <mentioned> desbragado </mentioned> <gloss>unchained</gloss> + aférese + lambdacismo ; <lang>P. </lang> <mentioned> embargado </mentioned> <gloss>seized</gloss> +aférese + lambdacismo + metatese </etym> </entry>

  26. une application • prenons l’exemple du forro • il existe : • un dictionnaire étymologique : Rougé (2004) • un mémoire de master (Fontes 2007) • un dictionnaire fantôme (Aires Major xxxx) • des bouts de travaux ici et là (Ferraz 1979, Hagemeijer 2007, Schang 2000, …).

  27. deux approches différentes • codage TEI des textes existants (dans leur version électronique) • réalisation d’une base de données sous un format nouveau en incorporant des infos prises dans les dictionnaires existants. Il s’agit alors d’un nouveau travail.

  28. avantages et inconvénients • Solution 1 : • faible coût (+) • rien de neuf (-) • Solution 2 : • coût important selon l’ampleur du projet • véritable base multimédia (son/corpus, images, etc.)

  29. un exemple simple aba, bord d’un habit En guinéen aba :«revers », « bas d'un vêtement » ; à Santiago aba: «rebord d'un chapeau ou d'une jupe. » Pour le capverdien, Lang donne aussi ce nom comme synonyme de bandera « dessus de la porte ». En forro aba : «volant d’une robe », « rebord d’un chapeau » ; baba de même sens en est vraisemblablement une variante. aba est aussi attesté en angolar avec le même sens, mais il nous semble, considérant les vêtements traditionnels des angolares, qu’il s’agit là d’un emprunt récent au forro. (Rougé 2004)

  30. structure d’une entrée entry form gloss etym Dans ce qui est étiqueté ‘etym’, on va trouver des informations de nature étymologique sur diverses langues. On peut concevoir des sous-entrées pour chaque langue. Pour chaque langue évoquée, on trouve : • une ou deux formes • une ou deux gloses • des informations variées (emprunt récent, synonymes, etc.)

  31. un exemple délicat Rougé (2004:49) aguardar, attendre L’impératif pluriel du verbe aguardar, aguardai, a donné l’interjection forro agwêdê ! « Attention ! » qui est utilisée en particulier dans Agwêdê ! Alê ! « Attention! Le roi ! », formule rituelle qui ouvre les devinettes traditionnelles. L’harmonisation vocalique régressive empêche que agwêdê puisse être interprété comme un dérivé de gwada, qui pourtant est de même racine.

  32. proposition de codage TEI <entry> <form>aguardar</form>, <glossxml:lang="fr">attendre</gloss> <etym>Limpératif pluriel du verbe aguardar, aguardai, a donné l’interjection <lang>forro</lang> <formxml:lang="cri">agwêdê!</form> <gloss>Attention!</gloss> qui est utilisé en particulier dans <mentioned>Agwêdê! Al!</mentioned> <glossxml:lang="fr">Attention! Le roi!</gloss>, <def>formule rituelle qui ouvre les devinettes traditionnelles.</def> L’harmonisation vocalique régressive empêche que <mentioned>agwêdê</mentioned> puisse être interprêté comme un dérivé de <mentioned>gwada</mentioned>, qui pourtant est de même racine.</etym> </entry>

  33. CreolData et LMF • un projet de base de données lexicales (Schang & alii 2005) • idée simple : réutiliser l’existant pour l’incorporer dans une base de données fonctionnant avec xml • à l’origine, utilisation de LMF et Afnor (Lexique pour le TAL)

  34. Entrée Lexicale identifiant : ‘535’ forme lemmatisée : ‘flêsê’ sens : ‘s535 s536’  Forme 1 chaîne : ‘flêsê’  Forme 2 chaîne : ‘ôflêsê’  Sens identifiant : "s535" comportement syntaxique : ‘syn535’  Définition texte : ‘donner quelque chose en cadeau à quelqu'un’  Sens identifiant : "s536" comportement syntaxique : "syn536" Définition texte : " présenter un enfant à l'Eglise" CreolData et LMF

  35. CreolData et LMF • ce qui donne sous forme xml : <lexicalEntry id="535" pos="verb" lemmatizedForm="flêsê" autonomy="yes" components="" senses="s535 s536"> <form id="f535a" string="flêsê"/> <form id="f535b" string="ôflêsê"/> </lexicalEntry> • pour le sens : <sense id="s535" syntacticBehaviors="syn535" definitionBlocks="def535"> <definition id="def535" text="donner quelque chose en cadeau à quelqu’un" lang="fr"/> </sense> <sense id="s536" syntacticBehaviors="syn536" definitionBlocks="def535"> <definition id="def536" text="présenter un enfant à l’Eglise" lang="fr"/> </sense>

  36. CreolData et LMF • un système adapté à la description syntaxique : <syntacticBehavior id="syn535" frameSet="fS535"/> <frameSet id="fS535" frames="fS535_f1 fS535_f2"/> <frame id="fS535_f1" comment="verbe doc" slots="synSlot_1 synSlot_2 synSlot_3"/> <frame id="fS535_f2" comment="verbe à cos" slots="synSlot_1 synSlot_3 synSlot_4"/> <slot id="synSlot_1" function="subject" semanticActant="agent" syntacticActant="np"/> <slot id="synSlot_2" function="object" semanticActant="benef" syntacticActant="np"/> <slot id="synSlot_3" function="object" semanticActant="theme" syntacticActant="np"/> <slot id="synSlot_4" function="object" semanticActant="benef" syntacticActant="da_np"/>

  37. CreolData et LMF

  38. CreolData et LMF • avantages : • liens avec des fichiers sons et des images facilités par la structure hiérarchisée. • description syntaxique et morphologique poussée permettant le développement d’analyseurs morphologiques et de grammaires électroniques • inconvénients : • pas de place initialement prévue pour l’étymologie. Travail à faire pour l’évolution de la norme

More Related