1 / 18

un outil d’aide à la transcription

un outil d’aide à la transcription. Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d’ I nformatique, T raitement de l’ I nformation et des S ystèmes EA 4108 Université de ROUEN Faculté des sciences 76800 Saint-Etienne du Rouvray.

aelan
Download Presentation

un outil d’aide à la transcription

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. un outil d’aide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET Laboratoire d’Informatique, Traitement de l’Information et des Systèmes EA 4108 Université de ROUEN Faculté des sciences 76800 Saint-Etienne du Rouvray OPTIMA, 6 novembre 2008, BnF

  2. un outil d’aide à la transcription Les ambitions d’OPTIMA • Valorisation des grands corpus modernes • Transcription de l’avant texte, réputé illisible • Conception des outils numériques fondamentaux • Transcription • Classement OPTIMA, 6 novembre 2008, BnF

  3. Transcription ? • Un résultat visible • lisible • une explicitation • sans interprétation • une preuve OPTIMA, 6 novembre 2008, BnF

  4. Transcription ? • Une source numérique rendue accessible au classement • accès aux parties de documents • décrire le contenu au-delà du visuel • penser la transcription comme une base de données OPTIMA, 6 novembre 2008, BnF

  5. Expression des besoins 1- Un langage pour décrire les contenus textuels et graphiques 2- Une interface d’aide à l’encodage 3- Visualisation des images Haute Définition 4- Visualisation des transcriptions (diplomatique?) OPTIMA, 6 novembre 2008, BnF

  6. 1. Langage d’encodage Définition informatique d’une transcription • Repose sur XML: langage des BD semi-structurées • HNML + GustaveML + besoins spécifiques • DTD établie début 2008 • Dernières modifications aout 2008 OPTIMA, 6 novembre 2008, BnF

  7. 1. Langage d’encodage Ajout interlinéaire : Flaubert - Proust Balise Interligne Elle permet d'indiquer quel interligne est utilisé (Supérieur ou Inférieur). Pour un interligne situé dans le corps de texte, on utilise le mot du corps de texte pour indiquer à la visualisation diplomatique ou débute l'interligne. Exemple: l'interligne débute après le i de "villa" Codage: vi<int pl="top">de Cale o loco</int>lla OPTIMA, 6 novembre 2008, BnF

  8. 1. Langage d’encodage bloc de texte : Proust Balise Bloc On utilise le type bloc de texte pour délimiter les blocs composant le document. Le transcripteur indique les positions successives des points entourant le bloc. La forme est de type polyèdre, ainsi, quelque soit la forme du bloc, on peut délimiter celui-ci et le visualiser sur la diplomatique. Codage: <Bloc type="txt">    [coordonnées des points du bloc] </Bloc> OPTIMA, 6 novembre 2008, BnF

  9. 1. Langage d’encodage bloc image : Braudel Balise bloc On utilise un type de bloc particulier, appelé bloc "Image". Le transcripteur indique ainsi que le contenu de ce bloc n'est pas un texte, mais un tampon que l'on ne peut rendre avec une transcription. La portion d'image ainsi délimitée est ajoutée à la visualisation diplomatique du document transcrit. Codage: <Bloc type="img">    [coordonnées des points du bloc] </Bloc> OPTIMA, 6 novembre 2008, BnF

  10. 1. Langage d’encodage ajout en marge : Flaubert - Proust Non géré actuellement OPTIMA, 6 novembre 2008, BnF

  11. 1. Langage d’encodage • <!DOCTYPE transcription [ • <!ELEMENT transcription (Image)+> • <!ELEMENT Image (Bloc)*> • <!ATTLIST Image titre #CDATA #REQUIRED coefDimensionLargeur #CDATA #REQUIRED coefDimensionHauteur #CDATA #REQUIRED> • <!ELEMENT Bloc Point*,Texte+> • <!ATTLIST Point X #CDATA #REQUIRED Y #CDATA #REQUIRED> • <!ATTLIST Bloc idBloc #CDATA #REQUIRED type (img,txt) #REQUIRED> • <!ELEMENT Texte (auteur|cs|stylo|lb|p|dp|lp|rp|u|str|nl|bl|strblock|overwrite|int|nr|b|sp|hyphen|ind|exp|frac|rac|abbr|hyp|titre|rv|#PCDATA)*> • <!ELEMENT auteur (ANY)> • <!ATTLIST auteur name (#CDATA) #REQUIRED> • <!ELEMENT cs (ANY)> • <!ELEMENT stylo (ANY)> • <!ATTLIST stylo p (encre,stylo,crayon,imprime) #REQUIRED c (#CDATA) #REQUIRED> • <!ELEMENT lb (ANY)> • <!ELEMENT p (ANY)> • <!ATTLIST p indent (#CDATA) #REQUIRED> • <!ELEMENT dp (ANY)> • <!ELEMENT lp (ANY)> • <!ELEMENT rp (ANY)> • … • <!ELEMENT Svg (#PCDATA)*> • ]> OPTIMA, 6 novembre 2008, BnF

  12. 2. Interface d’aide à l’encodage 1. Saisie du texte et aide à l’encodage OPTIMA, 6 novembre 2008, BnF

  13. 3. Visualisation des images HD • Fonctionnalités images • zoom • rotation • saisie de blocs • mesure OPTIMA, 6 novembre 2008, BnF

  14. 4. Visualisation des transcriptions • Faire passer un système d’écriture non standard dans un système d’édition électronique normalisé • Transcription diplomatique ? • linéarisée • diplomatique horizontale • diplomatique horizontale avec éléments graphiques • diplomatique inclinée régulière • diplomatique inclinée régulière avec éléments graphiques • Très dépendant de l’utilisateur et du corpus • Accepter une certaine distorsion OPTIMA, 6 novembre 2008, BnF

  15. 4. Visualisation des transcriptions OPTIMA, 6 novembre 2008, BnF

  16. Choix Technologiques Plateforme Java : - dev indépendant de la machine - permet la manipulation des images HD - pas de technologies Web - IHM en SWING - rendu codé en SVG et visualisé avec BATIK (Apache) OPTIMA, 6 novembre 2008, BnF

  17. Bilan et Perspectives • Format de Transcription Numérique: achevé (version 1) • Saisie du balisage: achevée (version 1) • Sauvegarde: en cours de validation • Visualisation diplomatique: 40% achevé • Test et validation : à continuer !! • Utilisateurs = bTesteurs OPTIMA, 6 novembre 2008, BnF

  18. Bilan et Perspectives • - Un outil numérique ambitieux au regard du temps disponible (1 an) • Un prototype en passe d’être achevé grâce à des échanges réguliers • A transformer en une réelle application informatique validée • Génie Logiciel = Cycle de production industrielle • Transcrire la masse? OPTIMA, 6 novembre 2008, BnF

More Related