1 / 31

Transcription, annotation et indexation de manuscrits anciens

Transcription, annotation et indexation de manuscrits anciens. Sylvie Calabretto sylvie.calabretto@insa-lyon.fr LIRIS - INSA DE LYON Journée Connaissances et Document - 6 octobre 2003. Le projet européen BAMBI. BAMBI : Better Access to Manuscripts and

giulio
Download Presentation

Transcription, annotation et indexation de manuscrits anciens

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Transcription, annotation et indexation de manuscrits anciens Sylvie Calabretto sylvie.calabretto@insa-lyon.fr LIRIS - INSA DE LYON Journée Connaissances et Document - 6 octobre 2003

  2. Le projet européen BAMBI • BAMBI : Better Access to Manuscripts and • Browsing of Images (Programme Libraries) • Composition du consortium : • ACTA S.p.A (Italie) • Biblioteca Nazionale Centrale di Roma (Italie) • Comitato Nazionale delle Ricerche - Istituto di Linguistica Computazionale di Pisa (Italie) • Consorzio Pisa Ricerche (Italie) • Max Planck Institut für Rechtsgeschichte (Allemagne) • LISI (France)

  3. Objectifs • Consultation de manuscrits par un plus large public • Préservation des manuscrits • Meilleure lisibilité des textes • Informations précises et outils de recherche pour les chercheurs en Histoire des Textes • Possibilité de partager des annotations

  4. La station philologique • La station permet de : • Visualiser l’image d’un document source (un manuscrit) avec une haute résolution, • transcrire, annoter et indexer le texte contenu dans les images, • visualiser la transcription et l’index dans une fenêtre adjacente à celle du document source, • faire correspondre automatiquement chaque mot de la transcription avec la portion de l’image source dans lequel le mot est trouvé, • exporter des information sur les manuscrits au format SGML/HyTime

  5. La station BAMBI

  6. Città Segnatura ms Supporto Data Consistenza Tipologia Scrittura Intestazione: Autore Titolo Incipit Segnatura microfilm Marca pellicola Passo N°fotogrammi Data riproduzione Note Fotogrammi globali Cod. MS Méta-données

  7. Session de Recherche • Recherche multi-critères • par métadonnées • auteur, date, bibliothèque, ... • par mots-clés

  8. Aide à la transcription • Transcription = processus visant à noter la prononciation d’une langue donnée à l’aide d’un système de signes d’une langue de conversion • abréviations syllabiques (« It » pour Item) • abréviations par suspension (« ac. » pour Accurcius) • utilisation de signes spéciaux ( pour « et »)

  9. Indexation : Index verborum et Index locorum

  10. Annotations • Deux types d’annotation : • les commentaires libres (fond), • les variantes de textes (synonymes ou corrections de syntaxe) (forme).

  11. Correspondance mot/image

  12. Correction manuelle

  13. Le filtre SGML/HyTime • Exporter les informations relatives à une page de manuscrit au format SGML. • SGML est une Norme Internationale • elle assure la pérennité de l’information • elle assure l’indépendance des informations par rapport aux logiciels et aux matériels • elle permet la génération d ’une application BAMBI Web (information exchange through INTERNET)

  14. La DTD BAMBI • Les informations à modéliser : • Description du manuscrit (titre, auteur, bibliothèque, ...) • Les bookmarks • Liens entre chaque mot de la transcription et le mot correspondant dans l’image

  15. La DTD BAMBI (1/3) <!-- DTD for a class of document exported from BAMBI project -- > <!ENTITY % doctype "MANUSCRI" > <!-- Document STRUCTURE --> <!-- ELEMENTS MIN CONTENT (EXCEPTIONS) -- > <!ELEMENT %doctype; - - (InfoManu, Pages*, Fin?) > <!ELEMENT InfoManu - - (UserName,Title,Author,Library,Incipit,Material,Date,Size, Languages,Handwriting,Bookmark*) > <!ELEMENT UserName - - (#PCDATA) > <!ELEMENT Title - - (#PCDATA) > <!ELEMENT Author - - (#PCDATA) > <!ELEMENT Library - - (#PCDATA) > <!ELEMENT Incipit - - (#PCDATA) > <!ELEMENT Material - - (#PCDATA) > <!ELEMENT Date - - (#PCDATA) > <!ELEMENT Size - - (#PCDATA) > <!ELEMENT Languages - - (#PCDATA) > <!ELEMENT Handwriting - - (#PCDATA) > <!ELEMENT (Bookmark | Fin)- - (#PCDATA) >

  16. La DTD BAMBI (2/3) <!-- Page STRUCTURE --> <!ELEMENT Pages - - (Image,Transcri)+ > <!ELEMENT Image - - (CoorMots*) +graphic > <!ENTITY % CoordXY "(X1,Y1,X2,Y2)" > <!ELEMENT CoorMots - - (%CoordXY;) > <!ELEMENT (X1,Y1,X2,Y2) - - (#PCDATA) > <!ENTITY % Annot "(Annot1|Annot2|Annot3|Annot4|Annot5|Annot6)" > <!ELEMENT Transcri - - (Curpage,(Column,Ligne,Mots+,(%Annot;)*))*> <!ELEMENT Curpage - - (#PCDATA) > <!ELEMENT Column - - (#PCDATA) > <!ATTLIST Column NumCol CDATA #REQUIRED > <!ELEMENT Ligne - - (#PCDATA) > <!ATTLIST Ligne NumLine CDATA #REQUIRED > <!ELEMENT Mots - - (#PCDATA|Mots*) > <!ATTLIST Mots Police CDATA #IMPLIED >

  17. La DTD BAMBI (3/3) <!ELEMENT (Annot1|Annot2|Annot3|Annot4|Annot5|Annot6) - - (#PCDATA) > <!-- Attribute definition Lists --> <!-- Entity-name contents --> <!ENTITY MAP1 "<X1> <!USEMAP MAP-INX1>" > <!ENTITY MAP2 "</X1> <Y1> <!USEMAP MAP-INY1>" > <!ENTITY MAP3 "</Y1> <X2> <!USEMAP MAP-INX2>" > <!ENTITY MAP4 "</X2> <Y2> <!USEMAP MAP-INY2>" > <!ENTITY MAP5 "</Y2> </CoorMots>" > <!-- Mapname delimiter Entity-name --> <!SHORTREF MAP-X1 "(" MAP1 > <!SHORTREF MAP-INX1 "," MAP2 > <!SHORTREF MAP-INY1 "," MAP3 > <!SHORTREF MAP-INX2 "," MAP4 > <!SHORTREF MAP-INY2 ")" MAP5 > <!-- Mapname element --> <!USEMAP MAP-X1 CoorMots >

  18. Description de manuscrit (Instanciation de DTD) <INFOMANU> <USERNAME>Mario</USERNAME> <TITLE>Diario del viaggio in Terra Santa 1559</TITLE> <AUTHOR>Luca da Gubbio</AUTHOR> <LIBRARY>1</LIBRARY> <INCIPIT>Unknown</INCIPIT> <MATERIAL>Cartaceo</MATERIAL> <DATE>Sec. XVI 2° Meta</DATE> <SIZE>CC 98</SIZE> <HANDWRITING>8</HANDWRITING> <BOOKMARK> Diario del viaggio in Terra Santa 1559 : c4r</BOOKMARK> <BOOKMARK> Diario del viaggio in Terra Santa 1559 : c5r</BOOKMARK> </INFOMANU>

  19. Liens entre parties d’image et partie de texte <IMAGE> <HYLOC> <HOTSPOT ID=H1_1_1 GRAPHIC = Image5 REF=T1_1_1 RX= «205,02» RY=«75,64» RW=«128,52» RH=«69,54» ..... </HYLOC> </IMAGE> <TRANSCRI> <CURPAGE>c4r</CURPAGE> <COLUMN NumCol=1> <LINE Numline=1> <LINK ID=T1_1_1 LINKEND=H1_1_1>I(tem)</LINK> ............... </LINE> </COLUMN> </TRANSCRI>

  20. Architecture BAMBI

  21. Application HyTime

  22. L’après BAMBI • Projet SyDoM (Système Documentaire Multilingue) • 1 thèse (+ 1 en octobre), 2 stagiaires CNAM • Projet STEMA (Station de Travail pour l ’Etude des Manuscrits Anciens sur le Web) • Programmes d’Actions Intégrés (P.A.I) MAE-MENRT Galilée 99, projet franco-italien entre le LISI et le CNR- Pise • Projet DiPhiloS • Ministero per i Beni e le Attività Culturali

  23. Le projet SyDoM • Objectif : • Méthode d’indexation sémantique et de recherche de documents multilingues • Propositions : • Un nouveau modèle de graphes pour représenter les documents et les requêtes • Définition d'un nouveau thésaurus • Définition d’un nouvel opérateur de projection

  24. Prototype SyDoM

  25. Niveau conceptuel Ensemble des types de relations Ensemble des types de concepts T2 T observation permettant de contrôler les données et les conditions étudiées tc1 tc2 tr1 tr2 tc1.1 tc1.2 tc2.1 machine qui transforme une forme d’énergie en énergie mécanique Relation de spécialisation tc1.2.1

  26. Niveau terminologique Ensemble des vocabulaires Ensemble des types de concepts T Vocabulaire anglais Engine Experimentation tc1 tc2 tc1.1 tc1.2 tc2.1 Expérimentation tc1.2.1 Vocabulaire français Moteur

  27. LesGraphesSémantiques Un arc Un type de concept « Tom réalise une expérimentation sur un moteur » tr1 tr2 2 1 2 1 tc1.1 tc1.2 tc2.1 Un terme label d’un type de concept 1 agent patient 2 2 1 Personne Expérimentation Moteur

  28. Prototype SyDoM

  29. Perspectives • BAMBI/DiPhiloS en open source • Module de traitement d’image à réécrire • Module d’indexation sémantique multilingue à intégrer

  30. Publications BONNATERRE O., BOZZI A., CALABRETTO S. and al., Better Access to Manuscripts and Browsing of Images : Aims and results of an European Research project in the field of digital Libraries BAMBI Lib-3114. CLUEB (Bologne), 1997, 176 pages, ISBN N° 88-8091-569-X. CALABRETTO S., PINON J.M., BOZZI A. BAMBI : Système de Gestion de Manuscrits Anciens pour Historiens. Revue Document Numérique. Ed. HERMES, Volume 2, n° 3-4, Numéro spécial sur les Bibliothèques Numériques, 1998. pp. 31-50. ISBN 2-86601-738-2, ISSN 1279-5127 CALABRETTO S., BOZZI A. The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images). International Journal of Digital Libraries. 1998. Volume 1, Issue 3 http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/

  31. Publications BOZZI A., CALABRETTO S. Digital Library and Computational Philology : the BAMBI (LIB -3114) project. Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science N°1324 (Springer Verlag). Eds. C. Peters and C. Thanos. Pisa, Italie. September 1-3, 1997. pp. 269-285. ISBN 3-540-63554-8 CALABRETTO S., PINON J.M. Modelling of a medieval manuscript database with HyTime. In: Proceedings of ICCC/IFIP Conference on Electronic Publishing : EP'97. New Models and Opportunities. The University of Kent at Canterbury, Great Britain. April 14-16, 1997. Edited by Fytton Rowland and Jack Meadows. ICCC Press, Washington, pp. 336-345. ISBN 1-891365-00-2 PINON J.M., CALABRETTO S., BOZZI A. Numérisation des manuscrits médiévaux : le projet européen BAMBI. In : Colloque du Centre Jacques Cartier. Vers une nouvelle érudition. Numérisation et recherche en histoire du livre. Lyon, 6-7 décembre 1999

More Related