1 / 27

La numérisation de la presse à la BnF Choix documentaires – état d’avancement – aspects techniques

La numérisation de la presse à la BnF Choix documentaires – état d’avancement – aspects techniques. Journées Patrimoine écrit – 14 septembre 2007 Philippe Mezzasalma – Frédérique Joannic-Seta. Rappel.

valora
Download Presentation

La numérisation de la presse à la BnF Choix documentaires – état d’avancement – aspects techniques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La numérisation de la presse à la BnFChoix documentaires – état d’avancement – aspects techniques Journées Patrimoine écrit – 14 septembre 2007 Philippe Mezzasalma – Frédérique Joannic-Seta

  2. Rappel La numérisation de la presse nationale: un programme-phare de la Bibliothèque nationale de France Lancement : 2005 Plan pluriannuel : 2005-2010 31 titres concernés(de leur origine à 1944, dernière année de numérisation). A l’origine 21 titres de PQN + 6 sup. + 3 ajouts de PQN + 1 ajout de presse régionale A terme 3,5 M de pages

  3. Plan Éléments de contexte : les collections de presse de la BnF De la sélection à la mise en ligne : choix et procédures État d’avancement Démonstration des accès Évolution du programme de numérisation de la presse

  4. Les collections de presse à la BnF Entrées courantes : quotidiens ou périodiques de grand format (principalement hebdomadaires), d’information générale (nationaux ou locaux) ou relevant des disciplines droit, économie, politique - 848titres, (676 entrant par le Dépôt légal) dont 222 quotidiens, soit 87 679 fascicules Fonds clos : périodiques cotés Jo, Gr fol-Jo, JoA, Job précédemment à Versailles : journaux locaux, presse professionnelle, presse partisane et syndicale, bulletins d ’associations, presse de loisirs .... 110 000 cotes au total, pour un nombre presque équivalent de titres. quotidiens ou périodiques de grand format du Département des périodiques Le fonds de microfilms : 115 000 bobines de presse, près de 7500 titres sauvegardés ; accroissement annuel d ’environ 6000 bobines : courant : tous les titres de PQN, 40 titres de PQR jusqu’à 2003, 20 depuis. rétrospectif : reproduction de périodiques Jo ; sélection des titres sur la base de corpus ou à partir des demandes de lecteurs

  5. Les collections de presse de la BnF : communication au public Communications en Rez-de-jardin : plus de 50 000bobines de microfilms, plus de 14 000 unités de conservation du fonds clos Jo Communications de microfilms en salles D et J : sélection de 43 titres Salle A : 273 titres en libre-accès, interrogation de cédéroms ou bases de données, 165 entrées par jour

  6. Typologie de la presse la presse nationale : presse politique et d'information générale presse populaire presse d'échos, presse satirique • la presse régionale et locale • la presse d ’outre-mer • la presse spécialisée • la presse de lecture • la presse gratuite • la presse de type publication officielle • la presse alternative

  7. La Presse : pourquoi numériser ? Une richesse documentaire incontestable contenu exceptionnel Un ensemble en danger… auquel la numérisation offre de nouvelles perspectives => Une opération à la fois de sauvegarde et de diffusion

  8. De la sélection à la mise en ligne Définition du plan de numérisation Enquête sur les usages attendus de la presse numérisée Aspects juridiques Sélection de l’exemplaire et recollement Choix techniques de numérisation et conséquences sur Gallica Le mode texte

  9. La définition du corpus Un programme axé autour de la presse quotidienne nationale Un panorama représentatif du pluralisme d ’opinion, des grands titres historiques aux quotidiens populaires Une ouverture vers les régions : Ouest-Eclair Un corpus accompagné par des outils critiques : Annuaire de la presse...

  10. Les titres retenus : plus de 3 millions de pages sur 5 ans La Croix Le Temps Le Figaro L’Humanité La Presse Le Petit Parisien Le Figaro Littéraire L’Action Française Le Journal des débats Supplément du Petit Parisien Le Matin Le Petit Journal Le Petit Journal illustré • L'Aurore • La Justice • Le Gaulois • Le Constitutionnel • L’Univers • L'intransigeant • Le Siècle • Le Rappel • Gil Blas • Gil Blas illustré • La Lanterne • Supplément de la Lanterne • L’Écho de Paris • Ouest Éclair En prévision : Les Échos, Le Canard enchaîné

  11. Les aspects juridiques Rappel : droit d ’auteur = 70 ans à compter de la mort de l ’auteur à compter de la publication quand œuvre collective =>la presse obéit à ces règles Conséquences : Accord des titres vivants (convention)‏ Pas de mise en ligne postérieure à 1935 Masquage éventuel des images

  12. Préparation des documents Une décision : repartir des originaux Récolement fascicule par fascicule lacunes à compléter auprès d ’établissements extérieurs signalement des défauts physiques Préparation des supports : démontage/déreliage petites réparations dépoussiérage et repassage

  13. Catalogage et métadonnées Choix de l’unité – fascicule Catalogage : Création dans le catalogue d’une cote numérique correspondant au titre Pour chaque cote numérique, utilisation du fichier de récolement pour lier les fascicules numériques Métadonnées : constitution par extraction des données à partir du catalogue

  14. Numérisation 4 chaînes opérationnelles pour ce programme, dont 2 confiées à un prestataire Opérations de prise de vue et d’insertion/création des métadonnées Une numérisation de haute qualité (300 dpi – niveau de gris), TIFF non compressé pour la sauvegarde compressé en JPEG pour la diffusion

  15. Ocr et numérisation de la presse Usages attendus : une recherche plein texte plutôt qu’une transcription =>le choix d’un OCR brut et d’une segmentation (format Alto)‏ un niveau qualitatif minimum de 95% de reconnaissance de caractère

  16. Titres numérisés – état au 14/09/07 Le Temps : en ligne 1861-1935 Le Figaro : en ligne 1826-1942 (lacunes 1842-1853)‏ Le Figaro littéraire : en ligne 1876-1929 (lacunes 1896-1904 et 1915-1918)‏ La Croix : en ligne 1883-1944 L ’Humanité : en ligne 1904-1944 (lacunes 1940-1943)‏ La Presse : en ligne 1836-1854 Le Journal des débats : en ligne 1800-1884 NB : les lacunes signalées ici résultent des opérations de contrôle qualité, à l ’exception de l ’Humanité

  17. Les titres en cours de numérisation En cours de numérisation : La Presse Le Journal des débats Le Petit Parisien Ouest-Eclair (édition de Caen)‏ A suivre en 2007-2008 : Le Gaulois L’Aurore Le Monde diplomatique

  18. Deux accès vers la presse numérisée Le catalogue Bn-Opale plus Gallica

  19. Accès par le catalogue Accès par cote numérique Les autres recherches proposées par le catalogue sont également valides : recherche par titre, par cote de l ’original papier...

  20. Accès par le catalogue Exemplaire numérique Visualiser

  21. Navigation dans Le Temps

  22. Navigation dans Le Temps 10 juillet 1861

  23. Navigation dans Le Temps Zoom et accès au mode texte Circulation par année Circulation par jour

  24. Accès dans Gallica

  25. Améliorations attendues Dans le cadre de Gallica 2(à partir de l’été 2008)‏ Page de présentation des titres de presse Mise en place d’un espace de travail personnel (panier, taggage des pages…)‏ Mise en relation des titres de presse avec des documents qui leur sont consacrés (Tables du Temps ; fichier du journal Le Matin )‏

  26. Numérisation de la presse à la BnF : extensions à venir Extension à l ’étude vers des corpus thématiques presse des immigrations presse des anciens territoires et colonies journaux de tranchées (BnF, BDIC, BNUS, BM Lyon, Stuttgart) presse clandestine de la Résistance presse hebdomadaire (politique, littéraire, de théâtre, de mode)‏ Axe francophone : « Réseau des bibliothèques nationales numériques francophones »

  27. La valorisation du corpus de presse Lien avec la recherche (équipe Montpellier III -Paris I – Paris IV) Publications prévues pour 2007 : Guide des

More Related