1 / 31

Digitalizace knihovních dokumentů

Digitalizace knihovních dokumentů. Jiří Polišenský. Obsah prezentace. Základní prvky digitalizace Formáty a standardy Skenery Digitalizační work flow Systémy pro prezentaci a evidenci digitalizovaných dokumentů Projekt Národní digitální knihovna. Základní prvky digitalizace.

necia
Download Presentation

Digitalizace knihovních dokumentů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Digitalizace knihovních dokumentů Jiří Polišenský

  2. Obsah prezentace • Základní prvky digitalizace • Formáty a standardy • Skenery • Digitalizační work flow • Systémy pro prezentaci a evidenci digitalizovaných dokumentů • Projekt Národní digitální knihovna

  3. Základní prvky digitalizace Digitální objekty + metadata Digitální objekty • Obrazové soubory • Zvuk • Video • atd.

  4. Funkce digitálních objektů • Archival master – archivní soubor • Modified master – modifikovaný soubor • User copy – uživatelská kopie

  5. Obrazové soubory • Základní bitmapa získaná skenováním • Různé způsoby komprese podle použitých obrazových formátů • Ztrátová a bezztrátová komprese • Vlastnosti obrazových souborů • Obrazový formát • Rozlišovací schopnost v dpi • Černobílé zobrazení, šedá škála, barva • Velikost v bytech

  6. Formáty obrazových souborů • TIFF neztrátový • JPEG ztrátový • JP2 neztrátový • PNG neztrátový • DjVu ztrátový • PDF

  7. Metadata • Popisná metadata • Strukturální metadata • Administrativní a technická metadata

  8. Standardy • Popisná metadata • V současné době NK používá národní standard založený na UNIMARCu a DTD pro periodika a monografie, XML • Další používané standardy: • Dublin Core • MARC XML • MODS • Administrativní a technická metadata • PREMIS, MIX

  9. Příprava dokumentů pro digitalizaci • Selekce dokumentů – stanovit selekční kriteria • Kontrola stavu zpracování v elektronickém katalogu • Čárový kód • Fyzický stav • Přílohy – volné, rozkládací apod. • Jazyk a písmo (OCR)

  10. Skenery Skenery pro různé typy dokumentů: • Knižní skenery • Manuální • Robotické • Kombinované • Hybridní kamery • Skenery pro jiné typy dokumentů • Průběžné • Bubnové • Mikrofilmové • Atd.

  11. Vlastnosti skenovacích zařízení • Maximální velikost předlohy • Způsob uložení knihy (bookcradle) • Maximální dpi v celé ploše • Rychlost skenování • Přenos souborů

  12. Zpracování obrazových souborů • Separace jednotlivých stránek dokumentu • Narovnání • Manuální • Poloautomatické • Ořez • Uvnitř stránky dokumentu • Vně stránky dokumentu • Zlepšení kvality • Potlačení pozadí (průtisků) • Odstranění šumu

  13. OCR • Optical Character Recognition • Antikva • Fraktura německá • Fraktura česká • Formáty • TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML • Příčiny nízké úspěšnosti rozpoznávání • Nízká kvalita předlohy • Chyby v nastavení skenovacích parametrů (např. nízké dpi) • Zastaralý typ písma • Starší podoba jazyka

  14. Struktura dokumentu • Jednostránkové soubory / dvoustránkové / vícestránkové • Jendosvazkové /vícesvazkové dokumenty • Seriály a nepravá periodika • Pravá periodika • Noviny

  15. Struktura dokumentu • Složité struktury, např. noviny • Titul • Ročník metadata • Výtisk • Strana • Reprezentace strany digitální objekt

  16. Struktura dokumentu • Struktura pro zpřístupnění archivaci: PSP, SIP • Popisná metadata – xml • Složka JP2 – Modified master (neztrátová komprese) • Složka JP2 – User copy (ztrátová komprese) • Složka METS ALTO

  17. Kontrola kvality • Kontrola kvality obrazových souborů • DPI, stupně šedé barvy, věrnost barevného podání podle obrazce, atd. • Kontrola úspěšnosti OCR • Na písmena (vícenásobné selhání u stejného písmene) • Na slova • Validace XML • Konsistence struktury dokumentu

  18. Nástroje pro digitalizaci • Skenery • Programové nástroje pro zpracování obrazu • OCR • Nástroje pro vytvoření struktury dokumentu • Nástroje pro tvorbu metadat (XML editor) • Kompletní work flow (DocWorks, Sirius, Goobi, atd.)

  19. Automatizace procesu digitalizace • Tvorba popisných metadat konverzí záznamu z elektronického katalogu • Generování administrativních a technických metadat v průběhu digitalizace nebo archivace • Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)

  20. Prezentace digitalizovaných dokumentů • Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): http://kramerius.nkp.cz/ • Vyhledávání dokumentů podle metadat a fulltextu • Jednotná informační brána • Federované katalogy • Europeana, TEL

  21. Evidence digitalizovaných dokumentů • Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitá pro: • Eliminaci duplicitních neekonomických činností • Zjišťování informací o digitalizovaných dokumentech • http://sluzby.incad.cz/esp/rdcz/

  22. Národní program Kramerius • VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentů ohroženýchz degradací kyselého papíru • Podporuje MK ČR – hradí 70% nákladů • Otevřený všem veřejným knihovnám registrovaným MK ČR • Výzva k podávání projektů listopad 2010, uzávěrka leden 2011 • Informace na webu NK ČR

  23. Projekt Národní digitální knihovna • Integrovaný operační program, Smart administration • Trvání 2010 – 2014 • Udržitelnost 2015 – 2019 • Celkem digitalizace 26 mil. stran • V rámci projektu budou vybudována dvě pracoviště digitalizace NK ČR a MZK • Využití robotických skenerů • Nové standardy a formáty (konverze a migrace dat)

  24. Děkuji za pozornost Jiri.Polisensky@nkp.cz

More Related