330 likes | 419 Views
Digitální zpřístupnění knihovních sbírek. Adolf Knoll Národní knihovna České republiky adolf.knoll@nkp.cz. Digitalizační aktivity. 1992/1993 – První pilotní projekt programu UNESCO Paměť světa 1995 – další pilotní projekty 1996 – počátek rutinní digitalizace 2000 – národní programy
E N D
Digitální zpřístupnění knihovních sbírek Adolf Knoll Národní knihovna České republiky adolf.knoll@nkp.cz
Digitalizační aktivity • 1992/1993 – První pilotní projekt programu UNESCO Paměť světa • 1995 – další pilotní projekty • 1996 – počátek rutinní digitalizace • 2000 – národní programy • 2003/2004 – spuštění digitálních knihoven • -> 2010 – vytvoření virtuálního badatelského prostředí pro historické dokumenty a sbírky
Složený digitální dokument: Datová část Metadatová část Jak strukturovat? Komplexní dokumentový formát Standardizace
Značkovací jazyky • Platforma SGML je pro takový formát ideální • Naše programy: • Vlastní SGML implementace (DOBM) – 1996 – v r. 1999 jako doporučení UNESCO • XML platforma od r. 2003/2004 • Namapování standardů pro popis obsahu, doporučených postupů a dalších řešení
Metadata – co popsat • Identifikace • Obsah • Struktura • Technické parametry • Komunikace • Jak: naše konkrétní řešení jsou promítnuta do těchto strukturálních součástí ZPŘÍSTUPNĚNÍ PROSTŘEDNICTVÍM DEFINOVANÉ KOMPATIBILITY
Identifikační metadata • Katalogizační a další identifikační pravidla • MARC, Dublin Core, MASTER, …, v knihovnách • EAD v archivech • AMICO, CIDOC, REACH Element Set, …, v muzeích • … in … • ROLE: identifikovat virtuální reprezentaci originálu (ve vztahu k originálu)
Metadata pro popis obsahu • Žádná pevná pravidla nejsou k dispozici – nebo jen částečně – většinou ověřené praktické postupy • Musíme je vzít a formálně zabudovat do struktury dokumentu • Většinou základní povinná úroveň je velmi jednoduchá, ale musí vyhovět nejčastějším uživatelským potřebám
Strukturální metadata • Musí být namapována struktura celého dokumentu (se všemi nejčastějšími zvláštnostmi): • Fyzické části • Logické části, které chceme specifickým způsobem pojednat (články, kapitoly, vztažené objekty, …) • Zde je často nesnadné stanovit povinné elementy
Technická metadata Existence vysoce profesionálních standardů vs. Naše pragmatické a skutečné potřeby • Rigorózní standardy je třeba aplikovat tam, kde mohou dobře sloužit cílům projektu, ale tam, kde by byly jen cílem pro sebe sama, bychom měli mít odvahu se rozhodnout jinak • ROLE: vyřešit současné a budoucí zobrazení, přehrání nebo tisk správně a na nezbytné kvalitativní úrovni
Komunikační metadata • Zajišťují integraci do širšího virtuálního prostředí • Komunikace mezi aplikacemi digitální knihovny a vyhledávacími portály • Standardizované protokoly: Z39.50, OAI-PMH, … • Je třeba si odsouhlasit profily, tj. minimální identifikační záznamy
PORTÁLY TEL (http://theeuropeanlibrary.org) JIB (http://www.jib.cz) CERL-MSS (https://diva.ub.uu.se/test/cerl/index.xml) KATALOGY (Souborný katalog ČR bude mít funkci souborného katalogu digitálního obsahu) Digital Library Applications Manuscriptorium Kramerius
Metadata: jak popsat • Cílem je strukturovaný formát definovaný formálně jako DTD nebo W3C Schéma • Mnoho z výše uvedených skutečností závisí na našem výběru/rozhodnutí • Naše formáty pro digitalizované dokumenty: rukopisy, periodika, monografie, zvukové dokumenty, sbírkové předměty, komunikační profily, historický fultext
Budoucí vývoj • XML platforma se zdá zatím dostatečně robustní • Nové přístupy a dílčí platformy se budou objevovat – například METS (strukturovaná kontejnerizace) • Jestliže jsou naše analýzy správné, budou starší a novější základně mezi sebou kompatibilní • Změny stojí peníze: nástroje na výrobu digitálních dokumentů, na jejich zpřístupnění, na…
Data: co ukázat • Datové soubory jsou cílem uživatelského zájmu (obrazy, fulltext, audio nebo video soubory) • Originál je jimi přímo reprezentován • Kvalita dat: • Archivní soubory • Uživatelské soubory • Obě úrovně jsou primárně definovány cíli našich projektů
Funkce ochrany a záchrany originálů Většinou ISO nebo velmi rozšířené standardy: TIFF, JPEG WAV MPEG Nekomprimované Komprimované bezeztrátově ztrátově Archivní soubory
Uživatelské soubory • Redukce objemu dat: • Snížení rozlišení nebo toku dat (bit rate) • Komprese • Pouze obrazy (+ je třeba zvážit i snížení počtu barev): • Mixed Raster Content • Multiresolutional image • Obrazové servery
Použití pouze známých formátů Definovat cíle a smysl dodávání dat Dodávat jen takové rozlišení, které je mírně vyšší než požadovaný limit (náhled, základní kvality, normální kvalita, …) Většinou oblast JPEG nebo TIFF/GIF (černobílý obraz); MP3 nebo WMA; WMV nebo MPEG4 na Internetu Snížení rozlišení/toku dat
Ztrátová komprese • Tradiční schémata: • DCT JPEG • MPEG1, MPEG2 • Nová schémata: • JBIG pro černobílý obraz (zatím nerozšířeno) • Wavelet schémata (JPEG 2000 a další formáty) • MPEG4
Multiresolutional image ALL in ONE FILE
Obrazové servery Dynamické generování požadovaných částí obrazu resp. kvalitových hladin
ManuscriptoriumSkutečnost Manuscriptorium • souborný katalog vč. některých zahraničních institucí • ca. 1700 dokumentů, tj. cca 800 000 stran vč. několika zahraničních • obrazový Express Server na mapy • Komunikace Z39.50 (MARC21), OAI-PMH (DC, MARC21, OpenM, MODS)
ManuscriptoriumZáměry • TEI strukturované texty (pilot nyní) • CERL-MSS https://diva.ub.uu.se/test/cerl/index.xml • TEL • Audio data • Mezinárodní rozšíření – nástroje pro jeho podporu, výzva dalším institucím, mezinárodní workshop před Inforem • Účast v mezinárodních projektech
KrameriusSoučasnost • 1,5 milionu stran (dalších 0,5 milionu připraveno) • 2 velké aplikace (NK, Akademie věd) • Zabudováno v komerčních nástrojích firmy Elsys Engineering • Wavelet a Mixed Raster Content technologie
KrameriusSoučasnost • Zlepšení komunikace OAI-PMH (DC qualified) • Dokončení provázanosti na Souborný katalog ČR (vzájemná propojenost) • Další dokumenty: t.č. implementace DTD pro sbírkové předměty, návrh pro zvukové dokumenty
Digitální knihovny a zdroje • http://www.manuscriptorium.com • http://kramerius.nkp.cz • Zdroje: • http://digit.nkp.cz (naše DTD)