1 / 32

Problematika digitálních archivů

Problematika digitálních archivů. Miroslav Cink 26/02/2007. Agenda. Základní principy archivace, role IBM Struktura digitálního archivu Uchovávací metody pro dlouhodobou archivaci Vývoj DIAS na základě dlouhodobých potřeb klientů Implementované projekty Popis řešení DIAS

xanti
Download Presentation

Problematika digitálních archivů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Problematika digitálních archivů Miroslav Cink 26/02/2007

  2. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  3. Potřeby řešení dlouhodobé archivace • Dlouhodobá archivace – dlouhodobé uchování intelektuálního kapitálu a kulturního dědictví (100 let) • Podpora formátů – informace uložená ve starém formátu často není dostupná či podporovaná v novém formátu • Uchování různých typů dat – statických textových, obrazových, dynamických, elektronických • Objemy dat – stovky tisíc elektronických publikací, desítky milionů textových • Legislativa – normy a standardy zatím spíše komplikuje, daná Zákonem 499/2004 Sb. a Vyhláškou 646/2004 Sb.

  4. Základní principy elektronické archivace • Elektronická archivace není ani zálohování ani digitalizace • Hlavní důraz = autenticita a dlouhodobé uchování • V podstatě procesně odpovídá tradičnímu uchovávání, liší se jen způsob uložení • V systému jsou odděleny technická a archivní metadata (archivní metadata uložena v databázi u dokumentu) • Není třeba online přístup, zpřístupňují se elektronické kopie

  5. Role IBM v oblasti archivace dokumentů • IBM se oblasti dlouhodobé archivace věnuje systematicky od pol.90.let • IBM je dlouhodobě nejvýznamnějším inovátorem v oblasti IT  nové postupy a řešení pro oblast uchovávání dokumentů • Spolupodíleli jsme se na vytvoření referenčního modelu pro dlouhodobou archivaci OAIS • IBM přijala společně s Evropskou komisí standard pro fungování systémů el. spisové služby a modelových požadavků pro správu el. dokumentů - MoReq • vyvinuli jsme a uvolnili k volnému použití koncept UVC (Universal Virtual Computer) • Vyvinuli jsme unikátní nástroj na dlouhodobou archivaci dokumentů – DIAS • Vlastní SW pro oblast archivace dokumentů – IBM Content manager; FileNet • Máme za sebou zkušenosti z reálných projektů – knihovny a archivy

  6. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  7. Katalogizačnípracovník Vydavatel Zákazník Struktura digitálního archivu Formátování & Poskytnutí Původce dokumentu Digitální spisovna Fyzické úložištědokumentů Systémová manipulace(emulace, migrace, kontrola integrity atd.) Zpřístupnění Archivní zpracování

  8. Referenční Model OAIS „Open Archival Information System" – ISO 14721

  9. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  10. Způsob uchovávání elektronických dokumentů • Migrace • mění se objekt, přizpůsobuje se novému prostředí • výhoda - relativní jednoduchost • nevýhody – možnost ztráty informace, šíření chyb • Emulace • zachovává se původní objekt, prostředí se emuluje • výhoda – zachování funkčnosti, vhodné pro komplexní dokumenty • nevýhoda – komplexnost emulovaného prostředí • UVC (Universal Virtual Computer) • tato metoda spojuje výhody migrace a emulace a eliminuje jejich nevýhody • Navrženo IBM v roce 2000, ověřeno v projektu DIAS

  11. Metoda UVC – ukládání Dokument Typ dokumentu(obrázek, bitmapa, text…) Formát dokumentu(např. tiff, png, jpeg, gif) LDS(Logical Documentscheme) • Obecný popis, schéma • Dokumentu jednoho typu • Vytvoří se 1x při ukládání Popisformátu Definice UVC Dekodér formátu (program pro UVC, převádí dokument na jeho logickou podobu LDV) -vytvoří se 1x při ukládání

  12. Zákazník Metoda UVC – zpřístupnění Definice UVC Dokument Dekodér formátu (program pro UVC, převádí dokument na jeho logickou podobu LDV) -vytvoří se 1x při ukládání Prohlížečformátu LDV formát (např. XML) prohlíženo pomocí LDS

  13. Životní cyklus ED a procesy v digitálním archivu • Vstup dokumentu do digitálního archivu • Přijetí k archivaci, validace dokumentu, přiřazení identifikace • Způsob uchování, migrace na archivní formát • Generování technických metadat, získání a úprava popisných metadat • Publikace v katalogu, vložení do archivního systému, notifikace o vložení • Zpřístupnění dokumentu z digitálního archivu • Vyhledání dokumentu v katalogu • Žádost o dokument • Ověření přístupu a autorizace • Získání dokumentu z archivního systému • Migrace na zobrazovací formát, či zobrazení dokumentu přímo • Údržba dat • Zajištění uchovávání a případně manipulace s ED • Zánik dokumentu, skartace • Proces uchovávání nezměněné podoby, záloha dat

  14. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  15. Rostoucí zájem na řešení pro dlouhodobé uchování informací DIAS je vytvořen na základě řešení pro Národní knihovnu v Holandsku (KB) a sestává z :-jádro řešení DIAS-Core - specifické komponenty navržené pro Národní knihovnu (mohou být použity i ostatními klienty  customizace dle potřeb klienta) DIAS byl vytvořen IBM na základě modifikace OAIS vytvořené v Networked European Deposit Library (EU-Projekt 2000 – 2002) Vytvoření skupiny uživatelů DIAS  společné rozhodování na vývoji a prioritizaci budoucích požadavků, tvorba jediného standardu DIAS řešení Vytvoření DIAS řešenív roce 2004

  16. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  17. DIAS pro Národní knihovnu Holandsko (Koninklijke Bibliothek) Pilotní systém na archivaci - Návrh a dodávka DNEP – Pilot archivačního systému (Deposit systém of Netherlands Electronic publications) Archivační systém - Návrh a dodávka Implementace DIAS v1 Provoz a rozvoj systémuna 10 let Studie & Výzkumohledně strategie dlouhodobé archivace

  18. kopal projekt Co to je kopal projekt? • Projekt zastřešený Spolkovým ministrstvem pro vzdělání a výzkum (BMBF) • Trvání : 01/07/2004 – 30/06/2007 • Cíl : vývoj řešení a potřebné infrastruktury pro dlouhodobé uchovávání elektronických publikací • Produkt : DIAS-Core Partneři projektu: • Die Deutsche Bibliothek (DDB) - Frankfurt - project management • Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB) • Gesellchaft für wissenschafliche Datenverarbeitung (GWDG) • IBM Deutschland GmbH

  19. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  20. Formátování & Poskytnutí Poskytnutí & Získání ICIP Bibliografickýkatalog ICSR Bibliografickýpopis Hledání & Vyvolání Preservation Processor Preservation Toolbox Sběr & Sklizeň DIAS-Core (OAIS model) Plánování uchování Katalogizačnípracovník Vydavatel Zákazník Data Management Získání & Uložení Poskytnutí Ingest Přístup ISIP IDIP Archivní Storage Pre-process Post-process Administrace Security Autentizačníslužby Uživatelské skupiny & Uživatelská práva Autorizačníslužby DIAS : Architektura

  21. Preservation Planning Preservation Manager Data Management CM Library Server Logging Reporting AccessManager Ingest Access IDIP ISIP Loader Retriever Archival Storage CM Resource Manager TSM Storage Server Administration Monitoring and Control Komponenty řešení DIAS

  22. Client Layer Admin Client Retriever Client Midtier Layer Admin Access Manager Server Loader Retriever Server Layer Logger Access Manager Monitoring & Control Persistent Identifier Generator DB2 CM LS CM RM1..n TSM Physical Storage Layer Magnetic Disk Tape Optical Disk SAN DIAS-Core: Aplikační architektura

  23. DIAS-Core: Uložení a struktura metadat Administrativnímetadata amdSec File Section techMD fileSec Popisnámetadata mdWrap dmdSec LmerObject fileGrp mdWrap techMD file mdWrap FLocat dmdSec LmerFile mdWrap digiprovMD mdWrap structMap Fyzicky uloženésoubory LmerProcess div digiprovMD fptr mdWrap Structurálnímapa LmerProcess

  24. Používané standardy a HW / SW • DIAS řešení je vytvořeno na základě IBM Content manager for Mutiplatforms • Využívá open standardy – J2EE, HTTP, HTML, FTP a XML • Možné HW platformy – IBM AIX, Sun Solaris, Win2000, Linux • SW požadavky – IBM Content Manager for Multiplatforms, IBM Information Integrator, Business Objects, WebIntelligence

  25. Agenda • Základní principy archivace, role IBM • Struktura digitálního archivu • Uchovávací metody pro dlouhodobou archivaci • Vývoj DIAS na základě dlouhodobých potřeb klientů • Implementované projekty • Popis řešení DIAS • Typický scénář při implementaci

  26. Klíčové problémy při řešení systému dlouhodobé archivace • Typy vstupních souborů které budou zpracovávány • Jak systém rozčlenit na jednotlivé samostatné moduly? • Jak rozdělit objekty s digitálním obsahem na archivní soubory (AIP)? • Požadavky na přijímaná a získávaná data (SIP) • Požadavky na vlastní popis formátů SIP, AIP and DIP • Management obsahu bibliografických metadat • Management uchování technických metadat

  27. Komplexnost a datové typy Komplexnost • Webové stránky: • Dynamicky generované stránky • Proměnlivé externí odkazy • Komplikace – bezpečnost webu • Potřebuje prostředí web serveru • Aplikace / CDROM: • závislé na operačním systému a na perifériích • Potřebuje interakci s uživatelem • Potentciální závislost na sw – ovladače, knihovny atd. • Statická data • Závislá pouze na aplikaci prohlížeče • Migrace formátu uchová digitální obkekt • Samostatný digitální objekt Datové typy

  28. Pohled archivátora Pohled dodavatele Quality assurance Automatické získání dat Bezpečnost (identifikace, autentizace, autorizace) Cesta k získání dat (složitost) Obsah a kvalita metadat Bezpečnost (identifikace, autentizace, autorizace) Uchování médií Technická metadata Nástroje na migraci dat Nástroje na emulaci dat Pohled zákazníka Strategie při odlišných prioritách řešení • Rozpad na moduly • Rozčlenění AIP • SIP požadavky • Vlastní popis formátů • Obsah bibliografických metadat • Uchování technických metadat

  29. Typický postup při implementaci DIAS • Analýza požadavkůProjekt začíná analýzou požadavků, fit-gap analýzou a projekcí pokrytí požadavků řešením DIAS • Případný aplikační vývojNové kompomenty které mají být navrženy, vytvořeny a otestovány • Návrh a implementace infrastrukturyDefinice a implementace prostředí DIAS u klienta, dle požadovaného návrhu infrastruktury • Dodávka řešení • Akceptační testyOdsouhlasení klientem že systém běží dle požadavků a přání

  30. Důležité odkazy k IBM řešení dlouhodobé archivace : • DIAS řešení: http://www.ibm.com/nl/dias/ • IBM POC (demo) archivace: http://www.alphaworks.ibm.com/tech/uvc REFERENCE: • Královská knihovna Holandsko - DIAS: http://www.kb.nl/site/sitemap-en.html • Německá knihovna – projekt Kopal: http://kopal.langzeitarchivierung.de/

  31. Reference ohledně dlouhdodobé archivace • Raymond Lorie and Raymond J. van Diessen: Long-Term Preservation of Complex Processes in IS&T Archiving Conference, Washington, DC, April 26-29, 2005. • Hoeven, J.R. van der, Diessen, R.J. van en Meer, K. van der, Development of a Universal Virtual Computer (UVC) for long-term preservation of digital objects, Journal of Information Science, vol. 31(3), p. 196-208, 2005. • Raymond van Diessen and Raymond Lorie, UVC: A Universal Computer for Long-Term Preservation of Digital Information, RJ 10338, IBM Almaden Research Center, San Jose, CA, 2005 • Eric Oltmans, Raymond J. van Diessen, Hilde van Wijngaarden: Preservation Functionality in a Digital Archive in ACM/IEEE Joint Conference on Digital Libraries,Tucson, AZ, June 7-11, 2004 • Raymond J. van Diessen and Titia van der Werf - Davelaar: Authenticity in a Digital Environment, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-155-8 • Raymond J. van Diessen: Preservation Requirements in a Deposit System, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-156-6 • Raymond J. van Diessen and Ben J. van Rijnsoever: Managing Media Migration in a Deposit System, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-158-2 • Raymond J. van Diessen and Johan F. Steenbakkers: The Long-Term Preservation Study of the DNEP Project - an Overview of the Results, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-154-X

  32. Děkuji za pozornost Miroslav Cink miroslav_cink@cz.ibm.com

More Related