1 / 22

Nové nástroje pro archivaci webu

Nové nástroje pro archivaci webu. Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK. WebArchiv – kdo a proč?. potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě

nika
Download Presentation

Nové nástroje pro archivaci webu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK AKM'06 Praha NA

  2. WebArchiv – kdo a proč? • potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace • až 90% webových dokumentů existuje pouze v elektronické podobě • NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví • WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" • řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně AKM'06 Praha NA

  3. Cíle WebArchivu • zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet  • připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů  • zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo  • stanovit kritéria výběru zdrojů pro národní bibliografii  AKM'06 Praha NA

  4. Kritéria výběru webových zdrojů • množství online dokumentů je obrovské, kvalita různá nutno aplikovat kritéria výběru  uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting)zdrojů se aplikují dva přístupy: • výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií • plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. • tematické sklizně – např. volby, povodně apod. • trend – oba přístupy najednou (např. Austrálie, Dánsko) AKM'06 Praha NA

  5. Co máme za sebou • průběžné testování: • SW nástrojů s využitím HW pořízeného v rámci finančních možností • tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek • SW výhradně open source • snaha o změnu zákonů • mezinárodní spolupráce (aktivní účast na výzkumu a vývoji v rámci IIPC – členství od roku 2007) • zpřístupňování veřejné části archivu online pomocí fulltextového prohledávání od podzimu 2005 • zpřístupnění indexu celého archivu prostřednictvím aplikace Wayback AKM'06 Praha NA

  6. Registrované domény v .cz AKM'06 Praha NA

  7. Provedené sklizně domény .cz • 2001 1. pokus o plošnou sklizeň domény .cz, 1 stroj + páskový robot, nedokončena z tech. důvodů • 2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy ( tematická sklizeň Povodně) • 2004 zastavena po zaplnění dostupného úložného prostoru. >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů << • 2005 1. pokus o sklizení domény .cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu • září 2006 2.sklizeň domény .cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB AKM'06 Praha NA

  8. Sklizně domény .cz v číslech AKM'06 Praha NA

  9. Současný stav projektu • 4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány). • právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru. • příležitostné tematické sklizně (letos sklizeň volby) • čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén. • v současné době je ve WebArchivuuloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů. AKM'06 Praha NA

  10. Počet dokumentů sklizených za den AKM'06 Praha NA

  11. Počet souborů a objem dat AKM'06 Praha NA

  12. Změny softwarového vybavení • 2004-2005 postupný přechod na SW vyvíjený konsorciem IIPC (International Internet Preservation Consortium – www.netpreserve.org) • vývoj softwarového vybavení v rámci IIPC stále probíhá • archivní souborový formát tar.gz nahrazen ARC formátem (podporovaným nástroji IIPC)  bylo nutno převést již uložená data do nového formátu. • připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti. • podpora komprese dat a správy jejich integrity • schopnost ukládat jedinečné identifikátory záznamů • schopnost uložit metadata o datových transforamcích a o duplikovaném obsahu • podpora pro zpracování velmi rozsáhlých záznamů AKM'06 Praha NA

  13. Budoucnost projektu pokračování • maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění • legální lokální zpřístupnění celého archivu (vyhledávánípodle URL a času sklizně dokumentu) – počátkem roku 2007 • vylepšení indexace (inkrementální indexování, distribuovaný index?) • pokus o automatizované sklízení bohemikálních zdrojů mimo doménu .cz • podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů) • 2008 integrace do připravované „Digitální knihovny ČR” AKM'06 Praha NA

  14. Webarchiv – jak to funguje A1nová sklizeň A2konec sklízení -> indexovat A3aktualizovat fulltext A4aktualizovat seznam souborů AKM'06 Praha NA

  15. Akvizice - Heritrix • modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.1) • zkvalitňování systému • zvýšení bezpečnosti • platformě nezávislý (java aplikace) • kvalitní a rychlá podpora vývojářů z Internet Archive • open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji • v nejnovější verzi vylepšena ochrana před pádem do pastí • nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně AKM'06 Praha NA

  16. Akvizice - DeDuplicator • Modul pro Heritrix • Snaží se detekovat duplikáty ještě před jejich stažením • Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). • formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC AKM'06 Praha NA

  17. Akvizice – WEB CURATOR TOOL • nástroj pro správu sklízení • první verze uvolněna v září 2006 • vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. • umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní • výborná podpora uživatelských oprávnění • nepodporuje inkrementální sklízení • multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). • nekonzistentní konfigurace AKM'06 Praha NA

  18. Indexace – Nutch, NutchWAX Nutch • volně dostupný modulární vyhledávací engine • umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX • nástavba vyhledávacího rozhraníNutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko • Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) • tato verze je zatím nestabilní AKM'06 Praha NA

  19. WERA - WEb aRchive Access • spolupráce konsorcia IIPC, Internet Archive a NWA • využívá hlavní části NWA Toolset • velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) • výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL • zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy • archivované dokumenty a WERA propojeny skrz index NutchWAXe • Problémy s javascriptem v některých stránkách • Vývoj ukončen, přechod na Wayback AKM'06 Praha NA

  20. WAYBACK • Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu • Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci • Režimy zpřístupnění: • Archival URL = úprava odkazů na stránce (link zpět do archivu) • Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) • Timeline = časová osa, zatím experimentální • Připravuje se podpora fulltextového vyhledávání a lokalizace AKM'06 Praha NA

  21. Zkusíte to také?? • dejte nám tipy na zdroje • převezměte naše zkušenosti • začněte sklízet sami • minimální požadavky: slušné PC, přiměřené množství úložného prostoru, dobrý správce systému/programátor • realizovaná spolupráce: • Univerzitná knižnica Bratislava • v budoucnu maďarská NK? • po dohodě sklizeň na požádání AKM'06 Praha NA

  22. Děkujeme za pozornosta těšíme se na budoucí spolupráci!webarchiv@nkp.cz AKM'06 Praha NA

More Related