1 / 17

Možnosti využití programového vybavení WebArchivu dalšími subjekty

Možnosti využití programového vybavení WebArchivu dalšími subjekty. Ing. Petr Žabička, MZK. Registrované domény v .cz. Počet dokumentů sklizených za den. Po čet souborů a objem dat. Fakta. Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů Objem sklizených dat je 5 465 GB

raquel
Download Presentation

Možnosti využití programového vybavení WebArchivu dalšími subjekty

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK SDRUK-IT 14.2.2007

  2. Registrované domény v .cz SDRUK-IT 14.2.2007

  3. Počet dokumentů sklizených za den SDRUK-IT 14.2.2007

  4. Počet souborů a objem dat SDRUK-IT 14.2.2007

  5. Fakta • Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů • Objem sklizených dat je 5 465 GB • První dokument byl archivován 3.9.2001 SDRUK-IT 14.2.2007

  6. Webarchiv – jak to funguje A1nová sklizeň A2konec sklízení -> indexovat A3aktualizovat fulltext A4aktualizovat seznam souborů SDRUK-IT 14.2.2007

  7. Akvizice - Heritrix • modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.2) • zkvalitňování systému • zvýšení bezpečnosti • platformě nezávislý (java aplikace) • kvalitní a rychlá podpora vývojářů z Internet Archive • open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji • v nejnovější verzi vylepšena ochrana před pádem do pastí • nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně • HDFS Writer Processor – zápis do Hadoop filesystému SDRUK-IT 14.2.2007

  8. Akvizice - DeDuplicator • Modul pro Heritrix • Snaží se detekovat duplikáty ještě před jejich stažením • Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). • formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC SDRUK-IT 14.2.2007

  9. Akvizice – WEB CURATOR TOOL • nástroj pro správu sklízení • první verze uvolněna v září 2006 • vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. • umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní • výborná podpora uživatelských oprávnění • nepodporuje inkrementální sklízení • multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). • nekonzistentní konfigurace, částečně odlišný workflow SDRUK-IT 14.2.2007

  10. SDRUK-IT 14.2.2007

  11. Akvizice – deep web - DeepArc SDRUK-IT 14.2.2007

  12. Indexace – Nutch, NutchWAX Nutch • volně dostupný modulární vyhledávací engine, podpora A9 search • umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX • nástavba vyhledávacího rozhraníNutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko • Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) SDRUK-IT 14.2.2007

  13. WERA - WEb aRchive Access • spolupráce konsorcia IIPC, Internet Archive a NWA • využívá hlavní části NWA Toolset • velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) • výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL • zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy • archivované dokumenty a WERA propojeny skrz index NutchWAXe • Problémy s javascriptem v některých stránkách • Vývoj ukončen, přechod na Wayback SDRUK-IT 14.2.2007

  14. WAYBACK • Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu • Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci • Režimy zpřístupnění: • Archival URL = úprava odkazů na stránce (link zpět do archivu) • Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) • Timeline = časová osa, zatím experimentální • Připravuje se podpora fulltextového vyhledávání a lokalizace SDRUK-IT 14.2.2007

  15. WAXToolbar • Plugin pro firefox (do verze 1.9) • Spolupracuje s Wayback v proxy režimu SDRUK-IT 14.2.2007

  16. XInq • XML INQuiry • Search and browse tool for accessing an XML database SDRUK-IT 14.2.2007

  17. Děkuji za pozornost!webarchiv@nkp.cz SDRUK-IT 14.2.2007

More Related