1 / 29

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης »

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης ». Web Archiving Μάθημα: Ηλεκτρονική Δημοσίευση Επιμέλεια: Γκουνή Άννα ΙΟΥΝΙΟΣ 2006 ΚΕΡΚΥΡΑ. ενότητες της εργασίας. Μέθοδοι αρχειοθέτησης του Ιστού Μελέτες αρχειοθέτησης Διατήρηση Αρχειοθέτηση του ελληνικού Web.

keefe
Download Presentation

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης »

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης » Web Archiving Μάθημα: Ηλεκτρονική Δημοσίευση Επιμέλεια: Γκουνή Άννα ΙΟΥΝΙΟΣ 2006 ΚΕΡΚΥΡΑ

  2. ενότητες της εργασίας • Μέθοδοι αρχειοθέτησης του Ιστού • Μελέτες αρχειοθέτησης • Διατήρηση • Αρχειοθέτηση του ελληνικού Web

  3. εισαγωγικά • Η εμφάνιση του web ως πηγή πληροφοριών έχει δημιουργήσει ιδιαίτερες προκλήσεις για την αρχειοθέτηση των ψηφιακών υλικών. Δημιουργούνται ερωτήματα, τα οποία αφορούν: • το συνεχώς αναπτυσσόμενο μέγεθος του Ιστού • τη δυναμική και εφήμερη φύση του περιεχομένου του • τον τρόπο με τον οποίο πραγματοποιείται η πρόσβαση, η αποθήκευση και η διατήρησή του μακροπρόθεσμα. Παρατηρούνται σημαντικές πρωτοβουλίες αρχειοθέτησης από εθνικές βιβλιοθήκες σε όλο τον κόσμο με σκοπό τη διατήρηση της κληρονομιάς του Ιστού της χώρας τους.

  4. Γιατί συλλέγουμε και διατηρούμε τον Ιστό? • Για τη διατήρηση της ενημερωτικής, πολιτιστικής και αποδεικτικής αξίας του WEB • Ο Ιστός έχει γίνει ζωτικής σημασίας μέσα την παγκόσμια επικοινωνία και ένα σημαντικό μέσο. Η "ρευστή" φύση του Ιστού, εντούτοις, σημαίνει ότι οι σελίδες ή οι ολόκληρες περιοχές αλλάζουν συχνά ή εξαφανίζονται.

  5. Μέθοδοι αρχειοθέτησης του Ιστού • Η προσέγγιση ολόκληρης περιοχής (whole domain): περιλαμβάνει συλλογή ιστότοπων και on-line πηγών χρησιμοποιώντας την τεχνική της αυτόματης συγκομιδής (automatic harvesting). Οι crawlers του Ιστού συλλέγουν οτιδήποτε υπάρχει στο Διαδίκτυο ακολουθώντας τις συνδέσεις και φορτώνουν το περιεχόμενό τους σύμφωνα με τους κανόνες της συλλογής. Με αυτόν τον τρόπο συλλέγονται όλοι οι ιστότοποι με βάση τα κριτήρια που έχει θέσει ο υπεύθυνος οργανισμός, ή, κάποιο σχετικό ερευνητικό έργο. Σε αυτό το μοντέλο στηρίζονται: • Kulturarw3 (Cultural Heritage Cubed)Σουηδία • EVA Project Φιλανδία • US Internet Archive

  6. Μέθοδοι αρχειοθέτησης του Ιστού • Επιλεκτική προσέγγιση (selective approach): στοχεύει στην αρχειοθέτηση καθορισμένου υλικού του Ιστού ή συγκεκριμένων τύπων πηγών με βάση ορισμένα κριτήρια. Η επιλογή μπορεί να βασιστεί στη σημασία ή την ποιότητα των πηγών, το θέμα τους ή το αντικείμενό τους, ή στη στοχοθέτηση ενός συνόλου σχετικών ιστότοπων. Σε αυτό το μοντέλο στηρίζεται: • (PANDORA archive- Australia).

  7. Μέθοδοι αρχειοθέτησης του Ιστού • Θεματική προσέγγιση (thematic approach): περιλαμβάνει συλλογή και συντήρηση του περιεχομένου του Ιστού σχετικά με ένα θέμα ή ένα γεγονός. • Το project MINERVA της βιβλιοθήκης του Κογκρέσου έχει χρησιμοποιήσει τη θεματική προσέγγιση για την επιλογή των ηλεκτρονικών δημοσιεύσεων για την αρχειοθέτηση σαν μέρος Election 2002 και Winter Olympic Projects.

  8. Μέθοδοι αρχειοθέτησης του Ιστού • Κατάθεση (deposit). Σε μερικές χώρες οι εκδότες καταθέτουν το on line υλικό βασισμένο σε νομικούς ή εθελοντικούς κώδικες κατάθεσης. • Ένα επιτυχημένο εθελοντικό σχέδιο για περιοδικά σε ηλεκτρονική μορφή εφαρμόζεται στην Ολλανδία μέσω συμφωνιών με τους εκδότες, ενώ στη Σουηδία η κατάθεση των στατικών και δυναμικών πηγών είναι μια νομοθετική απαίτηση.

  9. Μέθοδοι αρχειοθέτησης του Ιστού • Συνδυαστική προσέγγιση (combined approach). • Ένας αυξανόμενος αριθμός προγραμμάτων αρχειοθέτησης Ιστού καταλήγει στο συμπέρασμα ότι κανένα πρότυπο αρχειοθέτησης δεν είναι ικανοποιητικό εξ ολοκλήρου για διατήρηση της on line εθνικής κληρονομιάς. • Χώρες όπως η Γαλλία και η Δανία έχουν διαπιστώσει ότι με την υιοθέτηση ενός συνδυασμού ολόκληρων, επιλεκτικών και θεματικών μεθόδων συλλογής, επιτυγχάνεται η βέλτιστη κάλυψη του υλικού.

  10. ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ • PANDORA (Αυστραλία) - 1996 • National Library of Australia • αρχείο επιλεγμένων on line δημοσιεύσεων της Αυστραλίας που θεωρούνται εθνικής σημασίας και μακροπρόθεσμης ερευνητικής αξίας. • Το σύστημα λειτουργεί πάνω στο πρότυπο της επιλογής, της συλλογής και της αποθήκευσης των πόρων Ιστού από την περιοχή της Αυστραλίας • PANDAS (PANDORA Digital Archiving System) • με σκοπό να βοηθήσει στην αυτόματη συλλογή, περιγραφή και παροχή πρόσβασης στο αρχείο

  11. ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ • project Minerva (Mapping the Internet the Electronic Resources Virtual Archive) - Ηνωμένες Πολιτείες - 2000 • Βιβλιοθήκη του Κογκρέσου • αρχειοθέτηση 35 επιλεγμένων sites • Minerva έχει αναπτυχθεί σε ένα τρέχον θεματικό ψηφιακό πρόγραμμα αρχειοθέτησης, το οποίο εστιάζει στη συγκομιδή βασιζόμενο στο θέμα δημόσιου περιεχομένου του Ιστού • Περισσότερα από 35.000 sites έχουν αρχειοθετηθεί από το 2000

  12. ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ • Bibliotheque Nationale de France (BnF) – (Γαλλία) - 2000 • συνδυασμένης μεθοδολογίας • Συνεχές crawl • Κατάθεση των deep ιστοτόπων, που δεν μπορούν να συγκομιστούν on-line. • Θεματική συλλογή βασισμένη στα γεγονότα • εργαλείο εξαγωγής (DeepArc) αναπτύχθηκε για να επιτρέψει την απλή εξαγωγή της βάσης δεδομένων σε XML από τους παραγωγούς

  13. ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ • Electronic Publications Pilot Project (EPPP) - Εθνική Βιβλιοθήκη του Καναδά - 1994 • Σκοπός: να εξεταστεί το ζήτημα της κατάθεσης των on line ηλεκτρονικών δημοσιεύσεων • EVA Project (Φιλανδία) - 1997 • συλλέγει, καταχωρεί και αποθηκεύει τις δημοσιεύσεις του Διαδικτύου και εξασφαλίζει τη μακροπρόθεσμη διατήρησή τους • βασισμένο στην προσέγγιση ολόκληρων περιοχών στη συλλογή.

  14. ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ • Kulturarw3 (Σουηδία) – 1997 • έχει ερευνήσει τις μεθόδους για τη συλλογή, τη συντήρηση και τη διάταξη πρόσβασης στα σουηδικά σε on line έγγραφα. • συμμετέχει στην περιεκτική συλλογή των στατικών και δυναμικών πόρων Διαδικτύου από το σουηδικό Ιστό. • η Σουηδία ήταν η πρώτη χώρα, η οποία στήριξε την έρευνά της στην τεχνολογία των μηχανών συγκομιδής για την αρχειοθέτηση του περιεχομένου του Ιστού.

  15. ΠΡΩΤΟΒΟΥΛΙΕΣ ΣΥΝΕΡΓΑΣΙΩΝ • International Internet Preservation Consortium • Internet Archive • NEDLIB • Nordic Web Archive • UK Web Archiving Consortium

  16. ΔΙΑΤΗΡΗΣΗ • ψηφιακή διατήρηση: είναι η διατήρηση του ψηφιακού υλικού για μακροπρόθεσμη χρήση με σκοπό την εξασφάλιση της συνεχούς δυνατότητας πρόσβασης σε αυτό. Ως ψηφιακό υλικό ορίζεται οποιοδήποτε «υλικό που υποβάλλεται σε επεξεργασία από έναν υπολογιστή και περιλαμβάνει τόσο αυτό που έχει ψηφιοποιηθεί, καθώς επίσης και εκείνο το οποίο έχει δημιουργηθεί αποκλειστικά ψηφιακά.

  17. ΣΤΟΧΟΙ ΤΗΣ ΔΙΑΤΗΡΗΣΗΣ • διατήρηση των bits. • διατήρηση του περιεχομένου • διατήρηση της εμπειρίας • Η πολυπλοκότητα και το κόστος της διατήρησης αυξάνονται αισθητά σε αυτούς τους τρεις στόχους

  18. ΣΤΡΑΤΗΓΙΚΕΣ ΨΗΦΙΑΚΗΣ ΔΙΑΤΗΡΗΣΗΣ • Μέθοδοιπου μπορούμε να χρησιμοποιήσουμε με σκοπό την αποφυγή ορισμένων προβλημάτων που επισύρει η ψηφιοποίηση των πληροφοριακών αντικειμένων, και την διατήρησή τους μακροπρόθεσμα. • Αναζωογόνηση (refreshing) • Μετανάστευση (migration) • Προσομοίωση (emulation) • Διατήρηση της τεχνολογίας (technology preservation)

  19. ΑΡΧΕΙΟΘΕΤΗΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ WEB 1/3 • Έλληνες ερευνητές αποφάσισαν να δημιουργήσουν ένα αρχείο του Ελληνικού Ιστού Χωρίζεται σε δύο μέρη: • Το πρώτο αφορά στη δημιουργία ενός αρχείου που να περιέχει όσο το δυνατόν περισσότερες ιστοσελίδες γίνεται • Το δεύτερο μέρος εστιάζεται στην εξαγωγή γνώσης απ’ αυτή τη συλλογή ιστοσελίδων.

  20. ΑΡΧΕΙΟΘΕΤΗΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ WEB 2/3 • Έχει υπολογισθεί ότι υπάρχουν περίπου 60.000 ιστοσελίδες στο domain.gr • Εξαιτίας του μεγάλου μεγέθους είναι απαραίτητη η κατηγοριοποίησή τους • Τα κριτήρια που χρησιμοποιούνται για τον χαρακτηρισμό του Ιστού ως Ελληνικό δεν είναι απόλυτα • Κύριο μέλημα είναι η αρχειοθέτηση οποιασδήποτε ελληνικής ιστοσελίδας και όχι μόνο εκείνων που είναι στην ελληνική γλώσσα ή στο .gr domain

  21. ΑΡΧΕΙΟΘΕΤΗΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ WEB 3/3 • Τα κύρια κριτήρια που χρησιμοποιούνται είναι: • domain name • ελληνική γλώσσα • ελληνικό περιεχόμενο

  22. Μεθοδολογία 1/2

  23. Μεθοδολογία 2/2 • O web crawler ψάχνει στον Ιστό χρησιμοποιώντας τα κριτήρια προκειμένου να συγκεντρώσει όσες περισσότερες ελληνικές ιστοσελίδες μπορεί • Τα συλλεγόμενα URI αποθηκεύονται σε μία βάση δεδομένων • Στο περιεχόμενο κάθε ιστοσελίδας στο αρχείο εφαρμόζεται ένας συνδυασμός μεθόδων εξαγωγής λέξεων κλειδιών. • Αυτές οι λέξεις κλειδιά αποθηκεύονται επίσης στο αρχείο

  24. Δημιουργία συστάδων (clustering) • Τα αποτελέσματα των διαδικασιών χρησιμοποιούνται, προκειμένου να κατηγοριοποιηθεί ο Ελληνικός Ιστός σε σημασιολογικά συναφείς συστάδες ή αλλιώς συστοιχίες (clusters). • Κάθε ιστοσελίδα που περιλαμβάνεται στο αρχείο χαρακτηρίζεται από ένα σύνολο αγγλικών λέξεων – κλειδιών, οι οποίες περιγράφουν το περιεχόμενό της. • Αυτή η γνώση χρησιμοποιείται για την ταξινόμηση αυτού του περιεχομένου σε σημασιολογικά συναφείς συστάδες. • «κατάτμηση» του Ελληνικού Ιστού

  25. Επίλογος… • Οι ιστότοποι εξαφανίζονται και υπάρχει σοβαρός κίνδυνος ότι οι ανεκτίμητοιπολιτιστικοί και επιστημονικοί πόροι δεν θα είναι διαθέσιμοι στις μελλοντικές γενεές. • Η συλλογή και η διατήρηση των ιστοτόπων είναι ενδιαφέροντες τομείς της έρευνας και της ανάπτυξης, που έχουν αρχίσει τώρα να κινούνται σε μια πιο πρακτική φάση εφαρμογής • Πρέπει να υπάρξει μια συνεχής προσπάθεια για την διατήρηση των ιστοτόπων • Υπάρχει η ανάγκη για τους ιδιοκτήτες των ιστοτόπων και τους οργανισμούς που χρηματοδοτούν την ανάπτυξη των ιστοτόπων να εξασφαλίσουν ότι δίνεται η απαραίτητη προσοχή για τη μακροπρόθεσμη διαθεσιμότητα των ιστοτόπων.

  26. Βιβλιογραφία 1/3 • BnF, 2006, “Bibliothèque nationale de France”, Διαθέσιμοστοhttp://www.bnf.fr/default.htm • Coalition for Networking Information, 2006, “Archiving and Preserving the Web:Future Directions and Applications”, Διαθέσιμοστοfile:///G:/WEB%20ARCHIVING%2011111/web%20archiving/Project%20Briefing-Spring%202006%20Task%20Force%20Meeting.htm • Digital preservation strategies, “Digital preservation strategies”, Διαθέσιμοστοhttp://www.nla.gov.au/padi/topics/18.html • Domain UK : Britain on the Web, 2002, “Domain UK : Britain on the Web”, British Library, Διαθέσιμοστοhttp://bibnum.bnf.fr/ecdl/2002/uk/uk.html • EVA, 1995, “EVA”, Helsinki University Library, Διαθέσιμοστοhttp://www.lib.helsinki.fi/eva/english.html • Electronic Publications Pilot Project (EPPP), “Electronic Publications Pilot Project”, Διαθέσιμοστοhttp://www.collectionscanada.ca/9/4/p4-201-e.html

  27. Βιβλιογραφία 2/3 • Internet Archive, 2001, “Internet Archive”. Διαθέσιμοστοwww.archive.org • Kulturarw3, 2005, “Kulturarw3”, Royal Library. Διαθέσιμοστοhttp://www.kb.se/kw3/ENG/ • Lampos, Charalampos, 2004, “Archiving the Greek Web”, Διαθέσιμοστοhttp://www.iwaw.net/04/proceedings/Lampos.pdf • MINERVA, 2005, “Mapping the Internet Electronic Resources Virtual Archive”, Library of Congress. Διαθέσιμο στο http://lcweb2.loc.gov/cocoon/minerva/html/minerva-home.html • NEDLIB: Networked European Deposit Library, 2006, “NEDLIB : Networked European Deposit Library”, Διαθέσιμοστοhttp://www.kb.nl/coop/nedlib/ • Netarchive.dk : ECDL Workshop, October 19th 2002, Διαθέσιμοστοhttp://bibnum.bnf.fr/ecdl/2002/Kb/Kb.html

  28. Βιβλιογραφία 3/3 • NWA: Nordic Web Archive, 2005, “NWA: Nordic Web Archive”, Διαθέσιμοστοhttp://nwa.nb.no • Pandora Australia’s Web Archive, 2005, “PANDORA”. Διαθέσιμοστοhttp://pandora.nla.gov.au/index.html • Preserving Access to Digital Information, “PADI”. Διαθέσιμο στο http://www.nla.gov.au/padi/topics/92.html • UK Web Archiving Consortium, “UK Web Archiving Consortium”. Διαθέσιμο στο http://www.webarchive.org.uk • Wayback Machine, 2001, “Internet Archive”. Διαθέσιμο στο http://www.archive.org/web/web.php • Warp, 2005 “Warp”, Διαθέσιμο στο http://warp.ndl.go.jp/ • Web Archiving Bibliography. 2004, “Web Archiving Bibliography”Διαθέσιμοστοhttp://www.ifs.tuwien.ac.at/~aola/links/WebArchiving.html

  29. Σας ευχαριστώ πολύκαικαλό καλοκαίρι

More Related