1 / 50

ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας". ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης. Εργασία: Open Archives Initiative (OAI)

minya
Download Presentation

ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Διδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας "Διοίκηση & Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας" ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΔιδάσκοντες: Μ. Γεργατσούλης – Σ. Καπιδάκης Εργασία: Open Archives Initiative (OAI) OAI-PMH (Protocol for Metadata Harvesting) Βασίλειος Σουλικιάς Εαρινό εξάμηνο: Ιούνιος 2004

  2. ΠΕΡΙΕΧΟΜΕΝΑ • Ιστορικό OAI, OAI-PMH • Κύριες ιδέες και τεχνικές λεπτομέρειες του OAI-PMH • Θέματα Υλοποίησης μίας εφαρμογής OAI-PMH • Συμπεράσματα

  3. ΙΣΤΟΡΙΚΟ (1/4) • Προηγούμενη Δημιουργία E-print αρχείων από επιστημονικές κοινότητες • XXX (arXiv), CogPrints, NCSTRL, RePEc, NDLTD…… • Web interfaces για τους χρήστες • Διαφορετικά interfaces γιαδιαφορετικά αρχεία • Οι χρήστες έπρεπε να μάθουν διάφορα interfaces • Μερική ή καθόλου αυτόματη-μηχανική ανταλλαγή μεταδεδομένων

  4. ΙΣΤΟΡΙΚΟ (2/4) • Santa Fe Meeting “…η συνδυασμένη επιρροή αυτών και των μελλοντικών ανάλογων πρωτοβουλιών μπορεί να είναι ουσιαστικά υψηλότερη όταν η διαλειτουργικότητα μεταξύ των e-print αρχείων μπορεί να επιτευχθεί …” [Ginsparg, Luce, Van de Sompel, UPS Call, July 1999]

  5. ΙΣΤΟΡΙΚΟ (3/4) Τα δύο κύρια προβλήματα: • Οι χρήστες έρχονται αντιμέτωποι με πολλαπλά interfaces πράγμα που δυσκολεύει την αναζήτηση των πόρων. • Η μη ύπαρξη μηχανικού τρόπου ανταλλαγής μεταδεδομένων

  6. ΙΣΤΟΡΙΚΟ (4/4) Ταυτόχρονη αναζήτηση σε πολλαπλά αποθετήρια (Cross Search); • Η εμπειρία λέει ότι cross search δεν έχει καλή απόδοση σε πάνω από 100 αποθετήρια. • Διάφορα προβλήματα σχετικά με την επιλογή των στόχων αποθετηρίων, δυσκολίες ενοποίησης δεδομένων από διαφορετικά συστήματα, η απόδοση εξαρτάται από τα συστήματα χαμηλής απόδοσης, δυσκολία δημιουργίας browse interface. • ΛΥΣΗ:Συγκέντρωση των Μεταδεδομένων σε ένα μέρος

  7. Η ΙΔΕΑ ΤΟΥ HARVESTING • ΣΥΓΚΟΜΙΔΗ των μεταδεδομένων σε ένα μέρος • UPS- Universal Preprint Service • Έχουμε μια γλώσσα ερωτήσεων, κοινά γνωρίσματα αναζήτησης(attributes) και ranking αλγόριθμους. Δημιουργία Browse interface • Η UPS μετεξελίσσεται σε OAI

  8. Διαθέτες δεδομένων και Υπηρεσιών • Διαθέτης Δεδομένων (Data Provider) • Ο δημιουργός και αυτός που διατηρεί τα μεταδεδομένα και τα αποθετήρια των πηγών(resources) • Διαθέτης Υπηρεσιών (Service Provider) • Συγκομίζουν μεταδεδομένα με σκοπό την παροχή υπηρεσιών όπως μια διεπιφάνεια αναζήτησης. • Μια υπηρεσία μπορεί να παίξει και τους δύο ρόλους

  9. Η ΑΠΑΡΧΗ ΕΝΌΣ ΠΡΩΤΥΠΟΥ Για την διευκόλυνση της συγκομιδής απαιτείται κοινή συμφωνία στα: • Στο πρωτόκολλο μεταφοράς των δεδομένων(HTTP,FTP….) • Στο format των μεταδεδομένων(DC,MARC….) • Στην εξασφάλιση της ποιότητας των μεταδεδομένων(σύνολο των υποχρεωτικών πεδίων, θεματική απόδοση, ονοματοδωσία…) • Πνευματική υπευθυνότητα – Δικαιώματα χρήσης Η κοινή απόφαση για τα παραπάνω οδήγησε στην συμφωνία της Santa Fe

  10. Η συμφωνία της Santa Fe Είναι η πρώτη ενσάρκωση του ΟΑΙ Στηρίχτηκε πάνω: • Στο πρωτότυπο της UPS • Repec/SODA –Service/Data provider Model • Πρωτόκολλο Dienst • Εργασία της ομάδας Santa Fe Στόχος η βελτίωση της αναζήτησης των e-prints

  11. OAI – PMH ver. 1.0 Εισάγει το σύνολο στοιχείων DC. Στηρίχτηκε στα: • Συμφωνία της Santa Fe • Στις συναντήσεις Digital Library Federation • Σε εργασίες που έλαβαν χώρα στο Cornel • Απαντήσεις από Alpha-testers Εστιάζει στην βελτίωση της αναζήτησης των«document-like objects»

  12. Κύρια χαρακτηριστικά του OAI-PMH 1.0 • Προσδιόριζε ένα Χαμηλό επίπεδο διαλειτουργικότητας • Μοντέλο συγκομιδής • “document-like objects” • HTTP • GET / POST αιτήσεις • XML απαντήσεις • unqualified Dublin Core • Αποτελεί ερευνητικό πλαίσιο OAI-PMH 1.1 XML schema

  13. OAI-PMH ver. 2.0 • Σημαντική αναθεώρηση – όχι συμβατή με τις 1.x • Στηρίχτηκε πάνω: • OAI-PMH 1.x • Απαντήσεις των συμμετεχόντων στην OAI Implementers List • διαβουλεύσεις της OAI tech • Απαντήσεις των alpha-testers • Στόχος η επαναλαμβανόμενη ανταλλαγή μεταδεδομένων των πηγών μεταξύ των συστημάτων

  14. Χαρακτηριστικά του OAI-PMH 2.0 • Προσδιορίζει επίσης ένα Χαμηλό επίπεδο διαλειτουργικότητας • Μοντέλο συγκομιδής • “μεταδεδομένα για τις πηγές (resources)” • HTTP • GET / POST αιτήσεις • XML απαντήσεις • unqualified Dublin Core Σταθερό- Η OAI δεσμεύτηκε ότι οι επόμενες αναθεωρήσεις θα είναι συμβατές με τις προηγούμενες

  15. Από το OAI-PMH 1.x στο 2.0 The Open Archives Initiative Protocol for Metadata HarvestingChanges from OAI-PMH 1.1 to OAI-PMH 2.0 Protocol Version 2.0 of 2002-06-14Document Version 2002/06/09T16:43:00Zhttp://www.openarchives.org/OAI/migration.htm

  16. Πλεονεκτήματα του OAI • Απλό • Φιλική λειτουργία με τo web • Ο έλεγχος πρόσβασης, η συμπίεση οι κωδικοί λαθών κλπ., στηρίζονται στο HTTP • διάφορα toolkits (μπορούν να κρύβουν το πρωτόκολλο) • Πολλαπλοί διαθέτες υπηρεσιών μπορούν να κάνουν συγκομιδή από πολλούς διαθέτες δεδομένων εξασφαλίζοντας ευρεία εξάπλωση των μεταδεδομένων • Αποτελεί ένα βασικό επίπεδο όπου μπορούν να χτιστούν άλλες υπηρεσίες • Λειτουργεί συμπληρωματικάμε άλλα πρωτόκολλα όπως το Z39.50

  17. ΚΥΡΙΕΣ ΙΔΕΕΣ ΤΟΥ OAI-PMH • Ευρεία ενοποίηση των ακαδημαϊκών αποθετηρίων/αρχείων • Ελεύθερη πρόσβαση τουλάχιστον σε επίπεδο μεταδεδομένων • Συμμορφούμενα interfaces για αρχεία και υπηρεσίες • Πρωτόκολλο εύκολα υλοποιήσιμο καθώς στηρίζεται σε (HTTP, XML, DC)

  18. ΔΙΑΓΡΑΜΜΑ ΒΑΣΙΚΗΣ ΛΕΙΤΟΥΡΓΙΑΣ

  19. ΓΕΝΙΚΕΣ ΠΕΡΙΓΡΑΜΜΑ • Δύο κατηγορίες συμμετεχόντων • Διαθέτες δεδομένων (Open Archives, Repositories) • Ελεύθερη πρόσβαση σε μεταδεδομένα • Όχι υποχρεωτικά πρόσβαση στο περιεχόμενο • Διαθέτες Υπηρεσιών • Xρήση OAI interfaces των διαθετών δεδομένων • Συγκομίζουν και διατηρούν μεταδεδομένα (no live requests!) • Μπορούν να επιλέγουν συγκεκριμένα υποσύνολα από τους διαθέτες δεδομένων • Μπορούν να εμπλουτίζουν τα μεταδεδομένα • Προσφέρουν υπηρεσίες προστιθέμενης αξίας στο επίπεδο των μεταδεδομένων

  20. ΔΙΑΓΡΑΜΜΑ ΔΟΜΗΣ

  21. Συνοπτική εικόνα του OAI-PMH • Πρωτόκολλο που στηρίζεται σε HTTP • Οι αιτήσεις διατυπώνονται ως παράμετροι GET or POST • Έξι (6) τύποι αιτήσεων (requests) • Πχ. http://archive.org?verb=ListRecords&from=2002-11-01 • Οι απαντήσεις είναι κωδικοποιημένες σε XML συντακτικό • Υποστηρίζει οποιοδήποτε format μεταδεδομένων (υποχρεωτικά: Dublin Core) • Λογική ιεραρχία των συνόλων (logical set hierarchy) (definition: data providers) • Ημερολογιακά στοιχεία (date stamps) (τελευταία αλλαγή του συνόλου των μεταδεδομένων) • Υποστηρίζει μηνύματα λάθους • Έλεγχος ροής

  22. Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 1/2 Harvester • Μία εφαρμογή που διατυπώνει αιτήσεις OAI-PMH Αποθετήριο (Repository) • Ένας server που μπορεί να διαχειριστεί σωστά αιτήσεις OAI-PMH Πηγή (Resource) • Ένα ψηφιακό αντικείμενο για το οποίο έχουν δημιουργηθεί τα μεταδεδομένα η φύση των αντικείμένων αυτών δεν προσδιορίζεται από το OAI-PMH Τεκμήριο (Item) • Το κομμάτι-μέροςενός αποθετηρίου από το οποίο τα μεταδεδομένα μίας πηγής μπορούν να διανεμηθούν • Έχει πάντα έναν μοναδικό identifier Εγγραφή (Record) • Μεταδεδομένα σε ένα συγκεκριμένο format Ταυτοποιητής (Identifier) • Μοναδικό κλειδί για ένα τεκμήριο σε ένα αποθετήριο Σύνολο(Set) • Μη υποχρεωτικό σχήμα ομαδοποίησης των items ενός αποθετηρίου

  23. Τεχνικές Λεπτομέρειες του OAI-PMH: Αποσαφηνίσεις 2/2

  24. Τεχνικές Λεπτομέρειες του OAI-PMH: Εγγραφές • τα μεταδεδομένα μιας πηγής σε ένα συγκεκριμένο format • Αποτελείται από τρία μέρη: • header (mandatory) • identifier (1) • datestamp (1) • setSpec elements • status για διαγραμμένα item • metadata (mandatory) • XML κωδικοποιημένα μεταδεδομένα (root tag, namespace) • Τα αποθετήρια πρέπει να υποστηρίζουν DC • about (optional) • Δηλώσεις δικαιωμάτων • Δηλώσεις προέλευσης

  25. Τεχνικές Λεπτομέρειες του OAI-PMH: DateStamps Ημερομηνία της τελευταίας αλλαγής του συνόλου των μεταδεδομένων(metadata set) • Υποχρεωτικό χαρακτηριστικό κάθε Item • Δύο πιθανές μορφές :YYYY-MM-DD, YYYY-MM-DDThh:mm:ssZ • Παρέχει την δυνατότητα αιτήσεων συγκομιδήςfromκαιuntil • Εφαρμογή στους μηχανισμούς αύξησης και ενημέρωσης • Δίνει την ημερομηνία τροποποίησης ,δημιουργίας ή διαγραφής • Σχετικά με την διαγραφή υποστηρίζει τρεις καταστάσεις( no, persistent, transient)

  26. Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (1/3) • OAI-PMH υποστηρίζει διανομή από πολλαπλά formats μεταδεδομένων από ένα αποθετήριο • Ιδιότητες των formats μεταδεδομένων • id string που προσδιορίζει το format (metadataPrefix) • metadata schema URL (XML schema για έλεγχο εγκυρότητας) • XML namespace URI (global identifier for metadata format) • Τα Αποθετήρια πρέπει να υποστηρίζουν διανομή σε unqualified Dublin Core • Αυθαίρετα formats μεταδεδομένων μπορούν να προσδιορίζονται και να μεταφέρονται μέσω του OAI-PMH • Τα επιστρεφόμενα μεταδεδομένα πρέπει να υπακούουν στις XML namespace προδιαγραφές

  27. Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (2/3) Ελάχιστο standard: υποστήριξη unqualified Dublin Core • http://dublincore.org/ • Το Dublin Core Metadata Element Set περιλαμβάνει15 στοιχεία • Τα στοιχεία δεν είναι υποχρεωτικά • Τα στοιχεία μπορούν να είναι επαναλαμβανόμενα

  28. The Dublin Core Metadata Element Set: Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights Τεχνικές Λεπτομέρειες του OAI-PMH: Το Σχήμα των Μεταδεδομένων (3/3)

  29. Τεχνικές Λεπτομέρειες του OAI-PMH: Σύνολα (sets) Λογικός χωρισμός των αποθετηρίων σε τμήματα • Είναι επιλογής – τα αρχεία δεν είναι υποχρεωμένα να προσδιορίζουν sets • Δεν υπάρχουν υποδείξεις για την υλοποίηση sets • Δεν είναι ανάγκη να είναι εξαντλητικά ούτε ιεραρχικά • Βρίσκουν εφαρμογή: σε επιλεκτική συγκομιδή(set parameter) • Εφαρμογές: Θεματικές Πύλες, μηχανή αναζήτησης διατριβών…….. • Παραδείγματα • Τύπος δημοσίευσης (thesis, article, …) • Τύπος τεκμηρίου (text, audio, image, …) • Θεματική ευρετηρίαση του περιεχομένου σύμφωνα με την DNB (medicine, biology, …)

  30. Τεχνικές Λεπτομέρειες του OAI-PMH: παράδειγμα αίτησης GET request: http://archive.org/oai?verb=ListRecords&metadataPrefix=oai_dc

  31. Τεχνικές Λεπτομέρειες του OAI-PMH: Απάντηση Η απάντηση πρέπει να είναι well-formed XML με markup όπως τα παρακάτω: • Δήλωση της XML (<?xml version="1.0" encoding="UTF-8" ?>) • root element named OAI-PMH με τρία γνωρίσματα(xmlns, xmlns:xsi, xsi:schemaLocation) • Τρία child στοιχεία • responseDate • request • error

  32. Τεχνικές Λεπτομέρειες του OAI-PMH: κωδικοί λαθών • Τα αποθετήρια πρέπει να προσδιορίζουν τα OAI-PMH λάθη σε μία απάντηση μιας αίτησης • Καθορισμένοι δείκτες λάθους • badArgument • badResumptionToken • badVerb • cannotDisseminateFormat • idDoesNotExist • noRecordsMatch • noMetaDataFormats • noSetHierarchy

  33. Τεχνικές Λεπτομέρειες του OAI-PMH: Τύποι αιτήσεων • Έξι (6) τύποι αιτήσεων • Identify (περιγραφή ενός αρχείου) • ListMetadataFormats( ανακτά τα διαθέσιμα formats των μεταδεδομένων) • ListSets(ανακτά την δομή ενός αποθετηρίου) • ListIdentifiers (συντομευμένη Listrecords ανακτά μόνο τουςIdentifiers) • ListRecords(συγκομιδή εγγραφών από το αποθετήριο) • GetRecord(συγκομιδή συγκεκριμένης εγγραφής) • Ένας harvester δεν χρειάζεται να χρησιμοποιεί όλους τους τύπους • Ένα αποθετήριο πρέπει να υλοποιεί όλους τους τύπους

  34. Ερωτήσεις που πρέπει να τεθούν σε μια υλοποίηση του ΟΑΙ πρωτοκόλλου Διαθέτης Δεδομένων • Πρέπει να απαντήσει στο ερώτημα: ποία δεδομένα θέλω να διανείμω; • Ποίους διαθέτες υπηρεσιών θέλω να προμηθεύσω με δεδομένα; Διαθέτης Υπηρεσιών • Ποιες υπηρεσίες θέλω να παρέχω; • Από ποίους προμηθευτές δεδομένων θα παίρνω μεταδεδομένα; • Με ποιο τρόπο θα προσλαμβάνονται τα μεταδεδομένα; Διαθέτης Δεδομένων& Διαθέτης Υπηρεσιών • Οι διαστάσεις στις οποίες πρέπει να συμφωνήσουν: (Συχνότητα ενημέρωσης, τα format των μεταδεδομένων, τα sets, τα σχήματα των θεμάτων, την αποδεκτή χρήση).

  35. ΕΡΓΑΛΕΙΑ ΑΝΑΠΤΥΞΗΣ ΕΦΑΡΜΟΓΩΝ ΟΑΙ • Η OAI διατηρεί μια λίστα με software tools (http://www.openarchives.org/tools/) Final Report on Technical Issues (download from http://www.oaforum.org/documents/ GNU EPrints,DSpace , FEDORA

  36. ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (1/3) • SQL Database • Μεταδεδομένα για τις πηγές • Web server, πχ. Apache, IIS , • programming interface / API πχ. Perl, PHP, Java-Servlet • web server extension • identifier αρχείου/ base URL • Έναν μοναδικό identifier για κάθε item • format μεταδεδομένων (ένα η περισσότερα, υποχρεωτικά unqualified Dublin Core) • datestamps για τα μεταδεδομένα (created / last modified) • flow control (μηχανισμός ελέγχου ροής κυρίως για τα μεγάλα αρχεία)

  37. ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (2/3) • Argument Parser (αξιολογεί OAI αιτήσεις) • Error Generator (δημιουργεί XML απαντήσεις με κωδικούς λαθών) • Μηχανισμό Database Query / τοπική εξαγωγή μεταδεδομένων (ακανακτά μεταδεδομένα από το αποθετήριο σύμφωνα με το αιτούμενο format). • XML Generator / Δημιουργία απάντησης (δημιουργεί XML απάντηση με κωδικοποιημένη πληροφορία. • Flow Control (δίνει τμήμα- τμήμα τα μεταδεδομένα ιδίως σε μεγάλα αποθετήρια resumption token ως μηχανισμός ελέγχου)

  38. ΔΙΑΘΕΤΗΣ ΔΕΔΟΜΕΝΩΝ:Συστατικά μέρη και αρχιτεκτονική (3/3)

  39. ΔΙΑΘΕΤΗΣ ΥΠΗΡΕΣΙΩΝ:διάγραμμα συστατικών μερών και αρχιτεκτονικής

  40. XML Shemas για OAI-PMH(1/3) • To OAI-PMH χρησιμοποιεί XML Schemas για να ορίσει το format των εγγραφών • Μπορεί να ανταλλάξει μεταδεδομένα σε οποιαδήποτε format αρκεί να είναι κωδικοποιημένα σε XML και να ορίζεις ένα XML Schemas για αυτάτα format. • Το OAI-PMH ορίζει ένα oai_dc schema ως έλαχιστη προδιαγραφή διαλειτουργικότητας • Η τεκμηρίωση του OAI-PMH περιγράφει XML schema και για άλλα formats, και παρουσιάζει XML schemas για: • rcf1807 (για RFC 1807 format μεταδεδομένα) • marc21 • oai_marc (για MARC μεταδεδομένα)

  41. XML Shemas για OAI-PMH (2/3) Δημιουργία ενός νέου schema επεκτείνοντας το oai_dc schema για να προσθέσουμε νέα στοιχεία: • Ονοματοδοσία του νέου σχήματος • Δημιουργία namespaces • Δημιουργία ενός schema για το νέο στοιχείο elements • Δημιουργία ενός 'container schema' • Έλεγχος εάν είναι valid schema / records • Πρόσθεση του στη "ListMetadataFormats" του αποθετηρίου • Πρόσθεση στο αποθετήριο (other verbs) • Έλεγχος εάν δουλεύει και εάν είναι valid

  42. XML Shemas για OAI-PMH (3/3) Παράδειγμα πρόσθεσης ενός νέου σχήματος του ims <metadataFormat>  <metadataPrefix>ims</metadataPrefix>  <schema>http://www.imsglobal.org/xsd/imsmd_v1p2p2.xsd</schema>  <metadataNamespace>http://www.imsglobal.org/xsd/imsmd_v1p2</metadataNamespace></metadataFormat>

  43. ΣΥΜΠΕΡΑΣΜΑΤΑ • Η εστίαση της OAI είναι στην υψηλού επιπέδου επικοινωνία μεταξύ των συστημάτων και της απλότητας των πρωτοκόλλων. Το OAI-PMH έχει συγκεντρώσει πολλή μεγάλη προσοχή μεταξύ της κοινότητας της ηλεκτρονικής δημοσίευσης • Το πρωτόκολλο OAI για τη συγκομιδή μεταδεδομένων [ Lagoze και Van de Sompel, 2001 ] στην ουσία υποστηρίζει ένα σύστημα των διασυνδεόμενων συστατικών, όπου κάθε ένα είναι DL • Το πρωτόκολλο OAI μπορεί να θεωρηθεί ως κόλλα που δεσμεύει μαζί συστατικά ενός μεγαλύτερου DL

More Related