1 / 45

IT-Zertifikat der Phil.Fak

IT-Zertifikat der Phil.Fak. Kurs 4: Daten- und Metadatenstandards. Patrick Sahle Daten- und Metadaten SS 09. TEI (Text Encoding Initiative) Einstieg http://www.youtube.com/watch?v=4sHYDfITjHY http://www.bobdylan.com/#/songs/subterranean-homesick-blues

mahdis
Download Presentation

IT-Zertifikat der Phil.Fak

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IT-Zertifikat der Phil.Fak Kurs 4: Daten- und Metadatenstandards Patrick Sahle Daten- und Metadaten SS 09

  2. TEI (Text Encoding Initiative) • Einstieg • http://www.youtube.com/watch?v=4sHYDfITjHY • http://www.bobdylan.com/#/songs/subterranean-homesick-blues • http://etcl.uvic.ca/wp-content/uploads/tei/Encoded_Dylan_Lyrics.xml

  3. TEI (Text Encoding Initiative) • Basics: Wikipedia • Grundansatz (Auszeichnung als Abstraktion) • Schieflagen? Anwendungsbereich?

  4. TEI (Text Encoding Initiative) • Ein Beispiel: • site: http://graves.uvic.ca/ • file: http://graves.uvic.ca/get_markup.xq?id=entries1935-02 • TEI verstehen und benutzen • Einstieg: http://www.tei-c.org/index.xml • Elemente: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/REF-ELEMENTS.html

  5. TEI (Text Encoding Initiative) • TEI Strukturen • P5: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html • ongoing activities: http://www.tei-c.org/Activities/index.xml

  6. TEI (Text Encoding Initiative) • TEI anwenden • Das Roma-Tool: http://www.tei-c.org/Roma/

  7. Dublin Core (DC) • Einstieg: • http://de.wikipedia.org/wiki/Dublin_Core • http://en.wikipedia.org/wiki/Dublin_Core (besser!) • http://dublincore.org/ • Organisatorischer, historischer und konzeptioneller Hintergrund

  8. Dublin Core • einfacher Satz an Elementen/Begriffen zur Beschreibung von Objekten auf der Metadatenebene • core elements, version 1.1, ISO 15836 (2003): • http://dublincore.org/documents/dces/ • identifier • format, type, language • title, subject, coverage, description • creator, publisher, contributor, rights, provenance • relation, source • date

  9. Dublin Core • "Dublin Core Simple" (15 Elemente) vs. • "Dublin Core Qualified" (element refinements) • "Begriffe im Namensraum DCTerms" (55 Elemente):http://dublincore.org/documents/dcmi-terms/

  10. Dublin Core • … definiert Begriffe / Konzepte, keine Syntax • … kann ausgedrückt werden z.B. mittels HTML oder XML <head> <meta name="DC.title" content="DC Einführung"/> <meta name="DC.creator" content="Patrick Sahle"/> <meta name="DCTERMS,created" content="2009-01-20" /> <metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" /> <dc:title>DC Einführung</dc:title> <dc:creator>Patrick Sahle</dc:creator> <dcterms:created>2009-01-20</dcterms:created>

  11. Dublin Core • Anwendungsbeispiel: BSB-Digitalisate an der OAI-Schnittstelle • <metadata> <dc:title>Reichstagshandbuch. </dc:title> <dc:publisher>Reichsdr.</dc:publisher> <dc:date>1924</dc:date> <dc:format>text/xml</dc:format> <dc_identifier>http://nbn-resolving.de/urn:nbn:de:bvb:12-bsb00000002-6</dc_identifier></metadata> • <metadata> <dc:title>Reichstagshandbuch. </dc:title> <dc:publisher>Reichsdr.</dc:publisher> <dc:date>1924</dc:date> <dc:format>text/xml</dc:format> <dc_identifier>http://nbn-resolving.de/urn:nbn:de:bvb:12-bsb00000003-1</dc_identifier></metadata>

  12. DC revisited • Vor und Nachteile? • Lob der Einfachheit! • Informationsreduktion? (Strategien) • Gebunden an Perspektiven und Wissensbereiche • Was ist das Objekt? • Granularität, Seitenbezug • Typ, Ontologischer Status

  13. Rekapitulation: Dublin Core (DC) • "Scope" • Ansatz • Datenstandard, kein Datenformat • Syntax? HTML und XML. • Dublin Core Simple / Dublin Core Qualified • Vor- und Nachteile? Problematisierung?

  14. Dublin Core • Anwendungsbeispiel: OPAL • http://www.opal-niedersachsen.de/

  15. Dublin Core • Anwendungsbeispiel: OPAL •  myOpal  xmlDownload  ein Beispiel aussuchen • Was ist hier los? Ist das noch Dublin Core? • Lokale Anwendung! Dokumentation: "Application Profile" • Leicht übersetzbar auf Standard-"Dublin Core"

  16. DC revisited • Vor und Nachteile? • Lob der Einfachheit! • Informationsreduktion? (Strategien) • Gebunden an Perspektiven und Wissensbereiche • Was ist das Objekt? • Granularität, Seitenbezug • Typ, Ontologischer Status

  17. OAI = Open Archives Initiative (eigentlich: OAI-PMH = Protocol for Metadata Harvesting)

  18. OAI • Einstieg: • http://de.wikipedia.org/wiki/Open_Archives_Initiative • http://en.wikipedia.org/wiki/Open_Archives_Initiative • http://www.openarchives.org/ • http://www.openarchives.org/OAI/openarchivesprotocol.html • Beispiel für eine Schnittstelle zur Kommunikation von (Meta-)Daten über das Internet • Wichtige Begriffe: Data-Provider, Service-Provider

  19. OAI • Datenkommunikation über http-Request • Basisadresse + Script (+ Verb (+ Argument)?)* • Sechs "Verben" zur Kommunikation • Identify [wer bist du?] • ListMetadataFormats [was sprichst du?] • ListSets [was hast du für Sammlungen?] • ListIdentifiers [gib mir deine Identifier] • ListRecords [gib mir Datensätze] • GetRecords [gib mir Datensätze] • Sechs "Argumente": metadataPrefix, identifier, from, until, set, resumptionToken

  20. OAI • Beispielanwendungen • OAISTER (Service Provider): http://www.oaister.org/ • ZVDD (Data Provider): http://www.digitalisiertedrucke.de/ • http://www.digitalisiertedrucke.de/oai2d.py?verb=ListSets • BSB (Data Provider): http://www.bsb-muenchen.de/ • http://mdz1.bib-bvb.de/~db/OAI/oai2.php?verb=Identify • CEEC (Data Provider): http://www.ceec.uni-koeln.de/ • http://www.ceec.uni-koeln.de/ceec-oai/kleioc?verb=Identify

  21. OAI • Beispielanwendung CEEC • Handschrift Dom 213 • Bild: http://www.ceec.uni-koeln.de/ceec-cgi/kleioc/0010/exec/pagesma/%22kn28-0213_001.jpg%22/segment/%22body%22 • Beschreibung: http://www.ceec.uni-koeln.de/ceec-cgi/kleioc/0010/exec/katl/%22kn28-0213%22 • XML (TEI-like): http://www.ceec.uni-koeln.de/projekte/CEEC/database/descriptions/kn28-0213.xml • OAI (oai_dc): http://www.ceec.uni-koeln.de/ceec-oai/kleioc?verb=GetRecord&metadataPrefix=oai_dc&identifier=kn28-0213

  22. Rekapitulation: OAI (PMH) • "Scope" • http-Requests • "Schnittstelle"; Data-Provider, Service-Provider • Sechs "Verben" (Identify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords, GetRecords), mehrere "Argumente" • oai_dc plus weitere Metadatenformate

  23. Metadaten im BAM-Sektor • (Bibliotheken / Archive / Museen – a.k.a Cultural Heritage) • Bibliotheken: METS • Archive: EAD • Museen: museumdat

  24. Metadaten in Bibliotheken • Bibliographische Daten • MAB2 • MARC ( RDA) • MODS • DC • Komplexe digitale Objekte • METS / MODS

  25. METS / MODS (Zusammenfassung) • "Scope" • Problemlage • verschiedene Sichten auf ein Objekt • Grundprinzip • Verbindung verschiedener Arten von Metadaten(METS-header, descriptive metadata, administrative metadata, files, structural map, links) • Nochmals ein Beispiel? (Ponickau)

  26. 7 Abschnitte eines METS-Dokuments <mets> <metsHdr/> - Der Kopfteil - METS Header <dmdSec/> - Erschließungsangaben - Descriptive Metadata <amdSec/> -Verwaltungsangaben - Administrative Metadata <fileSec/> - Dateiabschnitt - File Section <structMap/> - Strukturbeschreibung – Structural Map <structLink/> - Strukturverknüpfungen – Structural Links <behaviorSec/> - Verhalten – Behavior </mets>

  27. METS als Containerformat <mets> … <dmdSec> <mdWrap> <xmlData> <!– Metadaten aus anderem namespace--> </xmlData> </mdWrap> </dmdSec> … </mets>

  28. Konkurrierende Hierarchien?

  29. Rekapitulation: Metadaten in Bibliotheken • Traditionell: Bibliographische Daten • Ausweitung: Komplexe digitale Objekte • Standard: METS / MODS • "Scope" • Problemlage • verschiedene Sichten auf ein Objekt • Grundprinzipien • Verbindung unterschiedlicher Metadaten (METS-header, descriptive metadata, administrative metadata, files, structural map, links) • "Containerformat"

  30. Metadaten im Archiv: EAD • Die Heimat von EAD: http://www.loc.gov/ead/ • wikipedia: http://de.wikipedia.org/wiki/Encoded_Archival_Description ,http://en.wikipedia.org/wiki/Encoded_Archival_Description • Scope • Bestandteile: • 146 Elemente zur Beschreibung von Findmitteln und Archivalien • eadHeader (über die EAD-Datei) • archDesc • did (Zum Gesamtbestand) • dsc / c… (Beschreibung über geschachtelte Container) • Beispiel: http://www.bundesarchiv.de/, http://www.bundesarchiv.de/findbuecher/sapmo/Zdaofindxml/EAD-Dateien/Lehmann

  31. Rekapitulation: Metadaten in Archiven; EAD • Scope • Findmittel, nicht Archivalien • Bestandteile: • eadHeader (über die EAD-Datei) • archDesc • did (Zum Gesamtbestand) • dsc / c… (Beschreibung über geschachtelte Container) • Übung: Vergleichen Sie EAD mit TEI und METS …

  32. Metadaten in Museen • HIDA-MIDAS (Marburger Informations-, Dokumentations- und Administrations-System) • VRA Core 4.0 (http://www.vraweb.org/projects/vracore4/index.html) • CDWA (http://www.getty.edu/research/conducting_research/standards/cdwa/) • museumdat (http://museum.zib.de/museumdat/ , http://www.museumdat.org/ , http://de.wikipedia.org/wiki/Museumdat )

  33. Rekapitulation: Metadaten im Museum; Beispiel: Museumdat • Scope • Zielstellung • Harvesting, Datenaustausch • Bezug zu anderen Standards • CDWA Lite, CIDOC CRM • Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration

  34. Semantic Web – Zusammenfassung • Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden? • Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen

  35. RDF – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Resource_Description_Framework) • RDF – Resource Description Framework • Formale Beschreibung von Informationen ("Resourcen") • Aussagen werden als Tripel modelliert • Subjekt – Prädikat – Objekt • … sind selbst wieder als URI identifiziert (oder auch nur Strings) • RDF als Datenmodell und als Syntax (XML, N3) • Frage: Verhältnis von RDF und DC? • RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)

  36. OWL – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Web_Ontology_Language) • Web Ontology Language • Sprache zur formalen Beschreibung von Ontologien • Baut auf RDF auf und geht über RDFS hinaus • Konstrukte: Klassen, Eigenschaften, Instanzen

  37. Noch Zeit? Übung: Wir semantisieren Regest 9 (nur konzeptionell natürlich)

  38. CDWA / CDWA Lite • Die Heimat von CDWA: http://www.getty.edu/research/conducting_research/standards/cdwa/, http://www.getty.edu/research/conducting_research/standards/cdwa/cdwalite.html • wikipedia: http://en.wikipedia.org/wiki/CDWA • Scope • CDWA vs. CDWA Lite • Charakteristika

  39. CDWA-Lite Beispiel: http://www.getty.edu/research/conducting_research/standards/cdwa/cdwalite/oai1_painting_gm_816.cdwalite

  40. Museumdat • Die Heimat von Museumdat: http://www.museumdat.org/ • Scope • Zielstellung • Harvesting, Datenaustausch • Bezug zu anderen Standards • CDWA Lite, CIDOC CRM • Beschreibungsbereiche: Objektklassifikation, Identi- fikation, Beschreibung, Ereignisse, Beziehungen, Administration

  41. CIDOC-CRM • Ausgangspunkte • http://de.wikipedia.org/wiki/CIDOC_Conceptual_Reference_Model • http://en.wikipedia.org/wiki/CIDOC_Conceptual_Reference_Model • Die Heimat von CIDOC-CRM: http://cidoc.ics.forth.gr/

  42. Semantic Web – Zusammenfassung • Problem: Wie kann die "Bedeutung" von Daten für den Computer verwertbar gemacht werden? • Lösung: Explikation, Annotation, Metadaten, Taxonomien, Authority Files (Normdaten), eindeutige Identifikatoren (z.B. auch URIs), Ontologien, standardisierte Ausdrucksformen

  43. RDF – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Resource_Description_Framework) • RDF – Resource Description Framework • Formale Beschreibung von Informationen ("Resourcen") • Aussagen werden als Tripel modelliert • Subjekt – Prädikat – Objekt • … sind selbst wieder als URI identifiziert (oder auch nur Strings) • RDF als Datenmodell und als Syntax (XML, N3) • Frage: Verhältnis von RDF und DC? • RDFS als Schema für die formale Beschreibung ein- facher Ontologien (Konstrukte: Klassen und Eigenschaften)

  44. RDF – Beispiel <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Description rdf:about="http://en.wikipedia.org/wiki/Tony_Benn"> <dc:title>Tony Benn</dc:title> <dc:publisher>Wikipedia</dc:publisher> </rdf:Description> </rdf:RDF>

  45. OWL – Zusammenfassung • (Fallback: http://de.wikipedia.org/wiki/Web_Ontology_Language) • Web Ontology Language • Sprache zur formalen Beschreibung von Ontologien • Baut auf RDF auf und geht über RDFS hinaus • Konstrukte: Klassen, Eigenschaften, Instanzen

More Related