Kooperative langzeitarchivierung f r wissenschaftsstandorte http kolawiss uni goettingen de
Sponsored Links
This presentation is the property of its rightful owner.
1 / 24

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de PowerPoint PPT Presentation


  • 64 Views
  • Uploaded on
  • Presentation posted in: General

AP2: Erfassen & Kategorisieren von Datenbeständen. Expertenworkshop 09.12.2008 Göttingen. „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de. Sven Vlaeminck Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen

Download Presentation

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


AP2: Erfassen & Kategorisieren von Datenbeständen

Expertenworkshop

09.12.2008

Göttingen

„Kooperative Langzeitarchivierung

für Wissenschaftsstandorte“

http://kolawiss.uni-goettingen.de

Sven Vlaeminck

Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen

Historisches Gebäude, Papendiek 14, 37073 Göttingen

Fon: 0551 39-4773 | Mail to: [email protected]


AP2 – Ziele & Methodik

Ziele:

  • Ermittlung von Eigenschaften der Datenbestände

  • Ermittlung von Kriterien zur Kategorisierung

  • Einbeziehen heterogener Datenbestände

    Methode:

  • Evaluierung des Ist-Standes durch Nachnutzung des nestor-Online-Surveys 2007 („Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen“)

  • Literaturstudium


„Kooperative Langzeitarchivierung

für Wissenschaftsstandorte“

http://kolawiss.uni-goettingen.de

= Ist-Stand Erfassung =

Ergebnisse der

Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen

des nestor – Netzwerks

[www.langzeitarchivierung.de]


„Gibt es Daten, die über den aktuellen Gebrauch hinweg erhalten bleiben sollen?“


Interesse an & Planung von Maßnahmen zur digitalen Langzeitarchivierung


Die Verwendung von Metadaten…


Metadatenstandards


Genutzte Formate

Insgesamt wurden 96 (!) unterschiedliche Formate genannt.

Schwerpunkte: Adobe PDF, Formate der MS-Office Familie, JPG, TIFF, Plain Text.


Genutzte Formate II


Datenmengen nach Fakultät


Ergebnisse

  • Großes Interesse & großer Bedarf

  • Kaum konkrete Planungen

  • Starke Divergenz bei Datenumfang

  • Formate stark heterogen, häufig proprietär

  • Geringe Metadatenimplementierung

  • Kaum standardisierte Metadatenschemata

  • Komplexe Ausgangslage für dLZA von Forschungsdaten


= Kategorisierungsansätze =

„Kooperative Langzeitarchivierung

für Wissenschaftsstandorte“

http://kolawiss.uni-goettingen.de


Wie lassen sich Forschungsdaten kategorisieren?

  • Viele Ebenen der Kategorisierung denkbar:

    • Nach ihrer (fachwissenschaftlichen) Herkunft…

    • Nach MIME-Type o.ä. …

    • Nach ihrem Inhalt / Content…

    • Nach der Datengröße (z.B. in GB)…

  • Vorschlag:

    • Kategorisierung anhand von Kriterien, die Auswirkungen (z.B. auf Kosten oder Policy) haben…

    • Daher: Kategorisierung anhand von Vorhaltezeiträumen & Formateignung für dLZA

    • Vorteile: Ausreichend generisch, quantifizierbar…


Dimension I: Kategorisierung nach Vorhaltzeiträumen

  • Kategorisierung nach geplanter Archivierungszeit

  • Vier sinnvolle Vorhaltezeiträume:

    • bis zu 5 Jahren

    • bis zu 10 Jahren

    • bis zu 30 Jahren

    • mehr als 30 Jahre

      => Überführung in Service Level


Dimension II: Format-Eignung

  • Ermittlung & Bewertung der Format-Eignung für dLZA anhand von sieben Kriterien

    • Offenheit & Lizenzfreiheit

    • Verbreitungsgrad

    • Selbstdokumentation

    • Robustheit

    • Komplexität

    • Schutzmechanismen

    • Abhängigkeiten

  • Diese Kriterien verfügen über unterschiedlich viele Ausprägungen:

    • z.B.: Kriterium: (geringe) Abhängigkeiten

      • Ausprägung I: Unabhängigkeit von bestimmter Hardware

      • Ausprägung II: Unabhängigkeit von bestimmten OS

      • Ausprägung III: Unabhängigkeit von bestimmter Software

      • Ausprägung VI: Unabhängigkeit von externen Ressourcen


Beispiele:


Bewertung der Format-Eignung

  • Bestimmen der Format-Eignung* durch

    • Gewichtung der Relevanz verschiedener Kriterien-Ausprägungen (abhängig von Policy, z.B. zwischen 1 & 9)

    • Vergabe von Punktwerten für bestimmte Formate ( z.B. Bedingung sehr gut erfüllt =2 Punkte, Kriterium mittelmäßig erfüllt = 1 Punkt, Kriterium nicht erfüllt = 0 Punkte)

    • Multiplikation der Punktwerte für Gewicht der Kriterien-Ausprägung und dem vergebenen Wert

    • Division durch die Anzahl der Ausprägungen eines Formats.

  • Der Punkt-Gesamtwert bestimmt die Eignung des Formats – je höher er ausfällt, desto geeigneter ist ein Format

    * Nach: Rog, Judith / van Wijk, Caroline: Evaluating File Formats for Long-term Preservation. National Library of the Netherlands, Den Haag, 2008


Die Kategorisierungsmatrix (I)


Die Kategorisierungsmatrix (II)


Die Kategorisierungsmatrix (III)


Die Kategorisierungsmatrix (IV)

  • Kategorisierungsdimension „Vorhaltezeitraum“ noch nicht implementiert

  • Bei einer Formatbewertung für alle „Vorhaltezeitraum“ ergibt sich folgende Grafik (-> fiktive Werte!)


Diagramm zur Format-Eignung


„Kooperative Langzeitarchivierung

für Wissenschaftsstandorte“

http://kolawiss.uni-goettingen.de

Vielen Dank für Ihre Aufmerksamkeit!

Nun ist Raum für Anmerkungen und zur Diskussion…


= Leitfragen zur Diskussion =

  • Ist diese Form der Kategorisierung zielführend?

    • Ist das vorgeschlagene Konzept ausreichend generisch UND ausreichend konkret?

    • Werden weitere Kriterien und Ausprägungen gesehen, die Eingang in eine Bewertung erhalten sollten?

  • Sehen Sie andere sinnvolle Ebenen für eine Kategorisierung von Forschungsdaten?

  • Fehlen Ihnen grundlegende Punkte, die Ihrer Meinung nach unbedingt Eingang in eine Kategorisierung finden müssten?


  • Login