Eine biografie aus adb ndb als xml
This presentation is the property of its rightful owner.
Sponsored Links
1 / 25

Eine Biografie aus ADB/NDB als XML PowerPoint PPT Presentation


  • 52 Views
  • Uploaded on
  • Presentation posted in: General

Eine Biografie aus ADB/NDB als XML. Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin. XML – (eXtensible Markup Language). Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten Namen der Elemente und Attribute sind frei wählbar

Download Presentation

Eine Biografie aus ADB/NDB als XML

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Eine biografie aus adb ndb als xml

Eine Biografie aus ADB/NDB als XML

Datenbanken vs. Markup

Prof Dr. Manfred Thaller

WS 2009 / 2010

Referent: Bilal Erkin


Xml extensible markup language

XML – (eXtensible Markup Language)

  • Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten

  • Namen der Elemente und Attribute sind frei wählbar

  • Dateistruktur durch DTD oder XML Schema definierbar

  • Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …


Vorteile von xml

Vorteile von XML

  • Für Mensch und Maschine verständliche Informationen (semantic Web)

  • Lizenzfreiheit

  • Plattformunabhängigkeit

  • Medienneutralität

    • Einsatz in verschiedenen Systemen

    • Konvertierung in andere Dateiformate


Quelle f r die auszeichnung

Quelle für die Auszeichnung

  • Biografie aus ADB / NDB am Beispiel von „Curt Goetz“

  • Grafik

  • Ohne OCR (Texterkennung)

    • Deshalb nicht durchsuchbar

  • Große Dateigröße


Ziel der auszeichnung in xml

Ziel der Auszeichnung in XML

  • Druchsuchbarer Text (geringe Dateigröße und suchmaschinenkonform)

  • Verlinkungen innerhalb des Textes für schnelle Navigation

  • (Evtl. Kopplung an die Originalgrafik bei älteren Texten)

  • Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM)

  • Semantische Struktur

  • Für jede Personenbiografie eine Datei


Das wichtigste element person

Das wichtigste Element: <person>

  • Element <person> ist das Kernstück einer Biografie

  • Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID

  • Berufe und Personenbeschreibungen werden an die ID gekoppelt.

  • Für die inter-biografische Verbindung wichtig!


Beispiel des elements person

Beispiel des Elements <person>

  • <persongeschlecht="männlich„ id="Goetz_Curt_1">

  • Attribute

    • geschlecht = (männlich | weiblich)

    • ID besteht aus Nachname_Vorname_Zahl

      • Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und Nachnamen unterscheiden

  • Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)


Analyse der kurzinfo

Analyse der Kurzinfo

  • Name, Vorname

  • Beruf

  • Geburtsdatum/ -ort; Sterbadatum / -ort

  • Konfession

  • Orthographisch:

    • Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“)

    • Entities (Stern, Kreuz )


Auszeichnung der kurzinfo

Auszeichnung der Kurzinfo

  • Name wird hervorgehoben

  • Entities werden eingefügt (&#8224; für Kreuz)

  • Beruf wird an person gekoppelt durch person_ref

  • Beruf bekommt eine Kategorie


Abs tze im original

Absätze im Original

  • Absätze werden durch <absatz>...</absatz> gekennzeichnet


Analyse der familie

Analyse der Familie

  • Vater

  • Mutter

  • Ehepartner(in)

  • Kinder

  • Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex)

  • Symbole, für die es keine Entities gibt (Eheringe)


Auszeichnung des vaters

Auszeichnung des Vaters

  • Abschnitt innerhalb <familie>

  • Personen bekommen ID

  • Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref


Auszeichnung der mutter

Auszeichnung der Mutter

  • Komplexe Verschachtelung

  • Struktur Nur noch im Strukturbaum ersichtlich


Auszeichnung des ehepartners

Auszeichnung des Ehepartners

  • Eheringe als Bilddatei!

  • Mehrere <ehepartner> möglich

  • <scheidung> kann eingefügt werden (bei Goetz nicht nötig)

  • Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>


Analyse der eigentlichen biografie

Analyse der „eigentlichen“ Biografie

  • Durchgehender Text

  • Weitere Personen kommen vor

  • In anderen Biografien: Studium, Institut und Studienjahre

  • Mehrere Absätze


Auszeichnung der eigentlichen biografie

Auszeichnung der „eigentlichen“ Biografie

  • Wird von <biographie> umschlossen

  • Personen werden ausgezeichnet mittels ID


Analyse der werke

Analyse der Werke

  • Kategorie (Werkstyp)

  • Titel

  • Erscheinungsjahr

  • Sonstige Bemerkungen


Auszeichnung der werke

Auszeichnung der Werke

  • <werk> bekommt Attrribute typ und jahr

  • Titel in <werk_name>

  • Sonstiges innerhalb <werk>


Seitenumbr che im original

Seitenumbrüche im Original

  • Seitenumbrüche werden in der XML repräsentiert durch

    <seite umbruch="588|589"/>

  • Übergang von einer Seite zur anderen durch |

  • Auch Seitenzahlen nach anderem Format möglich

  • (XV|XVI; 10a|10b; 45.1|45.2 …)

  • Vorteil: PDF wird 1:1 repräsentiert


Analyse des literaturnachweises

Analyse des Literaturnachweises

  • Autor

  • Titel

  • Erscheinungsjahr

  • Verlag oder Seitennummer

  • Literaturnachweise getrennt durch Semikolon

  • Querverweise zu anderen Personen (Wilhelm Rocco)


Auszeichnung des literaturnachweises

Auszeichnung des Literaturnachweises

Einzelne Einträge in <lit-eintrag>

  • Sinvoll in autor, titel, jahr usw. zu trennen?

  • Kopplung der Einträge an ID (wegen W. Rocco) ?


Analyse des fundstelle

Analyse des Fundstelle

  • Werk

  • Autor

  • Seitenzahlen

  • Bandnummer

  • Mehrere Funstellen möglich

  • Unterscheidung zwischen Haupteintrag und Nebeneintrag


Auszeichnung der fundstelle

Auszeichnung der Fundstelle

  • Am Anfang der Datei in <meta>

  • <fundstelle> hat alle Angaben als Attribute und als Text

  • Autor separat in <autor> getaggt mit persönlicher ID


Standartisierung der struktur

Standartisierung der Struktur

  • Für eine einheitliche Struktur für alle Einträge in der ADB / NDB:

    • Mehrere verschiedene Strukturtypen taggen

    • Eine DTD oder ein XML-Schema definieren

  • Dokumentation der DTD

    • Welche Elemente können in welchen enthalten sein?


Vielen dank f r die aufmerksamkeit

Vielen Dank für die Aufmerksamkeit


  • Login