1 / 48

Informationsintegration Das Semantic Web

Informationsintegration Das Semantic Web. 16.02.2006 Felix Naumann. Quelle: Mark Butler, HP. Überblick. Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation. Definitionen. Fremdwörterduden “Semantik”

Download Presentation

Informationsintegration Das Semantic Web

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. InformationsintegrationDas Semantic Web 16.02.2006 Felix Naumann

  2. Quelle: Mark Butler, HP Felix Naumann, VL Informationsintegration, WS 05/06

  3. Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06

  4. Definitionen • Fremdwörterduden “Semantik” • Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst • Bedeutung, Inhalt eines Wortes, Satzes oder Textes • “The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.” [BLHL01] • Das Semantische Web ist einer Erweiterung des gegenwärtigen Webs, in der Informationen wohl-definierte Bedeutungen erhalten, so dass Computer und Menschen besser kooperieren können. Felix Naumann, VL Informationsintegration, WS 05/06

  5. Warum brauchen wir das Semantic Web? • Überfluss an Daten • Stark verteilt • Suche und Integration nötig • Die Kosten, relevante Informationen zu finden und Wert daraus zu schöpfen sind enorm. • Kostenreduzierung • Workflows und Businessprozesse miteinander verknüpfen • Data- und Service-sharing ermöglichen • auch zwischen heterogenen Gruppen • eScience: Wissenschaftler, Standards-Konsortien, Bioinformatik • eGovernment: u.a. Gesundheitswesen • eBusiness • eSociety: Blogging, Gnutella Quelle: [DK03] Felix Naumann, VL Informationsintegration, WS 05/06

  6. Motivation • Web Seiten tragen Layout-Informationen • Gut für Menschen • Nicht zu interpretieren für Rechner • Informationen leben in zwei Welten • Für Menschen als Konsumenten • Gedichte, Filme, Text,... • Für Computer als Konsumenten • Daten, Programme,... • Das Web betont den Menschen. • Das Semantic Web soll dies ausgleichen. • Ease-of-Use und Wachstum des WWW soll nicht beeinträchtigt werden. • Es muss also nicht alles perfekt verstanden werden. Felix Naumann, VL Informationsintegration, WS 05/06

  7. Motivation: (Automatische) Informationssuche im Web • Methode 1: Browsing • geht nicht (Milliarden von Dokumenten) • Methode 2: Suche • Suche mittels Suchmaschinen besser • Recall nicht immer perfekt (Größe der Suchmaschine). • Precision nicht immer perfekt (Relevanz der Ergebnisse). • Techniken des Information Retrieval • Leider wirklich nur „retrieval“ • Extraktion und Interpretation der Informationen durch Nutzer • Funktioniert nur mit Menschen, nicht automatisiert Felix Naumann, VL Informationsintegration, WS 05/06

  8. Motivation: (Automatische) Informationssuche im Web • Methode 3: Informationsextraktion • Computational Linguistics • Named Entity Recognition (z.B. Gene) • Relationship Extraction (z.B. Firmensitze aus Wirtschaftmeldungen extrahieren) • Methode 4: Wrapper • Bsp: Shopping Agenten • Generierung von Wrappern per Hand • Müssen sich auf HTML Tags verlassen • Methode 5: Annotation • Maschinenlesbare Annotation (z.B. XML) • Methode 6: Semantic Web • Semantische Annotation (RDF & Ontologien) Themen heute Felix Naumann, VL Informationsintegration, WS 05/06

  9. Szenario aus [BLHL01] Alice Gemeinsamer Arztbesuch Neuer Plan OK Wer fährt? Transportbedarf Therapieplan Neuer Vorschlag Streiche unwichtige Termine zu weit! OK Bob Vorschlag leiser! Felix Naumann, VL Informationsintegration, WS 05/06

  10. Beispiel-Anwendungen • Wissensmanagement (knowledge management,KM) • Intranet mit Millionen Dokumenten • Informationsbeschaffung, -wartung und -suche • Mit Ontologien • Intelligente Suche • Anfragen und Sichten statt Suche • Bsp.: Liste alle Projekte aller Mitarbeiter der HU Informatik • Dokumentenaustausch • Web Commerce • Shopping-Agenten suchen bestes und billigstes Angebot. • On-line shops präsentieren Waren sinnvoll • Broker vermitteln zwischen Anbietern und Käufern (e-marketplace) • Meta-Stores • E-Business • Virtuelle Unternehmen • Katalog-Integration und Datenaustausch Felix Naumann, VL Informationsintegration, WS 05/06

  11. Semantic Web Prinzipien [BL] • Alles kann eine URI#xxx haben. • Sage nicht „farbe“, sage "http://www.pantomime.com/2002/std6#farbe" • Vokabulare können im Laufe der Zeit integriert und ersetzt werden. • Dokumente sind selbst-beschreibend. • „Jeder kann Beliebiges über Beliebiges sagen." • Kein einzelnes System weiß alles. • Das Design muss minimalistisch sein. Felix Naumann, VL Informationsintegration, WS 05/06

  12. Semantic Web Layer Cake Nutzen Regeln Bedeutung Beziehungen Syntax und Struktur Basisdaten, Texte und Identifikatoren Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  13. Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06

  14. Überblick Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06

  15. TEXT  XML • Reiner Text • Keine Struktur (höchstens implizit) • Nicht maschinenlesbar • XML • Kann Text strukturieren • Maschinenlesbare Struktur • Implizite Semantik durch Benennung von Struktureinheiten Felix Naumann, VL Informationsintegration, WS 05/06

  16. Text im Web (UNICODE + URI) • So sieht ein natürlichsprachige Webseite für eine Maschine aus. Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  17. name education CV work private XML … immerhin • XML erlaubt es, sinnvoll tags zu Texteinheiten hinzuzufügen. < > < > < > < > < > Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  18. XML  maschinenlesbare Bedeutung • Aber: Für eine Maschine sehen die tags so aus... < name > <education> < CV > <work> <private> Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  19. Schemata: Die richtige Richtung Schemata helfen…. < CV > …indem sie gemeinsame Ausdrücke zwischen Dokumenten in Beziehung setzen. private Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  20. Aber: Schemata unterscheiden sich • Jemand anderes verwendet dieses Schema: < name > <name> <educ> <education> < CV > < CV > <work> <<>> <private> <> Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  21. Schemata fehlt die Bedeutung < CV > Immerhin: Semi-automatisches Schema Matching & Mapping private Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06

  22. Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06

  23. Überblick Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06

  24. XML  RDF • XML • erlaubt beliebige Strukturen. • Bedeutung „verborgen“/“vermischt“ in Struktur (durch geeignete Tag-Namen) • Fortschritt, aber Strukturen noch ohne „Bedeutung“ • RDF… • …kann „Bedeutung“ ausdrücken, ohne Annahmen zur Struktur. • …besteht aus Tripeln: Subjekt, Prädikat, Objekt • …ist ein Datenmodell für Metadaten. Felix Naumann, VL Informationsintegration, WS 05/06

  25. Metadaten Format: RDF • RDF (Resource Description Framework) • Jenseits von Maschinenlesbarkeit: „Maschinenverstehbarkeit“ • RDF besteht aus zwei Teilen: • RDF Modell (eine Menge von Tripeln) • RDF Syntax (verschiedene XML-Serialisierungs Syntaxen) • RDF Schema • Definition von Vokabularen (einfache Ontologien) für RDF • Formuliert in RDF Quelle: [DK03] Felix Naumann, VL Informationsintegration, WS 05/06

  26. Author-of pers05 ISBN... <rdf:Description rdf:about=“#pers05”> <authorOf>ISBN...</authorOf> </rdf:Description> Publ-by Author-of pers05 ISBN... MIT Publ-by Author-of ISBN... RDF Beispiel • Ausdruck • “Peter Mueller ist Autor der Ressource http://www.w3.org/home/mueller .” • Struktur • Ressource (Subjekt) • http://www.w3.org/home/mueller • Eigenschaft (Prädikat) • http://www.schema.org/#authorOf • Wert (Objekt) • „Peter Mueller” • Gerichteter Graph Quelle: [OH03] Felix Naumann, VL Informationsintegration, WS 05/06

  27. <rdf:Description rdf:about=“#NYT”> <behauptet> <rdf:Description rdf:about=“#pers05”> <AutorVon>ISBN...</AutorVon> </rdf:Description> </behauptet> </rdf:Description> AutorVon pers05 ISBN... Schachtelung mit RDF • Jeder Ausdruck kann wiederum eine Ressource sein: • Schachtelung von Graphen –reification (“Verdinglichung”) behauptet NYT Quelle: [OH03] Felix Naumann, VL Informationsintegration, WS 05/06

  28. Vorteile von RDF vs. XML <?xml version="1.0"?> <Description xmlns="http://www.w3.org/TR/WD-rdf-syntax#" xmlns:s="http://docs.r.us.com/bibliography-info/" about="http://www.w3.org/test/seite" s:Author ="http://www.w3.org/staff/Peter" /> • „Der Autor der Seite ist Peter“ • RDF: triple(author, Seite, Peter) • XML: <document> <autor> <uri>href=“Seite"</uri> <details> <name>Peter</name> </details> </autor> </document> <autor> <uri>Seite</uri> <name>Peter</name> </autor> Anfragen nur über das Dokument, nicht über dessen Bedeutung: Ist ppppp ein y von qqqqq? Oder ist qqqqq ein z von ppppp? Nur falls Schema vorhanden, kann man sinnvolle Fragen stellen. <document href=“Seite"> <autor>Peter</autor> </document> Aber es kann viele verschiedene Schemata für die gleiche Bedeutung geben. <document> <details> <uri>href=“Seite"</uri> <autor> <name>Peter</name> </autor> </details> </document> <v> <x> <y> a="ppppp"</y> <z> <w>qqqqq</w> </z> </x> </v> Felix Naumann, VL Informationsintegration, WS 05/06 Quelle: http://www.w3.org/DesignIssues/RDF-XML.html

  29. Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06

  30. Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06

  31. XML / RDF  Ontologien • XML und RDF • Kein Standard-Vokabular um Semantik auszudrücken •  Gleiche Probleme wie bisher, jedoch auf Tag-Ebene • Keine Standard-Struktur (Hierarchie) um Semantik auszudrücken. • Ontologien • stellen Standard-Vokabulare bereit. • stellen Standard-Struktur bereit. Felix Naumann, VL Informationsintegration, WS 05/06

  32. Motivation für Ontologien class-def animal % animals are a class class-def plant % plants are a class subclass-of NOT animal% that is disjoint from animals class-def tree subclass-of plant % trees are a type of plants class-def branch slot-constraint is-part-of % branches are parts of some tree has-valuetree max-cardinality 1 class-def defined carnivore % carnivores are animals subclass-of animal slot-constraint eats % that eat any other animals value-typeanimal class-def defined herbivore % herbivores are animals subclass-of animal, NOT carnivore % that are not carnivores, and slot-constraint eats % they eat plants or parts of plants value-type plant OR (slot-constraint is-part-of has-value plant) Quelle: [OH03] Felix Naumann, VL Informationsintegration, WS 05/06

  33. Was ist eine Ontologie? • „Eine Ontologie ist eine formale, explizite Spezifikation einer gemeinsamen Konzeptionalisierung“ – Tom Gruber • ‚Konzeptionalisierung‘ (Conceptualization): Abstraktes Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte der Phänomene. • ‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert. • ‘Formal’: Maschinenlesbar • ‘Gemeinsam’: Reflektiert Wissen über das Konsens in der Gemeinde herrscht. Quelle: [Fen03] Felix Naumann, VL Informationsintegration, WS 05/06

  34. Was ist eine Ontologie? • Ontologien sind soziale Kontrakte: • Akzeptierte, explizite Semantik • Verständliche für Außenstehende • (Meist) erzeugt in einem community process. • Im Gegensatz zu Datenbankschema • Zielrichtung dort: Physischen Datenunabhängigkeit • Im Gegensatz zu XML-Schema • Zielrichtung dort: Dokumentstruktur Quelle: [DK03] Felix Naumann, VL Informationsintegration, WS 05/06

  35. Arten von Ontologien • Domänen-Ontologien • Für eine spezielle Domäne (Elektronik, Medizin, Datenbanken, usw.) • Meta-Ontologien • Verwendbar über Domänen hinweg • Stellen Vokabular zur Verfügung • Beispiel: Dublin Core für Dokumente • Generische Ontologien (common sense) • Vokabular über Dinge, Ereignisse, Zeit, Raum, etc. • Verwendbar über Domänen hinweg • Beispiel: Meter und Inch Konvertierungtabellen Quelle: [Fen03] Felix Naumann, VL Informationsintegration, WS 05/06

  36. Ontologien: Beispiele • WordNet • 100.000 Worte mit natürlichsprachlicher Bedeutung • Organisiert in Synonym-Sets • Kategorisierung • Substantiv, Verb, Adjektiv, Adverb, Funktionswort • Zusätzliche Beziehungen • Synonym, Antonym • Hyponomy (is-a Beziehungen als Hierarchie) • Meronymy (part-of Beziehungen) • Morphologie (für Wortformen) • Vorteile • Domänenunabhängig, groß, frei verfügbar Felix Naumann, VL Informationsintegration, WS 05/06

  37. Ontologien: Beispiele • Cyc • Entstammt aus KI Forschung • Versuch, Allgemeinwissen zu formalisieren • 100.000de Konzepte formalisiert • Millionen Axiome, Regeln, Einschränkungen • Cycorp Felix Naumann, VL Informationsintegration, WS 05/06

  38. Eine high-level Ontologie Quelle: [HHL04] Felix Naumann, VL Informationsintegration, WS 05/06

  39. Gene Ontologie • Ziel: Kontrolliertes Vokabular (controlled vocabulary) über Organismen in Bezug auf Gene und Proteine • 16675 Ausdrücke • [Term] id: GO:0000001 • name: mitochondrion inheritance • namespace: process • def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:11389764, PMID:10873824, SGD:mcc] • is_a: GO:0048308 (-> organelle inheritance) • is_a: GO:0048311 (-> mitochondrian distribution) • [Term] id: GO:0000002 • name: mitochondrial genome maintenance • namespace: process • def: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai] • is_a: GO:0007005 • [Term] id: GO:0000003 ... • http://www.geneontology.org/ Felix Naumann, VL Informationsintegration, WS 05/06

  40. Gene Ontology • Probleme in GO (aus [SKK04]) • z.B. A partOf B • „A is always part of B“ • „A is sometimes part of B“ • „A can be part of B“ • „Vocabulary A is included within vocabulary B“ • Ähnliches für A isA B Felix Naumann, VL Informationsintegration, WS 05/06

  41. Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06

  42. Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06

  43. Killer-Application des Semantic Web? • Das Semantic Web selbst! • Ähnlich wie das Web selbst Killer-App des Internet war. • Wichtige Anwendungen z.B. • Online Kataloge für B2B und B2C • Reiseplanung und Reisekoordination mit Terminplaner Felix Naumann, VL Informationsintegration, WS 05/06

  44. Die Zukunft des Semantic Web • Semantic Web in der physischen Welt • URI zeigen auf physische Objekte • RDF beschreibt physische Objekte • Physische Objekte beschreiben ihre Fähigkeiten und Funktionen. • Home-automation • Lautstärkeregelung • Mikrowelle sucht nach optimalen Kochparametern auf Iglo Webseite Aber: Es gibt auch Kritik und viele Skeptiker! Felix Naumann, VL Informationsintegration, WS 05/06

  45. Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06

  46. Integrierte Informationssysteme Anfrage Design time Run time Integriertes Informations- system Architekturen Datenfusion / ETL Anfragesprache Anfrageplanung Schemamanagement Optimierung Wrapper Anfrageausführung Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system Felix Naumann, VL Informationsintegration, WS 05/06

  47. Glossar aus [BLHL01] • Resource: Web jargon for any entity. Includes Web pages, parts of a Web page, devices, people and more. • URL: Uniform Resource Locator. • URI: Universal Resource Identifier. URLs are the most familiar type of URI. A URI defines or specifies an entity, not necessarily by naming its location on the Web. • RDF: Resource Description Framework. A scheme for defining information on the Web. RDF provides the technology for expressing the meaning of terms and concepts in a form that computers can readily process. RDF can use XML for its syntax and URIs to specify entities, concepts, properties and relations. • Ontologies: Collections of statements written in a language such as RDF that define the relations between concepts and specify logical rules for reasoning about them. Computers will "understand" the meaning of semantic data on a Web page by following links to specified ontologies. • Agent: A piece of software that runs without direct human control or constant supervision to accomplish goals provided by a user. Agents typically collect, filter and process information found on the Web, sometimes with the help of other agents. • Service discovery: The process of locating an agent or automated Web-based service that will perform a required function. Semantics will enable agents to describe to one another precisely what function they carry out and what input data are needed. Felix Naumann, VL Informationsintegration, WS 05/06

  48. Literatur • [BLHL01] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web, Scientific American, May 2001 • [DK03] Stefan Decker und Vipul Kashyap. The Semantic Web: Semantics for Data on the Web, Tutorial at VLDB 2003 Berlin. • [Fen03] Dieter Fensel. Lecture Introduction:Semantic Web & Ontology, 2003 • [OH03] Slides: Semantic Web. Jacco van Ossenbruggen, Lynda Hardman. CWI Amsterdam 2003. • [BL] Tim Berners Lee. The Semantic Web (slides). http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/Overview.html • Web sites • www.ontoknowledge.org • www.ontoweb.org • www.daml.org • www.w3.org/2001/sw/ • www.semanticweb.org Felix Naumann, VL Informationsintegration, WS 05/06

More Related