1 / 11

Themen Übung 11

Themen Übung 11. unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank. Einschub: Unterschied zwischen supervised und unsupervised Methoden. Komplettes supervised cross-language retrieval system: Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache

Download Presentation

Themen Übung 11

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Themen Übung 11 • unsupervised vs. supervised • Symbolfolgen, Kunstsprachen • Page Rank Seminar Textmining WS 06/07

  2. Einschub: Unterschied zwischen supervised und unsupervised Methoden • Komplettes supervised cross-language retrieval system: • Manuell gebaut Regeln für Wort- und Satzsegmentierung in Quell- und Zielsprache • Manuell erstellte Parses für Sätze und darauf trainierter Parser • Übersetzung der Suchterme in Zielsprache • Erweiterung durch Thesaurus • Abfrage des automatisch erstellten Indexes nach Suchtermen, evtl. in gegebener syntaktischer Konstruktion • Dagegen unsupervised: • Wort- und Satzsegmentierung einmal für Quellsprache erstellt, evtl. Fehlerhaft bei Abkürzungen in Zielsprache • Automatisch induzierter Parser – keine Labels für syntakt. Beziehungen • Übersetzen der Suchterme in Zielsprache anhand automatisch induziertem Wörterbuch • Erweiterung durch semantisch ähnliche Wörter berechnet aus Korpus in Zielsprache • Abfrage des Indexes nach Suchtermen Seminar Textmining WS 06/07

  3. Supervised-unsupervised • Suprevised Systeme haben in ihren Ausgangsdaten deutlich weniger Fehler, aber schlechtere Abdeckung • Abdeckung sowohl was Vokabular angeht, als auch Verwendung • Supervised Parser basieren auf künstlicher Vorstellung über in Sprache existierender Grammatik und können sich nicht an neue Daten anpassen, da diese erst manuell geparst werden müssten • Unsupervised Systeme inhärent Domänenabhängig • Was ist eigentlich Domäne? • Unsupervised Systeme lernen nur die Grammatik, die sie sehen, dafür lernen sie prinzipiell von jedem Satz, auch von den, die sie gerade frisch neu gesehen haben. Seminar Textmining WS 06/07

  4. Symbolfolgen und Kunstsprachen • Wozu überhaupt Kunstsprachen? Seminar Textmining WS 06/07

  5. Symbolfolgen und Kunstsprachen • Wozu überhaupt Kunstsprachen? • Wenn ein Modell komplex genug ist, alle Phänome aufzuweisen, hat man gesamtes System verstanden (modelliert) • Dienen als Grundlage für Messungen statistisch signifikanter Abweichungen: Unabhängigkeitsannahme nimmt zufällige Verteilung von z.B. Wörtern und erlaubt Messungen von signifikanten Abweichungen davon • Bewusstes auslassen konkreter Faktoren ermöglicht es, diese wie mit einem Filter einzeln zu untersuchen Seminar Textmining WS 06/07

  6. Modellierungen • Perfekte Abhängigkeit von aufeinanderfolgenden Symbolen lässt sich komplett mit Markov-Folgen modellieren. • Aufgabe: Lässt sich das einfache EinMalEins per Markov-Folgen modellieren? • lässt sich natürliche Sprache mit unendlichen Markov-Folgen modellieren? • Modellierung dieser Abhängigkeiten durch Wahrscheinlichkeiten • Dagegen: Bernoulli-Folgen • Würfel mit n Seiten, jeder Wurf ist vom vorhergehenden unabhängig. • Perfekt beschrieben durch Markov-Modell mit n Zuständen (jeder Zustand ist je eine Seite), wo von jedem Zustand exakt gleiche Wahrscheinlichkeit zu jedem anderen führt • Experiment würde zu keiner sign. Abweichung führen Seminar Textmining WS 06/07

  7. Einfache Markov-Folge • Gegeben sei einfache Folge von n verschiedenen Zahlen, wo auf eine gerade stets eine ungerade Zahl führt und umgekehrt. Die nächsthöhere gerade/ungerade Zahl ist dabei doppelt so wahrscheinlich wie die nächstniedrigere. • Stellen Sie für n=6 die Übergangswahrscheinlichkeitsmatrix auf. • Wie gross ist der notwendige Kontext, um diese Sprache perfekt durch Markov-Modell zu beschreiben? • Weitere Begriffe: Topologische Markov-Folgen? • Wichtige Unterscheidung: • Wahrscheinlichkeit für Symbole • Wahrscheinlichkeit für Übergänge zwischen Symbolen (n-gramme ggfs. als Approximation dafür) • Wahrscheinlichkeit für Übergänge zwischen Zuständen eines generierenden Automaten (Hidden-Markov-Models) Seminar Textmining WS 06/07

  8. Affen schreiben auf Schreibmaschine Modellierung von Sprache • Idee: Wenn man Zufallsgenerator Wörter oder Sätze generieren lässt, irgendwann kommt doch ein richtiger neuer Satz oder richtiges Wort heraus! • Jeder Buchstabe zu jedem Zeitpunkt gleichwahrscheinlich • Ergibt das Zipfverteilung von Wörtern? Wenn nein, welche Verteilung entsteht? • Bessere Modellierung (Christian Biemann’s Word and Sentence Generator) Seminar Textmining WS 06/07

  9. PageRank • Ursprüngliche Idee (Brin & Page 98 „The anatomy of a large-scale hypertextual Web search engine “) ist, dass eine Seite umso wichtiger ist, je mehr Links darauf zeigen • Verfeinerung: Je wichtiger eine Seite ist, umso wichtiger der Link. • D.h. ein einziger Link einer wichtigen Seite kann mehr wert sein, als 1000 Links von unwichtigen Seiten • Das heisst aber auch, dass die Berechnung rekursiv ist! • Wie könnte man das also nicht-rekursiv berechnen? Seminar Textmining WS 06/07

  10. Berechnung von PageRank • Einfaches Nachverfolgen der immer wichtigsten Link führt zu folgendem Problem: • In einem Graphen mit 5 Knoten und einem Kreis mit 3 Knoten würde sich evtl. nur der Kreis die ganze Zeit selbst aktualisieren • und immer wichtiger machen… • Lösung: Zufälliges Springen auf irgend eine andere Seite während dem Aktualisierungsprozess • Berechnen Sie den PageRank für alle Webseiten des folgenden Graphen: B A F D E C Seminar Textmining WS 06/07

  11. Seminar Textmining WS 06/07

More Related