1 / 16

Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens. Vollautomatisches bestimmen von Relationen Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme Syntaktische Relationen Grammar induction Semantische Relationen Hyperonyme, meronyme Referat: Weeds 03 und 04 papers.

Download Presentation

Automatische Akquisition linguistischen Wissens

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatische Akquisition linguistischen Wissens Vollautomatisches bestimmen von Relationen • Anforderungen • Welches Wissen und welches nicht • Komplexitätsprobleme • Syntaktische Relationen • Grammar induction • Semantische Relationen • Hyperonyme, meronyme • Referat: Weeds 03 und 04 papers Automatische Akquisition linguistischen Wissens

  2. 1.1. Anforderungen • Welche Art Wissen könnte überhaupt (wirklich vollautomatisch) extrahiert werden und welche nicht? • Domänenunabhängig gibt es stets Synonyme, Meronyme und Hyperonyme. • Aber welche genau, ist Domänenabhängig • Welche Relationen gibt es noch? • Domänenabhängig gibt es spezielle Relationen, die in anderen Domänen keinen Sinn ergeben, bzw. nicht existent sind • Chemische Stoffe in Medizin haben Relation des Reagierens oder Nicht-reagierens miteinander, welche z.B. Endo- oder Exoterm sein kann. • Idealerweise Algorithmus derart allgemein, dass alle „findbaren“ Relationen gefunden werden • Findbar: Durch eigenen Sprachgebrauch, bzw. sprachl. Strukturen markiert • Beispiel die chemischen Strukturen sind einach an Morphologie erkennbar Automatische Akquisition linguistischen Wissens

  3. 1.2. Komplexitätsprobleme • Theoretisch wäre es möglich, Evaluierung zu definieren und anschließend alle Möglichkeiten von Features und Clusterverfahren durchprobieren. • Analyse des generierten Verfahren ergäbe dann „verstehen“ des erwünschten Phänomens. • Demgegenüber steht allerdings, dass selbst eine der Möglichkeiten auf modernen PCs Wochen dauern kann, d.h. auch Mit Hilfe des Moorschen Gesetzes lässt sich voraussehen, dass das keine gute Lösung. • Clustern von 100K Wörtern unter Ausnutzung von Features: • Nachbarschaftskookkurrenzen (nur links, nur rechts, beides) (eher syntaktisch) • Mit Fenstergrösse (gemischt) • Satzkookkurrenzen (eher semantisch?) • Partielle Satzstrukturen (grammatische Strukturen?) • Mit verschiedenen Clusterverfahren, Parametereinstellungen usw. Automatische Akquisition linguistischen Wissens

  4. 2.1. Syntaktische Strukturen • Extraktion syntaktischer Strukturen (was über reines Wortklassentagging hinausgeht) schon dadurch schwierig, weil Ziel unklar • Sollen Dependenzstrukturen gefunden werden? • Oder Kontextfreie Grammatik? • Oder lediglich Subjekt- Objekt (also vereinfachte Dependenz) • Oder vielleicht das, was extrahierbar ist und Arbeit besteht dann darin, die extrahierten Strukturen zu verstehen? • Ausserdem unklar, in welche Sorten von Datenstrukturen überhaupt abgebildet werden soll • Reichen bereits einfache Terminalregeln? • Oder Bäume? • Oder müssen es komplexe Graphen sein? Automatische Akquisition linguistischen Wissens

  5. 2.2. Grammar Induction • Grammar Induction [..] can be formulated as the task of discovering common structures in examples which are supposed to be generated by the same process. (Pierre Dupont) • Auch genannt automata induction oder grammatical inference • Allerdings wird darunter meist das Lernen von z.B. einem sehr konkreten DFA von gelabelten Daten verstanden. • 4456 2 (4456 String, 2 Zeichen im Alphabet) • Akzeptiert/nichtAkzepiert Laenge <und dann string> • 1 11 0 0 1 0 0 0 0 0 1 0 0 • 0 15 0 0 0 0 0 1 1 1 0 1 0 0 0 1 1 • 1 12 1 1 0 0 1 1 0 1 0 1 0 0 • 0 14 0 1 1 1 1 1 0 1 1 1 0 0 1 0 • Zu dem allen ist auch noch Anzahl der Zustände des DFA bekannt Automatische Akquisition linguistischen Wissens

  6. 2.4. Aktueller Stand • Sehr einfache Beispiele von DFA können gelernt werden, Anwendbarkeit auf Sprache bislang jedoch sehr fragliche • Forschung findet auf sehr formalem Level statt (Automatische und Sprachen, Logiktheorie) • Einige andere Projekte vielversprechend • z.B. GraSp von Henrichsen, in welchem versucht wird, zunächst Kategorien herzuleiten durch Clustern und auf diesen Kategorien wieder zu clustern. Ergebinsse allerdings bislang noch etwas kryptisch Automatische Akquisition linguistischen Wissens

  7. 3.1. Semantische Strukturen • Es ist fraglich, ob so genannte semantische Strukturen überhaupt Strukturen sind, in dem Sinne als dass sie in allen Sprache mehr oder weniger „gleich“ vorkommen • Intuitiv ist es klar, dass es Antonyme wohl in jeder Sprache gibt, ebenso wie Über- und Unterbegriffe • Es gibt auch aus der formalen Semantik Formalismen, diese zu beschreiben, welche allerdings wieder ein intuitives Verständnis von Sprache oder der Welt voraussetzen • Bsp. Merkmalsemantik: Mann -> +lebendig Leiche -> -lebendig • Allerdings, was ist ‘lebendig’ und wie findet man dieses? • “Semantische Strukturen” könnten allerdings auch als zweiwertige Wortklassen verstanden werden: • Prädikat Substantiv(Berg)=1 • Prädikat Antonym(hoch,tief)=1 Automatische Akquisition linguistischen Wissens

  8. 3.2. Beobachtbarkeit • Eine andere Frage ist, ob sich diese “Strukturen” auch wirklich an der Oberfläche der Sprache direkt oder indirekt beobachten lassen • Woran erkennt man in dem Beispiel ‘Ein hoher Berg und ein tiefes Tal.’ die Antonyme? Für Computer sieht das doch eigentlich in diesem Sinne so aus: • Ein xxx Berg und ein yyy Tal. • Durch indirekte Beobachtungen Wissen dass gleiche Wortklasse • Weiterhin als modifizierer vor einer Gruppe von Wörtern, die evtl. irgend etwas gemeinsam haben • Auf der einen Seite Berg, Baum, Turm, usw. • Auf der anderen Seite Tal, Fluss, Meer, usw. • Vielleicht genügt das bereits, um herauszufinden, dass das zwei einander widersetzliche Adjektive sind? Automatische Akquisition linguistischen Wissens

  9. 3.3. Ober- und Unterbegriffe • Idee basiert auf zwei Voraussetzungen: • Wenn ein Wort wi ein Kohyponym von wj ist, dann werden sie auffällig oft miteinander vorkommein und ähnliche globale Kontexte besitzen • Wenn ein Wort wi Oberbegriff von wj ist, dann werden sie zwar selten miteinander auftreten, jedoch ähnliche globale Kontexte besitzen • Beispiel: • The cat eats the mouse. The dog hunts the cat. The cow gives milk. The cat, the dog, mouse and even the cow are all mammals. • Das kann auch visualisiert werden. • X-Achse als Ähnlichkeit der globalen Kontexte • Z-Achse gemeinsames Auftreten Automatische Akquisition linguistischen Wissens

  10. 3.4. Elefantenbeispiel Automatische Akquisition linguistischen Wissens

  11. 3.5. Reales Beispiel Automatische Akquisition linguistischen Wissens

  12. 3.6. Automatisch verifizierte Beispiele Automatische Akquisition linguistischen Wissens

  13. 3.7. Probleme mit derartigen Ansätzen • Semantische Strukturen sind deutlich komplexer als syntaktische oder solche auf niedrigeren sprachlichen Ebenen • Offenbar sollten erst Teile des Problems gelöst werden, bevor nächstkomplexes Thema (erfolgreich) in Angriff genommen werden kann • Hier ist nicht bekannt, bei welchem Wort es überhaupt Sinn macht (Wortklassen) • Richtung unbekannt (nicht einfach Frequenz) • Morphologische Information nicht genutzt (Elefant-en, Tier-e) • Meronyme spielt ähnliche Rolle wie Kohyponymie, wird dafür aber „Zoo“ statt „Tier“ präferieren • Ist Zoo und Elefant Teil-von? • Ambiguitätsprobleme • Wortähnlichkeit auf anderen Kontexten? Automatische Akquisition linguistischen Wissens

  14. Automatische Akquisition linguistischen Wissens

  15. Automatische Akquisition linguistischen Wissens

  16. Automatische Akquisition linguistischen Wissens

More Related