Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens Musterbasierte Extraktion spezifischer Relationen (Identifying/detecting/extracting thesaurus relations) • Ziele • Aktuelle Ansätze • Clustertechniken • Wildcardmuster • Semantische Ausrichtung von Adjektiven Referat: Meronyme (Berland, Charniak) oder Adjektivausrichtung (Hatzivassiliglou) Automatische Akquisition linguistischen Wissens

1. Ziele • Design von möglichst stabilen Algorithmen • Halb-automatischen Extraktion genau spezifizierter Relationen mit Belegstellen • Ebenfalls (gleiche Methoden) Extraktion von konkretem Wissen (Information Extraction) • Unterstützung manueller Annotation • Information Retrieval statt Text Retrieval, welches normalerweise IR genannt wird • So können z.B. alle Firmennamen in einer Sammlung von Dokumenten automatisch gesammelt werden • Feine Extraktion z.B. nur von Firmennamen, die irgend etwas mit Medizin zu tun haben Automatische Akquisition linguistischen Wissens

1.1. Eigenschaften • Zu extrahierendes Wissen oder Relationen müssen sprachliche Regelmäßigkeiten aufweisen: • Teil-von: X ist ein Teil von Y • Oberbegriffe: X ist ein Y • Synonyme ungünstig, da keine deutlichen sprachlichen Repräsentationen • Allerdings auch ungewöhnliche Dinge wie Adjektivausrichtung möglich (Hatzivassiliglou 97) • Idealerweise lassen sich Muster möglichst abstrakt ausdrücken • Nicht einfach nur Muster, sondern auch syntaktische Konstruktionen • aber auch nicht zu komplex, um möglichst Sprachneutralität zu behalten Automatische Akquisition linguistischen Wissens

1.2. Ausblicke Ultimativ derartiger Algorithmus anschließend an automatische Extraktion von auffälligen Mustern. • Dazu sollte Algorithmus möglichst Fehlertolerant sein, bzw. Verifizierung der erhaltenen Ergebnisse beinhalten • Dabei je strukturierter die extrahierten Daten, umso mehr Verifizierung kann stattfinden: • Titel, Beruf, Name und Vorname für Personenextraktion • Dann können Widersprüche automatisch aufgelöst werden, denn was Name ist, ist meist nicht gleichzeitig Titel. • Widersprüche dabei nicht im streng logischen Sinne sondern lediglich Wahrscheinlichkeiten, bzw. „Unwahrscheinlichkeiten“ Automatische Akquisition linguistischen Wissens

1.3. Verwandtheit mit Information Extraction • http://gate.ac.uk/ie/ (siehe Beispiel nächste Folie) • http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ Allerdings hat Information Extraktion den Vorteil, größtenteils mit sehr strukturierten Daten zu arbeiten. • Namen sind dabei die einfachste Variante • Bestimmte gut definierbare Sorten von Ereignissen • Entitäten aller Arten (Firmen, Produkte, Neuerungen, Technologien) haben alle eigene Strukturen • Firma: X Inc., Chief Executive of X, X Association, … • Produkte: Our newly designed X, problems with the X, … • Technologien: this new technology X will help us … • Extraktion von Relationen jedoch meist genereller und nicht sehr domänenspezifisch (Meronyme kommen in technischen Artikeln natürlich häufiger vor) Automatische Akquisition linguistischen Wissens

1.3.1. Beispiel Die Aufgabe lautet, ein Template mit Information über Nachfolgeereignisse auszufüllen Folgender Key vorgegeben: <ORGANIZATION-1> NAME : "New York Times Co." <ORGANIZATION-2> NAME : "New York Times" <PERSON-1> NAME : "Russell T. Lewis" <PERSON-2> NAME : "Lance R. Primis" <DOC> <DOCID> wsj93_050.0203 </DOCID> <DOCNO> 930219-0013. </DOCNO> <HL> Marketing Brief: @ Noted.... </HL> <DD> 02/19/93 </DD> <SO> WALL STREET JOURNAL (J), PAGE B5 </SO> <CO> NYTA </CO> <IN> MEDIA (MED), PUBLISHING (PUB) </IN> <TXT> <p> New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent. </p> </TXT> </DOC> Automatische Akquisition linguistischen Wissens

1.3.2. Beispiel fortgesetzt SUCCESSION-1> ORGANIZATION : <ORGANIZATION-2> POST : "president" WHO_IS_IN : <PERSON-1> WHO_IS_OUT: <PERSON-2> <SUCCESSION-2> ORGANIZATION : <ORGANIZATION-2> POST : "general manager" WHO_IS_IN : <PERSON-1> WHO_IS_OUT: <PERSON-2> <SUCCESSION-3> ORGANIZATION : <ORGANIZATION-2> POST : "executive vice president" WHO_IS_IN : WHO_IS_OUT : <PERSON-1> <SUCCESSION-4> ORGANIZATION : <ORGANIZATION-2> POST : "deputy general manager" WHO_IS_IN : WHO_IS_OUT : <PERSON-1> <SUCCESSION-5> ORGANIZATION : <ORGANIZATION-1> POST : "president" WHO_IS_IN : <PERSON-2> WHO_IS_OUT : <SUCCESSION-6> ORGANIZATION : <ORGANIZATION-1> POST: "chief operating officer" WHO_IS_IN : <PERSON-2> WHO_IS_OUT : Automatische Akquisition linguistischen Wissens

1.3.3. Beispiel strukturiert Vorgegebene und dem System vermutlich bekannte Elemente sind markiert Dadurch Struktur des Artikels: • Es wird deutlich, dass derartige Artikel Formularhaftigen Charakter haben • Dadurch mit Hilfe einfacher regulärer Ausdrücke interpretierbar • Speziell: He succeeds X • Einfache Auflösung des nächsten Personennamens zurück im Text (welcher auch noch vorgegeben war) • Zusätzliche Verifizierung durch named vs. was named <DOC> <DOCID> wsj93_050.0203 </DOCID> <DOCNO> 930219-0013. </DOCNO> <HL> Marketing Brief: @ Noted.... </HL> <DD> 02/19/93 </DD> <SO> WALL STREET JOURNAL (J), PAGE B5 </SO> <CO> NYTA </CO> <IN> MEDIA (MED), PUBLISHING (PUB) </IN> <TXT> <p> New York Times Co.namedRussell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeedsLance R. Primis, who in September was namedpresident and chief operating officer of the parent. </p> </TXT> </DOC> Automatische Akquisition linguistischen Wissens

2. Aktuelle Ansätze • Teilen sich grob in mehrere verschiedene: • Clustertechniken von Head-Modifier Strukturen (z.B. Ruge 97) • „Echte“ Muster, ausgedrückt per reguläre Ausdrücke (z.B. Berland & Charniak 99) • Clustern anhand von vorgegebenen Punkten, optional mit Tagging (Hatzivassiloglou 97) • Hybride Verfahren (Hearst 92) • Gemeinsam ist, dass alle Verfahren jeweils für eine sehr spezielle, aber allgemeine Relation ausgelegt sind: • Hyperonymie (Hearst 92) • Ausrichtung von Adjektiven (Hatzivassiloglou 97) • Synonyme (bzw. ähnliche Wörter) (Ruge 97) • Meronyme (Berland & Charniak 99) Automatische Akquisition linguistischen Wissens

2.1. Was ist „Bambara ndang“? … oder der „Hearst“-Ansatz, welcher aus zwei Teilen besteht: • Zunächst wird halbautomatisch eine Menge von lexiko-syntaktischen Mustern identifiziert, welche • häufig, • über mehrere Genres hinweg auftreten, • und unzweifelbare Indikatoren für die gewünschte Relation sind • Diese Menge von Mustern wird dann zur Extraktion von Wortpaaren, die in der Relation stehen genutzt • Und dabei gleich noch die Struktur eines manuell erstellten Thesaurus analysiert und kritisiert • Wichtiger Unterschied zu klassischen linguistischen Parsern und dergleichen ist, dass nicht jeder Satz im Detail geparst wird Automatische Akquisition linguistischen Wissens

2.1.1. Beispiel • Im Detail muss auch gar nicht immer geparst werden, da Information oft offensichtlich da steht: The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck for each string. • Ohne „bow lute“ würde ein Mensch dennoch eine Ahnung bekommen, dass es sich evtl. um ein musikalisches Gerät handelt • Allerdings steht die Definition viel Einfacher erklärend direkt im Satz. • Interessanterweise haben Menschen zusätzlich eine Vorstellung davon, was eine „bow lute“ ist, obwohl sie diesen Begriff oder ein entsprechendes Objekt vermutlich nie vorher gesehen haben • Aber das ist nicht unser Gebiet… • Wichtig für uns ist, dass „bow lute“ vermutlich eine spezielle „lute“ ist und „Bambara ndang“ nach diesem Satz offenbar eine spezielle „bow lute“ Automatische Akquisition linguistischen Wissens

2.1.2. Generierung von Mustern • Aus dem gegebenen Beispiel ließe sich folgendes Muster ableiten (getaggter Korpus vorausgesetzt): NP0 such as {NP1, NP2 , … , NPn-1 (and | or)} NPn • Aus diesem Muster folgt dann die Implikation, dass für alle NPi,1≤i≤n, Unterbegriff(NPi, NP0) • Dieses und andere derartige Muster erfüllen neben den bereits genannten Eigenschaften noch eine weitere: • Wenn das POS-tagging bereits gegeben ist, lassen sie sich ohne komplizierte und fehleranfällige Parser oder ähnliches erkennen • Dies wiederum umgeht das zirkuläre Problem, dass der Algorithmus sonst ein Tool bräuchte, welches es eigentlich helfen würde zu erstellen • Und das impliziert wiederum, dass die evtl. zu groben Ergebnisse dieses Algorithmus in den Bau komplexerer Parser u.ä. für feinere Extraktionsmechanismen gesteckt werden können Automatische Akquisition linguistischen Wissens

2.1.3. Die Menge der Muster • Angefangen wird mit einer kleinen Menge von per Hand definierten Mustern: • such NP as {NP ,} * {or|and} NP … works by such authors as Herrick, Goldsmith, and Shakespeare → Unterbegriff(”Herrick”,“author(s)”) Unterbegriff(”Goldsmith”,“author(s)”) Unterbegriff(”Shakespeare”,“author(s)”) • NP {, NP} * {,} or|and other NP … bruises, wounds, broken bones or other injuries … → Unterbegriff(“bruises”,”injury(ies)”) Unterbegriff(“wound”,”injury(ies)”) Unterbegriff(“broken bone”,”injury(ies)”) Automatische Akquisition linguistischen Wissens

2.1.4. Auswertung der Muster • Weitere Muster: • NP {, NP} * {,} and other NPtemples, treasuries and other important civic buildings • NP {,} including {NP ,} * {or | and} NPAll common-law countries, including Canada and England • NP {,} especially {NP ,} *most European countries, including France, England and Spain. • Wenn eine Relation zwischen zwei NPs gefunden wurde, wird zwar • Lemmatisierung durchgeführt, • Aber keine weitere Analyse • Das führt dazu, dass broken bone ebenfalls ein neuer Eintrag in das Thesaurus wäre, aber auch important civic buildings Automatische Akquisition linguistischen Wissens

2.1.5. Erweiterung der Mustermenge • Initiale Mustermenge (1-2) wird genutzt, um Menge von Wortpaaren zu finden, die in der gesuchten Relation stehen • Danach wir diese Menge von Wörtern wieder genutzt, um die Muster zu erweitern, indem beobachtet, in welchen Konstruktionen diese vorkommen. So wurden Regeln 3-5 gefunden. • Hearst haben diesen Bootstrappingprozess nicht implementiert, sondern teilweise manuell gelassen, da speziell das Erkennen von gleichen oder relevanten Konstruktionen gegenüber ambigen problematisch war Automatische Akquisition linguistischen Wissens

2.1.6. Vergleichen der Resultate mit WordNet Es können drei Situationen eintreten: • Verifizieren: Wenn sowohl N0 als auch N1 in WordNet sind und (evtl. durch transitives schliessen) sie in der Unterbegriff() Relation stehen • Kritik: Wenn sowohl N0 als auchN1 in WordNet vorhanden sind, aber nicht in Relation Unterbegriff() stehen • Verändern: Wenn N0 oder N1 nicht in WordNet vorkommen Beispiel für Kritik: • Other input-output devices, such as printers, color plotters, … → Unterbegriff(“printer”,”input-output device”) • In WordNet jedoch: Automatische Akquisition linguistischen Wissens

2.1.7. Generierte Kritik • Hier ist aber I/O device keinesfalls Überbegriff zu printer, überhaupt Unterschied zwischen mechanism und device artifact, article, artefact mechanism device machine I/O_device mechanical_device computer printer, printing_machine machine, simple_machine line_printer laser_printer typeprinter Automatische Akquisition linguistischen Wissens

2.1.8. Hearsts Versuchsaufbau • Benutze Enzyklopädie (Groliers American Academic Enzyclopedia), um Text mit vielen Definitionen zu erhalten • Insgesamt 152 verschiedene Wortpaare, die allen Bedingungen entsprachen und mit „such as“ verbunden waren • Dabei 180 von 226 unterschiedlichen Wörtern waren in WordNet und 61 von 106 gutartige Relationen (wo beide Wörter in WordNet vorkamen • Dabei manches problematisch: • king, institution (Metonymie) • Steatornis, species (Unterspezifizierung) • Washington, nationalist • Aircraft, target (recht… domänenspezifisch) Automatische Akquisition linguistischen Wissens

2.2. Head-modifier oder (Ruge 97) Ansatz • Dependenzgrammatik hat als zentralen Bestandteil das head-modifier Prinzip. • Dabei ist head ein Term, der durch weitere Ausdrücke modifiziert werden kann: • thesaurus construction • construction of a complete domain independentmonolingual thesaurus • automatic thesaurus generation or construction • Allerdings kann ein Modifier auch mehrere heads haben (automatic) • Dependency Grammatik ist sprachunabhängiger als Chomsky Grammatik Automatische Akquisition linguistischen Wissens

2.2.1. Berechnung von Synonymie • Head-Modifier Relation kann auch als Baumstruktur dargestellt werden. • Durch weglassen von Stopwörtern kann mehr oder weniger sprachunabhängige Grammatik von Sätzen erreicht werden: • Peter drinks sweet hot coffee. • Peter drinks a coffee which is sweet and hot. • Diverse einfache Tagger können genutzt werden, um head-modifier Bäume in rohem Text zu taggen mit 85% Genauigkeit • Synonyme sollen dann als Ähnlichkeitüber Modifier berechnet werden: • Je mehr modifier und heads ein Term mit einem anderenmeistens gemeinsam hat, umso ähnlicher sind sie drink Peter coffee sweet hot Automatische Akquisition linguistischen Wissens

2.2.2. Berechnung von Synonymie II • Ruge verwendet ein logarithmisch „gesmoothstes“ cosinus Mass, in welchem heads und modifier gleiches Gewicht haben, um gerankte Liste von Ähnlichen Wörtern zu berechnen • Performanz leider kaum gemessen, allerdings angeblich im Schnitt 70% Wörter, die für querz expansion genutzt werden konnten. • In einem anderen Paper wurde eine Ähnliche Technik verwendet und eine Verbesserung der Retrieval Qualität um 20% erreicht. • Bei diesem Ansatz ist vor allem der zweistufige Ansatz zur Ähnlichkeitsberechnung interessant und wie nächstes Seminar deutlich wird, ist die Extraktion von head-modifiern evtl. nicht so wichtig. • da sie zu gleichen Gewichten in cosinus eingehen, ist Unterscheidung unwichtig • Und durch Entfernung der Stoppwörter ist das Finden von head-modifiern in diesem Fall vermutlich äquivalent zu einem richtigen Signifikanzmaß bei Satzkookkurrenzen Automatische Akquisition linguistischen Wissens

Referat: • Auswahl aus mehreren Veröffentlichungen • Meronyme: Berland & Charniak 99 • Adjektivorientierung: Hatzivassiloglou 97 • Ober- Unterbegriffe: Hearst 92 • Oder allgemein Ruge 97 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens