Information Extraction Techniques Overview in Natural Language Processing

2 Faktenextraktion: Übersicht • Faktenextraktion - zwischen Information Retrieval und Sprachverstehen Message Understanding Conferenc (MUC) Wettbewerb: IR-Fragestellung: "Relevant sind alle Artikel, die eine Wirtschaftsprognose für 2003 abgeben und eine Aussage zum Haushaltsdefizit machen." NLP-Fragen: "Wie hoch ist das Haushaltsdefizit voraussichtlich in 2003?" Wie lautet die Schätzung für das Wirtschaftswachstum in 2003 ?" Siehe Tutorial von Appelt, SRI, Tutorial 1999. Wilckes: Information Extraction, TR. (elektronischer Reader)

Einschränkungen gegenüber NLP • Nur Teile des Inhalts "relevant" • Wie spezifiziert man den? • z.B. Datenbankschem ButtoSProd ( Jahr, Wert), ......, WachstumProg (Inst, Datum, fürJahr, Wert) • Faktenmuster<NP> <VP> Zahl <Proz> <VP><NP> Zahl <Proz> Trigger: NP=[Wirtschafts]wachstum VP=[betragen|Prognose ist|...] Proz=[%|Prozent]

Methoden zur Regeldefinition • Wie findet man die Extraktionsregeln? • Manuell / intellektuell ("Knowledge Engineering Ansatz") - Wissen über die Anwendung ("Domänen-Wissen") - Sprachliches Wissen (Grammatik, Wortsemantik..) => Regel-Definition in Handarbeit Aufwendig! Relativ gute Ergebnisse für eingeschänkte Anwendungsbereiche. • Statistische Techniken - Regeln durch Analyse großer Corpora lernen - Überwachtes Lernen (Trainer) nützlich => Aufwand geringer, aber Trainingsdaten? Statistische Techniken wichtig, s. o.

Grobarchitektur Wortzerlegung Morphologische / lexikalische Analyse • Typisch für alle Sprach- verarbeitungssysteme • Was ist spezifisch für FE / IE ? Parsing Feedback zur Disambiguierung Semantik / Anwendungskontext

FE und NLP • FE: sehr große Textmengen • Effizienz ist ein Thema • Texte nicht notwendig korrekt (grammatisch, Rechtschreibung,..) • Robuste Parsing-Techniken • Endliche Automaten für Parsing • Gegenstandsbereich wichtig • Domänenwissen in jeden Verarbeitungsschritt einbeziehen -> FE – Technologie: Vereinfachungen gegenüber Natural Language Processing. Aber: Unterschiedliche Schulen

Wortzerlegung Trivial ? Nein! Sprachabhängig, nicht jede Sprache kennt die Auflösung einer Äußerung in Worte. Aber Englisch, Deutsch..... Erkennen von Satzendungen? "Einer sog. Abstraktion kommt in der Informatik große Bedeutung zu." Dennoch eher einfaches Problem.

Morphologie • Dictionary look up (Lexikon) mit / ohne FlexionsformenIn machen Sprachen sehr viele Formen (Finnisch: 10000 mögliche Verformen!!) • Part-Of-Speech TaggingSammelbegriff für die Zuweisung von syntaktischen Kategorien (auch: grammatikalische Kategorien statt POST). • FE: eher untergeordnete Bedeutung (Appelt), da keine vollständige syntaktische Analyse • Auch: Eigennamen zuordnen "General Electric", "Yesterday Microsoft announced....", "The Redmond Microsoft branch.." )

Name Tagger • Stastisch: Hidden Markov Modelle • Annahme: Es gibt einen probabilistischen endlichen Automaten, der mit jedem Eingabewort schaltet. Pfad vom Start- zum Endknoten liefert Wahrscheinlichkeit für die Interpretation eines Namens aus verschiedenen Konstituenten (hier). z.B. "John Smith" (Person) , "John Deere" (Firmenname) • Lernverfahren anwendbar! • Regelbasiert • z.B. Sequenz von Worten, die mit Großbuchstaben beginnen......, sind Eigennamen (im Englischen!). • Wenn dem Wort w direkt GmbH | AG | Inc. folgt, handelt es sich um Firmennamen.

Syntax • "Full parsing" oder "Shallow parsing" ? • "Finite State Grammers" (reguläre Sprache ?!) reicht für Erkennung von einfachen Fakten. • Schwierige grammatikalische Konstrukte weglassen oder auflösen (Konjunktion -> 2 Sätze) • Fehler haben oft andere Ursachen als falsche syntaktische Zerlegung. • Keine binäre Entscheidung: genauere Kenntnis der syntaktischen Struktur ist nicht per se schädlich. • Verhältnis von Aufwand und Nutzen.

Semantik • "Molekularer Ansatz" • Finde induktiv Sprachmuster für die relevanten Fakten (Lesen von Texten, markieren, Regeln aufstelle "<Institut> <rechen | prognostizieren> <Wachstum[..] von <Zahl>" • Keine Trennung von sprachlicher Formulierung von Fakten und formaler Repräsentation (z.B. DB-Schema) • verspricht hohe Präzision, geringeren Recall • "Atomarer Ansatz" • Finde die wichtigen Konstituenten "Institute" "Wachstum" "Prognose" Würde (evtl. !) erkennen: "Die Institute sind sich sicher, dass das Bruttosozialprodukt sich um 2 % erhöhen wird" • Ableiten von Fakten aus Konstituenten.

Zusammenfassung • Faktenextraktion einfacher als Textverstehen. .... aber .... • viele Probleme des Textverstehens tauchen auch hier auf. • Statistische Techniken scheinen sinnvoll: • Lernen von Mustern • Lernen von Eigennamen etc. • Grammatik • Nutzen von Metatags (XML etc.?) • Anwendungen • Verbesserung von Information Retrieval als wichtige Anwendung. • Abfragbare Datenbanken aufbauen: schwierig, aber nützlich.

Information Extraction Techniques Overview in Natural Language Processing

Information Extraction Techniques Overview in Natural Language Processing

Presentation Transcript

DEUTSCH

Serotonin und Panik C.J. Bell und D.J. Nutt

Human Relation verhaltensorientierter Ansatz

Themen der Beratung

Seminar: Gewalt in sozialen Beziehungen Sommersemester 2007

Basel II: Eine Einf hrung

Kreide - Pal ogen Grenze

Agrarrecht

Sprachentwicklung Kindersprachtest f r das Vorschulalter KISTE

Weg vom Rockzipfel Starke Bindung- starke Kinder Prof. Bernhard H bner Leer 1.Oktober 2009

Strafrecht III

GR NE ELEKTRONIK

Microsoft Office Outlook 2007 in 3 Schritten

EVergabe im Landratsamt Enzkreis

FH Wiesbaden, bersicht

Psychologische Forschungsmethodik III -Allgemeine Psychologie

bersicht

Luft und Luftverschmutzung

Eine föderierte AA-Infrastruktur erleichtert die Integration von Internet Diensten

Arbeiten mit Javascript

Computing in der Hochenergiephysik Von der N or D zum Grid

Definitionen Kompetenz Lernobjekt Exkurs Diplomarbeit Adaptive Competence Testing in eLearning