1 / 11

Information Extraction Techniques Overview in Natural Language Processing

Learn about information extraction techniques, including rule-based and statistical methods, and their application in Natural Language Processing (NLP) tasks. Understand the challenges and strategies involved in extracting relevant facts from text data.

nelly
Download Presentation

Information Extraction Techniques Overview in Natural Language Processing

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2 Faktenextraktion: Übersicht • Faktenextraktion - zwischen Information Retrieval und Sprachverstehen Message Understanding Conferenc (MUC) Wettbewerb: IR-Fragestellung: "Relevant sind alle Artikel, die eine Wirtschaftsprognose für 2003 abgeben und eine Aussage zum Haushaltsdefizit machen." NLP-Fragen: "Wie hoch ist das Haushaltsdefizit voraussichtlich in 2003?" Wie lautet die Schätzung für das Wirtschaftswachstum in 2003 ?" Siehe Tutorial von Appelt, SRI, Tutorial 1999. Wilckes: Information Extraction, TR. (elektronischer Reader)

  2. Einschränkungen gegenüber NLP • Nur Teile des Inhalts "relevant" • Wie spezifiziert man den? • z.B. Datenbankschem ButtoSProd ( Jahr, Wert), ......, WachstumProg (Inst, Datum, fürJahr, Wert) • Faktenmuster<NP> <VP> Zahl <Proz> <VP><NP> Zahl <Proz> Trigger: NP=[Wirtschafts]wachstum VP=[betragen|Prognose ist|...] Proz=[%|Prozent]

  3. Methoden zur Regeldefinition • Wie findet man die Extraktionsregeln? • Manuell / intellektuell ("Knowledge Engineering Ansatz") - Wissen über die Anwendung ("Domänen-Wissen") - Sprachliches Wissen (Grammatik, Wortsemantik..) => Regel-Definition in Handarbeit Aufwendig! Relativ gute Ergebnisse für eingeschänkte Anwendungsbereiche. • Statistische Techniken - Regeln durch Analyse großer Corpora lernen - Überwachtes Lernen (Trainer) nützlich => Aufwand geringer, aber Trainingsdaten? Statistische Techniken wichtig, s. o.

  4. Grobarchitektur Wortzerlegung Morphologische / lexikalische Analyse • Typisch für alle Sprach- verarbeitungssysteme • Was ist spezifisch für FE / IE ? Parsing Feedback zur Disambiguierung Semantik / Anwendungskontext

  5. FE und NLP • FE: sehr große Textmengen • Effizienz ist ein Thema • Texte nicht notwendig korrekt (grammatisch, Rechtschreibung,..) • Robuste Parsing-Techniken • Endliche Automaten für Parsing • Gegenstandsbereich wichtig • Domänenwissen in jeden Verarbeitungsschritt einbeziehen -> FE – Technologie: Vereinfachungen gegenüber Natural Language Processing. Aber: Unterschiedliche Schulen

  6. Wortzerlegung Trivial ? Nein! Sprachabhängig, nicht jede Sprache kennt die Auflösung einer Äußerung in Worte. Aber Englisch, Deutsch..... Erkennen von Satzendungen? "Einer sog. Abstraktion kommt in der Informatik große Bedeutung zu." Dennoch eher einfaches Problem.

  7. Morphologie • Dictionary look up (Lexikon) mit / ohne FlexionsformenIn machen Sprachen sehr viele Formen (Finnisch: 10000 mögliche Verformen!!) • Part-Of-Speech TaggingSammelbegriff für die Zuweisung von syntaktischen Kategorien (auch: grammatikalische Kategorien statt POST). • FE: eher untergeordnete Bedeutung (Appelt), da keine vollständige syntaktische Analyse • Auch: Eigennamen zuordnen "General Electric", "Yesterday Microsoft announced....", "The Redmond Microsoft branch.." )

  8. Name Tagger • Stastisch: Hidden Markov Modelle • Annahme: Es gibt einen probabilistischen endlichen Automaten, der mit jedem Eingabewort schaltet. Pfad vom Start- zum Endknoten liefert Wahrscheinlichkeit für die Interpretation eines Namens aus verschiedenen Konstituenten (hier). z.B. "John Smith" (Person) , "John Deere" (Firmenname) • Lernverfahren anwendbar! • Regelbasiert • z.B. Sequenz von Worten, die mit Großbuchstaben beginnen......, sind Eigennamen (im Englischen!). • Wenn dem Wort w direkt GmbH | AG | Inc. folgt, handelt es sich um Firmennamen.

  9. Syntax • "Full parsing" oder "Shallow parsing" ? • "Finite State Grammers" (reguläre Sprache ?!) reicht für Erkennung von einfachen Fakten. • Schwierige grammatikalische Konstrukte weglassen oder auflösen (Konjunktion -> 2 Sätze) • Fehler haben oft andere Ursachen als falsche syntaktische Zerlegung. • Keine binäre Entscheidung: genauere Kenntnis der syntaktischen Struktur ist nicht per se schädlich. • Verhältnis von Aufwand und Nutzen.

  10. Semantik • "Molekularer Ansatz" • Finde induktiv Sprachmuster für die relevanten Fakten (Lesen von Texten, markieren, Regeln aufstelle "<Institut> <rechen | prognostizieren> <Wachstum[..] von <Zahl>" • Keine Trennung von sprachlicher Formulierung von Fakten und formaler Repräsentation (z.B. DB-Schema) • verspricht hohe Präzision, geringeren Recall • "Atomarer Ansatz" • Finde die wichtigen Konstituenten "Institute" "Wachstum" "Prognose" Würde (evtl. !) erkennen: "Die Institute sind sich sicher, dass das Bruttosozialprodukt sich um 2 % erhöhen wird" • Ableiten von Fakten aus Konstituenten.

  11. Zusammenfassung • Faktenextraktion einfacher als Textverstehen. .... aber .... • viele Probleme des Textverstehens tauchen auch hier auf. • Statistische Techniken scheinen sinnvoll: • Lernen von Mustern • Lernen von Eigennamen etc. • Grammatik • Nutzen von Metatags (XML etc.?) • Anwendungen • Verbesserung von Information Retrieval als wichtige Anwendung. • Abfragbare Datenbanken aufbauen: schwierig, aber nützlich.

More Related