automatische akquisition linguistischen wissens n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Automatische Akquisition linguistischen Wissens PowerPoint Presentation
Download Presentation
Automatische Akquisition linguistischen Wissens

Loading in 2 Seconds...

play fullscreen
1 / 27

Automatische Akquisition linguistischen Wissens - PowerPoint PPT Presentation


  • 130 Views
  • Uploaded on

Automatische Akquisition linguistischen Wissens. Berechnung von Wortassoziationen, Verallgemeinerung der Berechnung von Redewendungen Was genau sind Assoziationen? Wozu sind sie gut? Einschub: Lexikalische Wortnetze Wie kann man sie erkennen?

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Automatische Akquisition linguistischen Wissens' - katoka


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
automatische akquisition linguistischen wissens
Automatische Akquisition linguistischen Wissens

Berechnung von Wortassoziationen,

Verallgemeinerung der Berechnung von Redewendungen

  • Was genau sind Assoziationen?
  • Wozu sind sie gut?
  • Einschub: Lexikalische Wortnetze
  • Wie kann man sie erkennen?

Wie könnte man ein Programm schreiben, welches sie erkennt?

Wie erkennt man, wie viele man schon gefunden hat?

  • Referat: Church 89 und 91, sowie Terra & Clarke 03
  • Referat: Wortnetz basiert: Resnik 99, Budanitsky 99

Automatische Akquisition linguistischen Wissens

1 definition von assoziation
1. Definition von Assoziation

Aristoteles:

  • [Der Lauf unserer Erinnerung wird bestimmt] von Ähnlichem oder Gegenteiligem, oder von dem, was nah zusammen ist: durch all das entsteht Erinnerung.

Experimentelle Bestimmung und anschließend Kategorisierung:

Jung & Ricklins folgendes Experiment:

  • Versuchsperson bekommt Reizwort und soll so schnell wie möglich das erste ihr dazu einfallende Wort sagen. Anschließend werden gerankte Häufigkeitslisten angefertigt, welches Wort am Häufigsten ist.
  • Anschließend Kategorisierung in Ursachen

Automatische Akquisition linguistischen Wissens

1 1 beispiel f r assoziationsexperiment
1.1. Beispiel für Assoziationsexperiment
  • Auffällig ist
    • dass auch hier wieder Zipfverteilung zum tragen kommt
    • Dass verschiedene Relationen zum Vorschein kommen

Automatische Akquisition linguistischen Wissens

1 2 jung ricklins tabelle der assoziationen
1.2. Jung & Ricklins Tabelle der Assoziationen

Automatische Akquisition linguistischen Wissens

1 3 jung ricklins tabelle der assoziationen ii
1.3. Jung & Ricklins Tabelle der Assoziationen II

Automatische Akquisition linguistischen Wissens

1 4 kontiguit tsprinzip
1.4. Kontiguitätsprinzip

Früher Mutmaßungen darüber wie Assoziationen funktionieren

Hartley 1749, Mill 1869:

  • Verknüpfung einander ähnelnder Objekte basiert auf dem Kontiguitätsprinzip: Ähnliche Objekte werden häufig gleichzeitig oder in unmittelbarer Folge wahrgenommen

W. James 1890 Kontiguitätsprinzip:

  • Objects once experienced together tend to become associated in the imagination, so that when any one of them is thought of, the others are likely to be thought of also, in the same order of sequence or coexistence as before. This statement we may name the law of mental association by contiguity

Automatische Akquisition linguistischen Wissens

1 5 widerlegung des kontiguit tsprinzips
1.5. „Widerlegung“ des Kontiguitätsprinzips

In heutiger Psychologie allerdings Ansicht, dass Kontiguitätsprinzip allein nicht ausreicht, um Wortassoziationen zu erklären

  • Angriffspunkt ist Experiment, bei welchem sinnlose Folgen von Silben präsentiert werden und anschließend tatsächlich aufeinander folgende Folgen als solche wieder erkannt werden
  • Jenkins (1974) kommt zur Ansicht, dass Assozitationstheorie keine brauchbaren Ergebnisse geliefert hat. (uminterpretation des sinnlos-Silbenexperiments – dass dieser Mechanismus in Wirlkichkeit nicht vorkommt)
  • Clark 1970 findet, dass freie Assoziationen Ergebnis von symbolverarbeitenden Prozessen sind

Automatische Akquisition linguistischen Wissens

1 6 zusammenfassung
1.6. Zusammenfassung
  • Assoziationen und Berechnung von Assoziationen sind eine Verallgemeinerung der Berechnung von Redewendungen.
  • Es gibt deshalb aber noch weniger klare Definition was Assoziiert sein soll und was nicht.
  • Ebenfalls unklar, ob es verschiedene Sorten von Assoziationen geben soll oder nicht und ob diese überhaupt automatisch unterscheidbar sein können.

Automatische Akquisition linguistischen Wissens

2 anwendungen
2. Anwendungen
  • Lexikographen – Welche Umgebung für gegebenes Wort relevant
  • Design von Grammatiken, bzw. syntaktische Disambiguierungsregeln für Wörter entdecken und nach Wichtigkeit sortieren
  • Information Retrieval – query expansion, bessere Indexierungen
  • Shvaneveldts knowledge organization programm http://iv.slis.indiana.edu/sw/pfnet.html
  • Sprechhilfen
  • Kontrollfaktor bei Psycholinguistischen Experimenten
  • Fremdsprachunterricht
  • Werbung…

Automatische Akquisition linguistischen Wissens

2 1 semantic talk

Afghanistan

Georgien

Irak

2.1. Semantic talk
  • Ein Tool, welches beim freien Assoziieren im Gespräch behilflich sein kann
  • … und protokollierend einen „roten Faden“ durch die angeschnittenen Themen zeichnet

Automatische Akquisition linguistischen Wissens

2 2 zitationsvisualisierung
2.2. Zitationsvisualisierung

http://www.pages.drexel.edu/~cc345/papers/computer.html

Automatische Akquisition linguistischen Wissens

3 einschub lexikalische wortnetze
3. Einschub Lexikalische Wortnetze
  • Wortnetze umfassen den am häufigsten gebrauchten Wortschatz einer Sprache und enthalten grundlegende semantische Beziehungen zwischen Vokabeln:
    • Synonymie, Antonymie
    • Hyponymie
    • Meronymie
  • Ziel ist es dabei, eine nicht nur nach Wortform, sondern auch nach Wortbedeutung navigierbare Ressource zu schaffen.
  • Weiterhin soll ein Modell geschaffen werden, welches vernünftig mit Polysemie und Synonymie umgehen kann, sowie erweiterbar um andere Relationen ist.

Automatische Akquisition linguistischen Wissens

3 1 anordnung der wortnetze
3.1. Anordnung der Wortnetze
  • Synsets (set of synonyms) sind ausreichend für differenzierende Repräsentation von Bedeutungen
    • Lexeme mit gleicher Bedeutung sind zu Konzepten zusammengefasst, den sog. Synsets, welche als zentrale Repräsentationseinheiten fungieren
    • Die Realisierungen (Wortformen) eines gegebenen Konzeptes sind synonym zueinander.
    • board schon mit plank oder committee disambiguiert (daher unterscheidend)
  • Zusätzlich Unterscheidung verschiedener Relationstypen:
    • lexikalische Relationen (Synonymie, Antonymie) gelten zwischen individuellen Realisierungen von Konzepten
    • konzeptuelle Relationen (Hyponymie, Hyperonymie, Meronymie, kausale Relation) gelten zwischen Konzepten (und somit für alle Realisierungen)

Automatische Akquisition linguistischen Wissens

3 2 relationen in wortnetzen
3.2. Relationen in Wortnetzen
  • Die wichtigsten üblicherweise in Wortnetzen abgebildeten Relationen sind folgende:
    • Synonyme: Bedeutungsähnlichkeit (Abfall - Müll)
    • Antonyme: Gegenteiligkeit (hoch - tief)
    • Hyperonyme: Begriffshierarchie, Über- und Unterbegriffe (Katze – Säugetier – Tier – Lebewesen)
    • Meronyme: Teil-von Beziehung (Radkappe – Rad – Auto)
  • Ständige Probleme
    • Vollständigkeit
    • Polysemie
    • Aktualität

Automatische Akquisition linguistischen Wissens

3 3 wortnetze f r deutsch und englisch
3.3. Wortnetze für Deutsch und Englisch
  • Für Englisch entstand mit Roget’s Thesaurus Anfang des 20sten Jahrhunderts ein erstes Wortnetz, welches in vielen Dingen Pionierarbeit leistete, die Beziehungen aber noch nicht explizit waren
  • Anfang der 90er Jahre entstand in Princeton University durch George A. Miller ein großes neues und später online frei verfügbares Wortnetz mit explizit annotierten Relationen
  • Für Deutsch entstand einige Jahre später das auf Lizenz verfügbare GermaNet Wortnetz, welches äquivalent zu WordNet sein sollte, allerdings wurden einige Relationen anders gehandhabt und der Umfang von WordNet wurde mangels Finanzierung nie erreicht.
  • Andere Projekte wie EuroWordNet erreichten nie annähernd den Umfang dieser zwei Projekte

Automatische Akquisition linguistischen Wissens

4 berechnung von assoziationen
4. Berechnung von Assoziationen
  • 2 Mögliche Vorgehen
    • Benutzen von Ressourcen wie WordNet, um Abstand zweier Wörter zum messen. Hauptproblem hier, Abstand zu definieren (Resnik, Budanitsky)
    • Wie bei Redewendungen über Kookkurrenzen verschiedener Sorten (Weeds 04, Terra &Clarke 03, Dagan et al. 95, Shvaneveld 89)
      • Textkorpus zusammenstellen
      • Lokal für jedes Wort stärkste Assoziationen berechnen
        • Eher größere Fenster oder Satzgrenzen statt Nachbarschaftskookkurrenzen
      • Evtl. in die verschiedenen Kategorien einordnen
      • Verifizieren
  • Theoretische Frameworks (Lehr, Rieger)
  • Evaluierungsprobleme: Geringe Übereinstimmung zwischen menschlichen Annotatoren, kaum Gold-standard Daten verfügbar, speziell wenn Gold-standard bereits zur Berechnung verwendet wurde

Automatische Akquisition linguistischen Wissens

4 1 hnlichkeit durch abstand
4.1. Ähnlichkeit durch Abstand
  • Wiederkehrende Begriffe:
    • Terminologischer Abstand: Wie gut ein Begriff ein Konzept ausdrückt
    • Semantischer Abstand wie konzeptueller Abstand, wie Unterschiedlich zwei Konzepte (ausgedrückt durch evtl. mehrere Termini jeweils) sind.
  • Idee ist, die hierarchische Struktur eines Wortnetzes auszunutzen (Resniks 99) und (Budanitsky 00)
    • Wenn zwei Wörter Synonyme sind oder einen gemeinsamen Oberbegriff besitzen, sind sie sehr ähnlich
    • Andere Möglichkeit ist, kürzesten Pfad im Synonymgrafen (oder Allgemein alle Beziehungen als Kanten aufzufassen) zu berechnen und Länge dieses Pfades

Automatische Akquisition linguistischen Wissens

4 2 berechnen ber kookkurrenzen
4.2. Berechnen über Kookkurrenzen
  • Idee der Kontiguität praktisch angewandt bedeutet messen, welche Wörter mit welchen auffällig oft auftreten
  • Wie bei Redewendungen Kookkurrenzen berechnen, allerdings mit größerem Kontextfenster
    • Übliche Fenstergrößen von 2 oder 5 oder Satzkookkurrenzen
  • In Statistik gibt es Begriff der „Assoziiertheit“ z.B. des Auftretens zweier Entitäten in einer Stichprobe. Assoziiert bedeutet ebenfalls korreliert.
  • Allerdings hat dieser Begriff dazu geführt, dass einige Wissenschaftler das gemeinsame Auftreten zweier Wörter mit einem Assoziationsmaß nachgewiesen haben und dadurch

Automatische Akquisition linguistischen Wissens

4 2 1 ma e
4.2.1. Maße
  • Nachdem sich Idee mit p(A,B)=p(A)*p(B) und daraus folgenden Mutual Information als schlecht herausstellte, begann Suche nach perfektem Maß
  • Welche durch Dunning 93 auch mit log-likelihood eigentlich beendet sein sollte
  • Aber durch weitere Ideen (poisson Approximierung des log-likelihood), Unabhängigkeitstests t-score, dice und jaccard Koeffizient usw.
  • Es kristallisiert sich jedoch zunehmend heraus, dass optimal log-likelihood oder Poisson Approximationen sind
  • Subjektiv ist es allerdings oft schwierig zu entscheiden, ob ein Maß besser oder schlechter ist, als ein anderes

Automatische Akquisition linguistischen Wissens

4 2 2 beispiele
4.2.2. Beispiele
  • Logl gegen dice, baseline (reine Frequenz) und MI – Bei baseline wird die Wichtigkeit von Signifikanz versus reiner Frequenz deutlich

Eingabe logl dice baseline MI

| Abfall | radioaktiv | radioaktiv | d- | Abklingzeit

| Abfall | Tonne | entsorgen | und | Bodenwurzel

| Abfall | entsorgen | Endlager | in | Chemie-Praktikum

| Abfall | Endlager | Entsorgung | werden | Dosenbier-Trinker

| Abfall | werden | hochradioaktiv | ein | STAWA

| Zink | Kupfer | Blei | d- | Verzinken

| Zink | Blei | Kupfer | und | Eisengegenstand

| Zink | und | Cadmium | %N% | Hartlot

| Zink | Cadmium | Zinn | ein | Bismut

| Zink | Silber | Nickel | in | stolberger

| Montag | am | am | d- | VHS-Öffnungszeit

| Montag | %N% | abend | am | Focus-Tag

| Montag | Uhr | Uhr | %N% | Einzelhandlesverband

| Montag | abend | Freitag | in | FIS-Sicherheitsexperte

| Montag | in | kommend | ein | Freischützstras

Automatische Akquisition linguistischen Wissens

4 4 theoretische frameworks
4.4. Theoretische Frameworks
  • Andrea Lehr : Aus soziologischer Sichtweise betrachtet, welche Phänomäne in Sprache wirklich auftreten und beobtachtbar sind.
    • So ist z.B. klare Trennung zwischen Alltagssprache und nicht-Alltagssprache kaum beobachtbar
    • Kollokationen und Redewendungen stellen einen wichtigen Bestandteil der Deutschen Gegenwartssprache dar
    • Experimente mit Probanden, die tatsächlich beobachtbare Unterschiede (auch Sorten von Assoziationen) be- oder widerlegen
  • Rieger
    • Stellte Bedeutungsraumtheorie auf, welche zwischen syntagmatischen und paradigmatischen Relationen unterscheidet, aber auch mathematisch berechenbar bleibt
    • Letzteres durch konsequente Akzepanz der Unschärfe von Bedeutung, d.h. Katze ist nicht einfach Tier, sondern auch in unsere Gehirn z.B. zu 0.8 Tier
    • Mehrere Strata, Sprache als Struktur, Kognition

Automatische Akquisition linguistischen Wissens

4 5 evaluierungsm glichkeiten
4.5. Evaluierungsmöglichkeiten
  • Experiment, bei welchem Versuchspersonen zu einer Reihe von Wörtern
    • erstes Wort nennen sollen, welches ihnen einfällt
    • Eine Liste von passendsten Wörtern anfertigen sollen
    • Oder von Algorithmus generierte Liste bewerten soll

Automatische Akquisition linguistischen Wissens

4 5 1 evaluieren gegen gold standards
4.5.1. Evaluieren gegen Gold-Standards
  • Im Gold-standard in beliebiger Relation zu Eingabewort stehende Wörter als richtig gezählt
  • Precision: Wieviele der top x (z.B. 50) Wörter, die der Algorithmus berechnet/gerankt hat sind im Gold-standard verlinkt?
    • lion: sea mountain MGM Durkovitz Singh tamarin Punjabi … animal
    • lion: cub panther lioness cougar puma catamount
    • Precision 1/50
  • Recall: Wenn y der Wörter der top x Treffer waren, wie viele der direkt mit Eingabewort in Relation stehenden sind das?
    • Mit lion stehen in Goldstandard 100 in Relation, also bei lion Recall 1/100
  • Beispiele: WordNet, GermaNet, Rogets Thesaurus, TOEFL

Automatische Akquisition linguistischen Wissens

4 5 2 indirekte evaluierungen
4.5.2. Indirekte Evaluierungen
  • Künstliche Synonyme einführen, indem zufällige Hälfte der Vorkommen des zu testenden Wortes durch lion1 und lion2 ersetzt wird, danach messen, ob lion2 durch Algorithmus als ähnlichstes zu lion1 berechnet wurde.
    • Funktioniert nur mit Synonymen
    • Ungenaue Messung
  • Wenn Applikation und Umgebung vorhanden, in welcher derartige Daten genutzt werden, kann mittels Feedbackmechanismen getestet werden, ob Zufriedenheit der Benutzer mit neuen Daten gestiegen ist
    • Sehr unzuverlässig und Störfaktoren sind schwer aus Statistik eliminierbar
    • Aufwändig, da Applikation und Testumgebung selten vorhanden

Automatische Akquisition linguistischen Wissens

referat church 89 91 und terra clarke 03
Referat Church 89, 91 und Terra & Clarke 03
  • Tagger auf Testkorpus anwenden und Churches Algorithmus nachempfinden
  • An ein paar Beispielen vorführen, wie Schiff und Boot, stark und mächtig, wie sein Algorithmus genutzt werden kann, um diese Unterschiede zu verdeutlichen

Automatische Akquisition linguistischen Wissens

referat resnik und budanitsky
Referat Resnik und Budanitsky

Automatische Akquisition linguistischen Wissens

quellen
Quellen
  • Reinhard Rapps Dissertation: http://www.fask.uni-mainz.de/user/rapp/papers/disshtml/main/main.html

Automatische Akquisition linguistischen Wissens