1 / 31

Semimanuelle Generierung und Auswertung von Alternativentexten

Semimanuelle Generierung und Auswertung von Alternativentexten. Christian Chiarcos chiarcos@ling.uni-potsdam.de. IDS Jahrestagung Mannheim, 18.03.2005. I Motivation Variation sprachlicher Mittel. referentielle Ausdrücke

diella
Download Presentation

Semimanuelle Generierung und Auswertung von Alternativentexten

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005

  2. I MotivationVariation sprachlicher Mittel • referentielle Ausdrücke • bezeichnen prototypische „Objekte“ in der Diskurswelt (Diskursreferent, Karttunen 1975) • wirken kohärenzstiftend ð beeinflussen Wahrnehmung und Verständlichkeit ð Instrument zur Strukturierung von Texten

  3. I MotivationVariation sprachlicher Mittel • referentielle Ausdrücke variieren bzgl. • ihrer morphosyntaktischen Kategorie (REF) Was wollte dein Kollege vorhin von der Gärtnerin ? Hans kaufte bei ihrBlumen. Pronomen Hans kaufte bei Maria Blumen. Eigenname Hans kaufte bei der Frau Blumen. definite NP Hans kaufte bei dieser Frau Blumen. NP + dem.prn

  4. I MotivationVariation sprachlicher Mittel • referentielle Ausdrücke variieren bzgl. • ihrer morphosyntaktischen Kategorie (REF) • der Wortstellung (WS) • der grammatischen Rollen (GR) • diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert

  5. I MotivationProbleme • Strenge einer Kodierungsentscheidung • stilistische Präferenz oder sprachlich restriktiv • „Goldstandard-Problem“ für die Textgenerierung • natürliche Texte können suboptimal sein • Übereinstimmung ist damit kein hinreichendes Gütekriterium • verschränkte Variabilität • Abweichungen bzgl. der erwarteten Kodierung auf einer Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden

  6. II AlternativentexteHintergrund • Ziel • Untersuchung dieser Freiheitsgrade • Untersuchung kontextueller Parameter • Grundidee (Mellish & Yeh 1997) • Lückentext • Probanden wählen für jede Lücke aus verschiedenen vorgegebenen Alternativen • diese Kodierungsentscheidung kann mit der eines Textgenerierungssystems verglichen werden

  7. II AlternativentexteZielstellung • Betrachtung mehrer Ebenen sprachlicher Variation • REF, WS, GR • Sicherstellung hinreichender Überlappung • kurze Texte (15-20 Sätze) • skalierbare Variabilität der Lückentexte • REF • REF+WO • REF+WO+GR

  8. II AlternativentexteBasisdaten • Potsdamer Kommentarkorpus (Stede 2004) • deutschsprachige Zeitungskommentare • auf verschiedenen Ebenen annotiert • Morphosyntax (TIGER) • Koreferenz (PoCoS) • rhetorische Struktur (URML) • Informationsstruktur (SFB 632) • integratives Metaformat (ANNIS)

  9. II AlternativentexteErzeugung und Einsatz • Erzeugung • aus morphosyntaktisch (TIGER) und Koreferenz- (PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt, • dann semimanuell mit Alternativen angereichert • Einsatz • menschliche Probanden werden mit dem daraus erstellten Lückentext („Entscheidungsbaum“) konfrontiert • Kodierungsentscheidungen („Pfade“) werden separat gespeichert

  10. Variation der grammatischen Rollen (Passivierung, Verbwechsel) GR (+ ) Variation des referentiellen Ausdrucks und Kongruenzprüfung REF + WS Variation der Worstellung (+ ) II AlternativentexteSemimanuelle Anreicherung Koreferenz- Annotation morphosyntaktische Annotation Alternativenannotation Projekt-Skelett nur eine Alternative enthaltend (den originalen Text) Alternativentext Alternativen- annotiert

  11. III XALTEin Format für Alternativentexte • XML-basiert • standoff-Architektur • verteiltes Format • mehrere Ebenen der Annotation • beziehen sich auf dieselben Basisdaten • werden separat gespeichert • modulare Struktur • erweiterbar • platzeffizient

  12. III XALTEin Format für Alternativentexte base.xml die Worte des Textes ref.xml segments.xml text.xml für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text

  13. III XALTEin Format für Alternativentexte base.xml die Worte des Textes ref.xml segments.xml text.xml vom Nutzer oder Autor gewählte Kodierungsalter- nativen für jeden Referenten verschiedene referen- tielle Ausdrücke für jeden Satz alternative Ab- folgen von Wor- ten und Ver- weisen auf Referenten die Abfolge der Segmente in einem Text paths.xml

  14. III XALTBeispiel base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

  15. III XALTBeispiel word_1: was word_2: wollte word_3: dein .... base.xml ref.xml segments.xml text.xml Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9 paths.xml

  16. ref_3: [dein]2 Kollege der Kollege [dein]2 netter Kollege der Kollege Hans Hans der Hans dieser Hans ... text.xml III XALTBeispiel base.xml ref.xml segments.xml [Was]1 wollte [[dein]2 Kollege]3 vorhin von [der Gärtnerin]4 ? paths.xml

  17. III XALTBeispiel seg_1: alt_1 alt_2 ... ref_1 ref_3 word_2 word_2 ref_3 word_5 word_5 ref_1 word_6 word_6 ref_4 ref_4 word_9 word_9 base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

  18. III XALTBeispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

  19. Entscheidungsknoten: referentielle Ausdrücke III XALTBeispiel seg_1: alt_1 ... ref_1 („was“) word_2 („wollte“) ref_3 („dein Kollege“) word_5 („vorhin“) word_6 („von“) ref_4 („der Gärtnerin“) word_9 („?“) base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

  20. Entscheidungsknoten: Form der Äußerung III XALTBeispiel seg_1: alt_1 alt_2 ... ... ref_3 („Hans“) word_2 („wollte“) word_5 („vorhin“) ref_1 („was“) word_6 („von“) ref_4 („der G.“) word_9 („?“) base.xml ref.xml segments.xml text.xml Was wollte dein Kollege vorhin von der Gärtnerin ? paths.xml

  21. III XALTBeispiel text_1: alt_text_1 seg_1 seg_2 base.xml ref.xml segments.xml text.xml [Was wollte dein Kollege vorhin von der Gärtnerin ?]1 paths.xml [Hans kaufte bei ihr Blumen.]2

  22. III XALTEin partieller Entscheidungsbaum seg_1 alt_1 alt_2 was dein Kollege der Hans ref_1 ... ref_3 wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 von vorhin von ref_4 ref_4 der Gärtnerin der Gärtnerin ... ... ihr ihr ? ?

  23. III XALTEin Pfad seg_1 alt_1 was dein Kollege der Hans ref_1 ... ref_3 wollte wollte vorhin ref_3 dein Kollege der Hans ... was ref_1 von vorhin von ref_4 ref_4 der Gärtnerin der Gärtnerin ... ... ihr ihr ? ?

  24. III XALTBeispiel seg_1 alt_1 base.xml was ... ref_1 wollte ref.xml segments.xml text.xml ref_3 dein Kollege der Hans ... vorhinvon ref_4 paths.xml der Gärtnerin ... ihr pathid = „orig“ ?

  25. IV Anwendung und Auswertungpaths.xml • ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu • gestattet die Rekonstruktion des Textes • enthält zusätzlich Verweise auf • die Form des referentiellen Ausdrucks (REF) • grammatische Relationen (GR) • Wortstellung (WS) • alleiniger Gegenstand der empirischen Auswertung

  26. IV Anwendung und AuswertungStatistische Auswertung • empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption • Relevanz- („importance/salience“) Indikatoren • Givenness- („contextual boundedness/salience“) Indikatoren • praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation

  27. IV Anwendung und AuswertungTheoretische Interpretation • Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten • Centering Theory (Grosz et al. 1995) • Givón (2001) • Sgall et al. (1986) • ...

  28. IV Anwendung und AuswertungEvaluation der Textgenerierung • automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen • der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden • Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert • Minimierung von individuellen/stilistischen Artefakten

  29. A Platzkomplexität • wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem Adverb Hans kaufte gestern bei Maria Blumen.

  30. A PlatzkomplexitätHans kaufte gestern bei Maria Blumen. • REF • pro Referent durch eine große Konstante abschätzbar, z.B. 10, daher 103=1000 • GR • Passivierung: 2 • Verbalternation: mind. 2 (verkaufen) • WS • Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24 Permutationen • Varianten pro Satz • 1.000 * 4 * 24 = 96.000

  31. A PlatzkomplexitätHans kaufte gestern bei Maria Blumen. • in Abhängigkeit von der Länge n eines Satzes • base.xml O(log n + n) • ref.xml O(n*log n) • linear: max. konstant viele neue Referenten pro Satz mit konstant beschränkbarer Länge • segment.xml O(n!*nc*log n) • nur aus Verweisen bestehend • text.xml O(1) • gesamt • verteilt O(n!*nc*log n) • monolithisch O(n!*nc)

More Related