1 / 49

Computerlinguistik

Computerlinguistik. 10. Vorlesung (22.12.2011). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Inhalt der Vorlesung. Einführung Methoden Tagging Formale Methoden Parsing

kirk
Download Presentation

Computerlinguistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Computerlinguistik 10. Vorlesung (22.12.2011) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de

  2. Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse

  3. Computerlinguistik Maschinelle Übersetzung Wiederholung: Bei der maschinellen Übersetzung unterscheiden wir • (ältere) regelbasierte Verfahren, • (neuere) statistikbasierte Verfahren und • (noch neuere) hybride Verfahren.

  4. Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Wiederholung: Bei den regelbasierten Verfahren betrachten wir das so genannte Vauquois-Dreieck. (nach Bernard Vauquois, 1929-1985). Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)

  5. Computerlinguistik Maschinelle Übersetzung: Beispiel In the end, Tyrion chose a cask of strongwine marked as the private stock of Lord Runceford Redwyne, the grandfather of the present Lord of the Arbor. The taste of it was languorous and heady on the tongue, the color a purple so dark that it looked almost black in the dim-lit cellar. Google (statistischer Übersetzer) Im Ende wählte Tyrion eine Tonnestrongwine gekennzeichnet als der private Vorrat an Lord Runceford Redwyne, der Großvater des anwesenden Lords des Dornes. Der Geschmack von ihm war languorous und heady auf der Zunge, schwach-beleuchtetedie Farbeeine Dunkelheit desPurpleso,die sie in fast schwarz schaute, Keller.

  6. Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask …  In die Ende, Tyrion wählte(n) ein Fass … Eine „direkte Übersetzung ist eine „Wort für Wort“-Übersetzung. Ausgangssprache/ Quellsprache (SL) direkte Übersetzung Zielsprache (TL)

  7. Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask …  In dem Ende / in das Ende, Tyrion wählte ein Fass … In besseren „direkten“ Systemen ist eine morphologische Komponente enthalten. Ausgangssprache/ Quellsprache (SL) direkte Übersetzung Zielsprache (TL)

  8. Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren In the end, Tyrion chose a cask …  Am Ende Tyrion wählte ein Fass … Man kann in direkten Übersetzungen auch „Superlemmata“ nutzen. Ausgangssprache/ Quellsprache (SL) direkte Übersetzung Zielsprache (TL)

  9. Computerlinguistik Maschinelle Übersetzung: direkte Übersetzung • Bei der direkten Übersetzung gibt es zwei offensichtliche Probleme: • Die Wortstellung des Ergebnisses entspricht der Wortstellung der Quellsprache und nicht der Wortstellung der Zielsprache. • In the end, Tyrion chose a cask …  • Am Ende, Tyrion wählte ein Fass … • Für einzelne Wörter wird immer die häufigste Übersetzung gewählt • und nicht diejenige, die semantisch angemessen wäre. • … the grandfather of the present Lord of ... • … der Großvater von dem anwesenden Lord von …

  10. Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Das Wortstellungsproblem kann mit syntaktischem Transfer gelöst werden. syntaktischer Transfer Synthese Analyse Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)

  11. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Syntaktischer Transfer Phase 1: Analysedes Quelltextes: Aufbau der zugehörigen syntaktischen Struktur Phase 2: Transfer der syntaktischen Struktur des Quelltextes in eine entsprechende syntaktische Struktur des Zieltextes Phase 3: Synthese: Aus der syntaktischen Struktur des Zieltextes und „Wort für Wort“-Übersetzungen der Einzelwörter wird der Zieltext generiert. Die vorliegende syntaktische Struktur des Zieltextes hilft dabei, die morphologischen Entscheidungen korrekt zu treffen.

  12. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Syntaktischer Transfer Yesterday, Angela met Lady Gaga. Analyse s(adv(zeit), np(subjekt), v, np(object)) Transfer s(adv(zeit), v, np(subjekt), np(object)) Synthese Gestern traf Angela Lady Gaga.

  13. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Analyse Manchmal ist die syntaktische Analyse nicht eindeutig. Unter Umständen ist das aber sogar nebensächlich, wenn nämlich der Zieltext dieselbe syntaktische Mehrdeutigkeit enthält wie der Quelltext. Das ist häufig dann der Fall, wenn Quell- und Zielsprache einander ähnlich sind. Gregor sah die Frau mit dem Fernrohr. Gregor saw the woman with the telescope. Aufgelöst werden kann die Mehrdeutigkeit allenfalls „semantisch“, also unter Hinzuziehung von Kontextinformation.

  14. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Analyse Ohne eine semantische Analyse (Nutzung von Kontextinformation) können auch semantische Probleme nicht gelöst werden. Eines dieser Probleme ist die semantische Mehrdeutigkeit, die wir schon angesprochen hatten. Gabriel lebt im Himmel. Gabriel lives in the sky. vs. Gabriel lives in heaven. Die genannten Mehrdeutigkeitsprobleme sind Probleme bei der Analyse des Quelltextes.

  15. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Transfer Es gibt auch Probleme, die beim Transferschritt auftreten. Dieser Schritt ist am einfachsten, wenn Quell- und Zielsprache einander ähnlich sind. Ein Transferproblem ergibt sich aus lexikalischen Lücken in einer der beiden Sprache, welche in dieser Sprache durch Umschreibungen kompensiert werden müssen.

  16. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Transfer Ein Transferproblem ergibt sich aus lexikalischen Lücken in einer der beiden Sprache, welche in dieser Sprache durch Umschreibungen kompensiert werden müssen. Englisch: young bull  np(adj, n) Problem Spanisch: novillo  np(n)

  17. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Transfer Ein Transferproblem ergibt sich aus lexikalischen Lücken in einer der beiden Sprache, welche in dieser Sprache durch Umschreibungen kompensiert werden müssen. Englisch: young black bull  np(adj, adj, n) Problem Spanisch: novillo negro np(n, adj)

  18. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Transfer Im günstigsten Fall ergibt sich novillo negro Analyse np(n, adj) Transfer np(adj, adj, n) Synthese black young bull (statt young black bull) Bei der Reihenfolge von Adjektiven gibt es Folgen, die Sprecher bevorzugt äußern.

  19. Computerlinguistik Maschinelle Übersetzung: allgemeiner Problemfall ein Problem (nicht nur beim syntaktischen Transfer) Lexikalische Lücken können auch Problem mit der pronominalen Referenz nach sich ziehen, wenn nämlich in der Quellsprache ein Pronomen auf ein Nomen verweist, dieses aber in der Zielsprache nicht verfügbar ist. A: Da habe ich schon Feierabend. B: Oh. In meiner Firma ist er später.  A:I have finished work by then. B:Oh. ??

  20. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Transfer Ein noch schwerwiegenderes Problem tritt dann auf, wenn in der Quellsprache Strukturen genutzt werden, die nur unter bestimmten Umständen übertragen werden können. In solchen Fällen muss man kontextsensitive Transferregeln formulieren. Sam is easy to convince.  Sam ist leicht zu überzeugen. Sam is easy to work with.  *Sam ist leicht mit zu arbeiten. (In diesem Fall kann man aber in beiden Fällen auf eine andere Struktur zielen: Es ist leicht, ... )

  21. Computerlinguistik Maschinelle Übersetzung: syntaktischer Transfer Probleme beim syntaktischen Transfer: Synthese Weitere Probleme können bei der Synthese auftreten. Dies gilt insbesondere dann, wenn man auf so etwas wie Redensarten, feststehende Ausdrücke etc. gerät und diese nicht explizit, quasi als „Superlemmata“ im Lexikon, mitsamt ihrer Übersetzung vorliegen hat. Onze excuses voor het ongemak.  Wir bitten um Ihr Verständnis. (Wir entschuldigen [uns] für das Ungemach.)

  22. Computerlinguistik Maschinelle Übersetzung: regelbasierte Verfahren Interlingua semantischer Transfer Ausgangssprache/ Quellsprache (SL) Zielsprache (TL)

  23. Computerlinguistik Maschinelle Übersetzung: Interlingua Interlingua Wenn man eine Interlingua hätte, könnte man für jede Sprache zwei Module bauen [ein Analyse-Modul und ein Synthese-Modul], so dass mit dem Analyse-Modul Texte aus den gewählten Sprache in die Interlingua und mit dem Synthese-Modul „Interlingua-Texte“ in die gewählte Sprache übersetzt würden. Für ein multilinguales System für Maschinelle Übersetzung mit n Sprachen müsste man dann 2n Module entwickeln. In einem Transfersystem benötigt man für jedes Sprachpaar ein Transfermodul. Bei n Sprachen sind das n(n-1) Module.

  24. Computerlinguistik Maschinelle Übersetzung: Interlingua Interlingua Das erste Problem mit dem Interligua-Ansatz besteht darin, überhaupt eine Interlingua festzulegen. Dazu könnte man eine weitverbreitete Sprache nehmen (Chinesisch, Englisch, Spanisch, ...) oder eine Sprache wie Esperanto oder eine Logiksprache. Allerdings ist jeder Übersetzungsschritt mit Fehlern und Ungenauigkeiten verbunden, die mehr werden, je unterschiedlicher die Sprachen sind. Daher ist eine Übersetzung von Niederländisch nach Deutsch, wenn mir mit Chi-nesisch als Interlingua arbeiten, sehr viel schlechter als eine direktere Übersetzung.

  25. Computerlinguistik Maschinelle Übersetzung: Interlingua Interlingua Ein zweites Problem besteht darin zu entscheiden, welche Eigenschaften die Interlingua repräsentieren sollte. Beispiel: Deutsche Verben flektieren nach Person, Numerus, Tempus, Genus Verbi und Modus. Japanische Verben flektieren nach Tempus, Höflichkeit, Genus Verbi und Modus.

  26. Computerlinguistik Maschinelle Übersetzung: Interlingua Ein drittes Problem, das für den Interlingua-Ansatz, aber auch für den semantischen Transfer auftritt, ergibt sich bei der Synthese. Findet kein syntaktischer Transfer statt, gibt es sehr viele Freiheiten bei der Wahl der syntaktischen Form des Zieltextes. Frank-Walter sieht eine große schwarze Katze.  x (see(FW, x)  groß(x)  schwarz(x)  katze(x))  There is something that is seen by Frank-Walter which is big and which is black and which is a cat.

  27. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer • Wie funktioniert eigentlich semantischer Transfer? • morphosyntaktische Analyse • semantische Analyse • Transfer (evtl. auch auf der syntaktischen Ebene) • morphosyntaktische Synthese • Nachbereitung semantischer Transfer syntaktischer Transfer

  28. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Wie eine regelbasierte Übersetzung mit einer Zwischenform aus syntaktischem und semantischem Transfers ablaufen kann, ergibt sich aus dem nachfolgenden Beispiel der Nutzung der „Lexical Functional Grammar“ (LFG) (vgl. Bresnan, 2000).

  29. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Quelltext: Agricola verspricht Vespasian, Britannien zu erobern. LFG-Syntax: S  NP VP (SUBJ =)  = VP V NP VCOMP (OBJ =) (VCOMP =) VCOMP  NP zu VP (OBJ =) (TO =+)  =

  30. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Quelltext: Agricola verspricht Vespasian, Britannien zu erobern. LFG-Lexikon: verspricht: V ( TENSE = Präsens) ( PRED = „versprechen(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (SUBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3

  31. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Quelltext: Agricola verspricht Vespasian, Britanien zu erobern. LFG-Lexikon (vereinfacht): Agricola: NP (NUM) = sg (PERS) = 3 Vespasian: NP (NUM) = sg (PERS) = 3 Britannien: NP (NUM) = sg (PERS) = 3

  32. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer c-structure S Dies entspricht dem ersten Schritt, der morpho-syntaktischen Analyse. VP NP VCOMP V NP NP zu V verspricht Britannien erobern Vespasian Agricola

  33. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer c-structure – Annotation S  =  (SUBJ = ) VP NP VCOMP V NP (NUM) = sg (PERS) = 3 NP ( TENSE = Präsens) ( PRED = „versprechen(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (SUBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3 zu V verspricht Britannien erobern Vespasian Agricola

  34. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer f-structure ... (lassen wir mal aus  ) a-structure = „pred“-Eintrag zum Hauptverb (= semantische Analyse) versprechen(Agricola, Vespasian, erobern(Agricola, Britannien)) ( TENSE = Präsens) ( PRED = „versprechen(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (SUBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3

  35. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer zum Vergleich: Agricola überredet Vespasian, Britannien zu erobern. überreden(Agricola, Vespasian, erobern(Vespasian, Britannien)) ( TENSE = Präsens) ( PRED = „überreden(( SUBJ)(OBJ)( VCOMP))“) ( VCOMP TO) = + ( VCOMP SUBJ) = (OBJ) (SUBJ NUM) = sg (SUBJ PERS) = 3

  36. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Transfer versprechen(Agricola, Vespasian, erobern(Agricola, Britannien))  promise(Agricola, Vespasian, conquer(Agricola, Britain))

  37. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Synthese promise(Agricola, Vespasian, conquer(Agricola, Britain))  Agricola promises Vespasian to conquer Britain. Agricola promises Vespasian he will conquer Britain. Agricola promises Vespasian that he will conquer Britain. Agricola promises Vespasian that he, Agricola, will conquer Britain. Agricola promises Vespasian something which is that he will conquer Britain.

  38. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Die Probleme von regelbasierter maschineller Übersetzung mit syntaktischem bzw. semantischem Transfer sind vergleichbar. In Bezug auf die Synthese ist semantischer Transfer problematischer, weil die syntaktische Struktur nicht begrenzt wird. Dieses Problem lässt sich dadurch umgehen, dass die syntaktische Struktur des Zielsatzes in einem (zusätzlichen) syntaktischen Transferschritt festgelegt wird.

  39. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Auch zur Auflösung von Anaphern (im Analyseschritt) können in einigen Fällen syntaktische Regeln genutzt werden. Problem: Tyrion had blood in his mouth and spat it on the floor. Tyrion hatte Blut im Mund und spuckte ihn auf den Boden.

  40. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Die Frage ist dabei: Welches Pronomen wird durch welche NP gebunden?

  41. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Die Pronomen stimmen in Numerus und Genus mit den NPs „der Oberkellner“ und „der Gast“ überein. „Er“ ist von einer anderen NP gebunden als „ihn“ und „ihm“.

  42. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Im Restaurant Der Oberkellner begrüßt die Sängerin. Er begleitet sie zu ihrem Stammplatz und reicht ihr Speise- und Weinkarte. Dies ist der einfache Fall: Die Bezugsnominalphrasen sind aufgrund von Numerus und Genus identifizierbar.

  43. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Im Restaurant Der Oberkellner begrüßt den Gast. Er begleitet ihn zu seinem Stammplatz und reicht ihm Speise- und Weinkarte. Warum können wir aus syntaktischer Sicht sagen, dass „Er“ ist von einer anderen NP gebunden ist als „ihn“ und „ihm“?

  44. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer NPBindungsprinzip Name, NP mit Nomen frei Personalpronomen frei innerhalb der regierenden Kategorie Reflexivpronomen gebunden innerhalb der regierenden Kategorie Die regierende Kategorievon  ist die kleinste NP oder der kleinste S, die oder der  enthält und die oder der außerdem etwas enthält, was regiert.

  45. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer  c-kommandiert genau dann, wenn jede maximale Projektion, die dominiert, auch  dominiert. XP c-kommandiert  und .  c-kommandiert und . c-kommandiert weder noch . ZP X‘ X Y Z‘ Z   

  46. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer A regiert genau dann, wenn gilt a) c-kommandiert , b)   {N, V, Praep, Adj} und c) jede maximale Projektion, die  dominiert, dominiert auch .

  47. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Die „regierende Kategorie“ von  ist die kleinste NP oder der kleinste S, die oder der  enthält und die oder der außerdem etwas enthält, was  regiert. S Personalpronomen sind in ihrer regierenden Kategorie „frei“ (= nicht gebunden). VP V‘ NP V NP Erbegleitet ihn ...

  48. Computerlinguistik Maschinelle Übersetzung: semantischer Transfer Über die grammatiktheoretischen Bindungsregeln kann man also einige problematische Bindungsfragen lösen: Lady Gaga glaubt, dass Carla sie gut kennt. Lady Gaga glaubt, dass Carla sich gut kennt.

  49. Computerlinguistik Literatur • Arnold, D. (2003). Why translation is difficult for computers. In: Somers, H. (Ed.), Computers and Translation: A Translator's Guide. Amsterdam, NL: John Benjamins. • Bresnan, J. (2000). Lexical-Functional Syntax. Oxford, UK: Blackwell. • Copestake, A. (1995). Semantic Transfer in Verbmobil.Verbmobil-Report 93. Universität Stuttgart, CSLI. • Hutchins, J. (2003). Machine Translation: General Overview. In: Mitkov (Ed.), The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. • Jurafsky, D. & Martin, J.H. (2009). Speech and Language Processing. Upper Saddle River, NJ: Pearson Education, 2. Auflage, Kapitel 25 “Machine Translation”.

More Related