1 / 28

Computerlinguistik

Computerlinguistik. 1. Vorlesung (13.10.2011). apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de. Computerlinguistik. Kontaktdaten. apl. Professor Dr. Ulrich Schade

king
Download Presentation

Computerlinguistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Computerlinguistik 1. Vorlesung (13.10.2011) apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de

  2. Computerlinguistik Kontaktdaten apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie (FKIE) Neuenahrer Straße 20 53343 Wachtberg E-Mail: ulrich.schade@fkie.fraunhofer.de Telefon: 0228 9435 376 Fax: 0228 9435 685

  3. Computerlinguistik Scheinkriterien • Leistungsschein: • Anwesenheit  (= maximal zweimal unentschuldigtes Fehlen) • Erstellung einer Hausarbeit (etwa 20 Seiten) zu einem Teilthema, • welches in der Vorlesung behandelt wurde, dessen Vertiefung • von Interesse ist für die Person, die den Schein erwerben möchte • Teilnahmeschein: • Anwesenheit  • Protokoll einer Sitzung • (vor der darauf folgenden Sitzung per Mail zu schicken)

  4. Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse Dies ist nur ein Teil der Themen, die man unter „Computerlinguistik“ behandeln kann.

  5. Computerlinguistik Ziel der Vorlesung (Dies ist nur ein Teil der Themen, die man unter „Computerlinguistik“ behandelt könnte.) Ziel der Veranstaltung ist es, das Zusammenwirken von unterschiedlichen Methoden und Anwendungsfeldern der Computerlinguistik aufzuzeigen.

  6. Computerlinguistik Definitionen “In der Computerlinguistikwird untersucht, wie natürliche Sprachemit Hilfe des Computersalgorithmisch verarbeitet werden kann. Sie ist Teilbereich der Künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaftund Informatik.“ http://de.wikipedia.org/wiki/Computerlinguistik

  7. Computerlinguistik Definitionen “Computational Linguistics is an interdisciplinary field concerned with the processing of language by computers.” Mitkov, Ruslan (2002). Preface, S. ix. In: Mitkov, Ruslan (Ed.), The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press.

  8. Thema Blickwinkel, aus denen man Sprachverarbeitung untersucht Computerlinguistik Informatik Linguistik KI Psycholinguistik Neurolinguistik Kognitionspsychologie Medizin Neuropsychologie

  9. Computerlinguistik Ziele der unterschiedlichen Disziplinen Sprachverarbeitung in der Informatikhat das Ziel, Ergebnisse zu erzielen (= Lösung des Problems). Die Güte der verwendeten Methoden bzw. des verwendeten Programms ergibt sich aus dem Resultat (Wie erfolgreich wurde das Problem gelöst?). Sprachverarbeitung in den Kognitionswissenschaften hat das Ziel, den kognitiven Prozess nachzubilden (= Modellbildung). Die Güte der verwendeten Methoden ergibt sich aus der Vorhersagekraft in Bezug auf den kognitiven Prozess (Kann man aus dem Modell neue und interessante Aussagen darüber machen, wie der kognitive Prozess in bestimmten Fällen ablaufen sollte?).

  10. Computerlinguistik Ziele der unterschiedlichen Disziplinen Computerlinguistische Verfahren und Ansätze werden sowohl in der Informatik als auch in den Kognitionswissenschaftenverwendet, um die Verarbeitung von Sprache zu leisten bzw. zu untersuchen. Wechselwirkung Kognitive Modelle liefern der Informatik/KI Ideen dazu, wie Probleme (besonders effektiv) gelöst werden könnten. Funktionierende Programme liefern den Kognitionswissenschaften Ideen, wie kognitive Prozesse ablaufen könnten.

  11. Computerlinguistik Ziele der unterschiedlichen Disziplinen Beispiel 1: Computer als kognitionswissenschaftliches Modell „[T]he nervous system has a prima faciedigital character.“ John von Neumann (1958). The Computer and the Brain. (Yale University Silliman Lectures.) New Haven, CT: Yale University Press.

  12. Computerlinguistik Ziele der unterschiedlichen Disziplinen Beispiel 2: Kognitionswissenschaftliche Erkenntnis als Bauplan fürKI-Anwendung Levelt, Roelofs & Meyer (1999). A theory of lexical access in speech Production. Behavioral and Brain Sciences, 22, 1-75. Silben

  13. Computerlinguistik Ziele der unterschiedlichen Disziplinen Beispiel 2: Kognitionswissenschaftliche Erkenntnis als Bauplan fürKI-Anwendung z.B.: Silben als Grundbausteine für ein Sprachsynthesesystem

  14. Computerlinguistik sprachspezifisch Computerlinguistik ist sprachspezifisch. Die Algorithmen müssen daher für die jeweilige Zielsprache entwickelt (oder wenigstens angepasst werden). Einfaches Beispiel: Automatisierte Silbentrennung Deutsch trennt nach Silben (außer bei Fremdwörtern) und maximiert dabei den Onset Wän-de / sa-kro-sankt Finnisch trennt nach Silben, maximiert aber die Coda dansk-a (Berg & Niemi, 2000)

  15. Computerlinguistik Geschichtliches: Ausgangspunkt Ausgangspunkt der Entwicklung von Computerlinguistik als Wissenschaftszweig war die Idee der Maschinellen Übersetzung: Warren Weaver (1894-19789) legte 1949 eine Serie von Essays über die maschinelle Übersetzung [mit Computern] vor, die als Weaver-Memorandum bekannt ist. Hierin formulierte er Ziele und Ideen zur Durchführung der maschinellen Übersetzung, bevor die meisten überhaupt verstanden hatten, was Computer zu leisten imstande sein würden. [http://de.wikipedia.org/wiki/Warren_Weaver]

  16. Computerlinguistik Geschichtliches: Computerlinguistik als Begriff „Computerlinguistik“ etablierte sich als Begriff durch die Umbenennung der Fachzeitschrift „Mechanical Translation“ (erste Ausgabe 1954) zu „Mechanical Translation and Computational Linguistics“ (1965). weitere Umbenennungen dieses Journals erfolgten 1974: American Journal of Computational Linguistics (AJCL) 1984: Computational Linguistics nach Kay, Martin (2002). Introduction. In: Mitkov, R. The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. und http://www.aclweb.org/anthology-new/docs/cl.html

  17. Computerlinguistik Geschichtliches: Computerlinguistik als Begriff Der Begriff „Computerlinguistik“ ist also zunächst im Zusammen-hang mit der maschinellen Übersetzung verwendet worden. Maschinelle Übersetzung ist eine Art Königsdisziplin für die Computerlinguistik, und die Phasen in Bezug auf die verwendeten Methoden, die die Maschinelle Übersetzung durchlaufen hat, lassen sich auch allgemein als Phasen in der Methodik der Computerlinguistik verstehen.

  18. Computerlinguistik Geschichtliches: Phasen frühe Phase: MT als Dekodierungsprozess (statistische Analysen), aber dann „The best known event in the history of machine translation is without doubt the publication thirty years ago in November 1966 of the report by the Automatic Language Processing Committee (ALPAC 1966). Its effect was to bring an end to substantial funding of MT research in the United States for some 20 years. More significantly, perhaps, was the clear message to the general public and the rest of the scientific community that MT was hopeless. For years afterwards, an interest in MT was something to keep quite about; it was almost shameful.“ Hutchins, J. (1996): ALPAC: the (in)famous report. MT News International, 14, 9-12. http://www.hutchinsweb.me.uk/MTNI-14-1996.pdf

  19. Computerlinguistik Geschichtliches: Phasen • Auf die frühe (statistische) Phase folgte eine Phase der rein symbolischen (regelbasierten) Sprachverarbeitung, wobei für die verwendeten Regeln linguistisches Wissen genutzt werden muss. Statistische Verarbeitung wurde zunächst nicht mehr versucht. Gründe dafür waren • zu leistungsschwache Computer und • die durch Chomsky (1957) initiierte Frage, ob sich der Unterschied zwischen „Colorless green ideas sleep furiously“ und „Furisously sleep ideas green colorless“ überhaupt statistisch erkennen lässt. Die Antwort ist zwar „ja“; aber das wurde zunächst nicht erkannt, weil ja auch der erste „Satz“ in keinem Korpus vorkommt.

  20. Computerlinguistik Geschichtliches: Phasen • Durch die Phase der symbolischen Verarbeitung im Rahmen der Computerlinguistik wurden auch linguistische Theorien weiterentwickelt. • Beispiele dafür sind • die Weiterentwicklung der Grammatiktheorie durch unifikations-basierte Ansätze (PATRII, LFG, HPSG) und • Applikationen für die Phonologie und für die Morphologie, die auf endlichen Automaten beruhen.

  21. Computerlinguistik Geschichtliches: Phasen Regelbasierte Verfahren (symbolische Verarbeitung) setzen voraus, dass die linguistischen Regeln, die in Bezug auf die zu realisierende Anwendung relevant sind, bekannt sind und kodiert werden können. Manchmal sind diese Regeln nicht bekannt. (Beispiel: Für die Genuszuordnung bei deutschen Nomen gibt es einige Regeln, etwa „Nomen die mit -ung enden, sind feminin“, die aber nicht unbedingt bekannt sind und die auch nicht alle Nomen abdecken.) Außerdem gibt es in natürlichen Sprachen stets Ausnahmen zu den Regeln. (Beispiel: Benennungen für Obst sind meist feminin; Ausnahme: Apfel.)

  22. Computerlinguistik Geschichtliches: Phasen Durch die Einführung immer leistungsstärkerer Computer ist inzwischen die Sprachverarbeitung mittels statistischer (oder korpus-basierter) Verfahren wieder möglich (Phase der statistischen Sprachverarbeitung). Ein typisches Beispiel ist die beispielbasierte maschinelle Übersetzung, bei der die Übersetzung aus Teilen zusammengefügt wird, für die es im Korpus Belege gibt. Notwendig dafür ist offensichtlich ein ausreichend großes Korpus, welches außerdem in Bezug auf die Anwendung (thematisch) angemessen ist. Ein anderes Beispiel bilden die adaptiven (Lern-)Verfahren in der Erkennung von gesprochener Sprache.

  23. Computerlinguistik Geschichtliches: Phasen Statistische Verfahren reflektieren nutzen statistische Effekte aus. Diese Effekte setzen sich aber unter Umständen aus mehreren Einzeleffekten zusammen, wobei die Einzeleffekte zu unterschiedlichen linguistischen Ebenen gehören können. Beispiel: Die statistisch naheliegende Interpretation von „Der Mann sah die Frau mit dem Fernglas“, worin die PP als „Instrument“ gedeutet wird, ergibt sich auch daraus, dass ein Fernglas ein typisches Instrument für „sehen“ ist. Dies ist also kein rein syntaktischer Effekt.

  24. Computerlinguistik Geschichtliches: Phasen Wendet man statistische Verfahren an, so hat man immer dann Probleme, wenn Ausnahmefälle auftreten, da diese statistisch gar nicht erfasst sind oder durch die häufigeren Fälle übertönt werden. Beispiel: „Tyrion had blood in his mouth and spat it on the floor“ wird zu „Tyrion hatte Blut im Mund und spuckte ihn auf den Boden“, weil es eine statistische Präferenz dafür gibt, das Personalpronomen auf die nächst-vorausgehende NP zu beziehen.

  25. Computerlinguistik Geschichtliches: Phasen Statistische Verfahren nutzen überdies in erster Linie kontextuelle Information in Abhängigkeit von der direkten Nachbarschaft. Beispiel: „the second and the thirdfloor“ wird als „der zweite und der zweite Stock“ übersetzt, weil …

  26. Computerlinguistik Geschichtliches: Phasen In vielen Fällen kann man Schwächen von statistischen Verfahren dadurch ausgleichen, dass man linguistisches Regelwissen anwendet. Aus dieser Einsicht heraus entwickelt man derzeit recht häufig so genannte „hybride“ Systeme, in denen statistische Komponenten und regelbasierte Komponenten zusammenwirken, wodurch zum Teil die jeweiligen Schwächen der Ansätze ausgeglichen werden (Phase der hybriden Sprach-verarbeitung).

  27. Computerlinguistik Literatur Thomas Berg und Jussi Niemi (2000). Syllabification in Finnish and German: Onset filling vs. onset maximization, Journal of phonetics, 28 , 187-216. Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat und Ralf Klabunde (Hrsg.) (2004). Computerlinguistik und Sprachtechnologie. Berlin: Spektrum Akademischer Verlag, 2. Auflage. Noam Chomsky (1957). Syntactic Structures. Den Haag: Mouton. John Hutchins (1996). ALPAC: The (in)famous report. MT News International, 14, 9-12.

  28. Computerlinguistik Literatur Daniel Jurafsky und James H. Martin (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River, NJ: Pearson Education, 2. Auflage. Willem J.M. Levelt, Ardi Roelofs und Antje S. Meyer (1999). A theory of lexical access in speech Production. Behavioral and Brain Sciences, 22, 1-75. RuslanMitkov (Ed.) (2002). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. John von Neumann (1958). The Computer and the Brain. (Yale University Silliman Lectures.) New Haven, CT: Yale University Press.

More Related