Computerlinguistik

Computerlinguistik 4. Vorlesung (05.11.2009) apl. Professor Dr. Ulrich Schade Silverius Kawaletz Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de

Computerlinguistik Inhalt der Vorlesung Einführung Methoden Parsing Tagging Ontologien Anwendungen Maschinelle Übersetzung Informationsextraktion Textanalyse Gesamtsystem

Computerlinguistik Evaluationskriterien Wiederholung Für Parser gibt es folgende Evaluationskriterien (bzgl. eines vorgegebenen Korpus / Standards): Accuracy bestimmt die Prozentzahl der den Sätzen (aus dem Evaluationskorpus) zugewiesenen syntaktischen Struktur, die korrekt sind. (Es ist möglich, dass Sätzen überhaupt keine syntaktische Struktur zugewiesen wird.) Coverage bestimmt die Prozentzahl der Sätze aus dem Evaluationskorpus, die eine Struktur zugeordnet bekommen. (Die zugewiesenen Strukturen müssen nicht korrekt sein.)

Computerlinguistik Evaluationskriterien Accuracy vs. Precision Wir beurteilen etwas binär und erhalten folgende Matrix:

Computerlinguistik Evaluationskriterien Accuracy vs. Precision „wahr korrekt“ + „falsch korrekt“ accuracy = alle „wahr korrekt“ precision = „wahr korrekt“ + „wahr fälschlich“

Computerlinguistik Evaluationskriterien Accuracy vs. Precision high accuracy + low precision high precision + low accuracy Bilder von http://en.wikipedia.org/wiki/Accuracy

Computerlinguistik Evaluationskriterien Precision und Recall „wahr korrekt“ precision = „wahr korrekt“ + „wahr fälschlich“ „wahr korrekt“ recall = „wahr korrekt“ + „falsch fälschlich“

Computerlinguistik Evaluationskriterien Precision und Recall Bei „precision“ wird geschaut, wie hoch der Anteil der korrekten Ergebnisse bei den als „wahr“ vorhergesagten Ereignissen ist. (Bei einer hohen Präzision wird ein Fehler zuverlässig  reproduziert.) Bei „recall“ wird geschaut, wie hoch der Anteil der korrekten Ergebnisse bei den wahren Ereignissen ist. (Bei einem hohen „Recall“ werden die wahren Ereignisse fast alle als wahr vorhergesagt, aber evtl. auch viele, die nicht „wahr“ sind.) Zusammen sind „precision“ und „recall“ besser als „accuracy“.

Computerlinguistik Tagging „Tagging“ bedeutet die automatisierte Zuweisung von Deskriptoren (Tags) zu den Token der Eingabe. Ein „Tagger“ ist daher zumeist so aufgebaut, dass er mit einem so genannten „Tokenizer“ startet. Ein Tokenizer unterteilt einen Eingabetext in solche Token, die für die weitere Analyse (für das eigentliche Tagging) genutzt werden können. Token sind dabei Leerzeichen, Satzzeichen Zahlsequenzen, Wörter etc. (z.B. auch evtl. vorhandene sonstige Segmentierungsmarkierungen).

Computerlinguistik Tagging – Tokenization

Computerlinguistik Tagging • Nach der „Tokenization“ werden die Token, die als Wort-Token eingestuft wurden, weiter verarbeitet, indem den getaggten Token Annotationsmerk-male zuweist oder indem man sie auf der Grundlage von Tags und von Annotationen mit weiteren Tags versieht. Insbesondere ihre Wortart wird bestimmt und zugeordnet. Dazu verwendet man als Ressourcen: • Lexikon • Gazetteer-Listen • „Guesser“

Computerlinguistik Tagging – Lexikon • Das Lexikon liegt im einfachsten Fall als eine Liste von Vollwortformen vor. • Ökonomischer ist die Einbindung einer morphologischen Analyse. • Auf der Grundlage des Lexikons werden dann beispielsweise folgende Annotationsmerkmale zugeordnet (nach GATE http://gate.ac.uk/ ): • CC – coordinating conjunction: ‘and’, ‘but’, ‘nor’, ‘or’, ‘yet’, ... • CD – cardinal number • DT – determiner: ‘a’, ‘an’, ‘every’, ‘no’, ‘the’, ‘another’, ‘any’, ‘some’, ... • EX – existential there (‘There was a party in progress’). • FW – foreign word

Computerlinguistik Tagging – Lexikon • IN – preposition or subordinating conjunction • JJ – adjective • JJR – adjective/comparative • JJS – adjective/superlative • JJSS – unknown, but probably a variant of JJS • LRB – unknown • LS – list item marker (numbers and letters) • MD – modal verbs: ‘can’, ‘could’, ‘dare’, ‘may’, ‘might’, ‘must’, ...

Computerlinguistik Tagging – Lexikon • NN – noun, singular or mass • NNS – noun, plural • NP – proper noun, singular • NPS – proper noun, plural • PDT – predeterminer: ‘all/PDT his marbles’, ‘quite/PDT a mess’ • POS – possesive ending • PP – personal pronoun • PRP – unknown, but probably possessive pronoun

Computerlinguistik Tagging – Lexikon • RB – adverb: words ending in ‘-ly’, also ‘quite’, ‘too’, ‘very’, ‘enough’, ... • RBR – adverb, comparative • RBS – adverb, superlative • RP – particle • SYM – symbol: technical symbols or expressions that aren’t English words. • TO – literal ‘to’ • UH – interjection: Such ‘oh’, ‘please’, ‘uh’, ‘well’, ‘yes’.

Computerlinguistik Tagging – Lexikon • VBD – verb, past tense • VBG – verb, gerund or present participle • VBN – verb, past participle • VBP – verb, non-3rd person singular present • VB – verb, base form: subsumes imperatives, infinitives and subjunctives. • VBZ – verb, 3rd person singular present

Computerlinguistik Tagging – Lexikon • WDT – wh-determiner • WP$ – possesive wh-pronoun: includes ‘whose’ • WP – wh-pronoun: includes ‘what’, ‘who’, and ‘whom’ • WRB – wh-adverb: includes ‘how’, ‘where’, ‘why’. • Includes ‘when’ when used in a temporal sense. • Die vollständige Liste findet man unter http://gate.ac.uk/sale/tao/splitap7.html#x32-593000G

Computerlinguistik Tagging – Lexikon • Beispiel: • Annotation des Tokens „pillars“ • aufgrund des vorliegenden Lexikons und einer morphologischen Analyse

Computerlinguistik Tagging – Gazetteer • Gazetteer-Listen sind Listen mit Namen. Diese Listen werden speziell für den vorgegebenen Gegenstandsbereich angefertigt. Es gibt beispielsweise Listen mit • Vornamen, weiblich • Vornamen, männlich • Nachnamen • Namen von Ländern, Provinzen, Städten, Flüssen etc. • gebräuchlichen Abkürzungen, etwa für Maßeinheiten • usw.

Computerlinguistik Tagging – Gazetteer • Jedes Token, das in einer der Gazetteer-Listen geführt wird, wird mit einer zusätzlichen Annotation vom Typ „Lookup“ versehen. Dieses hat die Merkmale „majorType“ und „minorType“, die so mit Werten versehen werden, dass nachvollzogen werden, in welcher Gazetteer-Liste das Token gefunden wurde. • Ein Token, das in der Gazetteer-Liste für Städte gefunden wurde, erhält zum Beispiel die Werte „majorType = location“ und „minorType = city“.

Computerlinguistik Tagging – Gazetteer zusätzliche Annotations- schicht

Computerlinguistik Tagging – Guesser • Ein Guesser versucht, für unbekannte Wörter auf der Grundlage der syntaktischen Einbindung und der am Wort erkennbaren morphologischen Endungen deren Wortart usw. zu erraten, wonach dem Wort die entsprechenden Annotationen hinzugefügt werden. • „Dieser Rat ist es, der im wesentlichen die Staatsgeschäfte erledigt, zum Beispiel die Einleitungen zum Kriege trifft, die Aushebungen und Werbungen anordnet, den Feldherrn ernennt und ihm eine Anzahl Gerusiasten beiordnet, aus denen dann regelmäßig die Unterbefehlshaber genommen werden [...]“ (Mommsen: Römische Geschichte) NNS

Computerlinguistik Tagging – Named Entities • Auf den erzielten Annotationen kann man dann aufbauen und weitere, komplexere Annotationen erzeugen. Dies wird insbesondere für die so genannte „named entity recognition“ gemacht. • Beispielsweise kann man eine Annotation vom Annotationstyp „person“ erzeugen, die über Annotationsmerkmale wie „firstName“, „lastName“, „gender“ und „title“ verfügt, indem man Regeln zur „person“-Annotation erzeugt, die die Sequenz „Ser Barristan Selmy“ als „person“ annotiert und die Merkmale „firstName = Barristan“, „lastName = Selmy“, „gender = male“ und „title = Ser“ hinzufügt.

Computerlinguistik Tagging – Named Entities • „Named entities“ mit entsprechenden Annotationen können je nach Gegenstandsbereich voneinander abweichen. Beispiele sind • Personen („Ser Barristan Selmy“) • Organisationen („Kingsguard“, „Dummy GmbH“, „2./PzBtl412“) • Ort, Gebäude („Kitchener Hall“, „der Kölner Dom“) • Adressen („1600 Pennsylvania Avenue NW, Washington, DC 20500“) • Datum („5. November 2009“) • Geldbetrag („30 Silberlinge“)

Computerlinguistik Tagging – Sentence Splitting Nicht nur auf Wort-Token, sondern auch auf Satzzeichen- Token kann man weitere Analysen aufbauen, z.B. den „Sentence Splitter“ ...

Computerlinguistik Tagging – wörtliche Rede ... oder die Annotation von wörtlicher Rede.

Computerlinguistik Tagging  Parsing In diesem Beispiel sieht man Nominalphrasen, die mittels verschiedener Regeln, z.B. „NP  DT JJ NNS“ erzeugt wurden.

Computerlinguistik back to „Shallow Parsing“ Die Nutzung einfacher „chunk“-Regeln führt uns zurück zum shallow parsing. Wir können offensichtlich über Tags und Annotationen ein shallow Parsing realisieren, wobei als Ziel gilt, dass wir den „chunks“ letztlich semantische bzw. thematische Rollen zuweisen wollen. Ein nutzbares System von thematischen Rollen stammt von John Sowa.

Computerlinguistik http://www.jfsowa.com/ontology/thematic.htm

Computerlinguistik Thematische Rollen Beispiel: „... echoing amongst the purple pillarsof her hall.“ IN DT JJ NNS adverbiale Bestimmung des Ortes / „Location“  thematische Rolle PP

Computerlinguistik Thematische Rollen Beispiele: „Tilly marschierte gegen MagdeburgAgent „Michael fuhr nach Magdeburg.“ Destination „Michael fuhr Ralfnach Magdeburg.“ Patient „Michael fuhr mit seinem Ferrarinach Magdeburg.“ Instrument „Michael fuhr seinen Ferrarinach Magdeburg.“ Theme

Computerlinguistik Literatur • Cunningham, H. et al. (2006). Developing Language Processing Components with GATE, Version 5 (a User Guide). http://gate.ac.uk/sale/tao/split.html • Martin, G.R.R. (?). A Dance with Dragons. Bantam Books. • Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press. • Mommsen, T. (1854). Römische Geschichte. 6. Auflage: DTV, 2002. • Sowa, J.F. (2000). Knowledge Representation. Pacific Grove, CA: Brooks/Cole. • Voutilainen, A. (2003). Part-of-Speech Tagging. In: Mitkov, R. (Ed.), The Oxford Handbook of Computational Linguistics.

Computerlinguistik