1 / 17

TnT - Statistischer Part-of-Speech Tagger

TnT - Statistischer Part-of-Speech Tagger. 2. Teil der Präsentation des TnT Taggers von Thorsten Brants. Gliederung. Installation und Beschreibung des Programms Erläuterungen zu Bestandteilen praktisches Beispiel mit Hilfe meiner GUI. Download von TnT.

chaney
Download Presentation

TnT - Statistischer Part-of-Speech Tagger

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TnT - Statistischer Part-of-Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos am 17. Juni 2002

  2. Gliederung • Installation und Beschreibung des Programms • Erläuterungen zu Bestandteilen • praktisches Beispiel mit Hilfe meiner GUI Präsentation von Berenike Loos am 17. Juni 2002

  3. Download von TnT • Download des TnT Taggers nach Registrierung möglich. Weitere Informationen: http://www.coli.uni-sb.de/~thorsten/tnt/ Präsentation von Berenike Loos am 17. Juni 2002

  4. Installationshinweise für Windows • in dem mitgelieferten Manual gibt es noch keine Installationshinweise für Windows • deshalb sind die ersten Schritte unter Windows auf der folgenden Seite beschrieben Präsentation von Berenike Loos am 17. Juni 2002

  5. Installation von TnT unter Windows • Es handelt sich um ein Kommandozeilenprogramm, also müssen die einzelnen *.exe Dateien über die DOS Eingabeaufforderung aufgerufen werden • damit TnT von jedem Verzeichnis aus gestartet werden kann: Start → Ausführen... → Öffnen: Sysedit → in autoexec.bat eintragen: Set PATH=C:\tnt Set VAR=C:\TNT\MODELS Präsentation von Berenike Loos am 17. Juni 2002

  6. Bestandteile des TnT Taggers • tnt-para.exe für die Erstellung neuer Modelle • tnt.exe zum Taggen • tnt-diff.exe zum Vergleichen zweier getaggter Dateien • tnt-wc.exe zum Zählen von Wörtern und Tags • Ordner mit Modellen trainiert am Negra-Korpus (deutsch), WSJ-Korpus und Susanne-Korpus (englisch) • Manual Präsentation von Berenike Loos am 17. Juni 2002

  7. Erläuterungen: 1. Modell (tnt-para.exe) • Ein Modell bietet Kriterien, anhand derer der Tagger Entscheidungen trifft • Vorbild für ein Modell ist eine getaggte Datei • Jedes Modell wird in zwei Dateien gespeichert: • Datei, die lexikalische Häufigkeiten repräsentiert, Endung *.lex • Datei, die kontextuelle Häufigkeiten repräsentiert, Endung *.123 Präsentation von Berenike Loos am 17. Juni 2002

  8. Erläuterungen: 2. ungetaggte Datei (tnt.exe) • Dateiendung *.t • Vor Kommentaren steht %% • Nur ein Wort pro Zeile • Jedes weitere Wort, das durch Leerzeichen abgetrennt ist, wird ignoriert Präsentation von Berenike Loos am 17. Juni 2002

  9. Erläuterungen: 3. getaggte Datei (tnt.exe und tnt-para.exe) • Dateiendung *.tt • Vor Kommentaren steht %% • Jede Zeile enthält ein Wort und dazugehörigen Tag durch Leerzeichen getrennt • Jedes weitere Wort, das durch Leerzeichen abgetrennt ist, wird ignoriert Präsentation von Berenike Loos am 17. Juni 2002

  10. Erläuterungen: 4. Vergleich (tnt-diff.exe) • Zwei getaggte Dateien, die auf der selben ungetaggten Datei basieren, können verglichen werden • Möglichkeit zum Vergleich: • eine Datei mit bestehendem Modell getaggt und • eine Datei mit neuem Modell oder • eine Datei von Hand getaggt Präsentation von Berenike Loos am 17. Juni 2002

  11. Vorgang des Taggens mit dem Modell trainiert am Negra-Korpus Modell negra.123 neu.tt neu.t Testkorpus negra.lex + = negra.tnt Trainings- korpus Präsentation von Berenike Loos am 17. Juni 2002

  12. Vorgang des Taggens mit Modell an neuem Korpus trainiert neues Modell neu.123 text.tt text.t Testkorpus neu.lex + = neu.tt (von Hand bearbeitet) Trainings- korpus Präsentation von Berenike Loos am 17. Juni 2002

  13. Entwicklung einer GUI für den TnT Tagger Vereinfachung der Bedienung: • zeilenweise Texteingabe möglich, da Zeilenumbrüche automatisch nach jedem Wort eingefügt werden • automatische Erstellung neuer Dateinamen • Überprüfung, ob Dateiname schon vorhanden Präsentation von Berenike Loos am 17. Juni 2002

  14. GUI entwickelt für den TnT Tagger Präsentation von Berenike Loos am 17. Juni 2002

  15. GUI entwickelt für den TnT Tagger Präsentation von Berenike Loos am 17. Juni 2002

  16. Literatur & Links • T. Brants. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, Seattle, WA, 2000. • TnT Tagger: http://www.coli.uni-sb.de/~thorsten/tnt/ • Tagset des Deutschen: http://www.ifi.unizh.ch/CL/tagger/UIS-STTS-Diffs.html Präsentation von Berenike Loos am 17. Juni 2002

  17. Folien unter: www.berenike.de Infos und Vorschläge an: loos@berenike.de Präsentation von Berenike Loos am 17. Juni 2002

More Related