1 / 22

Textkorpora in angewandter Slawistik

Textkorpora in angewandter Slawistik. Danko.Sipka@asu.edu http://www.public.asu.edu/~dsipka. Fünf Beispiele. Einleitung.

Download Presentation

Textkorpora in angewandter Slawistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.


Presentation Transcript

  1. Textkorpora in angewandter Slawistik Danko.Sipka@asu.edu http://www.public.asu.edu/~dsipka • Fünf Beispiele

  2. Einleitung • NeuroTran(R), ein MT System zwischen Englisch und mehreren anderen (hauptsächlich slawischen) Sprachen, das in der Firma Translation Experts Ltd., aus London, GB entwickelt wurde. Mehr über diese Firma findet man unter: http://www.tranexp.com . • 2. Rapid Deployment Morphology Lemmatisator der serbokroatischen Morphologie von New Mexico State University Computing Research Laboratory, Las Cruces, USA. Mehr über diese Institution ist unter: http://www.crl.nmsu.edu zu erfahren. • 3. Serbokroatisch-Englisches Wörterbuch der Umgangssprache (Slang und Kolloquialismen), an dem ich für die Firma Multilingual Research and Management aus Washington, DC, USA arbeite. Mehr über diese Firma findet man unter: http://www.erols.com/hdqt • 4. Serbokroatisch-Polnische kontrastive Untersuchungen an der Adam Mickiewicz Universität in Posen, Polen. Die Informationen zur diesen Projekten sind unter: http://main.amu.edu.pl/~sipkadan/ erhältlich. • 5. Slavisch-Englische Text Taggers, erhältlich unter http://www.asusilc.net/lctli.

  3. Die Hauptkonzepte

  4. Die Hauptkonzepte • Die Forderung der Minimalität, die verlangt, daß Informationen aus Textkorpora mit der möglichst kleinsten Anstrengung, gewonnen werden, • b. Die Forderung der Wiederverwendbarkeit, die verlangt, daß ein und dasselbe Material für viele Anwendungen geeignet ist.

  5. NeuroTran

  6. NeuroTran <Hauptwort><POS tag><Gebrauchsanweisungen><Frequenzangaben><Kollokationsangaben> < Äquivalent 1>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben> < Äquivalent 2>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben > ... <Äquivalent 2><POS Tag><Gebrauchsanweisungen > <Frequenzangaben>< Kollokationsangaben >

  7. NeuroTran • Kanonische Liste für die Quellsprache, • b. Gebrauchsanweisungen für die Quell- und Zielsprache, • c. Frequenzangaben für die Quell- und Zielsprache, • d. Lexikalische Valenz für die Zielsprache, • e. Grammatische Valenz für die Zielsprache, • f. Wort-Reihenfolge für die Zielsprache

  8. NeuroTran

  9. NeuroTran Jestem w pracy. ->*I am in work. w L;[...]/in A;[...]/at A;[...] UNI GRM PREDICATE * PREPOSITION * NOUN => COLLOCATION(13->2) work [to, at] *I am in work -> I am at work. ENGPOL GRM ADJECTIVE NOUN => COLLOCATION(1 2|2 1). descriptive grammar -> *opisowa gramatyka -> gramatyka opisowa boring grammar -> nudna gramatyka -> nudna gramatyka

  10. RDM „The model is motivated by engineering concerns: the considerations of economy and efficiency led to the use of non-traditional definitions of morphemes. The model has been implemented in the RDM system in the framework of the Corelli project at CRL. It was initially done on the material of Russian and then successfully applied for Serbo-Croatian”.

  11. RDM [1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G2), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G2), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G2), ] [1483, 1486, 'vođe', 'vođ', NOUN(N;N1;C7;G1), ] [1483, 1486, 'vođe', 'vođ', NOUN(N;N2;C4;G1), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G1), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G1), ] [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G1), ] // the leaders [1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C7;G1), ] [1487, 1487, ' ', ' ', SPACE(), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G1), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N1;C2;G2), ] // of the opposition [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C1;G2), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G2), ] [1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C7;G2), ] [1498, 1498, ' ', ' ', SPACE(), ] [1499, 1507, 'koalicije', 'koalicija', NOUN(N;N1;C2;G2), ] // coalition [1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C1;G2), ] [1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C4;G2), ]

  12. Inxight sentence = 46-167 BOB Prop JOHNSON Prop , Punct-Comma trenér Nn-Sg-Case amerických Adj hokejistů Nn-Pl-Gen koučoval V-PaPart své Pron-Refl svěřence Nn-Sg-Case na Prep Kanadském Adj poháru Nn-Sg-Case z Prep nemocnice Nn-Sg-Gen ; Punct naši Pron-Poss porážejí V-Ind SSSR Prop 5:2 Num-Card ! Punct-Sent

  13. Serbokroatisch-Englisches Wörterbuch der Umgangssprache • als eine der Quellen für das Hauptverzeichnis der serbokroatischen Einträge, • b. als eine der Quellen für Gebrauchsanweisungen, • c. als eines der Mittel des Mikrostrukturbaus des Wörterbuchs.

  14. Serbokroatisch-Englisches Wörterbuch der Umgangssprache 1 maznuti ‘klauen’; 2 maznuti ‘anfangen mit einer Freundin zu gehen’; 3 maznuti ‘Rauschgiftwirkung fühlen’

  15. Serbokroatisch-Englisches Wörterbuch der Umgangssprache a. Wenn man anfängt, mit einer Freundin zu gehen, es ist wie sie zu klauen, b. Wenn man die Wirkung von Rauschgift fühlt, ist es wie von Rauschgift geklaut zu sein. maznuti | 1 ‘klauen’; /\ a. ‘anfangen zu gehen mit jemandem’ b. ‘Rauschgiftwirkung fühlen’

  16. Kontrastive Untersuchungen

  17. Taggers Taggers: http://www.asusilc.net/cgi-bin/newtepajgu.pl Examples http://www.asusilc.net/exbcs.htmOffline http://www.asusilc.net/expol.htmOffline http://www.asusilc.net/exbcs.htmOffline

  18. Language Selection

  19. Pasting the Text

  20. Tagged Text

  21. Inflections

  22. Zusammenfassung • Alle Informationen soll man erstmals aus Textkorpora zu gewinnen versuchen, • b. Es ist sehr wichtig robuste Werkzeuge dafür zu entwickeln, • c. Die Korpusangaben sollten ständig mit Informationen aus anderen Quellen konfrontiert werden.

More Related