Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003
This presentation is the property of its rightful owner.
Sponsored Links
1 / 33

Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003 PowerPoint PPT Presentation


  • 75 Views
  • Uploaded on
  • Presentation posted in: General

Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003. Wozu Korpora ? empirische Grundlage bei linguistischen Fragestellungen Grundlage für computerlinguistische Modellierung: Trainieren statistischer Verfahren, machine learning (z.B. Parser, Grammatiken)

Download Presentation

Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Computergestützte Analyse multilingualer KorporaElke Teich3. Februar 2003


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

  • Wozu Korpora?

    • empirische Grundlage bei linguistischen Fragestellungen

    • Grundlage für computerlinguistische Modellierung: Trainieren statistischer Verfahren, machine learning (z.B. Parser, Grammatiken)

  • Was will man an multilingualenKorpora untersuchen? Beispiele:

    • Sprachunterschiede unter Berücksichtigung von Gebrauchsbedingungen (Sprachtypologie, Texttypologie)

    • L2-Lehr/Lernmaterialien (kontrastive Linguistik)

    • Maße für Übersetzungsqualität (Übersetzungswissenschaft)

    • translation memories (Maschinelle Übersetzung)

  • Wie geht man dabei vor?

    • viele Daten (> zig tausend Wörter): computergestützte Analyse


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Übersetzungen

  • Was ist daran interessant? Textsorte,

    • an der wir Multilingualität (z.B. Sprachtypologie,

    • kontrastive Linguistik) „in action“ sehen können

    • die wir im Alltag ständig antreffen

  • Übersetzungen haben etwas „Spezielles“, das sie von

  • Texten unterscheidet, die keine Übersetzungen sind.

  • Wie kann man dieses „Spezielle“ herausarbeiten?

    • Beobachtungen formulieren,

    • an multilingualem Korpus überprüfen,

    • computerlinguistische Techniken einsetzen.


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

leichteste

Gasgeräten

Hydrogen burns to form water

Lexik

Syntax

The secret strength of hydrogen

Übersetzung: Alta Vista (Systran)

Aller chemischen Elemente ist Wasserstoff in der Struktur und

zuerst in der Verschiedenartigkeit seines chemischen Verhaltens

das einfachste.

Das Element selbst besteht als das Molekül H2, das als das hellste

aller Gase weithin bekannt ist. Obgleich Industrie dieses Gas auf

einer großen Skala benutzt, wird sie selten im täglichen Leben aus-

genommen angetroffen, um Ballone zu füllen. Gleichwohl in 25

Jahren Zeit festsetzen sie, kann dieses das Gas sein, das in unsere

Häuser zu den Kraftstoffdampfkesseln und -kochern geleitet wird –

einmal haben wir herauf Versorgungsmaterialien des natürlichen

Methangases verwendet, CH4. Wasserstoff brennt, um Wasser zu

bilden, und ist folglich sauberer als die Gase, die Carbon enthalten.


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

The secret strength of hydrogen

Original: Scientific American

Of all the chemical elements, hydrogen is the simplest in structure,

and first in the diversity of its chemical behaviour. The element

Itself exists as the molecule H2 which is well known as the lightest

of all gases. Although industry uses this gas on a large scale it is

rarely encountered in everyday life except to fill balloons. However

in 25 years time this may be the gas which is piped into our homes

to fuel boilers and cookers - once we have used up supplies of

natural methane gas, CH4. Hydrogen burns to form water, and

hence is cleaner than gases containing carbon.

[Handout]


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Die geheime Kraft des Wasserstoffs

Übersetzung: Spektrum der Wissenschaft

Wasserstoff ist seinem Aufbau nach das einfachste, aber seinem

Verhalten nach das vielseitigste von allen chemischen Elementen.

Es existiert als Molekül H2, das als das leichteste aller Gase

allgemein bekannt ist. Obwohl es industriell in großem Umfang

genutzt wird, kommt es im täglichen Leben – außer beim Füllen

von Ballons – kaum vor. Doch könnte gerade dieses Gas in einem

Vierteljahrhundert, wenn die Vorräte an natürlichem Methangas,

CH4, aufgebraucht sind, in den Gasgeräten unserer Haushalte

Verwendung finden. Wasserstoff verbrennt zu Wasser und ist

Somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten.

[Handout]


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Art Spiegelman, Maus I

Übersetzung: Christine Brinck, Josef Joffe


Bersetzungen ihre spezifischen eigenschaften

Übersetzungen & ihre spezifischen Eigenschaften

  • (Auch gute) Übersetzungen haben spezifische Eigenschaften, die sie von Texten in derselben Sprache wie der Zielsprache (ZS) unterscheiden (vgl. Baker 95, 96; Toury 95, Teich 01)

  • Spezifischen Produktionsbedingungen von Übersetzungen: induziert durch quellsprachlichen Text, zielsprachenorientiert; Hypothesen:

    • Übersetzungen lassen die Quellsprache (QS) durchscheinen  shining through

    • Übersetzungen gehorchen der ZS-Norm mehr als vergleichbare ZS-Originaltexte  normalization

    • andere: explicitation, simplification, levelling-out

  • Was ist denn „normal“? Was kann übertrieben normal gemacht werden? Was kann durchscheinen?


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Scientific American/Systran/

Spektrum der Wissenschaft

(Original: Englisch)

Hydrogen burns to form water, and hence is cleaner

than gases containing carbon.

Wasserstoff brennt, um Wasser zu bilden, und ist folglich

sauberer als die Gase, die Carbon enthalten.

Wasserstoff verbrennt zu Wasser und ist somit weniger

umweltbelastend als Gase, die Kohlenstoff enthalten.

(vgl. Doherty 93; Hawkins 84)

 Sprachtypologie (System)


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

CAD/CAM User Manual; AutoCad

(Original: Englisch)

Englisch: To draw a polyline.

Deutsch: So zeichnen Sie eine Polylinie.

(Eine Polylinie zeichnen.)

Russisch: Chtoby narisovatj poliliniju.

IN-ORDER-TO DRAW POLYLINE

Bulgarisch: Chertane na polilinija.

DRAWING OF POLYLINE

to-Infinitiv

finiter Satz,

deklarativ

um zu + Infinitiv

Nominalisierung

(vgl. Copernicus Project AGILE)

 Texttypologie (Register)


Hypothesen ihre herleitung

Hypothesen & ihre Herleitung

  • Sprachenpaar Englisch-Deutsch, Register populärwissenschaftlicher Texte

  • Sprachtypologie (System): Prä/Postmodifikation der NP (E: Postmodifikation, D: Prämodifikation), Themaoptionen (E: grammatical word order, D: pragmatic word order), Transitivität (D: transitiv; E: ergativ)

  • Texttypologie (registerspezifisch): Passiv, Nomina, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)


Beispiele sprachtypologie

Beispiele Sprachtypologie

  • Transitivität

    (1) E: A material known as ionophore, which binds to membranes...

    (2)D: Eine Substanz, die als Ionophor wirkt. Sie setzt sich an der

    Membran fest.

    (3) E: Thus in water the hydrogen atoms exchange billions of times per second.

    (4)D: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro Sekunde ausgetauscht.

  • Prä/Postmodifikation

    (5)E: The voltages that would be expected to be produced in the cytoplasm of Fucus embryos, only 0.1 mm in length, would unfortunately be too close to the limits of microelectrode sensitivity to be measurable.

    (6)D: Die zu erwartenden Spannungen im Zellplasma würden bei

    den 0.1 mm lange Fucusembryonen leider schon unterhalb der fürMikroelektroden messbaren Grenze liegen.


Beispiele texttypologie

Beispiele Texttypologie

  • Einfache Satzstruktur, komplexe Nominalgruppen

    (1) E:So in Fucus, one of the events that translates asymmetry in the environment into asymmetry in the embryoisa polarised pumping of electric current, in the form of Ca++ ions.

    (2) D: Beim Fucus ist damit einer derProzesse, der eine Asymmetrie aus der Umgebung in eine Asymmetrie des Embryos umsetzt, ein polarisierter elektrischer Strom von Ca++-Ionen.

  • Nicht agentivische Darstellung (z.B. Passiv)

    (3) E: The behavior of acids is generally observed in water.

    (4)D: Gewöhnlich untersucht man das Verhalten von Säuren in Wasser.

    (5) D: Somit lassen sich auch bei diesen Spielen verschiedene Strategien in einer Auszahlungsmatrix gegenüberstellen und bewerten.

    (6)D: Dabei ist eine sehr bemerkenswerte Verlagerung zu verzeichnen.

    (7)D: In Lehrbüchern wird dieser Prozess oft durch die Gleichung HCl H++ Cl- dargestellt.

    (8)E: Text books often write this process as HCl H++ Cl-.

    (9)E: Thus in water the hydrogen atoms exchange billions of times per second.


Beispiel passiv passivalternativen

G-ORI

E-ORI

active

389

278

79

165

passive

2 = 45.5; Signifikanz: 0.001 (1 df > 10.83)

G-ORI

E-ORI

passive 79 165

passive 146 64

alternatives

2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)

Beispiel Passiv/Passivalternativen

G-ORI – E-ORI Subkorpus

  • Passiv typischer

    für E als für D

  • Passivalternativen

    typischer für D als für E


Hypothesen ihre herleitung passiv passivalternativen

Hypothesen & ihre Herleitung: Passiv/Passivalternativen

  • Hypothesenformulierung E-ORI—G-TL

  • In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI)

  • In Übersetzungen vom Englischen ins Deutsche liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)


Hypothesen ihre herleitung passiv passivalternativen1

Hypothesen & ihre Herleitung: Passiv/Passivalternativen

  • Hypothesenformulierung G-ORI—E-TL

  • In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI)

  • In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)


Korpus

parallel corpus

monolingually comparable corpus

monolingually comparable corpus

parallel corpus

multilingually comparable corpus

Korpus

English

original texts

German translations

English

translations

German original texts

(Register: populärwissenschaftliche Prosa; ca. 10 000 Wörter pro Subkorpus)


Analysetechniken methoden

Analysetechniken & Methoden

  • Korpusanreicherung: PoS (Part-of-Speech) tagging

  • Korpusquery: reguläre Ausdrücke

  • Resultate und Interpretation:

    • Paare von Merkmalen, Chi-Quadrat

    • Bewertung im Sinne von shining through, normalization


Techniken korpusanreicherung

Passiv:

VB* ... VVN

Techniken: Korpusanreicherung

  • PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95)

  • TnT output:

If

however

a

rapid

,

preferably

instant

,

effect

is

desired

,

strophanthin

will

be

needed

.

CS

RR

AT1

JJ

YC

RR

JJ

YC

NN1

VBZ

VVN

YC

PN1

VM

VB0

VVN

YF


Techniken korpus query

Query

Konkordanz

Techniken: Korpusquery

  • Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94)

  • Query-Syntax: reguläre Ausdrücke


Resultate interpretation

Resultate & Interpretation

E-ORI

G-TL

G-ORI

active

278

357

389

 schwaches shining-through (Passiv) in G-TL

165

100

79

passive

G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10(1 df > 2.71)

E-ORI

G-TL

G-ORI

passive

alternatives

64

163

146

165

100

79

passive

G-ORI – G-TL: 2 = 0.0; nicht signifikant

 kein normalization-Effekt (Passivalternativen) in G-TL


Resultate interpretation1

Resultate & Interpretation

G-ORI

E-TL

E-ORI

active

389

218

278

 normalization (Passiv) in E-TL

79

186

165

passive

E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01(1 df > 6.64)

G-ORI

E-TL

E-ORI

passive

alternatives

146

62

64

79

186

165

passive

E-ORI – E-TL: 2 = 0.1; nicht signifikant

 kein shining-through-Effekt (Passivalternativen) in E-TL


Resultate interpretation2

Resultate & Interpretation

  • Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6)

  • mehr Effekte in G-TL; mehr shining through in G-TL, mehr

    normalization in E-TL

  • Effekte, die nicht auf normalization/shining through zurückzuführen

    sind (3, 7, 8)


Resultate interpretation3

Resultate & Interpretation

  • E-TL normalisiert mehr, G-TL lässt mehr durchscheinen

    (1)E-ORI: Thus, in water the hydrogen atoms exchange billions of times per second.

    G-TL: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro Sekunde ausgetauscht.

    (2) E-ORI: ... this choice minimizes the risk of errors during translation

    G-TL: ...und damit die Gefahr von Übermittlungsfehlern verringert wird.

    (3)G-ORI: Für den praktischen Gebrauch benötigt man große Zahlen.

    E-TL: ...for practical application large numbers are needed.

    (4) G-ORI: Die Übermittlung einer Nachricht mit öffentlichen und geheimen Schlüsseln lässt sich auch in der Kryptologie verwircklichen.

    E-TL: Transmission of a signal with public and secret keys can be realized also in cryptology.

     „habituelle“ Übersetzung

  • TL kann Durchscheinen aus typologischen Gründen verkraften (TL-System macht spezifischere Unterscheidungen)

  • TL muss aus typologischen Gründen kompensieren (geringere Spezifik des TL-Systems) – Normalisierung


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Zusammenfassung und Ausblick

  • Übersetzungen „zwischen den Stühlen“: lassen QS durchscheinen, versuchen gleichzeitig ganz „normal“ für die ZS zu sein

  • Anwendungen: Übersetzerische „Intuitionen“ beschreiben  differenzierte Maße für Übersetzungsqualität, Einfluß von Übersetzungen im Sprachwandel

  • Theorie, z.B. Was ist „normal“? Registertheorie (Systemic Functional Linguistics; Halliday 85); wichtig für Hypothesen & Interpretation!

  • Methoden/Techniken: Sprachtypologie, Texttypologie, Computerlinguistik, Korpuslinguistik


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Zusammenfassung und Ausblick

  • Methodologie zum Korpusvergleich; Beispiele:

    • Abgrenzung verschiedener Register/Fachsprachen

    • Entwicklung von Maßen für Textqualität in Abhängigkeit von Register/Genre

  • multi-layer annotierte Korpora – längerfristiges Potenzial für Forschung und Lehre

    • Linguistik: Theorie und Deskription auf Grundlage großer Datenmengen

    • Informatik: Linguistische Datenbanken – Repräsentation und Abfrage

    • Computerlinguistik: Training statistischer Verfahren auf Basis von annotierten Referenzkorpora (tree banks)

    • Interdisziplinär: Anwendungen an der Schnittstelle Linguistik/Computerlinguistik/Informatik (content syndication, z.B. Informationsextraktion)


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Sprachtypologie

Texttypologie

Sprache

Grammatik

Text

Übersetzungen, ML Texte

Methoden: multi-layer annotierte Korpora,

computerlinguistische Techniken


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

Thank you

for your attention!


Literatur

Literatur

(Baker 95) M. Baker, Corpora in translation studies: An overview and some

suggestions for future research, Target7(2):223-245.

(Baker 96) M. Baker, Corpus-based translation studies: the challenges that lie ahead.

In H. Somers (ed.), Terminology, LSP and Translation: Studies in Language

Engineering in Honour of Juan C. Sager, Benjamins, Amsterdam, pp. 175-186.

(Brants 00) T. Brants, TnT – A statistical part-of-speech tagger, Proceedings of the

6th Applied Natural Language Processing Conference (ANLP) 2000, Seattle, WA.

(Christ 94) O. Christ, The IMS Corpus Workbench Technical Manual, Technical

report, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart.

(Doherty 93) M. Doherty, Parametrisierte Perspektive, Zeitschrift für Sprach-

wissenschaft12(1):3-38.

(Halliday 85) MAK Halliday, An Introduction to Functional Grammar. Edward

Arnold, London.

(Hawkins 84) J.A. Hawkins, A comparative typology of English and German.

Croom Helm, London and Sydney.

[Handout]


Literatur1

Literatur

(Hinrichs et al 95) E. Hinrichs, Feldweg, H., Boyle-Hinrichs, M. and Hauser, R.

Abschlußbericht ELWIS. Korpusunterstützte Entwicklung lexikalischer Wissens-

basen für die Computerlinguistik, Technical report, Universität Tübingen.

(Sampson 95) G. Sampson, English for the Computer. Oxford University Press,

Oxford.

(Teich 01) E. Teich, Contrast and commonality between English and German in

system and text. A methodology for the investigation of cross-linguistic variation

in translations and multilingually comparable texts. Habilitationsschrift,

Universität des Saarlandes, Saarbrücken.

(Toury 95) G. Toury, Descriptive translation studies and beyond. Benjamins,

Amsterdam.

[Handout]


Computergest tzte analyse multilingualer korpora elke teich 3 februar 2003

German original texts

A n z a h l T o k e n s

English translations

T y p e – T o k e n R a t i o

[Handout]


Korpusvergleich

Korpusvergleich

max

min

  • E-TL: länger, geringere Vokabularvariation

  • G-TL: „dazwischen“

[Handout]


Resultate interpretation4

Resultate & Interpretation

  • Andere Effekte: explicitation, z.B. bei dense modification vs. full relative clauses

    E-ORI: At the heart of Rivest‘s asymmetric cypher is a one-way function based on the sort of modular functions described earlier...

    G-TL: Kern der asymmetrischen Verschlüsselung von Rivest ist eine Einwegfunktion, die auf oben beschriebenen Modulfunktionen beruht.

    G-TL: Kern der asymmetrischen Verschlüsselung von Rivest ist eine auf den oben beschriebenen Modulfunktionen beruhende Einwegfunktion.

  • Effekte, die nur in Übersetzungen auftreten (nicht in G-ORI – E-ORI)

    E-ORI: Thus, the history of bioelectricity produced a discontinuity in scientific history.

    G-TL: So kam es, dass die Wissenschaftsgeschichte der Bioelektrizität diskontinuierlich verlaufen ist.

    G-TL: So produzierte die Geschichte der Bioelektrizität eine Diskontinuität in der Wissenschaftsgeschichte. (ungewollte Personifizierung!)

  • bidirektionale Effekte: Kandidaten für universelle Merkmale? Übersetzungsprozessbedingte Erklärungen?


  • Login