Prevoditelj i ra unalo
This presentation is the property of its rightful owner.
Sponsored Links
1 / 115

Prevoditelj i ra čunalo PowerPoint PPT Presentation


  • 137 Views
  • Uploaded on
  • Presentation posted in: General

Prevoditelj i ra čunalo. Marko Tadić ([email protected]) Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Poslijediplomski studij prevođenja , Zagreb, 2002-02 i 2002-03. Pregled 1. predavanja. računalna lingvistika jezične tehnologije (JT, HLT ) podjela JT

Download Presentation

Prevoditelj i ra čunalo

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Prevoditelj i ra unalo

Prevoditelj i računalo

Marko Tadić([email protected])

Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu

Poslijediplomski studij prevođenja, Zagreb, 2002-02 i 2002-03


Pregled 1 predavanja

Pregled 1. predavanja

  • računalna lingvistika

  • jezične tehnologije (JT, HLT)

    • podjela JT

    • situacija s hrvatskim jezikom

    • portal JTHJ

    • perspektive

  • JT u prevođenju

    • korpusi

    • rječnici / leksičke (terminološke) baze

    • prevoditeljska radna stanica (TWS)

  • strojno (potpomognuto) prevođenje (M(A)T)


Uvod 1 ra unalna lingvistika

Uvod 1: računalna lingvistika

  • naziv:lingvistika + računalo =

  • računalni “tretman” jezika

    • lingvistika na prvom mjestu

  • računalo: u mnogim znanostima danas nezaobilazan alat (fizika, (bio-)kemija, ekonomija, promet...)

    • prikupljanje primarnih podataka (= empirija)

    • oblikovanje sekundarnih podataka i teorija (= modeliranje)

  • računalni “tretman” jezika zanimljiv:

    • lingvistima

    • informatičarima

  • interdisciplinarnost


Uvod 2 strojna obradba jezika

Uvod 2: strojna obradba jezika

  • naziv 2:računalo + lingvistika =

  • računalni “tretman” jezika

    • obrada podataka tj. informatika na prvom mjestu

  • razlika:

    • lingvisti: računalna lingvistika

      • računala u jezičnom opisu (modeli j. pod-sustava)

      • cilj: što kvalitetniji opis jezičnih činjenica

    • informatičari: obrada prirodnoga jezika(natural language processing, NLP)

      • računala u obradi prirodnojezičnih podataka

      • vrsta strojne obradbe teksta

      • cilj: što učinkovitije, što brže i sa što manjim utroškom računalnih resursa obraditi (jezične) podatke


Uvod 3 metodologija

Uvod 3: metodologija

  • je li računalna lingvistika grana lingvistike?

  • DA i NE!

  • NE: grana poput fonologije, morfologije, sintakse...

    • organiziraju se oko definicije predmeta istraživanja(j. jedinice na određenim j. razinama)

    • pokušavaju opisati/objasniti neki vid jezične porabe

  • DA: posebna metodologija

    • primjenljiva na j. jedinice na svim j. razinama

    • dopušta razliku između računalne i neračunalne:

      • leksikografije

      • sintakse...

  • primjena znanstvenih otkrića u industriji = tehnologija


Jezi ne tehnologije 1

Jezične tehnologije 1

  • tehnologija = “znanost o tehničkim postupcima prerade sirovina u proizvode” (Leksikon LZ)

  • što je sirovina, a što proizvod u slučaju jezičnih tehnologija?

    • sirovina: jezik tj. podaci o jeziku

    • proizvodi: sustavi koji korisniku omogućuju jednostavn(ij)u uporabu prirodnoga jezika u računalnome okružju

  • podaci o jeziku = temeljni za razvitak jezičnih tehnologija


Jezi ne tehnologije 2

Jezične tehnologije 2

  • definirane u EU Framework Programme 5 (< LI & LE)

  • najveće pojedinačno istraživačko područje u FP5:

    • IST = Information Society Technologies(26.3%proračuna FP5 = 3,900 M€)

  • key action III IST-a:

    • MC&T = Multimedia Content & Tools (564 M€)

  • najveći dio MC&T:

    • HLT = Human Language Technologies = (prirodno)jezične tehnologije

      • uključuju i obradu govora (Speech processing)

      • HLTcentral: www.hltcentral.org

  • nastavak u EU Framework Programme 6: eContent


Podjela jt 1

Podjela JT 1

  • jezični resursi

    • korpusi

    • rječnici

  • jezični alati

    • morfologija

      • generatori/analizatori

      • označivači (POS taggers), lematizatori

    • sintaksa

      • plitki/duboki/robusni parseri

      • prepoznavanje dijelova rečenice (imenične fraze...)

      • prepoznavanje naziva (named entity recognition...)

    • semantika

      • detektiranje leksičkoga značenja (sinonimija/antonimija...)

      • detektiranje rečeničnoga značenja (agens, pacijens...)

    • strojno (potpomognuto) prevođenje: M(A)T (CMU & US Army)

    • strojno (potpomognuto) učenje jezika: CALL


Podjela jt 2

Podjela JT 2

  • komercijalni proizvodi

    • provjernici (checkers)

      • pravopisa

      • gramatike

      • stila

    • rječnici (on-/off-line)

      • tezaurusi / pojmovnici

      • leksičke baze (opći i specijalizirani rječnici)

    • automatsko indeksiranje i sažimanje dokumenata

    • text-to-speech i speech-to-text sustavi, npr.

      • strojevi za diktiranje

    • sustavi za strojno (potpomognuto) prevođenje

      • prijevodne memorije (= paralelni korpusi)

      • ograničeno strojno prevođenje (kontrolirani jezici)

      • grubo strojno prevođenje (tekst za osnovne informacije)

    • sustavi za strojno (potpomognuto) učenje jezika


Razvitak jt za pojedini jezik 1

Razvitak JT za pojedini jezik 1

  • resursi i alati

    • specifični za svaki jezik

    • razvoj JT počinje iz temeljaca za svaki pojedini jezik

  • resursi

    • priskrbljuju temeljne jezične podatke (evidenciju, statistiku i relaciju) za:

      • razvoj drugih jezičnih resursa

      • razvoj jezičnih alata

  • razvitak JT

    • planiran

    • potpomognut (industrija, država...)


Razvitak jt za pojedini jezik 2

RazvitakJT zapojedinijezik 2

Petek (2000:107)


Primjer uporabe jt 1

Primjer uporabe JT 1

  • danas: ubrzano stvaranje e-teksta

    • prebacivanje postojećih tekstova u e-tekst

    • stvaranje novih dokumenata jedino kao e-tekst

  • razlika klasični tekst <> e-tekst:

    • medij: papir è elektroni

    • čitanje/pohrana teksta: linearno ènelinearno (prema potrebi)

  • što se nije promijenilo?

    • uporaba prirodnoga jezika kojim se tekst stvara tj. kojim se kodiraju podaci

  • većina znanja = još uvijek pohranjena i kao tekst na nekom prirodnom jeziku


Primjer uporabe jt 2

Primjer uporabe JT 2

  • procjena broja riječi po jezicima dohvatljivog Altavistom 2000-02(izvor: Greg Grefenstette, XRCE,2000-09)

  • potrebna je ekstrakcija podataka iz teksta


Primjer uporabe jt 3

Primjer uporabe JT 3

  • može li pretraživanje dokumenata biti “svjesno” prirodnoga jezika tih dokumenata

  • web-tražilice (npr.) = prilagođene za engleski

  • što s drugim jezicima s različitim strukturama?

  • može li lingvistika nekako pomoći u “izvlačenju” podataka (znanja) iz teksta?

  • document retrieval meets human language technologies...


Primjer uporabe jt 4 morfologija

Primjer uporabe JT 4: morfologija

  • upit “osjetljiv” na oblike riječi


Primjer uporabe jt 5 semantika

Primjer uporabe JT 5: semantika

  • upit “osjetljiv” na značenje riječi

  • uporaba semantičkih mreža

    • WordNet

    • EuroWordNet 1 i 2


Primjer uporabe jt 6 vi ejezi nost

Primjer uporabe JT 6: višejezičnost

  • višejezično pretraživanje

  • grubo strojno prevođenje (MT): jednostavnije fraze, bez preciznoga prijevoda cijeloga teksta


Primjeri uporabe jt 7 nazivi 1

Primjeri uporabe JT 7: nazivi 1

  • identifikacija i kategorizacija naziva u tekstu (named entity recognition)

  • uvela DARPA kao dio procesa prepoznavanja poruka

  • natjecateljska disciplina na konferencijama MUC6 (1995) and MUC7 (1998)

  • 7 vrsta naziva

    • osoba

    • organizacija

    • lokacija

    • nadnevak

    • vrijeme

    • valuta

    • postotak


Primjeri uporabe jt 8 nazivi 2

Primjeri uporabe JT 8: nazivi 2

  • izgleda jednostavno

    • uporaba popisa imena (morfologija!?)

  • izvedba

    • ljudi: 98-99%

    • najbolji sustavi: 94%

  • identifikacija naziva

    • manje problematična

  • kategorizacija naziva

    • bitno složenija

    • potreban uvid u ko-tekstne podatke (npr. “...primanje dr. Pećine u ...”)


Primjeri uporabe jt 9 nazivi 3

Primjeri uporabe JT 9: nazivi 3

  • <XML>

  • <BODY>

  • <DIV0 type="MAIN">

  • <HEAD type="NA">Nagrada zagrebačkim gitaristima</HEAD>

    • <P><ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvojio je prvu nagradu na <ENAMEX TYPE="ORGANIZATION">Međunarodnome gitarističkom natjecanju Simone Salmaso</ENAMEX> u <ENAMEX TYPE="LOCATION">Viareggiu</ENAMEX> u konkurenciji 14 komornih sastava (u kategoriji D). Prvo mjesto je kao solist osvojio i član toga renomiranoga zagrebačkog sastava <ENAMEX TYPE="PERSON">Darko Pelužan</ENAMEX> u konkurenciji 30 gitarista (u kategoriji C). Članovi <ENAMEX TYPE="ORGANIZATION">Zagrebačkoga gitarističkog kvarteta</ENAMEX> (koji je 1990. osnovao profesor <ENAMEX TYPE="PERSON">Ante Čagalj</ENAMEX>, pretežno od studenata gitare) sada su još <ENAMEX TYPE="PERSON">Mihaela Pažulinec</ENAMEX>, <ENAMEX TYPE="PERSON">Krunoslav Pehar</ENAMEX> i <ENAMEX TYPE="PERSON">Melita Ivković</ENAMEX>. To nije prvi put da <ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvaja prvu nagradu na nekome međunarodnom natjecanju u <ENAMEX TYPE="LOCATION">Italiji</ENAMEX>: pobijedio je i prije dvije godine u <ENAMEX TYPE="LOCATION">Tarantu</ENAMEX> na 6. međunarodnom natjecanju <ENAMEX TYPE="ORGANIZATION">Trofeo Kawai</ENAMEX>.</P>

    • <BYLINE>(<ENAMEX TYPE="ORGANIZATION">Večernji list</ENAMEX>)</BYLINE>

  • </DIV0>

  • </BODY>

  • </XML>


  • Situacija s hrvatskim jezikom 1

    Situacija s hrvatskim jezikom 1

    • podaci na Webu o hrvatskome jeziku raspršeni na različitim adresama

      • institucionalno i zemljopisno heterogeni

      • profesionalno ili amatersko — hard to tell

    • na cijelom Webu ne postoji profesionalna, sustavna, institucionalno podržana polazna stranica (homepage)za hrvatski jezik!

    • tko?

      • Institut za hrvatski jezik i jezikoslovlje?

      • Odsjeci za kroatistiku (FFZG, FFZD, FFRI)?

      • Ministarstvo znanosti i tehnologije?


    Situacija s hrvatskim jezikom 2

    Situacija s hrvatskim jezikom 2

    • danas: prisutnost nacionalnoga jezika na Internetu = simbol (kao grb, zastava i himna)

    • prisutnost:

      • ne samo brojem stranica objavljenih na tom jeziku

      • nego i: postojanjem on-line dostupnih osnovnih jezičnih resursa i alata za taj jezik:

        • reprezentativni (nacionalni) i specijalizirani korpusi

        • opći i specijalizirani rječnici

        • usluge strojnoga prevođenja (AltaVista sa Systranom)

    • prisutnost nacionalnog jezika na Webu nemoguća bez razvitka JT za taj jezik

    • premali smo za rasipanje ljudskih i financijskih resursa


    Situacija s jt za hrvatski 1

    Situacija s JT za hrvatski 1

    • jezični resursi

      • korpusi (Zavod za lingvistiku, FFZG)

        • Hrvatski nacionalni korpus (www.hnk.ffzg.hr) (MZT 130718)

          • probna inačica: pretraživo >11 Mw, skupljeno >100 Mw

          • >30 Mw suvremenoga hrvatskoga do proljeća 2002.

          • prema 100 Mw do 2004.

        • Hrvatsko-engleski paralelni korpus

          • 3,5 Mw prijevoda (HR: 1,6; EN: 1,9)

          • sravnjeno (aligned) na rečeničnoj razini

        • Hrvatsko-slovenski paralelni korpus

          • planiran na 1 Mw prijevoda (HR: 0,5; SI: 0,5)(MZT 130821)

          • skupljeno oko 0,4 Mw (in statu nascendi)

      • rječnici / leksikoni / tezaurusi

        • Hrvatski morfološki leksikon (www.hnk.ffzg.hr/hml)

          • oko 36.000 natuknica s generiranim svim oblicima i MSD

          • generirani oblici za 17.000 imenica

        • EUROVOC

        • ostali rječnici: malo natuknica, visoko specijalizirani, amaterski?


    Situacija s jt za hrvatski 2

    Situacija s JT za hrvatski 2

    • jezični alati

      • obrada morfologije

        • generator: Tadić (1994)

        • nema analizatora! Boras (1990)

        • nema označivača/lematizatora (POS tagger)! Žubrinić (1995)

      • obrada sintakse

        • nema prepoznavanja dijelova rečenice! Boras (1998), Seljan

        • nema prepoznavanja naziva

        • nema parsera! Seljan

      • semantička obrada

        • nema tezaurusaopćeg jezika! Bratanić: EUROVOC

        • nema semantičkih mreža (WordNet)

        • nema prepoznavanja leksičkog ili rečeničnog značenja

      • strojno (potpomognuto) prevođenje! HR-LX paralelni korpusi

      • strojno (potpomognuto) učenje (!?)

      • obrada govora

        • baza difona: Bakran (1998); projekt MBROLA


    Situacija s jt za hrvatski 3

    Situacija s JT za hrvatski 3

    • komercijalni proizvodi za hrvatski jezik

      • pravopisni provjernici (5?)

      • tezaurus u izradi (za MS-Office)

      • nema provjernika gramatike i/li stila

      • nema sustava za prirodnojezično pretraživanje teksta(full-text search)

      • nema sustava za diktiranje

      • nema sustava za strojno prevođenje(Word Translator?, NeuroTran?, PalmTran?)

      • nema sustava za učenje


    Portal jthj 1

    Portal JTHJ 1

    • portal Jezične tehnologije za hrvatski jezik

      • i-projekt

      • trajanje: od 2000-11 do 2001-12

      • potpora MZT RH pod brojem 00-86

      • obveza održavanje podataka: 3 daljnje godine

    • javni katalog

      • institucija

      • projekata

      • jezičnih resursa i alata

      • aktivnosti

        vezanih uz područje (hrvatskih) JT

    • http://www.hnk.ffzg.hr/jthj

    • Tadić & Simeon (2001), Building the Croatian Language Technologies Portal, CUC2001 CD


    Portaj jthj 2

    Portaj JTHJ 2


    Portal jthj 2

    Portal JTHJ 2

    • 2 osnovna područja

      • informativna sastavnica

      • interaktivna sastavnica

    • navigacijska traka

    • struktura svakog popisa

      • vrh:nabrojci relevantni za hrvatski

      • sredina:nabrojci relevantni za ostale jezike

      • dno:stranice sa sličnim poveznicama


    Portal jthj 3

    Portal JTHJ 3


    Upozorenja 1

    Upozorenja 1

    • nitko neće riješiti JT za hrvatski osim nas

    • već kasnimo!

    • hrvatski će jezik postati funkcionalno nepismen zbog nemogućnosti sudjelovanja u digitalnim komunikacijskim kanalima 21. stoljeća

    • JT za hrvatski morale bi imati status fundamentalnog istraživanja u humanističkim znanostima!


    Upozorenja 2

    Upozorenja 2

    • JT za hrvatski u Strategiji informatizacije RH moraju se:

      • shvatiti kao njezin nezaobilazan dio

      • moraju biti izrijekom navedene i razrađene

        • !a ne jedna rečenica; Budin (2001:19)

      • tretirati kao jedan od prioriteta (Česi, Slovenci, Madžari, EU...)

    • informacijsko društvo neće moći u Hrvatsku ako se za hrvatski ne razviju JT


    Pregled 2 predavanja

    Pregled 2. predavanja

    • JT u prevođenju

    • Korpusna lingvistika i korpusi

    • Korpusi u terminologiji

    • Korpusi za prevoditelje

    • Rječnici i enciklopedije

    • Leksičke i terminološke baze podataka


    Jezi ne tehnologije u prevo enju

    Jezične tehnologije u prevođenju

    • kakvi su jezičnotehnološki resursi/alati na raspolaganju prevoditeljima?

    • računalo u prevođenju: 2 krajnosti

      • potpuno automatizirano strojno prevođenje (MT)

      • računalna pomagala za ljudsko prevođenje (MAT)

    • pomagala

      • jezični resursi: korpusi i rječnici

      • jezični alati za

        • stvaranje i održavanje glosara / terminoloških baza

        • pristup udaljenim terminološkim bazama

        • konkordancije

        • prijevodne memorije (Translation memories, TM)

        • ...


    Jezi ne tehnologije u prevo enju 2

    Jezične tehnologije u prevođenju 2

    • korpusi

      • jednojezični

      • višejezični

    • rječnici

      • leksičke / terminološke baze

    • prevoditeljska radna stanica

      • Translator’s Workstation / Workbench

      • kombinira sve moguće resurse i alate u jedinstveno okružje


    Korpusna lingvistika

    Korpusna lingvistika

    • jezik

      • apstraktan sustav znakova

      • proučavanje jezika moguće jedino posredno

      • putem jezičnih ostvaraja (= tekstovi)

      • zbirka tekstova = korpus

    • metodološki odmak

      • proučavanjem jezičnih ostvaraja postulira se da se otkrivanjem pravilnosti u korpusu, zapravo otkrivaju pravilnosti u jeziku

    • usustavljena stvarna jezična građa, a ne znanje jezika imanentno govorniku (= podatkovna orijentacija)

    • empirija, ne mentalizam


    Korpus

    Korpus

    • korpus (definicija)

      • skup tekstnih odsječaka odabranih i prikupljenih prema eksplicitnim kriterijima s ciljem da čine jezični uzorak

    • računalni korpus (definicija)

      • korpus koji je kodiran na standardan i dosljedan način s nakanom da bude računalno podržan i pretraživan

    • opseg korpusa (4 žene)

      • mjeri se u pojavnicama (1 Mw = 1.000.000 pojavnica)

    • raspon

      • vremenski raspon između najstarijeg i najmlađeg teksta

    • uzorkovanje

      • ne cijela populacija nego reprezentativan uzorak


    Tipovi korpusa

    Tipovi korpusa

    • raspon

      • sinkronijski (oko 1-20 god)

      • dijakronijski (više od 20 god)

    • broj jezika

      • jednojezični

      • višejezični (2, 3, 4,...)

    • sastav

      • usporedni (parallel corpora)

        • tekstovi na 2 ili više jezika (izvornik + prijevod/i)

      • usporedivi (comparable corpora)

        • korpusi sastavljeni prema istim parametrima i principima

        • višejezični ili jednojezični (više idioma)


    Rezultati pretrage korpusa 1

    Rezultati pretrage korpusa 1

    • 3 tipa podataka iz korpusa

      • evidencija (= popis)

      • frekvencija (= popis s brojanjem)

      • relacija (= odnos prema drugim jezičnim jedinicama)

    • popisi fonema/grafema

      • jednoslovi, dvoslovi, troslovi, ... n-slovi

    • popisi riječi

      • abecedni rječnici (unaprijedni ili odostražni)

      • frekvencijski rječnici (= čestotnici)

    • popisi kombinacija riječi

      • kolokacije, idiomi, fraze...

    • popisi rečeničnih struktura

      • tree banks

    • popisi značenja...


    Rezultati pretrage korpusa 2

    Rezultati pretrage korpusa 2

    • konkordancije

      • popisi riječi iz nekoga korpusa s ko-tekstnom okolinom u kojoj su se pojavile

      • off- / on-line

      • opseg

        • djelomične (prema nekom ulaznom uvjetu, npr. bab*)

        • potpune (puni popis svih riječi nekoga korpusa)

      • oblici

        • KWIC (Keyword in context) = najčešći

        • KWAL (Keyword and line) = rjeđe


    Prevoditelj i racunalo

    KWICkonkordancija

    stožernica

    izvor

    lijeva okolina

    desna okolina

    konkordancijski redak


    Korpus u terminologiji

    Korpus u terminologiji

    • prikupljanje termina / izgradnja terminoloških baza

      • jednorječne jedinice (Single-word units, SWU)

      • višerječne jedinice (Multi-word units, MWU) (= kolokacije)

    • metode

      • leksikonski temeljene (= provjera termina)

        • problem: morfologija

      • statističke (= pronalaženje kandidata za termine)

        • uporaba raznih statističkih mjera supojavljivanja riječi u korpusu

    • primjer statističke metode uzajamne obavijesnosti (MI)

      • SSP EN i HR


    Korpus za prevoditelje 1

    Korpus za prevoditelje 1

    • uvid u porabu gdje rječnici nisu dostatni (kolokacije, fraze, idiomi...)

      • konkordancije

      • Web kao korpus (s pomoću tražilica)

      • !oprez: korpusi nisu normativni priručnici

    • priprema izvornoga teksta korpusnom metodologijom

      • obilježavanje termina s unaprijed dogovorenim prijevodnim ekvivalentima

        • Ugovor iz Maastrichta & EUROVOC

        • prijedlog MEI


    Korpusi za prevoditelje 2

    Korpusi za prevoditelje 2

    • paralelni korpusi

      • korpusi sastavljeni od izvornika i prijevoda

    • prijevodni ekvivalenti

      • eksplicitno obilježeni

      • razine

        • rečenice = češće, automatizirano

        • riječi = rjeđe, teže

    • sravnjivanje (alignment)

      • postupak obilježavanja prijevodnih ekvivalenata

      • uspostavljanje prijevodnih jedinica (Translation unit, TU)


    Hr en paralelni korpus

    HR-EN paralelni korpus

    • sastavljen u Zavodu za lingvistiku FFZG

    • jednosmjeran usporedni korpus

      • izvorni jezik:hrvatski

      • ciljni jezik:engleski

  • novinski korpus

    • Croatia Weekly (113 brojeva)

    • od 1998-01 do 2000-04

  • korpusni parametri

    hr en

    članaka 4.748 4.748rečenica 74.638 82.898 pojavnica1.636.2461.968.874


  • Hr en paralelni korpus 5

    HR-EN paralelni korpus 5

    • sravnjen (aligned) na rečeničnoj razini programom Vanilla aligner (Danielsson & Ridings 1997.)

    • statistika sravnjivanja rečenica

      0:1 250 0,35 %

      1:0 19 0,03 %

      1:158788 83,52 %

      1:2 9374 13,32 %

      2:1 1529 2,17 %

      2:2 432 0,61 %

      ukupno70392100 %


    Hr en paralelni korpus 6

    HR-EN paralelni korpus 6


    Hr en paralelni korpus 7

    HR-EN paralelni korpus 7


    Korpusi za prevoditelje 3

    Korpusi za prevoditelje 3

    <TU id=1, type=“1:1”>

    <HR><S id="CW010199803190201hr.S1"> Do 1 . kolovoza zabranjeni skupovi u istočnoj Slavoniji</S>

    </HR>

    <EN><S id="CW010199803190201en.S1"> POLITICAL RALLIES IN EASTERN SLAVONIA BANNEDUNTIL AUGUST 1 </S>

    </EN>

    </TU>

    <TU id=2, type=“2:1”>

    <HR><S id="CW010199803190201hr.S2"> Vlada je ocijenila kako je provođenje mirne reintegracije Podunavlja jedan od poglavitih interesa Hrvatske </S><S id="CW010199803190201hr.S3"> Stoga , treba izbjeći svaki čin koji bi mogaodovesti do narušavanja reda i sigurnosti ljudi </S>

    </HR>

    <EN><S id="CW010199803190201en.S2"> The Government has assessed that theimplementation of peaceful reintegration in Eastern Slavonia is one of Croatia'spriority interests , therefore , any act that might endanger order and publicsafety should be avoided </S>

    </EN>

    </TU>

    ...


    Korpusi za prevoditelje 4

    Korpusi za prevoditelje 4

    • paraleni korpusi = prijevodne memorije

      • baze već prevedenih rečenica

    • okviri primjene TM-a

      • prevođenje novih inačica postojećih (prevedenih) tekstova

        • npr. priručnici koji se malo razlikuju od prethodnoga izdanja

      • prevođenje mnogo tekstova s istog specijaliziranog područja

    • prijevodi tehničkih i znanstvenih tekstova

      • visoka repetitivnost

      • ograničen leksik

    • rezultati uporabe TM-a

      • ubrzava

      • olakšava

      • pospješuje dosljednost u primjeni termina


    Korpusi za prevoditelje 5

    Korpusi za prevoditelje 5

    • analiza prijevodnoga jezika

    • npr. TEC (Translated English corpus)

      • specifičnosti prijevodnoga EN

      • analiza otklona od izvornoga EN

        • prevoditeljske strategije

      • karakteristične jezične pogreške

        • kontaminacije SL-om


    Rje nici i enciklopedije

    Rječnici i enciklopedije

    • rječnici i leksikoni

      • opći/specijalizirani, jedno-/višejezični

      • on- (WWW) i off-line (CD)

      • ubrzano pretraživanje

      • meta-pretraživanje (on-line)

        • istodobno pretraživanje više rječnika (OUP Xrfr)

      • uključivanje multimedijalnih informacija

        • slikovni rječnici / leksikoni

    • enciklopedije

      • off-line (CD): Britannica, Encarta, Grolier...

      • on-line (WWW): Britannica, Webopedia...


    Terminolo ke baze 1

    Terminološke baze 1

    • Sager (1990:167), definicija:

      • automatizirana zbirka riječi iz zasebnoga područja znanja s ciljem da služi ograničenoj skupini korisnika

    • isti korisnici kao i za specijalizirane rječnike ili glosare

    • on- i off-line

    • potrebne kad se istom terminologijom istodobno mora služiti više prevoditelja

      • donekle osigurana dosljednost uporabe termina

      • mogućnost centralizirane dopune baze

      • centralizirana diseminacija termina iz baze


    Terminolo ke baze 2

    Terminološke baze 2

    • osnovne jedinice terminoloških baza

      • termini (riječi ili nizovi riječi)

      • pojmovi (predstavljeni jednom ili s više riječi)

    • pretraživanje leksičkih / terminoloških baza

      • vrsta pretraživanja dokumenata (IT)(= 1 leksički članak = 1 dokument)

      • danas: leksičke / terminološke baze = kompleksne i mulitifunkcionalne <= upite postavljaju korisnici:

        • ljudi

        • računala (WP alati, sustavi za indeksiranje, MT sustavi...)


    Terminolo ke baze 3

    Terminološke baze 3

    • vrste ljudskih korisnika

      • specijalisti u području tražene terminologije

      • profesionalni posrednici u komunikaciji

        • prevođenje

        • sažimanje

        • popularizacija/novinstvo

      • leksikografi i terminolozi

        • istražuju uporabu termina

      • indok specijalisti: opis specijalističkih dokumenata

        • bibliotekari

      • jezični planeri

        • standardizacija terminologije

      • raznorodna grupa korisnika

        • nakladnici

        • učitelji j.

        • lingvisti...

      • opći korisnik

        • povremeno ima potrebu konzultirati rječnik, a sad mu se nudi računalni pristup leksičkoj građi


    Terminolo ke baze podataka 3

    Terminološke baze podataka 3

    • mogući oblici prevoditeljskoga on-line upita

      • termin + TL ekvivalent + izvor TL termina

      • termin + TL ekvivalent + TL izvor + TL definicija

      • termin + TL ekvivalent + sinonim + odrednica (područja...)

    • preciznije

      • termin+ TL ekvivalent+ DEF+ ko-tekst ili napomena o uporabi+ stilska odrednica+ sinonim+ izvor+ područna odrednica


    Leksi ke baze 1

    Leksičke baze 1

    • TIS (Terminological Information System of the General Secretariat of the Council of the European Union)

      • 13 jezika (+ lat.)

      • 200.000 unosaka (45% s >3 jezika)

      • 25.000 unosaka >5 jezika

      • rast: 4.000 prijevoda/mjesec

      • rezultat rada terminologa Vijeća EU kao odgovor na probleme s kojima su se susreli pri prevođenju


    Leksi ke baze 2

    Leksičke baze 2

    • Trados MultiTerm (muwi.trados.com)

      • www.trados.com

        • komercijalna tvrtka za usluge u MAT

      • MultiTerm = standardni zapis leksičkih baza u tijelima EU

      • 4 ogledne baze

        • Kodix

        • Euterpe

        • Beumer

        • UPU

      • terminološka baza Europskoga parlamenta (EUTERPE)

        • >200.000 unosaka

        • 12 službenih jezika EU


    Leksi ke baze 3 eurovoc 1

    Leksičke baze 3: EUROVOC 1

    • pojmovnik ili tezaurus (definicija)

      • rječnik ustrojen prema hijerarhijskim vezama i asocijativnim odnosima unutar nekog tematskog područja

    • multidisciplinarni pojmovnik iz dokumenata Europskih zajednica

      • 21 šire područje, 127 potpodručja

    • HR prijevod (www.hidra.hr/eurovoc)

      • 2. i 3. svezak izdanja iz 1995.

      • dodatak 3.1 iz 2000.

    • preveden i na albanski, češki, litavski, poljski, rumunjski, ruski, slovenski i ukrajinski


    Leksi ke baze 4 eurovoc 2

    Leksičke baze 4: EUROVOC 2

    • terminološke preciznosti, npr.

      • European Council(= Europsko vijeće; šefovi država/vlada + predsjednik Europske komisije)

      • Council of Europe(= Vijeće Europe)

      • Council of the European Union(= Vijeće Europske Unije; uz Europski parlament legislativno tijelo; ministri EU država koji ih predstavljaju)


    Leksi ke baze 4 eurodicautom

    Leksičke baze 4: EURODICAUTOM

    • EURODICAUTOM (europa.eu.int/eurodicautom)

      • terminološka baza Europske komisije

      • pokrenuta 1973

      • Dicautom, 1964. (rječnik fraza) + Euroterm, 1962-68, prijevodni rječnik (4 jezika)

      • sastavljen kao glosar za EU prevoditelje

      • postao osnovna leksička baza EU s 120.000 dnevnih upita

      • oko 5,5 milijuna unosaka

      • 48 osnovnih područja


    Pregled 3 predavanja

    Pregled 3. predavanja

    • temeljni pojmovi

    • zablude o MT

    • MT i HT

    • prijevodi prema namjeni

    • tipovi MT sustava

      • rule-based sustavi

      • empirijski sustavi

    • povijest MT-a

    • problemi MT-a

    • primjena MT-a

    • prevoditeljska radna stanica (TWS)


    Prevo enje 1

    Prevođenje 1

    Lo, as a careful housewife runs to catchOne of her feathered creatures broke away,Sets down her babe, and makes all swift dispatchIn pursuit of the thing she would have stay;

    Gle, kao što brižna domaćica juriOdbjeglo stvorenje pernato da vrati,Spušta svoje čedo i silno se žuriJer mu hoće na put u potjeri stati;

    William Shakespeare, Soneti, 143.preveo Mate Maras


    Prevo enje 2

    Prevođenje 2


    Prevo enje 3

    Prevođenje 3


    Prevo enje 4

    Prevođenje 4


    Temeljni pojmovi

    Temeljni pojmovi

    • prevođenje

      • postupak “prijenosa” značenja s jednoga jezika na drugi

      • postupak transkodiranja jednoga teksta u drugi

      • ...

    • strojno prevođenje (Machine translation, MT)

      • prevođenje koje obavlja računalo

    • strojno potpomognuto prevođenje (M aided T, MAT)

      • prevođenje koje obavlja čovjek s pomoću računala

    • izvorni jezik (source language, SL)

    • ciljni jezik (target language, TL)

    • međujezik (interlingua, IL)

    • jezični par:

      • 1. SLx : TLy2. SLy : TLx


    Popularne zablude o mt u

    Popularne zablude o MT-u

    • MT je gubljenje vremena jer računala nikad neće moći prevoditi Shakespearea

    • ako postoji MT sustav koji prevodi The spirit is willing, but the flesh is weak u ruski ekvivalent Votka je dobra, ali je odrezak loš onda je MT beskorisno

    • općenito je kakvoća prijevoda iz MT sustava vrlo niska što ih u praksi čini neupotrebljivim

    • MT ugrožava radna mjesta prevoditelja

    • MT sustavi su strojevi i treba ih kupovati kao što se kupuju automobili

    • “običan” pogled na MT

      • MT = SF “začin”

      • dugoročan, nikad dosegljiv san znanstvenika

      • jedno od prvopredloženih područja za primjenu računala uopće


    Mt i ht

    MT i HT

    • cilj istraživanja s područja MT

      • proizvesti pomagala i alate za profesionalne i neprofesionalne prevoditelje koja uporabom računalnih resursa podupiru ljudske vještine i inteligenciju

    • MT nije suparnik HT (Human translation)

      • pomagala za porast učinkovitosti u tehnici prevođenja

      • sustavi za prevođenje onoga što se ionako ne bi prevodilo


    Prijevodi prema namjeni

    Prijevodi prema namjeni

    • diseminacija podataka

      • tradicionalan prijevod

      • kakvoća prijevoda koja se očekuje od ljudskoga prevoditelja

      • kakvoća prijevoda za objavljivanje

    • asimilacija podataka

      • niža razina kakvoće (osobito u stilu)

      • za upoznavanje s osnovnim sadržajem izvornog dokumenta

      • što je brže moguće

    • razmjena podataka

      • prijevod između sudionika u komunikaciji (trenutna/odložena)

    • pristup podatcima

      • višejezični pristup pretraživanju informacija (baze podataka, elektronski arhivi, crpljenje podataka, data-mining...)


    Diseminacija podataka

    Diseminacija podataka

    • jedino potencijalno područje “sukoba” između MT i HT

      • kakvoća prijevoda

    • !ali: MT sustavi proizvode

      • prijevod koji ljudi moraju revidirati (post-editing)

      • “grubu” inačicu prijevoda

    • MT sustavi zahtijevaju

      • normaliziran oblik SL teksta (= kontrolirani jezik)

        • ograničen vokabular

        • ograničen repertoar rečeničnih struktura

      • visokospecijaliziran sadržaj dokumenata i ograničen stil

    • prijevodni alati = MAT (TM, terminološke baze, TWS...)

      • stroj podložan profesionalcu, a kod MT-a obrnuto


    Asimilacija podataka

    Asimilacija podataka

    • nusproizvod MT sustava za diseminaciju

      • “grub” prijevod

    • uvid u osnovne podatke SL teksta

    • brzina DA, kakvoća NE!

    • “bolje ikakav prijevod, nego nikakav”

    • MT sustavi za namjenu asimilacije podataka

      • uporaba raste jeftin hardware, dostupnija komunikacija

      • neprofesionalna uporaba

    • HT

      • sporo i skupo

      • previsoka kakvoća


    Razmjena podataka

    Razmjena podataka

    • izrazit rast potreba za prijevodima u razmjeni podataka

    • prijevodi e-teksta

      • WWW stranice

      • e-mail poruke

      • pričaonice (chat lists)

    • HT nemoguće

      • izravnan i trenutan prijevod = apsolutna nužnost

      • kakvoća = nije bitna

    • MT sustavi = prirodna okolina

      • real-time

      • on-line

    • speech-to-speech real-time MT


    Pristup podatcima

    Pristup podatcima

    • sastavnica sustava za pristup podatcima

    • MT modul dio sustava za

      • full-text pretraživanje dokumenata iz tekstovnih baza (e-tekst)

      • crpljenje podataka (npr. specifikacije proizvoda...) iz tekstova

      • sustavi za sažimanje tekstova (summarizing systems)

      • upite nad netekstovnim bazama podataka

    • MT sustavi

      • jak leksikon i terminološki prijevodni ekvivalenti (SWU i MWU)

      • jak morfološki modul (fleksija)

      • slabija sintaksa


    Tipovi mt sustava

    Tipovi MT sustava

    • temeljeni na pravilima (rule-based)

    • izravni (transformacijski)

    • neizravni (s jezičnim znanjem)

      • transfer

      • interlingua

    • statistički

    • oprimjerivanje (example-based)

    • temeljeni na podatcima (empirijski)


    Shematski prikaz procesa mt

    Shematski prikaz procesa MT

    1. analiza SL rečenice sinteza rečenice na TL

    2. analiza SL riječisinteza TL riječi

    3. značenje SL riječipronalaženje TL riječi

    4.značenje SL/TL rečenice

    1. razina: sintaktički parsinggeneriranje rečenice

    2. razina: morfološka raščlambageneriranje oblika riječi

    3. razina: rječnik po natuknicamarječnik po značenjima

    4. razina: rečenična semantika


    Rule based sustavi 1

    Rule-based sustavi 1

    • izravni (transformacijski)

    • postupak:

      • raščlaniti SL rečenicu

      • zamijeniti SL riječi s TL riječima prema dvojezičnom rječniku

      • preurediti red riječi da odgovara TL

    • pravila:

      • odabira parova riječi

      • odabira oblika TL riječi

      • promjene redoslijeda riječi u TL rečenici

    • zahtjevi:

      • detaljna kontrastivna gramatika dva jezika; bitan smjer: SL  TL

        • eng. corner—>hrv. kutesp. rincón (unutarnji)—>hrv. ugaoesp. esquina (vanjski)

    • ograničenja:

      • nema gramatike TL stoga ni jamstva ovjerenosti TL rečenica

      • teško proširljivi sustavi (nova pravila, novi jezični parovi)


    Rule based sustavi 2 transformacije

    Rule-based sustavi 2: transformacije

    S

    S

    NP

    VP

    NP

    VP

    PP

    PP

    NP

    NP

    N

    V

    P

    DET

    N

    N

    V

    P

    DET

    N

    Claudia sat on a stool

    Klaudija sjela je na # stolac

    Klaudija je sjela na stolac


    Rule based sustavi 3

    Rule-based sustavi 3

    • neizravni (sustavi s “jezičnim znanjem”): transfer i interlingua

    • postupak

      • raščlaniti SL rečenicu

      • predstaviti je u nekom apstraknom obliku

      • pronaći adekvatan apstraktni oblik TL rečenice

      • proizvesti TL rečenicu

    • pravila:

      • iscrpne gramatike i SL i TL: do duboke sintaktičke i/li semantičke razine (npr. dubinski padeži)

      • kontrastivna gramatika ne konkretnih rečenica već njihovih apstraktnih reprezentacija

    • prednosti:

      • sustav je dvosmjeran

      • lako dopunjiv (novim pravilima, novim jezicima)

      • kvalitetniji prijevodi


    Rule based sustavi 4 transfer

    Rule-based sustavi 4: transfer

    sit(Claudia,stool,pret.)

    sjesti(Klaudija,stolac,perf.)

    S

    S

    NP

    VP

    NP

    VP

    PP

    V

    PP

    NP

    NP

    N

    V

    P

    DET

    N

    N

    AUX

    PTCP

    P

    N

    Claudia sat on a stool

    Klaudija je sjela na stolac


    Rule based sustavi 5 interlingua

    Rule-based sustavi 5: interlingua

    sedere(C,s,p)

    S

    S

    NP

    VP

    NP

    VP

    PP

    V

    PP

    NP

    NP

    N

    V

    P

    DET

    N

    N

    AUX

    PTCP

    P

    N

    Claudia sat on a stool

    Klaudija je sjela na stolac


    Empirijski sustavi 1

    Empirijski sustavi 1

    • empirijski podaci = ključni

      • paralelni korpusi

        • dvojezični

        • višejezični

    • sravnjeni (aligned)

      • razina rečenice

      • razina riječi

        prijevodni ekvivalenti (translation equivalents, TE) = eksplicitno obilježeni i povezani

      • <xlinkveterin_hr.S3 veterin_si.S3veterin_hr.S4 veterin_si.S4veterin_hr.S5 veterin_si.S5...>


    Empirijski sustavi 2 statisti ki

    Empirijski sustavi 2: statistički

    • primjena statističkih metoda na pronalaženje TE

      • frekvencije, 2 test, uzajamna obavijesnost (MI), Dice koeficijent, logaritamska očekivanost (log likelihood) itd.

    • kontingencijske tablice

      cow¬ cow

      vache59 6 ¬ vache 8570934

      • broj rečenica u kojima se pojavljuju cow i vache u eng-fra paralelnom korpusu

      • 2 = 456400  par cow/vache = dobar kandidat za prijevodni ekvivalent


    Empirijski sustavi 3 oprimjerivanje

    Empirijski sustavi 3: oprimjerivanje

    • Example-based MT

    • čuvanje prevedenih rečenica i originala u bazi (= TM)

    • postupak:

      • pronalaženje TL rečenice u bazi što sličnije SL rečenici

        • strukturalno

        • ne nužno i leksički

      • filtriranje nepoželjnih leksičkih jedinica prazna mjesta u TL rečenici za kasnije dopunjavanje


    Povijest mt a 1

    Povijest MT-a 1

    • prije računala

      • racionalisti (Descartes) izlažu ideju mehaničkoga čovjeka( mehaničkoga prevoditelja)

      • sredinom ‘30 20. st., Georges Artsrouni i Petr Troyanski patent za “prijevodne strojeve”

      • Troyanski predlaže

        • automatski dvojezični rječnik

        • shemu za kodiranje međujezičnih gramatičkih uloga(interlingua = esperanto)

        • nacrt analize SL teksta i sinteze TL teksta

      • tek krajem ‘50 saznalo se za njegove ideje


    Povijest mt a 2

    Povijest MT-a 2

    • začetnici: 1947-1954.

      • ideja uporabe ‘elektroničkoga računala’ kao pomagala pri prevođenju = jedno od prvih područja primjene računala

      • 1947-03: Warren Weaver u pismu Norbertu Wieneru

      • 1949-07: Weawerov memorandum (+ Shannon, teorija info.)

      • MT počinje na mnogim sveučilištima u SAD

      • 1954: prvi javni demo, IBM + Georgetown Univ.

      • snažna državna financijska podrška

      • proto-MT = naivan pristup: riječ-za-riječ


    Prevoditelj i racunalo

    Will you translate me to the second page of the street?

    Hoćete li me prevesti na drugu stranu ulice?

    He fled on neck, on nose.

    Pobjegao je navrat-nanos.

    She did it from the hill, from the valley.

    Učinila je to zbrda-zdola.

    But Grandmother and fourty thiefs...

    Ali Baba i četrdeset hajduka...


    Povijest mt a 3

    Povijest MT-a 3

    • desetljeće optimizma: 1954-1966.

      • prvi sustavi = izravni (mainframe računala)

        • veliki dvojezični rječnici (ru-en, en-ru)

        • pravila za ispravljanje poretka riječi u TL rečenici

      • uskoro potreba za sintaktičkom analizom

      • razvitak formalnih gramatika još uvijek nedovoljan

        • TGG (Chomsky 1957), gramatika ovisnosti, stratifikacijska gram.

      • pretjerani optimizam uz najave o brzom dosezanju FAHQMT (fully automated high quality MT)

      • semantičke prepreke (višeznačnost, anafora,...) nerješive

      • ALPAC izvješće (1966)

        • MT je sporo, netočnije i 2x skuplje od HT-a

        • “there is no immediate or predictable prospect of useful machine translation”


    Povijest mt a 4

    Povijest MT-a 4

    • nakon ALPAC izvješća: 1966-’80

      • gotovo potpuni prekid istraživanja s područja MT-a u SAD i SSSR-u

      • nastavak u Francuskoj, Kanadi i Njemačkoj

        • manji opseg istraživanja

        • drugi jezični parovi (en-fr, fr-en, en-nj, nj-en...)

      • 1970: SYSTRAN u USAF i u EC 1976.

      • 1976: METEO u Kanadi

      • zahtjevi za MT iz

        • višejezičnih zajednica

        • multinacionalnih tvrtki

      • iskazuje se potreba za jeftinijim M(A)T sustavima za prevođenje tehničke dokumentacije


    Povijest mt a 5

    Povijest MT-a 5

    • rane ‘80

      • razvitak mnogih sustava u više zemalja

      • komercijalizacija

        • mainframe računala (SYSTRAN, LOGOS, PAHO, METAL...)

        • mini-, mikro-računala (ALPS, Weidner, Globalink, Sharp, NEC,...)

      • strategija istraživanja MT

        • neizravni sustavi

        • ponekad interlingua

        • uključivanje morfološke/sintaktičke/semantičke analize

        • uključivanje izvanjezičnih baza znanja (rječnik  enciklopedija)

      • GETA-Ariane (Grenoble), SUSY (Saarbrücken), Mu (Kyoto), DLT (Utrecht, IL = esperanto), CMU (SAD), EUROTRA (EU, neslavno propao)


    Povijest mt a 6

    Povijest MT-a 6

    • rane ‘90

      • daljnja komercijalizacija MT sustava s omasovljenjem PC-a

      • pojava empirijskih MT sustava

        • IBM: Candide = statistički MT

        • Japan: example-based MT

      • početci istraživanja speech-to-speech MT

        • ATR (Japan)

        • VERBMOBIL (Njemačka)

        • JANUS (CMU i Sveučilište u Karlsruheu)

        • PANGLOSS (ARPA, 3 SAD Univ.)


    Povijest mt a 7

    Povijest MT-a 7

    • prijelom stoljeća

      • pojava TWS

      • lokalizacija softwarea

        • jedno od najvećih područja uporabe MT (LISA)

      • uloga Interneta

        • SL i TL postaju e-tekstovi  transport

        • pristup terminološkim bazama

        • on-line MT sustavi

          • e-mail

          • web-stranice (npr. AltaVista...)

      • MT sustavi postaju masovni proizvodi

        • poput tekst-procesora


    Problemi mt a

    Problemi MT-a

    • višeznačnost

      • riječi:kosa, luk, kući...

      • rečenice (ili više rečenica):The driver of the bus with the yellow hat.John sleeps with his wife 3 times a week. So does Jack.

    • leksički i strukturno pogrešni odabiri

      • neodabir najboljeg TE u danom ko- i kon-tekstu

      • pogreške u međusobnom slaganju riječi prema gramatičkim kategorijama (npr. imenice i pridjevi u rodu, broju, padežu)

    • višerječne jedinice (MWU): idiomi, kolokacije

      • eng. kick the bucket

      • eng. step into one’s shoes

      • eng. heavy smoker <> hrv. okorjeli pušač<> fra. grand fumeur


    Primjena mt a

    Primjena MT-a

    • uske, strogodefinirane domene

    • ograničen vokabulari sintaktičke konstrukcije

    • Canada:sustav METEO, od 1976.

    • farmaceutika:upute za lijekove

    • transport:SCANIA priručnici

    • obavještajstvo: NSA(analiza tekstova, djelomični, grubi prijevodi: ključne riječi, karakteristične fraze...)


    Primjena m a t a 2

    Primjena M(A)T-a 2

    • EU:

      • 9 institucija EU ima svoje prevodilačke službe

      • 3.500 prevoditelja

      • prevodi se

        • 1.200.000 stranica godišnje

        • 300.000.000 riječi godišnje

      • struktura prijevoda

        • pravni46%

        • operacionalni26%

        • politički28%

      • centralizacija MAT resursa u EU

        • terminološka bazaEURODICAUTOM

        • centralna prijevodna memorijaEURAMIS


    Primjena m a t a 3

    Primjena M(A)T-a 3

    • SYSTRAN (EC-SYSTRAN)

      • privatna tvrtka 51%, ostatak EU

      • preveo 600.000 stranica u 1999.

    • EU podaci za 1999.

      • 300.000 stranica zatraženo prvo u MT

      • proces prevođenje mijenja svoj oblik

        • 1. SYSTRAN

        • 2. postprocesiranje tj. revizija prijevoda

      • 48 sati = apsolutni deadline za svaki prijevod

      • EURAMIS TM

        • raste za 50% svakih 6 mjeseci

        • pohranjeno 480.000 stranica prijevoda

      • 4 kvartal 1999.

        • ljudski prijevod 179.000 rečenica

        • MT 42.000 rečenica

      • prosječna dužina dokumenta za prijevod = 20 stranica


    Prevoditeljska radna stanica tws

    Prevoditeljska radna stanica (TWS)

    • TWS kombinira na jednom radnom mjestu razne jezične resurse i alate od pomoći pri prevođenju

      • višejezični WP

      • OCR

      • terminološke baze (pristup i sastavljanje)

      • analiza SL i TL teksta

      • konkordancije

      • TM

      • MT modul(e)

      • kontrola radnoga toka (workflow control)

    • modularni princip rada

      • uporaba odgovarajućega modula za pojedini zadatak


    Tws 2

    TWS 2

    • korisnici = profesionalni prevoditelji

      • individualno

      • grupno

    • prevoditelji imaju alat pod punom kontrolom, odluka:

      • o uporabi pojedinog modula = prevoditelj

      • o prihvaćanju rezultata = prevoditelj

    • mogućnost

      • odabira resursa

      • dopune resursa (individualno/grupno)

      • pune/djelomične automatizacije prevođenja (MT)


    Tws 3

    TWS 3

    • nakon EUROTRA projekta, EU razvija jezične resurse i alate za pomoć pri prevođenju

    • TWS nastale na temelju rezultata EU projekata

      • Translator’s Workbench (1989-94)

        • 10 Eu sveučilišta i tvrtki razvijalo pojedine sastavnice

        • višejezični editor, konverori dokumenata, pristup TB, MT moduli, kontrolirani jezici, TM, analiza SL i TL teksta, razvitak leksičkih resursa iz korpusa

      • TransLearn

        • projekt korpusno-temeljenog sustava za grube prijevode

        • na temelju tekstova iz CELEX baze (full-text baza EU pravnih tekstova)

        • en, fr, po, gr


    Tws 4

    TWS 4

    • EURAMIS (European Advanced Multilingual Information System) = EC TWS

      • pristup EURODICAUTOM-u (višejezična TB EC-a)

      • pristup rječničkim resursima samoga EC-SYSTRAN MT

      • pristup CELEX-u

      • mogućnost sastavljanja osobnih/grupnih TB (Trados MultiTerm format TB)

      • mogućnost usporedbe dokumenata (otkrivanje razlika)

      • TM (osobna/grupna/centralizirana: 7 tematskih okvira EC-a)

      • EC-SYSTRAN MT (17 jezičnih parova)

      • mogućnost provjere (pravopisa, gramatike, stila)

      • spoj na EC administrativna mreža i Internet resurse


    Tws 5

    TWS 5

    • danas 4 vodeća proizvođača TWS

      • TRADOS, CH: najuspješniji

        • Trados 5

        • Trados 5 Freelance

      • STAR AG, DE

        • Transig

      • IBM

        • TranslationManager

      • LANT, BE

        • Eurolang Optimizer


    Kakav mt ne e biti mogu

    Kakav MT neće biti moguć?

    Things have never been without being some way or other,So they cannot forever be without being one way or other.For: things being without being one way or other,Things would not have been even the way they have been.Because things have always been one way or other,That has been, and not that which has never been one way or other.So things will always somehow be one way or other,Because things will have been so that they will have been.For: things have never been without something being there,So they will never be with nothing being there.

    Miroslav Krleža, Khevenhiller, preveo Željko Bujas


    Prevoditelj i ra unalo1

    Prevoditelj i računalo

    Marko Tadić([email protected])

    Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu

    Poslijediplomski studij prevođenja, Zagreb, 2002-02 i 2002-03


  • Login