1 / 32

Fordítás, többnyelvűség, szótárak

Fordítás, többnyelvűség, szótárak. Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu. Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására.

aideen
Download Presentation

Fordítás, többnyelvűség, szótárak

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu

  2. Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására „Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani.” (Az Európa Parlament ügyrendje, 79. cikkely)

  3. Az EU-országok idegennyelv-tudása(Eurobarometer)

  4. Az idegen nyelvek megoszlása az EU-országokbanaz idegen nyelveket beszélők %-ában (Eurobarometer) Angol Francia Német Spanyol Orosz Olasz Svéd

  5. A szótár mint az idegennyelv-tudás egyik kulcsa • a használat módja • a sebesség • az adott helyzetben kapott találatok pontossága • az egyszerre több helyen való fellapozhatóság lehetősége Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza:

  6. Szótárprogramok és -szolgáltatások a világban • A szótárprogramok nagy része nem nyelvtechnológiai produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis • Eleinte csak offline termékek, ma már (javarészt ingyenes) online szolgáltatások • Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998)

  7. A korszerű internetes szótárszolgáltatás kritériumai a Web2 segítségével • Folyamatosan bővülő szótárkínálat • Sajátszótár-készítési lehetőség • Tetszőleges webes tartalom integrált megjelenítése • A kifejezések intelligens kezelése • Közösségi jelenlét • Egymás segítésének és a (jogos) kritikának a fóruma • A rendszer szemantikus ismereteinek erősítése a felhasználó keresési szokásainak elemzésével • Könnyű keresés-indítási lehetőség • Saját menthető beállítások a környezet személyre szabásához • Megvalósítás: www.webforditas.hu

  8. A webforditas.hu szótárfelülete

  9. Az EuroTermBank szótárfelülete(www.eurotermbank.com)

  10. A géppel támogatott fordítás eszközei • A professzionális fordítók igénye: gépi szótárak, és más támogatás is, de továbbra sem a gép fordít! • Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni • Kialakulnak a fordítómemóriák • Új kutatási terület: hasonló mondatok keresése • Párhuzamos szövegkorpuszok: szövegek fordításaikkal, mondatpáronként kereshetően • A legjelentősebb hazai kísérlet: a Hunglish angol-magyar párhuzamos korpusz (BME MOKK) • Szoftvereszközök: Trados, Transit, SDL, … • A MemoQ magyar fejlesztésű fordítómemória (Kilgray Kft) több szakmai szempontból meghaladja a versenytársait • Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé

  11. A gépi fordítás minősítéséneklegfontosabb kritériumai(fordítási minőség + sebesség + használhatóság + formátummegőrzés + elérhető nyelvek) Fordítási minőség34% Használhatóság34% Forrásnyelv-célnyelv párok13% Formátum-megőrzés13% Sebesség20% Forrás: Stadler-Spröndli, MT Summit 2007

  12. A gépi fordítás legalapvetőbb módszerei közvetítőnyelv elemzés generálás transzfer forrásnyelv célnyelv közvetlen fordítás

  13. A gépi fordítás fő irányzatai • A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!) • A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is) • A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra) • A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses) • A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt • A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)

  14. Az elérhető webes fordítószolgáltatások minőségi kérdései

  15. Egy hazai gépi fordítási esettanulmány(www.webforditas.hu) • Az internetes szolgáltatást működtető gépifordító-motor a MorphoLogic MetaMorpho rendszere • Formája: ingyenes gépi fordítási szolgáltatás • Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette konzorcium (MTA Nyelvtudományi Intézet, SZTE Informatikai Tanszékcsoport) munkája (NKFP) • 2007 és 2008 októbere között: 91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt) 81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés 13,3 GB adatforgalom (ami 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg) • 2008 szeptemberében már 50 000 látogató/nap!

  16. Weblapfordítás(www.webforditas.hu)

  17. Weblapfordítás(www.webforditas.hu)

  18. A webforditas.hu gépifordító-szolgáltatás látogatószám-növekedése 2007/2008-ban

  19. A webforditas.hu, a Systran és a ProMT internetes fordítószolgáltatásainak összehasonlítása

  20. Következmények • A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását) • Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők „megértéstámogatása” • Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-X és X-angol gépfordító-szolgáltatásainak összekapcsolására • Hogyan?

  21. A közvetítőnyelv gondolata „A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. […] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség.” (Az Európai Unió soknyelvűsége - Ajánlás)

  22. Közvetett fordítás a magyar és az EU-nyelvek között(meg még más nyelvekre is…) • A nyelvpárok száma= n*(n-1) • A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt • X-Y közvetett fordítás: angolon át • 2008 nyarától a Google is ezt csinálja: statisztikai fordítóit kötötte össze az angolon keresztül

  23. A webforditas.hu magyarra és magyarról „forduló” nyelvei • A legfontosabb európai világnyelvek: angol, német, francia, spanyol, olasz, orosz • További nyugat-európai nyelvek: portugál, holland, dán, svéd, norvég, finn, katalán • A „visegrádi” nyelvek: lengyel, cseh, szlovák • További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén • További kelet-európai nyelvek: görög, bolgár, lett, litván • A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai, koreai • További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi • A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT (orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég) • Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net • A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen („nem ember áll a túloldalon!”)

  24. A soknyelvű webforditas.hu szövegfordító modulja

  25. 1. webfordítás-példa: orosz-magyar

  26. 2. webfordítás-példa: hindi-magyar

  27. 3. webfordítás-példa: japán-magyar

  28. 4. webfordítás-példa: magyar-román

  29. 5. webfordítás-példa: magyar-portugál

  30. 6. webfordítás-példa: magyar-görög

  31. Merre megy a gépi fordítás tovább? • Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal) • Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások) • Újabb „platformok” bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)

More Related