1 / 25

ES valodu tehnoloģiju pētniecības projekti Latvijā

ES valodu tehnoloģiju pētniecības projekti Latvijā. Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010. Valodas tehnoloģiju attīstības izaicinājumi Latvijā. Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām?

gustav
Download Presentation

ES valodu tehnoloģiju pētniecības projekti Latvijā

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ES valodu tehnoloģiju pētniecības projekti Latvijā Andrejs Vasiļjevs, Tilde CLARIN seminārs Rīga, 26.02.2010

  2. Valodas tehnoloģiju attīstības izaicinājumi Latvijā • Kā pārvarēt tehnoloģisko plaisu, kas šķir latviešu valodu no “lielajām” valodām? • Kā nodrošināt pētniecībai nepieciešamos valodas resursus? • Kā sagatavot un piesaistīt datorlingvistikas speciālistus? • Kā nodrošināt pētniecībai un attīstībai nepieciešamo finansējumu? • Kā attīstīt sadarbību starp akadēmisko un uzņēmējdarbības vidi? • Kā pētījumu rezultātus pārvērst plaši lietotās tehnoloģijās un risinājumos? • Kā apgūt labāko pasaules pieredzi?

  3. ES programmu iespējas latviešu valodas attīstībai

  4. Valodas tehnoloģiju attīstībai pieejamās ES programmas

  5. ES valodas tehnoloģiju projekti

  6. Eiropas sadarbība valodas tehnoloģiju attīstībā

  7. Datos balstītas mašīntulkošanas attīstība • Automātiska lingvistiskās informācijas izguve no liela apjoma paralēlo tekstu korpusiem ir efektīvs risinājums, kas aizstāj ilgstošu ekspertu darbu • Taču pašreizējo datos balstītu metožu lietojumu ierobežo pieejamais paralēlo tekstu apjoms • Valodām un nozarēm, kurām nav pieejami apjomīgi paralēlie korpusi, datos balstītu mašīntulkošanas sistēmu tulkošanas kvalitāte ir neapmierinoši zema

  8. LetsMT! projekta mērķis

  9. LetsMT! partneri

  10. CLARA Common Language Resources and their Applications

  11. CLARA projekta mērķi

  12. CLARA partneri • Bergenas universitāte • Tilde • Kārļa universitāte • Tūbingenas universitāte • Kopenhāgenas universitāte • Helsinku universitāte • PompeuFabra universitāte • Norvēģijas Ekonomikas un biznesa administrācijas augstskola • Maksa Planka institūts

  13. ACCURAT projekta mērķi

  14. Salīdzināmie korpusi • Teksta resursi divās vai vairāk valodās, kas nav tieši tulkojumi, taču ir ar līdzīgu saturu • Dokumentu kopa, kas savākta pēc noteiktiem kritērijiem (piem., līdzīga žanra vienas jomas teksti, kas radīti noteiktā laikposmā), divās vai vairāk valodās, kuru saturs lielākā vai mazākā mērā pārklājas • Piemēri: ziņas dažādās valodās, daudzvalodu tīmekļa lappuses, Wikipedia raksti u.c.

  15. ACCURAT projekta valodas • Fokuss uz mazāk nodrošinātām valodām, tādām kā latviešu, lietuviešu, igauņu, grieķu, horvātu, rumāņu, slovēņu • Tulkošana no/uz lielajām valodām, piemēram, angļu-latviešu, angļu-horvātu, vācu-rumāņu • Mazāk pētīti mašīntulkošanas virzieni, piemēram, latviešu-lietuviešu, lietuviešu-rumāņu, rumāņu-grieķu

  16. ACCURAT projektapartneri • Tilde (projekta koordinators) - Latvija • Šefīldas universitāte - Lielbritānija • Līdsas universitāte - Lielbritānija • Atēnu Informācijas, komunikāciju un zināšanu tehnoloģiju pētniecības un inovāciju centrs - Grieķija • Zagrebas universitāte - Horvātija • DFKI - Vācija • Rumānijas ZA Mākslīgā intelekta institūts - Rumānija • Linguatec - Vācija • Zemanta - Slovēnija

  17. ACCURAT konsultatīvā padome • Latvijas Patentu birojs • Latvijas universitāte • Lokalizācijas industrijas standartu asociācija • Pēterburgas Hercena Valsts pedagoģiskā universitāte • Eiropas Komisijas Apvienotais pētniecības centrs • CLARIN konsorcijs

  18. Sagaidāmie rezultāti • Salīdzināmības metrika un atbilstošie rīki • Salīdzināmais korpuss un tā vākšanas un apstrādes rīki • Metodes un rīki salīdzināmā korpusa sastatīšanai dažādos līmeņos • Metodes salīdzināmā korpusa lietojumam statistiskajā un likumbāzētajā mašīntulkošanā • Lietojuma scenāriji un praktiskā noderīguma novērtējums • Mašīntulkošanas kvalitātes uzlabošana latviešu un citām mazākām valodām un specializētām jomām

  19. TTCTerminology extraction, translation tools and comparable corpora

  20. TTCprojekta mērķis

  21. TTC Partneri

  22. EASTIN-CLCrosslingual and multimodal Search in a Portal for Support of Assisted Living

  23. EASTIN-CL Goals

  24. EASTIN-CL projekta partneri

  25. Kā virzīt valodas tehnoloģiju attīstību Latvijā • Sadarbība Latvijas līmenī • CLARIN Latvija • Latviešu valodas nacionālā korpusa iniciatīva • Sadarbība Baltijas līmenī • Baltijas HLT konference 2010 • Sadarbība Eiropas līmenī • FP7, CIP ICT-PSP, MarieCurie programmas • “Horizontālā” sadarbība starp pētniecības iestādēm, atmiņas institūcijām un uzņēmumiem • Valodu krasts

More Related