1 / 22

Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos. Mārcis Pinnis marcis.pinnis@tilde.lv Tilde Latvijas Universitāte. Prezentācijas pārskats. Mašīntulkošanas risinājumu iedalījums pēc pielietojuma Statistiskās mašīntulkošanas (SMT) adaptācija (pielāgošana) konkrētai nozarei

sloan
Download Presentation

Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos Mārcis Pinnis marcis.pinnis@tilde.lv Tilde Latvijas Universitāte

  2. Prezentācijas pārskats • Mašīntulkošanas risinājumu iedalījums pēc pielietojuma • Statistiskās mašīntulkošanas (SMT) adaptācija (pielāgošana) konkrētai nozarei • Ieskats netālā nākotnē (1-2 gadi)

  3. Neliela atkāpe no tēmas Kāpēc vispār nepieciešams attīstīt valodu tehnoloģijas? • Lai likvidētu komunikācijas barjeras • Lai padarītu informāciju pieejamu ātri un efektīvi • Lai paaugstinātu produktivitāti • Jo valodu tehnoloģiju un pakalpojumu tirgus ir ļoti liels un augošs! • Pēc Eiropas Komisijas* pētījuma Eiropas 2012. gada valodas tehnoloģiju un pakalpojumu tirgus apjoma prognozes ir 12,3 miljardi eiro. • Pēc CommonSenseAdvisory** pētījuma pasaules 2012. gada valodas tehnoloģiju un pakalpojumu tirgus apjoma prognozes ir 33,5 miljardi ASV dolāru. * Study on the size of the language industry in the EU, ISBN: 978-92-79-14181-2, 2009 ** Language Services Market2012, NatalyKelly, Donald A. DePalma, Robert G. Stewart, 2012

  4. Kādam mērķim mums nepieciešama mašīntulkošana? • Lai uztvertu tekstā ietverto informāciju • ziņas, tūrisma informācija, jebkura veida informatīvs saturs • Prasības var atšķirties • No lasītāju/lietotāju skatupunkta • No pakalpojumu sniedzēju skatupunkta

  5. Tīmekļa lapu tulkošana, izmantojot specializētus tīmekļa pakalpojumus

  6. Tīmekļa lapu tulkošana, izmantojot logrīkus Piemērs: Transposh tulkošanas logrīks, kas izmanto Google Translatepakalpojumu.

  7. Tīmekļa lapu tulkošana, izmantojot pārlūkprogrammu spraudņus Piemērs: Google ChromepārlūkprogrammasGoogle Translate tulkošanas spraudnis

  8. Kādam mērķim mums nepieciešama mašīntulkošana? • Lai palīdzētu tulkot tekstu (rediģējot saturu) • Amatieriem • Profesionāliem tulkiem

  9. Apšaubāmas kvalitātes satura veidošana, izmantojot brīvi pieejamus mašīntulkošanas risinājumus Teksta rediģēšana

  10. Profesionāla satura veidošana, izmantojot specializētus mašīntulkošanas risinājumus

  11. Kādam mērķim mums nepieciešama mašīntulkošana? • Lai aizstātu cilvēku (tulku) • Nepieciešama perfekta (šobrīd neiespējama) mašīntulkošanas sistēma vai kontrolēta valoda • Piemērs 1: Vienkāršota tehniskā angļu valoda (ASD SimplifiedTechnicalEnglish) • Izstrādāta aviācijas industrijas tekstu standartizācijai • Piemērs 2: Medicīnas produktu aprakstu kontrolēta tulkošana • UweMuegge,"Fully automatic high quality machine translation of restricted text: A case study", Translating and the computer 28. Proceedings of the twenty-eighth international conference on translating and the computer, 2006. gada 16. –17. novembris, Londona.

  12. Kāpēc nepieciešama SMT sistēmu adaptēšana? • Sistēmas būvētas citas nozares vai vairāku nozaru tekstu tulkošanai screw screw screw screw The ship’s propeller rammed into the ground. (dzenskrūve) The airplane’s propeller started rotating. (propelleris) Thereis a loosesomewhere. I do notbelieve it. (kaut kas nav kārtībā) Thereis a looseinthestand. (vaļīga skrūve) • Mašīntulks prot analizēt tikai to kontekstu, ko tam iemāca analizēt • Robežas (daži vārdi, teikums, rindkopa, viss teksts, ārpus teksta informācija) • Informācija par nozari un tās specifisko terminoloģiju • Informācija par dažādiem apzīmējumiem (vietvārdi, netulkojami fragmenti, speciāli apstrādājami fragmenti) • lokalizācijas informācija (mērvienību sistēmas, valūtas, utt.)

  13. Tipiska mūsdienu statistiskās mašīntulkošanas sistēma • Ko nedara • Neidentificē teksta nozari (domēnu) – tiek izmantota fiksēta sistēma • Neidentificē terminus – nenošķir no citiem fragmentiem • Neidentificē fragmentus, kas būtu jātulko ar specifiskām metodēm (vietvārdi, personvārdi, datumi, mērvienības, utt.) • Ko dara • Angļu-latviešu virzienā veic teksta dalīšanu vārdos, pieturzīmēs (atsevišķos gadījumos morfosintaktiski marķē) • Analizē teksta kontekstu noteiktās robežās (līdz noteiktam teksta vienību skaitam pa kreisi un pa labi)

  14. SMT adaptācija ar ierobežotiem resursiem Pieņemsim, ka pie mums ierodas klients, kas vēlas mašīntulkošanas sistēmu kādā šaurā nozarē • Klientam līdzi ir paņemti: • Neliels apjoms (2-3 tūkstoši teikumu) tulkotu tekstu (dokumenti divās valodās, vai jau sastatīti teikumi no tulkošanas atmiņām) • un/vai terminu vārdnīca • Mums ir pieejams liels vispārīgs (ne konkrētās nozares) paralēls korpuss

  15. 1. Iegūstam terminus salīdzināma korpusa vākšanai • Ja klients ieradies ar dokumentiem, tad: • sastatām dokumentus teikumu līmenī • izveidojam frāžu tabulu (ar Moses SMT sistēmas rīku palīdzību) • Marķējam terminus atsevišķo valodu dokumentos • Iegūstam terminu (frāžu) vārdnīcu • Terminus sakārtojam • Atlasam terminu pārus, atkarībā pēc to informatīvā svara (izfiltrējam vispārīgās valodas frāzes) • Metodes aprakstītas: • M. Pinnis un R. Skadiņš, MT Adaptation for Under-Resourced Domains – What Works and What Not, ProceedingsoftheFifth International ConferenceHuman Language Technologies — The Baltic Perspective, Tartu, Igaunija, 2012. gada 4. – 5. oktobris.

  16. 2. Vācam salīdzināmu korpusu • Ar fokusētiem korpusu vākšanas rīkiem, piemēram ACCURAT FMC (FocussedMonolingualCrawler) • Rezultāts: • Divu valodu salīdzināms korpuss • Korpusu sastatām dokumentu līmenī tā, lai dokumenti būtu viens ar otru salīdzināmi (saturs, ar noteiktu slieksni, pārklātos) • Izmantojam salīdzināmības metrikas – rīkus, kas analizē dokumentus un nosaka satura pārklāšanās daudzumu robežās no 0 līdz 1. • Piemēram, ACCURAT DictMetric vai ComMetric. • Metodes aprakstītas: • Inguna Skadiņa etal., Collecting and Using Comparable Corpora for Statistical Machine Translation, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), 438. –445. lpp., Stambula, Turcija, 2012.

  17. 3. Izvelkam jaunu terminu (frāžu) vārdnīcu • Salīdzināmajā korpusā marķējam terminus • Tos savstarpēji sastatām ar terminu sastatīšanas rīkiem • Metodes aprakstītas: • M. Pinnis etal., Term Extraction, Tagging, andMappingToolsforUnder-ResourcedLanguages. Proceedingsofthe 10th ConferenceonTerminologyandKnowledge Engineering (TKE 2012), 193. –208. lpp., Madride, Spānija, 2012.

  18. 4. Meklējam paralēlu teikumu pārus salīdzināmajā korpusā • Sastatām teikumus ar teikumu sastatīšanas rīku ACCURAT LEXACC • Ja korpuss ir pietiekami salīdzināms (tajā ir teikumi, kas ir viens otra tulkojumi), rezultātā tiks iegūts saraksts ar sastatītiem teikumiem • Metodes aprakstītas: • D.Ştefănescuetal.,Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT 2012), Trento, Itālija.

  19. 5. Trenējam mašīntulkošanas sistēmu • Izmantojam mērķa valodas specifiskās nozares korpusu valodas modeļa trenēšanai. • Papildinām paralēlo datu korpusu ar iegūtajiem teikumu pāriem un terminu vārdnīcu (!). • Modificējam frāžu tabulu, lai nozares terminoloģija tiktu augstāk novērtēta. • SMT sistēmas trenēšanai izmantojam Let’sMT! tīmekļa platformu (ietver Moses SMT platformu).

  20. Vairāk informācijas M. Pinnis, R. Ion, D. Ştefănescu, F. Su, I. Skadiņa, A. Vasiļjevs un B. Babych, ACCURAT ToolkitforMulti-LevelAlignmentandInformationExtractionfromComparableCorpora, Proceedingsofthe ACL 2012 SystemDemonstrations, 91. – 96. lpp., Association forComputationalLinguistics, Jeju, Dienvidkoreja, 2012. M. Pinnis, N. Ljubešić, D. Ştefănescu, I. Skadiņa, M. Tadić un T. Gornostay, Term Extraction, Tagging, andMappingToolsforUnder-ResourcedLanguages, Proceedingsofthe 10th ConferenceonTerminologyandKnowledge Engineering (TKE 2012), 193. – 208. lpp., Madride, Spānija, 2012. M. Pinnis un R. Skadiņš, MT Adaptation for Under-Resourced Domains – What Works and What Not, ProceedingsoftheFifth International ConferenceHuman Language Technologies — The Baltic Perspective, Tartu, Igaunija, 2012. gada 4. – 5. oktobris. I. Skadiņa, A. Aker, N. Mastropavlos, F. Su, D. Tufiș, M. Verlic, A. Vasiļjevs, B. Babych, P. Clough, R. Gaizauskas, N. Glaros, M.L. Paramita un M. Pinnis, CollectingandUsingComparableCorporaforStatisticalMachineTranslation, ProceedingsoftheEightInternationalConferenceonLanguage Resources andEvaluation (LREC 2012), 438. – 445. lpp., Stambula, Turcija, 2012. D.Ştefănescu, R.Ion un S.Hunsicker. 2012. Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT 2012), Trento, Italy.

  21. Ieskats netālā nākotnē • Apskatītais piemērs neskāra sekojošus jautājumus: • Pieejamo terminu datu bāžu (piem., EuroTermBank) utilizācija tulkošanas procesā (FP7 projekta TaaS darbības sfēra) • Terminu izpildlaika integrācija mašīntulkošanas risinājumos • Apzīmējumu integrācija mašīntulkošanas risinājumos • Projekti, kas skar (var skart) latviešu valodas saistītu mašīntulkošanas risinājumu attīstību: • TaaS (Terminologyas a Service) • MultilingualWeb-LT (paplašināti tīmekļa standarti daudzvalodu atbalsta nodrošināšanai)

  22. Paldies par uzmanību! Šis darbs izstrādāts ar Eiropas Sociālā fonda atbalstu projektā «Atbalsts doktora studijām Latvijas Universitātē»

More Related