1 / 30

CLARIN projekts: sagatavošanas posma rezultāti un nākotnes ieceres

CLARIN projekts: sagatavošanas posma rezultāti un nākotnes ieceres. Inguna Skadiņa LU Matemātikas un informātikas institūts. Mērķi.

didina
Download Presentation

CLARIN projekts: sagatavošanas posma rezultāti un nākotnes ieceres

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CLARIN projekts: sagatavošanas posma rezultāti un nākotnes ieceres Inguna Skadiņa LU Matemātikas un informātikas institūts

  2. Mērķi • Izveidot integrētu, sadarbību veicinošu pētniecības infrastruktūru humanitāro un sociālo zinātņu pētnieku vajadzībām, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas • Novērst pašreizējo sadrumstalotību un piedāvāt stabilu, pastāvīgu un paplašināmu infrastruktūru

  3. Vīzija

  4. Iniciatīva apvieno 189 organizācijas no 33 valstīm • 7. ietvarprogrammas infrastruktūru apakšprogrammas projekts sagatavošanas posmam ar 36 partneriem • 3 posmi: • sagatavošanas posms (2008–2011) CLARIN organizācijas izveide, plānošana, prototipa izveide • izveides posms (2011–2015) CLARIN infrastruktūras izveide un piepildīšana ar resursiem un rīkiem • izmantošanas posms (2016–) CLARIN ir izmantojams kā pakalpojums

  5. Galvenie darba virzieni sagatavošanas posmā

  6. TEHNISKĀ DIMENSIJA

  7. Mērķis - • valodas resursu un rīku savietojamības nodrošināšana, novēršot sadrumstalotību un nesavietojamību • ilgtermiņā - kritiskās masas sasniegšana

  8. Galvenie rezultāti (1) • ES projekta līmenī - CLARIN tehniskās infrastruktūras specificēšana un prototipa izveide • Vienošanās par kopīgiem metadatu standartiem: • IsoCat - latviski iztulkota ISOcat standarta sadaļa Metadati, tiek definētas datu kategorijas sadaļai Morfosintakse • MultextEast - izveidota optimāla latviešu valodas morfosintaktisko pazīmju kopa

  9. http://www.isocat.org/

  10. Galvenie rezultāti (2) • Standartizētu tīmekļa pakalpju izveide LU MII latviešu valodas resursiem un rīkiem: • morfoloģiskajam analizatoram un sintezatoram • teksta dalītājam teikumos un vārdlietojumos • statistiskajam morfoloģiskajam marķētājam • runas sintezatoram • mašīnlasāmai Latviešu literārās valodas vārdnīcai (LLVV) • Latviešu valodas rīkus integrācija valodas resursu un rīku tīmekļa pakalpju sistēmā WebLicht

  11. Galvenie rezultāti (3) • LUMII valodas resursu serveris reģistrēts Latvijas Akadēmisko identitāšu un pakalpojumu sniedzēju federācijā LAIFE • CLARIN centru izveides un uzturēšanas izmaksu novērtēšana (D2R-9b Cost Estimates - v2)

  12. LIETOTĀJU DIMENSIJA

  13. Mērķis – noskaidrot, kādas ir humanitāro zinātņu vajadzības attiecībā uz valodas resursiem un tehnoloģijām kā pētniecisko infrastruktūru • Esošo un iepriekšējo humanitāro zinātņu projektu apzināšana un analīze: • kādas ir vajadzības • kā pašlaik humanitārajās un sociālajās zinātnēs tiek lietoti valodas resursi un tehnoloģijas • kā tiek lietota mūsdienīga pētniecības infrastruktūra • kādi ir pašreizējie trūkumi un kā tos varētu novērst

  14. Lietotāju apmācība – praktiskie semināri • Praktiskie semināri par latviešu valodas tekstu korpusu un tekstu marķēšanas rīka izmantošanu • Praktiskie semināri par runas datu transkribēšanu un marķēšanu • Dažādas auditorijas, t.sk. humanitāro zinātņu doktorantūras skolas studenti, pētnieki • Semināra dalībnieku ierosinājumi tiek izmantoti valodas resursu un rīku pilnveidošanai • Semināru materiāli pieejami tiešsaistē www.clarin.lv mājaslapā

  15. VALODAS DIMENSIJA

  16. Galvenie uzdevumi • Inventarizēt galvenos valodas resursus (t.sk. korpusus) un apstrādes rīkus (lemmatizators, morfoloģiskais analizators, vārdšķiru noteicējs, sintaktiskais analizators, īpašvārdu, akronīmu u.tml. noteicējs) • Izveidot valodas resursu un apstrādes rīku taksonomiju • Noteikt kritērijus valodas resursu un rīku kvalitātes novērtēšanai • Iezīmēt veidus, kā valodas resursus un rīkus integrēt vienotā infrastruktūrā

  17. Valodas resursu un rīku pārskats • Mērķis – apzināt valodas resursus un tehnoloģijas, noteikt valodai nepieciešamos pamatresursus un rīkus, kā arī izstrādāt stratēģiju trūkstošo rīku un resursu izveidei • CLARIN valodas resursu un rīku krātuvē reģistrēti: • 822 valodas resursi, no tiem 35 latviešu valodas resursi (4%) • 231 rīks, no tiem 9 latviešu valodai (3,8%)

  18. http://www.clarin.eu/view_resources

  19. Resursu un rīku pārskats Latvijā www.clarin.lv

  20. Valodai nepieciešamie pamatresursi un rīki • Noteikt minimālo nepieciešamo valodas resursu kopu, lai varētu veikt sociālo un humanitāro zinātņu pētījumus pēc iespējas vairāk valodās • Ziņot par katras valodas situāciju valodas resursu infrastruktūrā • Noskaidrot, kādu svarīgu resursu trūkst attiecīgajai valodai, un meklēt iespējas tos izveidot • Noteikt kritērijus, kā izvērtēt valodas resursu un rīku kvalitāti

  21. Valodai nepieciešamie pamatresursi un rīki

  22. Citi rezultāti • Ziņojums par valodas resursu integrāciju tīmekļa pakalpojumu infrastruktūrā (D5C-2 Integration of LR into web service infrastructure) • Ziņojums par sadarbspēju un standartiem (D5C-3 Interoperability and Standarts Report) • Viseiropas rīcības plāns trūkstošo valodas resursu un rīku izveidei (M5R-4.1 Pan-European Action plan to fill LRT gaps)

  23. JURIDISKĀ DIMENSIJA

  24. Intelektuālā īpašuma un juridisko jautājumu izpēte valodas resursiem un rīkiem: • CLARIN rīku un resursu parauglīgumi • CLARIN licenču klasifikācijas vadlīnijas • CLARIN Sākotnējais Autorizācijas un autentifikācijas shēmas plāns • CLARIN infrastruktūras juridiskā un organizatoriskā izveide: darbs pie CLARIN-ERIC (European Research Infrastructure Consortium)

  25. Valstis, kas parakstījušas CLARIN-ERIC saprašanās memorandu (Memorandum of understanding)

  26. Secinājumi un nākotnes ieceres (1) • Latvijā paveiktais CLARIN sagatavošanas posmā atbilst plānotajam un ir pietiekams, lai Latvija varētu turpināt CLARIN infrastruktūras izveidi • CLARIN infrastruktūras izveide Eiropas līmenī plānota kā CLARIN ERIC • Iesaistīšanās CLARIN ERIC pašlaik nenodrošina latviešu valodai trūkstošo resursu un rīku izveidi, bet ļautu izmantot infrastruktūrā iekļautos valodas resursus un rīkus

  27. Secinājumi un nākotnes ieceres (2) Līdztekus darbībai CLARIN ERIC Latvijā ir būtiski • izveidot Nacionālo CLARIN tīklu, apvienojot valodas resursu un rīku veidotājus, uzturētājus un akadēmiskos lietotājus • izveidot Valodu resursu un tehnoloģiju pētniecisko programmu, kas ilgtermiņā nodrošinātusaskaņotu valodas resursu un rīku izveidi • iekļaut datorlingvistikas kursu gan valodniecības, gan datorzinātņu programmā • turpināt CLARIN Nacionālās konsultatīvās padomes darbu, lai nodrošinātu CLARIN harmonisku realizāciju

  28. CLARIN Latvijā – www.clarin.lv, e-pasts: info@clarin.lv

  29. Paldies par uzmanību!

More Related