1 / 29

Vara, nauda un fakti latviešu valodas korpusā

Vara, nauda un fakti latviešu valodas korpusā. Everita Andronova Ilze Auziņa Normunds Grūzītis Gunta Nešpore LU Matemātikas un informātikas institūts. CLARIN seminārs 2010. gada 26. februārī. Atskats nesenā pagātnē.

bono
Download Presentation

Vara, nauda un fakti latviešu valodas korpusā

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vara, nauda un fakti latviešu valodas korpusā Everita Andronova Ilze AuziņaNormunds Grūzītis Gunta Nešpore LU Matemātikas un informātikas institūts CLARIN seminārs 2010. gada 26. februārī

  2. Atskats nesenā pagātnē • 2003. g. VVK „Latvijas valodas politikas stratēģija (2003–2013)“ (LU MII priekšlikums – izveidot latviešu valodas korpusu (vismaz līdz 150 milj. vārdl.)) • IZM „Valsts valodas politikas programmā 2006.–2010. g.“ 6.3. uzdevumā „Valsts valodas zinātniska izpēte, kopšana un attīstīšana“ paredzēts „Izveidot latviešu valodas tekstu un runas elektronisko korpusu, nodrošināt tā izveidošanai un uzturēšanai nepieciešamās programmatūras attīstību” • 2005 — pēc VVA pasūtījuma LU MII tika sagatavota „Latviešu valodas korpusa koncepcija“, pamatojot korpusa nepieciešamību • 2007–2008 — ar VVA atbalstu LU MII izveidots 1milj.vārdlietojumu liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem • 2009. g. oktobris — ar VVA atbalstu LU MII papildina korpusu ar 2,5milj. vārdl.; pieejams 3,5milj.vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem CLARIN seminārs 2010. gada 26. februārī

  3. Papildus piedāvātie latviešu valodas korpusi (izmantojot pārlūkprogrammu Bonito) • miljons-2.0m— līdzsvarota mūsdienu latviešu valodas korpusa morfoloģiski marķēta versija; ~3,5 milj. vārdl., atstātas visas sintaktiski pieļaujamās morfoloģiski daudznozīmīgās formas • ledus— morfoloģiski marķēts ~14 000 vārdl. liels paraugkorpuss (P. Bankovskis „Plāns ledus“, 1.nodaļa) • saeima-1.0—Latvijas Republikas 5. Saeimas sēžu stenogrammas ar metadatiem; ~4,7milj. vārdl. • saeima-2.0— Latvijas Republikas 5.–9.Saeimas sēžu stenogrammas ar metadatiem; 22,5milj. vārdl. • timeklis-1.0—~97milj. vārdl. lielslatviešu valodas tīmekļakorpuss (ar SemTi-Kamols gramatisko analizatoru 100% automātiski nomarķēti ~60000 vārdlietojumu) CLARIN seminārs 2010. gada 26. februārī

  4. Korpusa izmantošana • Gramatikas un citu valodniecības jautājumu izpētē • Leksikogrāfijā • Terminoloģijas izstrādē • Valodas mācīšanā • Tulkošanas studijās un tulku apmācībā, mašīntulkošanā • Dabiskās valodas apstrādē (statistika un varbūtības), informācijas izguvē, precedenta mašīnmācīšanās • Psiholingvistikā, sociolingvistikā, tiesu ekspertīzēs • Humanitārajās un sociālajās zinātnēs CLARIN seminārs 2010. gada 26. februārī

  5. Cik sen mēs pazīstam ķibeles? • 5. Saeimas sēdēs — 2×(kaut kādas ķibeles ar balsošanas ierīcēm; nevajadzētu baidīties no tā, ka notiks visādas ķibeles) • 6. Saeimas sēdēs — 5× (pacelties virs ikdienas ķibelēm; vēl visādas ķibeles; milzīga ķibele; jaunām ķibelēm; ar mani šāda ķibele notiek ne jau pirmo reizi) • 7. Saeimas sēdēs — 1× (rodas visādas nelaimes un ķibeles) • 8. Saeimas sēdēs — 1× (visādas ķibeles ar to) • 9. Saeimas sēdēs — 2× (visās mūsu ķibelēs vainojama esot Eiropas Savienība; gadās viena ķibele pēc otras) • dižķibele sastopama vien 9. Saeimas laikā (3×), to 2× lietojis Jānis Urbanovičs (pārciestu ne tikai šo dižķibeli, bet varbūt arī vēl nākamās; tie vecie ļauži, viņi nekādā ziņā nav vainīgi pie tās dižķibeles, kura Latvijā ir lielāka nekā visur citur pasaulē) CLARIN seminārs 2010. gada 26. februārī

  6. Korpusa izmantošana sabiedrisko norišu izpētē saeima-2.0 sastopam 2189 lietojumus ar krīzi CLARIN seminārs 2010. gada 26. februārī

  7. Korpusa izmantošana sabiedrisko norišu izpētē • ..raksturojot situāciju, tiek lietoti daudzi vārdi, un viens no tiem ir krīze (5. Saeima, Indulis Bērziņš) • Mēs bieži televīzijā dzirdam nopietnu cilvēku uzstāšanos par to, ka mūsu valstī ir krīze un ka neviens nav pateicis krīzes formulējumu (7. Saeima, Oskars Grīgs) • Nu ir atkal krīze (7. Saeima, Modris Lujāns) Kas ir krīze? • finansu krīze jeb budžeta situācija • (nav) lielas krīzes jeb liela sabrukuma • tā saucamajam negatīvajam scenārijam jeb krīzes scenārijam • ar krīzi es domāju gan inflāciju, gan masveida emigrāciju, gan to, kas notiek.. • finanšu krīze īsumā nozīmē to, ka naudas ir mazāk... CLARIN seminārs 2010. gada 26. februārī

  8. Kādas krīzes satrauc parlamentāriešus? • banku krīze (155×), krīze banku sistēmā (1×), bankas „Baltija“ krīze (36×), komercbanku krīze (3×), banku un banku sistēmas krīze (1×), „Parex“ bankas krīze (1×) • ekonomiskā krīze (145×), ekonomijas krīze (17×) • finansu (finanšu kopš 8. Saeimas laikiem) krīze (80×), finansiālā krīze (13×) • politiskā krīze (42×), arī politikas krīze (1×) • valdības krīze (42×) • Krievijas krīze (37×) • budžeta krīze (36×) • demogrāfiskā (arī demogrāfijas) krīze (29×) • veselības aprūpes krīze, krīze veselības aprūpē (arī aizsardzībā) (18×) • uzticības krīze (16×) • globālā krīze (14×) • kāda krīze (9×), kaut kāda krīze (5×) • pašreizējā krīze (14×) CLARIN seminārs 2010. gada 26. februārī

  9. Kādas krīzes satrauc parlamentāriešus? • saimnieciskā krīze (9×) • morālā krīze (8×) • konstitucionāla krīze (8×) • Irākas krīze (8×) • pasaules krīze (8×) • parlamentāra (6×), parlamenta krīze (1×) • enerģijas (arī enerģētiskā) krīze (6×) • tautsaimniecības (arī tautsaimnieciska) krīze (5×) • tiesiskuma krīze (4×) • iekšējā krīze (4×) • lokāla krīze (4×) • sociālā krīze (4×) • izglītības krīze (3×), krīze izglītībā (2×) • zināma krīze (4×) • valsts krīze (3×) • parlamentārās demokrātijas(arī demokrātiskā) krīze (3×) • vērtību krīze (3×) • starptautiska krīze (3×) • kredītu krīze (3×) • naftas krīze (3×) • ekoloģiskā krīze (2×) CLARIN seminārs 2010. gada 26. februārī

  10. Kāda mēdz būt krīze? • dramatiska (3×) • drausmīga (2×) • dziļa (11×), tik dziļa (1×), diezgan dziļa (1×), ļoti dziļa (3×), daudz dziļāka (1×), arvien dziļāka (1×), vēl dziļāka (4×), visdziļākā (5×) • grūta (4×) • liela (9×), ļoti liela (2×), vēl lielāka (2×), pati lielākā (1×) • līdzīga (6×) • nopietna (7×), ļoti nopietna (6×), dziļi nopietna (1×), visnopietnākā (1×) • pilnīga (5×) • reāla (3×) • smaga (8×), ļoti smaga (2×), ārkārtīgi smaga (3×), daudz smagāka (1×), vissmagākā (1×) • totāla (4×) • tāda (11×) CLARIN seminārs 2010. gada 26. februārī

  11. Par ko runā Saeimā? • krīzes apturēšana (2×) • krīzes programma (2×) • krīzes analīze (3×) • krīzes problēmas (3×) • krīzes saasināšanās (3×) • krīzes simptomi (3×) • krīzes norise (4×) • krīzes pazīmes (4×) • krīzes sekas (5×) • krīzes iemesli (6×) • krīzes periods (7×) • krīzes ietekme (10×) • krīzes rezultāts (10×) • krīzes risināšana (arī risinājums) (10×) • krīzes likvidēšana (arī likvidācija) (11×) • kad tā izbeigsies (3×), beigsies (8×) • krīze veselības aprūpē(arī aizsardzībā) (13×) CLARIN seminārs 2010. gada 26. februārī

  12. Par ko runā Saeimā? • krīzes sākums (arī sākties) (14×) • krīzes novēršana (arī novērst) (20×) • krīzes attīstība (21×) • krīzes stāvoklis (21×) • krīzes cēloņi (33×), (visvairāk skatīti tieši bankas „Baltija” krīzes cēloņi (18×)) • krīze valstī (26×) • krīzes iztikas minimums (50×) • krīzes pārvarēšana (arī pārvarēt) (62×) • kas notiek krīzes apstākļos (72×) • krīzes situācijā (211×) CLARIN seminārs 2010. gada 26. februārī

  13. Kā runā Saeimā? • Novērojumi un ticējumi: • Ja politiķis saka, ka krīzes nav, tad valsts patiesībā ir dziļā krīzē(5. Saeima, Aivars Kreituss) • 24 kredītu izzagšanas un banku krīzes rēgs klīst apkārt(6. Saeima, Aivars Kreituss) • Un tas, ka vienā valstī krīze parādās ātrāk, otrā vēlāk — tas ir tikai laika jautājums (9. Saeima, Ainārs Šlesers) • Jūs nevarēsiet pārpeldēt krīzes upi, jo nemākat to darīt(9. Saeima, Aleksandrs Mirskis) • Un tagad ir jautājums — vai mēs esam krīzē vai neesam? (9. Saeima, Ivars Godmanis) • Krīze atnāca, krīze aizies, bet bērni paliks (9. Saeima, Jakovs Pliners) CLARIN seminārs 2010. gada 26. februārī

  14. Kā runā Saeimā? • Tautasdziesmas: • Visu gadu krīze nāca,Nu atnāca šovasar.Dod, Dieviņ, tādu prātu,Lai birst lati budžetā. (9. Saeima, Anna Seile) • Mācība par krīzi: • šo krīzi valstī esam izraisījuši mēs paši (7. Saeima, Jānis Jurkāns) • iziet no šīs finanšu krīzes var tikai kopā (9. Saeima, Ivars Godmanis) • katra krīze var kļūt par soli pareizajā virzienā (7. Saeima, Valdis Birkavs) CLARIN seminārs 2010. gada 26. februārī

  15. Korpusa izmantošana leksikas izpētē (vēsturiski) Latviešu valodas seno tekstu korpusā (1 milj. vārdl., 16.–18. gs.) sastopam 50 vārdformas (208 vārdl.) ar komponentu ‘nauda’: • dominē nominālas vārdkopas, kur nauda ir galvenais komponents, bieži vien vārdkopām ir termina nozīme, piem., • asins nauda ‘nauda, ko saņem par asins grēku’, • dzeramnauda, kroņa nauda ‘pūra nauda; pabalsts’, • kūmu / pādes / zobu nauda, mesla nauda, mēness nauda ‘mēnešalga’, • nomas nauda, pusvērša nauda, sudraba nauda, tīruma nauda u. c. • sastopam arī vārdkopas, kur nauda ģenitīvā ir vārdkopas atkarīgais komponents, piem., • naudas aizdevējs, naudas gabals (arī gabaliņš), naudas kaša (naudas kasis), naudas mains ‘maiņas punkts’, naudas maiss, naudas maks, naudas mijēji (arī maininieki), naudas sargs, (pasaules kaķes un) naudas žurkas • pavisam nedaudz korpusā sastopam darbību nosaukumus, piem., • precēšana ar naudu ‘tirgošanās’, nemaksāt ar naudu, palaist par lētu naudu, pārdot par nieka naudu CLARIN seminārs 2010. gada 26. februārī

  16. Korpusa izmantošana leksikas izpētē (mūsdienas) Mūsdienās vārdi nauda un naudiņa (arī salikteņi ar sakni naud-)ieņem daudz lielāku īpatsvaru tekstā (vārdlietojumu skaits :: relatīvais biežums) • 1 milj. korpusā — 619 vārdl. :: 0,0557 • 3,5 milj. korpusā — 2696 vārdl. :: 0,0661 • 5. Saeimas sēžu stenogrammās — 3422 vārdl. :: 0,0728 • 5.–9. Saeimas sēžu stenogrammās — 16 956 vārdl. :: 0,0753 • tīmekļa korpusā — 43 678 vārdl. :: 0,0356 CLARIN seminārs 2010. gada 26. februārī

  17. Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā • ES nauda (9×), Eiropas nauda (8×), Eiropas līdzfinansējuma nauda (1), Briseles nauda (1×) • skaidra nauda (11×) • soda nauda (10×) • rokas nauda (6×), rokas naudas līgums (4×) • (sociālā, valsts) budžeta nauda (5×) • valsts nauda (5×) • naudas sods (arī naudassods) (23×) • (brīvie, esošie, izņemtie) naudas līdzekļi (22×) • krimināllietās (arī kratīšanā) izņemtie naudas līdzekļi (7×) • naudas summa (19×) • naudas plūsma (6×) • naudas daudzums (5×) • naudas paveidi • balta nauda (par gāzi jāmaksā balta nauda) • nederīga nauda (padomju rublis ar sirpi un āmuru) • baigā nauda, traka nauda vs. smiekla nauda • vecā nauda (3×) CLARIN seminārs 2010. gada 26. februārī

  18. Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā • Kam trūkst naudas? • valstij nav tik daudz naudas • daudz krietnu, prasmīgu cilvēku, kuriem nav daudz naudas • visbiežākais kavēklis arī ļoti labām idejām ir naudas trūkums • naudas trūkuma dēļ esmu atteicies no fermas celtniecības • kolektoru skalošanai nepietiek naudas • Izdomājām, ka mums būs T krekli. Taču pietrūka naudas. • Pašvaldībām nereti pietrūkst naudas Eiropas Savienības struktūrfondu projektu finansēšanai • Daudziem var pietrūkt naudas mājas celtniecībai • Studentiem trūkst naudas. • trūkst naudas arī citas spēkbarības iepirkšanai • Tramvajiem trūkst naudas. CLARIN seminārs 2010. gada 26. februārī

  19. Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā • Lai gan parasti nauda ir sastopama vienskaitļa formā, korpusā mēs sastopam arī daudzskaitļa formu: naudas (4×) un naudiņas (4×): • Tagad jau baigās naudas maksā, ja ir sīkais. (daiļlit.) • iespēja nākotnē pārtikt no pacientu aplokšņu naudām.. (public.) • ieskaitot mārketinga naudas, atlaides, bonusus un citus labumus.. (public.) • solot (..) kaut kādas milzīgas, dabā neeksistējošas naudas!(stenogr.) • noņēma viņai no acīm naudiņas, kuras tur rūpīgi bija uzlicis Pēteris. (daiļlit.) • Helēna aplūkoja naudiņas - cara laika pusrublis un sudraba vienlatnieks. (daiļlit.) • būtu tev tās naudiņas, tu taču nespēlētu teātri..(daiļlit.) • Lilija to bieži lietoja pamazināmā formā un daudzskaitlī - naudiņas. (daiļlit.) CLARIN seminārs 2010. gada 26. februārī

  20. Korpusa izmantošana dabiskās valodas apstrādē • lingvistiskās intuīcijas pārbaude tekstos, uzlabojot formālo gramatiku rakstīšanu • mašīnmācīšanās rezultātā uzlabojas programmrīku kvalitāte • programmrīku testēšana korpusā CLARIN seminārs 2010. gada 26. februārī

  21. Lingvistiskās intuīcijas pārbaude tekstos • izstrādājot SemTi-Kamols gramatisko analizatoru, jārisina vairāki teorētiski latviešu valodas gramatikas jautājumi, piem., tādu darbības vārdu kā gribēt, sākt, beigt u. tml. statuss (vai tekstos lielākoties tie sastopami patstāvīgā nozīmē vai kā semantiskie modificētāji) • izmantojot tīmekļa un morfoloģiski anotēta korpusa datus, tika pārbaudīti lietojumi ar šiem verbiem • pēc korpusā sastapto lietojumu analīzes gramatikā iestrādāta likumsakarība, ka šie darbības vārdi ir semantiskie modificētāji • es gribu saldējumu = es gribu (ēst, pirkt…) saldējumu • es gribu uz mājām = es gribu (braukt, iet, doties…) uz mājām CLARIN seminārs 2010. gada 26. februārī

  22. Mašīnmācīšanās morfoloģiski marķētā korpusā • Marķētāja apmācīšanai tika izmantoti cilvēka marķēti teksti (vairāk nekā 60 000 vārdl.), kurā ir • daļa „Latvijas Vēstneša“ tekstu no 1 milj. korpusa • marķētais „ledus“ korpuss • ES juridiskie teksti • Marķētāja izvērtēšanai izveidots testa korpuss (3881vārdl., 200teikumi) • Pašlaik marķētāja kvalitāte svārstās no 70% līdz 90%, to ietekmē: • marķējamā teksta līdzība ar tekstiem apmācības korpusā • reti lietotu īpašvārdu un citu neatpazītu vārdu biežums tekstā • vai jānosaka tikai vārdšķira (augsta kvalitāte), vai jāveic pilns marķējums (kvalitāte krītas) CLARIN seminārs 2010. gada 26. februārī

  23. Automātiski marķēta teikuma piemērs Snigšanas/nfsg un/c lietus/nmsnlaikā/nmsl būtiski/r samazinās/v3si--p redzamība/nfsn un/c uz/ssabrauktuvēm/nfpd veidojas/v3si--p piebraukta/v-spfnsniega/nmsg kārta/nfsn ,/zc atkala/nfsn un/c apledojums/nmsn ./zs CLARIN seminārs 2010. gada 26. februārī

  24. Programmrīku testēšana korpusā • SemTi-Kamols gramatiskais analizators izmanto leksikonu, kurā ir 50 000 vārdu • analizators tiek testēts 3,5 miljonu vārdlietojumu korpusā un tīmekļa korpusā, lai noskaidrotu, • cik daudz vārdu ir atpazīti, • kāds ir vidējais teikuma fragmenta garums, ko atpazīst analizators; • iegūtā informācija ļauj izvērtēt gramatiski izanalizēto gadījumu pārklājumu korpusā un papildināt gramatiku ar jauniem likumiem CLARIN seminārs 2010. gada 26. februārī

  25. Teikuma fragmentu atpazīšana 1 milj. vārdlietojumu korpusā (2009) CLARIN seminārs 2010. gada 26. februārī

  26. Teikuma fragmentu atpazīšana 3,5 milj. vārdlietojumu korpusā (2010) CLARIN seminārs 2010. gada 26. februārī

  27. Korpusa izmantošana gramatikas jautājumu izpētē simtām (Blinkena, 1976; Holvoet, Judžentis 2003) • miljons-1.0: — • miljons-2.0: simtām reižu (1×) • saeima-1.0: — • saeima-2.0: simtām reižu (3×) • timeklis-1.0: simtām reižu (10×), un es nezinu starp zemēm simtām (2×), dega simtām ēku (1×), nobraukt simtām verstīm (1×), simtām fašistu koncentrācijas nometnēs (1×), zvana negaisu no simtu simtām balsīm kā draudu atbalstu (1×) savienojumā ar reižu CLARIN seminārs 2010. gada 26. februārī

  28. Latviešu valodas korpusu izmantošana CLARIN seminārs 2010. gada 26. februārī

  29. www.korpuss.lv Everita Andronova (everita.andronova@lumii.lv) Ilze Auziņa (ilze.auzina@lumii.lv)Normunds Grūzītis (normundsg@ailab.lv) Gunta Nešpore (gunta.nespore@lumii.lv) CLARIN seminārs 2010. gada 26. februārī

More Related