1 / 29

Mūsdienu latviešu valodas korpuss un tā izmantošana

Mūsdienu latviešu valodas korpuss un tā izmantošana. Everita Andronova LU Matemātikas un informātikas institūts everita.andronova@lumii.lv CLARIN projekta seminārs 2009. gada 4.-5. februāris. KORPUSA PRIEKŠROCĪBAS. Korpuss ļauj pētīt īstu valodu

marty
Download Presentation

Mūsdienu latviešu valodas korpuss un tā izmantošana

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mūsdienu latviešu valodas korpuss un tā izmantošana Everita Andronova LU Matemātikas un informātikas institūts everita.andronova@lumii.lv CLARIN projekta seminārs 2009. gada 4.-5. februāris

  2. KORPUSA PRIEKŠROCĪBAS • Korpuss ļauj pētīt īstuvalodu • Atskats vēsturē: jebkurš dzimtās valodas runātājs 10minūšu laikā var izdomāt vairāk piemēru par jebkuru gramatikas jautājumu, nekā iespējams atrast nejaušu tekstu daudzajos vārdlietojumos (V. N. Frensiss) • Neviens korpuss nesaturēs visu informāciju par man interesējošiem valodas jautājumiem; pat neliels korpuss palīdz iegūt faktus, ko nekādā citā veidā nebūtu iespējams uzzināt(Č. Filmors)

  3. KORPUSA JĒDZIENS jebkurš tekstu masīvs (antīkās literatūras tekstu korpuss) mašīnlasāms teksts maksimāli līdzsvarota mašīnlasāmu tekstu izlase kā valodas pētīšanas instruments Korpuslingvistikā un datorlingvistikā par korpusu tiek uzskatīts reprezentatīvs rakstīta teksta vai transkribētas runas kopums elektroniskā formā, ko izmanto valodas (dialekta, valodas stila) analīzē un aprakstā.

  4. KORPUSA AIZSĀKUMI Kopš XX gs. vidus tekstu uzkrāšana elektroniskā formā: • The Brown Standard Corpus of American English – 1961.g. 1 milj. ASV angļu valodas lietojumu • London - Lund corpus– apm. 500 000 britu angļu valodas vārdlietojumu, kas savākti 60. g. b. un 70. g. s. • pirmo korpusu veidotāju klusās cerības • citiem nevajadzēs veidot savu korpusu • zinātniekiem tiks sniegta standarta datu kopa valodas analīzei

  5. SAPNIS PAR KORPUSU - 1 • Korpuss ļauj pētīt reālo valoduun atklāt līdz šim nepamanītas lietas. Korpuss pamana tipisko (skaitliski nozīmīgo). N. Čomskis: valodas runātāja kompetence vs. valodas lietojums

  6. SAPNIS PAR KORPUSU - 2 • Labam korpusam jābūt līdzsvarotam un reprezentatīvam. Rezultāti, kurus iegūstam no korpusa analīzes, var tikt attiecināti uz visu valodu vai tās noteiktu daļu. Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description [of language based on the corpus] would be no more than a mere list. (Chomsky, Noam. Syntactic structures. The Hague, 1957, p. 159)

  7. REPREZENTATIVITĀTE valodas runātāju intuīcija un valodnieciskā pieredze:korpuss ir reprezentatīvs, ja tajā ir sastopami visi vairāk vai mazāk parasti vārdi, frāzes un teikuma struktūras; valodas funkcionālo stilu atspoguļojums:korpuss ir reprezentatīvs, ja tajā ir vairāk vai mazāk visu valodas funkcionālo stilu teksti un teksti ir ievietoti korpusā, ievērojot zināmas proporcijas; korpusā iekļauto tekstu autentiskums:korpuss ir reprezentatīvs, ja tas uzticami atspoguļo īstu valodu, tas nozīmē bez „labojumiem”, izņemot formālas izmaiņas (formatējuma, fonta vienādošana u. tml.).

  8. ŠODIEN SEMINĀRĀ • Ievads par valodas korpusu • Iepazīšanās ar www.korpuss.lv • Praktiskais darbs ar Līdzsvarotu miljonsvārdlietojumu lielu mūsdienu latviešu valodas korpusu u.c.

  9. ELEKTRONISKO RESURSU VEIDI • tekstu arhīvs — viegli lasāma elektronisku tekstu krātuve, kur teksti nav nekādā veidā saskaņoti (piem., latviešu klasiķu darbi www.ailab.lv/Teksti) ≈ datorfonds (piem., latviešu sakāmvārdu datorfonds http://valoda.ailab.lv/folklora/sakamvardi/) • elektroniskā bibliotēka — elektronisku tekstu krājums standartizētā formātā ar īpašiem satura u. c. izveides noteikumiem, bet bez striktiem atlases kritērijiem (piem., folkloristikas elektroniskā bibliotēka www.korpuss.lv/feb/) • (runas, tekstu) korpuss(piem., latviešu valodas seno tekstu korpuss www.korpuss.lv/SENIE)

  10. IESKATS TERMINA VĒSTURĒ (kopš XX gs. v.) • mašīnfonds (sal. машинный фонд русского языка) • corpus angliski runājošās valstīs • Deutsches Referenzkorpus (DEREKO); Corpus di Italiano Scritto; Český národní korpus; korpus suvremenoga hrvatskoga jezika; Korpus języka polskiego wydawnictwa naukowego PWN; Eesti kirjakeele korpus • Latvijā – datorfonds, datu bāzes, arī korpuss • Lietuvā – tekstynas

  11. KĀPĒC VAJADZĪGS JAUNS ELEKTRONISKO RESURSU VEIDS? • Speciāla korpusa platforma, kas, noindeksējot tekstus (marķētus/nemarķētus), sniedz papildu informāciju: • vārdformu indeksu • vārdformu (/pamatformu) biežumu sarakstu un pārklājumu korpusā • konkordances programma ļauj skatīt vārdformas apkaimi (kontekstu), kārtot pēc biežuma, L/K konteksta • vārdu savienojumu analīzi, gramatisko attieksmju analīzi

  12. P.S. KONKORDANCE • Aleksanders Krudens (Alexander Cruden) 1736.g. publicēja karaļa Džeimsa Bībeles tulkojuma konkordanci. Līdz 1879.g. iznāca 42 izdevumi. Šajā konkordancē bija ne tikai, autoraprāt, nozīmīgākie patstāvīgie vārdi Bībelē, bet arī daži palīgvārdi un vārdusavienojumi.

  13. P.S. KONKORDANCE Konkordance ir vārdnīca vai Bībeles indekss, kurā visi vārdi, kas ir sastopami Svētajos Rakstos, ir sakārtoti alfabēta secībā, un blakus pievienotas dažādās teksta vietas, kur tie parādās, lai palīdzētu atrast pantus un lai varētu salīdzināt viena un tā paša vārda vairākās nozīmes. Aleksanders Krudens Svēto Rakstu pilnās konkordances priekšvārdā

  14. KĀPĒC LATVIEŠU VALODAI VAJADZĪGS KORPUSS? • Jo vairāk labāku datu par latviešu valodu, jo kvalitatīvākas zināšanas, ko izmanto valodas apstrādes tehnoloģijas • Agrāk meklējām nezināmos vārdus vārdnīcā, tagad Google meklētājā • Runas datu izmantošana GPS, dialoga sistēmās, teksta nolasīšana no ekrāna • Pilnīga valodas izpēte un pilnvērtīga attīstība nākotnē • Mūsdienu lietuviešu valodas korpuss (100milj. vārdliet. donelaitis.vdu.lt), • Krievu valodas nacionālais korpuss (150milj. vārdliet. www.ruscorpora.ru), • Igauņu valodas korpuss (95milj. vārdliet. http://www.cl.ut.ee/korpused/)

  15. KORPUSA IZVEIDE – jautājumi pirms tam • Kāds būs korpuss: vienvalodas, divvalodu, daudzvalodu? • Kāds būs lietojuma mērķis: tulkošanas pētījumi, studentu valodas prasmju izvērtēšana, gramatikas rakstīšana, sinhroni vai diahroni valodas pētījumi, vārdnīcu veidošana, kāda noteikta valodas stila izpēte u.c. • Realitāte: korpusa izveide ir visnotaļ dārgs un laikietilpīgs process, tāpēc tas tiks izmantots arī citiem mērķiem

  16. KORPUSA SATURS – TEKSTU IZVĒLE, IEGUVE UN UZKRĀŠANA • Kāda veida teksti būs valodas korpusā, kādas būs to proporcijas, kādā veidā tie tiks iegūti, kāds laika periods tiks aptverts? • Kādā veidā tiks atlasīti teksti, lai tie būtu tipiski un reprezentatīvi? • Vai valodas korpuss būs noslēgts vai pastāvīgi papildināms? galīgi (statiski) vs. bezgalīgi (dinamiski) (G.Kennedy dynamic vs. J.Sinclair monitor corpora) Dinamiskā korpusa uzdevums – novērot valodas (gramatisko, semantisko) modeļu maiņu laikā. Dati šādā korpusā visbiežāk ir oportūnistiski un nebūt nav līdzsvaroti. Galvenais korpusa izveides kritērijs – daudzums.

  17. KORPUSA IZVEIDE – MARĶĒJUMS • Lai korpusa dati būtu mašīnlasāmi un saprotami, kā arī papildināmi un korpusa daļas savstarpēji savietojamas, svarīgi ir vienoties par uzkrājamo tekstu formātu – marķējuma standartiem, kā arī tekstu dažādo versiju (piem., tīrs teksts, pārbaudīts teksts, anotēts teksts) uzturēšanu. • Jāizstrādā korpusa mērķiem atbilstoša marķēšanas metodika. • Lai atrisinātu gramatiskās un semantiskās neviennozīmības jautājumus, ir nepieciešamas teorētiskās nostādnes morfoloģijas, sintakses un citos jautājumos, kas latviešu valodniecībā nav līdz galam atrisināti vai vispār maz pētīti.

  18. KĀDS KORPUSS? Runas vs. rakstītas valodas korpuss Vispārīgs [latviešu valodas] korpuss vs. speciāls (izlokšņu; kāda funkcionālā stila; kādas konkrētas vecuma grupas korpuss; noteikta reģiona [latviešu valodas] korpuss; [latviešu] valodas apguvēju korpuss; noteikta laika perioda tekstu korpuss) Sinhronisks vs. diahronisks korpuss Vienvalodas vs. divu vai vairāku valodu korpuss Multimodāls korpuss, kas apvieno tekstu, skaņu un attēlu

  19. KORPUSA IZMANTOŠANA • Gramatikas un citu valodniecības jautājumu izpētē • Mūsdienu valodas pētīšanai kopumā (skatot gan runāto, gan rakstīto valodu) • Salīdzināmā valodas analīze gan laika šķērsgriezumā (piem., diahroniskais korpuss), gan pēc funkcionālajiem stiliem (piem., zinātnisko tekstu valoda; juridisko tekstu valoda u. tml.), gan arī viena veida tekstu kopumā (piem., daiļliteratūras apakškorpuss, kurā ir gan oriģinālliteratūra, gan tulkotā literatūra). • Leksikogrāfijā – bez korpusa un korpusa rīkiem nevar mūsdienās uzrakstīt labu vārdnīcu (statistikas dati, vārdu savienojumu analīze, t.s. hapax legomenon u.c.)

  20. KORPUSA IZMANTOŠANA Terminoloģijas izstrādē Valodas mācīšanā Tulkošanas studijās un tulk(otāj)u apmācībā Mašīntulkošanā Dabīgās valodas apstrādē (morfoloģijas, sintakses daudznozīmības risinājumi), informācijas izguve, precedenta mašīnmācīšanās Tiesu ekspertīzēs Psiholingvistikā, sociolingvistikā Bērnu valodas korpuss ļauj izsekot valodas apgūšanas problēmām; tas lieti noder ne tikai psiholingvistikā, bet arī datorlingvistikā automatizētu sistēmu modelēšanā. Humanitārajās zinātnēs vispār

  21. BALTIŅŠ (www.ailab.lv/SENIE) baltiņš (1) s. m. baltiņsch (1) Baltiņsch Ein weißer Schilling. it. Ein Setznetze, Ein blenke. Fuer1650_70_1ms, 4018. 1. ‘baltais šiliņš (šiliņš – kopš 14. gs. sudraba monēta vairākās Eiropas valstīs; acīmredzot nosaukumā norāde uz sudraba gaišo krāsu)’. 2. ‘zvejas tīkls’. 3. ‘klajums mežā, meža pļava’. balts.

  22. BALTIŅŠ (latviešu valodas vārdnīcās) • ME (1. sēj., 1923–1925): ein weisses Pferd, gew. Ein altes, schwaches weisses Pferd • LLVV (2. sēj., 1973): Zirgs ar baltu vai ļoti gaišu apmatojumu (parasti neliels un ne visai spēcīgs) • LVV (1987): Zirgs ar baltu vai gaišpelēku spalvu • MLVV (2003–2008): Zirgs ar baltu vai gaišpelēku spalvu

  23. MŪSDIENU LATVIEŠU VALODAS KORPUSS:(www.korpuss.lv) 1 miljons vārdlietojumu (1991–2008)

  24. NEMARĶĒTS KORPUSS

  25. MARĶĒJUMA VEIDI

  26. KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998) no <Spg> no kabatas <Ncfsg4> kabata rēgojās <Vmyisii33san> rēgoties adītas <Vmnpdfsgpsn> adīt cepures <Ncfsg5> cepure stūris <Ncmsn2> stūris . viņš <Pp3msn> viņš to <Pdnfsa> tā pikti <Rpm> pikti iestūķēja <Vmnistp33san> iestūķēt dziļāk <Rcp> dziļāk

  27. KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998)

  28. KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998)

  29. Paldies par uzmanību! Jautājumi? Ķeramies pie uzdevumiem

More Related