1 / 20

EKI elektrooniline keelevara

EKI elektrooniline keelevara. Margit Langemets (EKI). Tüübid. Andmekogud  Sõnastikud   Tekstikogud ? Tekstikorpused  Tarkvara  LINGVISTIKA   KEELETEHNOLOOGIA. Võimalikud esituskujud. e-tekst (puhas lihttekst või küljendus-vm struktuuritähistega) digitaalsed helilindid

ichabod
Download Presentation

EKI elektrooniline keelevara

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EKI elektrooniline keelevara Margit Langemets (EKI) ES-i kõnekoosolek Tartus

  2. Tüübid • Andmekogud  • Sõnastikud  • Tekstikogud ? • Tekstikorpused  • Tarkvara  LINGVISTIKAKEELETEHNOLOOGIA ES-i kõnekoosolek Tartus

  3. Võimalikud esituskujud • e-tekst (puhas lihttekst või küljendus-vm struktuuritähistega) • digitaalsed helilindid • andmebaas, sõnastikusüsteem(EKI sisevõrgus) • avalik = Internetis (hrl otsimootoriga) • sh Keelevara ES-i kõnekoosolek Tartus

  4. Keelekihid (EKI osakonnad) • Murded ja sugukeeled (MRD) • Jüri Viikberg (ilmumas). Eesti keele kogud • Grammatika ja õigekeel (GRM) • Kirjakeel (LKS) • vana kirjakeel (MRD, LKS) • Terminoloogia (ETK) + Tekstikorpused Tarkvara ES-i kõnekoosolek Tartus

  5. Murded ja sugukeeled(MRD) • Andmekogud: murdearhiiv (2 mln) • 1947: 1 mln (< ES murdekogud) • sh Wiedemanni ee-sks sõnaraamatu alusel kogutud murrakusõnastikud (37 khk, à 7000–60000 sedelit, kokku üle 0,5 mln) • + 1 mln sedelit (< sh korrespondendid) • EKI ja ES ühisvara • 1956: süstemaatiline helilindistamine • sh väliseestlased, kõnekeel • magnet > digi (1992) > laser (1999) > ... ES-i kõnekoosolek Tartus

  6. Murded ja sugukeeled (jätk) • Sõnastikud • Väike murdesõnastik I-II • Hargla murraku konsonantism (Salme Nigol) • Murdesõnaraamat (e-tekst) • Vadja sõnaraamat (e-tekst) • Etümoloogiasõnaraamat (e-tekst) • Tekstikogud (e-tekst) ES-i kõnekoosolek Tartus

  7. Grammatika ja õigekeel (GRM) • Andmekogud: • Oskussõnavara koondkartoteek (0,5 mln, kogumine lõpetatud 2003) • Keelenõuandmebaas, sh arvutikartoteek • Kohanimede andmebaas ES-i kõnekoosolek Tartus

  8. Grammatika ja õigekeel (jätk) • Keelenõuandmebaas • keelenõu alates 1947, alates 1966 keelenõuandepäevik • 1993: arvutikartoteek, 60 000 kirjet • www.eki.ee/keeleabi/ • sh avalik keelenõuvakk: 4200 kirjet • päringud: valdkonniti (nt õigekirjutus, kokku- ja lahkukirjutamine, tuletised, tähendus, lauseõpetus, tõlkimine, nimed ja nimetused jpm) ES-i kõnekoosolek Tartus

  9. Grammatika ja õigekeel (jätk) (keelenõuvakk:) • nt otsitav sõna "moderaator" • vastus: Inimese kohta ei kõlba kasutada sõna "moderaator". Selle asemel sobivad nt diskussiooni juht, väitlusjuht, koosoleku juhataja, juhataja. ES-i kõnekoosolek Tartus

  10. Grammatika ja õigekeel (jätk) • Kohanimede andmebaas KNAB • www.eki.ee/knab/ • Peeter Päll (1988–) • 100 000 kirjet (300 000 nime) • 35 000 Eesti nimeobjekti (64 000 nime) • 75 000 välisobjekti (240 000 nime) ES-i kõnekoosolek Tartus

  11. Grammatika ja õigekeel (jätk) • Sõnastikud • Õigekeelsussõnaraamat (1976) • Eesti õigekeelsussõnaraamat ÕS 2006 • Tekstikogud • Eesti keele käsiraamat • Keelenõuanne soovitab (1–3) (e-tekst) ES-i kõnekoosolek Tartus

  12. Kirjakeel (LKS) • Andmekogud: Eesti kirjakeele arhiiv (4,3 mln) • 1955–2000 • 1961: 1 mln sedelit • 2000: 4,3 mln • Sõnastikud: • "Eesti kirjakeele seletussõnaraamat" • 1988–2007, 26 vihikut, ligi 150 000 ms • e-tekst, töös: sõnastikusüsteem EELex • Soome-eesti I-II (2003) ES-i kõnekoosolek Tartus

  13. EKI sõnastikusüsteem EELex (alates 2005, KT projekt 2006–2010) • Õigekeelsussõnaraamat ÕS 2006 • LEKS-baas (uued sõnad) + töös: seletav • Õpilase ÕS • Sõnapered (Silvi Vare) • Eesti-vene I–V (1997–(2008)) • Eesti-X sõnastikupõhi • läti, leedu, udmurdi, (ukraina), ... • üheköiteline seletav ES-i kõnekoosolek Tartus

  14. Vrd sõnastikusüsteemid Euralexil 2006 • EELex (EKI) • Andres Loopmann, Ülle Viks, Margit Langemets • Papillon • ee-pr, Antoine Chalvin, Madis Jürviste, Mathieu Mangeot (TÜ) • TshwaneLex 2.0 • KASUTAJA: ee-ingl, Enn Veldi (TÜ) ES-i kõnekoosolek Tartus

  15. Sõnastikusüsteem: milleks? • veebipõhine: • online-ajakohastamine • uued sõnastikud • paindlikud päringud • andmebaasi struktuur + trükivaade (nt Wordi kaudu) • kogu info ühes kohas: rohkem infot kui trükitud sõnaraamatus • edaspidi: viidad mujale • treenida 1) süsteemi ja 2) kasutajat ES-i kõnekoosolek Tartus

  16. Vana kirjakeel (MRD, LKS) • Eesti piiblitõlke ajalooline konkordants (Kristiina Ross) • kõik säilinud eestikeelsed piiblitõlked ja piiblitõlkekatkendid kuni esimese trükipiiblini (1739) • otsingud: a) autorite või tekstide kaupa,b) kindla piiblikoha järgi, c) tänapäevastatud märksõna järgi, d) morfoloogilise vormi järgi • Wiedemanni sõnaraamat • kõik märksõnad (andmebaas sisevõrgus) ES-i kõnekoosolek Tartus

  17. Terminoloogia (ETK) • HTM projekt 2007: terminisõnastike virtuaalkeskkonna loomine • katseprojekt: (haridus), füüsika • EKI sõnastikusüsteemi EELex eeskujul ES-i kõnekoosolek Tartus

  18. Tekstikorpused • EKI tekstikorpus • 10 mln sõnavormi, 80% ajalehed • www.eki.ee/corpus/ • sõnaloend 2004–2007 (nt uute sõnade jaoks) ES-i kõnekoosolek Tartus

  19. Tarkvara www.eki.ee/tarkvara/ • silbitus • tüübituvastus • morf analüüs • morf süntees • sõnaloendid sõnastike alusel • lemmad (ca 100 000) • sõnavormid (ca 200 000) • inglise-eesti sõnastik (toorandmebaas) • jm ES-i kõnekoosolek Tartus

  20. Aitäh kuulamast! ES-i kõnekoosolek Tartus

More Related