1 / 33

Leksikograafi töökeskkond (EELex)

Leksikograafi töökeskkond (EELex). Ülle Viks Andres Loopmann Indrek Hein Eesti Keele Instituut. Ettekanne. Ülle Viks: projekt tervikuna leksikaalse d ressursid Andres Loopmann ja Indrek Hein : tarkvara seis. Leksikograafi töökeskkond (EELex) : projekt ja leksikaalsed ressursid.

glain
Download Presentation

Leksikograafi töökeskkond (EELex)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Leksikograafi töökeskkond (EELex) Ülle Viks Andres Loopmann Indrek Hein Eesti Keele Instituut

  2. Ettekanne • Ülle Viks: • projekt tervikuna • leksikaalsed ressursid • Andres Loopmann ja Indrek Hein: • tarkvara seis

  3. Leksikograafi töökeskkond (EELex): projekt ja leksikaalsed ressursid Ülle Viks Ylle.Viks@eki.ee

  4. Eelkäijad EKRM-st üle tulnud: • Keeletehnoloogia. Tarkvara rakendusalad: "Leksikograafi töövahendid“ (2005-) • Tänapäeva eesti keele baassõnastikud: "Eesti–X-keele sõnastik“(2004-) HTM: • “Eesti keele elektroonilised õigekeelsus-ressursid (ÕS 2006)” (HTM 2005/2006)

  5. Eesmärgid 1. Luua leksikograafidele sobiv töökeskkond 2. Koostada Eesti–X-keele sõnastik (EXS) 3. Anda projekti tulemused avalikku kasutusse

  6. Komponendid 1. tarkvara: leksikograafi töövahend e sõnastike haldussüsteem 2. leksikaalsed ressursid: sõnastikud 3. avalik väljund - ressursid ja tarkvara: • sõnastike avalikud veebiversioonid • sõnastike haldussüsteemi laiatarbeversioon

  7. Nimi: EELex =Eestileksikograafi töökeskkond • Süsteem on tehtud Eestis • Süsteem tegeleb eesti keele ressursidega • Tarkvara on universaalne • Andmete vormingon standardne: XML

  8. Kasutajad • Sõnastike haldussüsteem: • professionaalne leksikograaf • tavakasutaja • Sõnastike veebiversioonid: • keeleteadlased või üliõpilased • leksikograafid • õpetajad

  9. Tarkvara: praegune seis • Loodud leksikograafi töökeskkonna tuum: sõnastike haldussüsteem (A. Loopmann) • Senised rakendused: • ükskeelsed sõnastikud: ÕS2006, SP, LEKS • kakskeelsed sõnastikud: EVS, ELS, EVÕS • terminoloogiasõnastik: Oxford-Duden • Eesti–X-keele sõnastiku andmebaas

  10. Tarkvara: lõpptulemus • professionaalse leksikograafi töövahend • lisatud toimetamisfunktsioone • laiendatud päringusüsteem • integreeritud keeletarkvara (morf jm) • laiatarbeversioon (harrastajatele) • valik erinevaid sõnastikustandardeid • kasutajaliides süsteemi häälestamiseks

  11. Leksikaalsed ressursid EELex-is on kolme liiki ressursse: • olemasolevad traditsioonilised sõnastikud – vajavad eeltöötlust -> XML • uued sõnastikud – kohe XML • eesti keele leksikaal-grammatiline andmebaas: Eesti–X-keele sõnastik

  12. Eesti–X-keele sõnastik = kakskeelse (eesti lähtekeelega) sõnaraamatu elektrooniline põhi • esialgne sõnavalik • grammatilised andmed • sõna tähendusliigendus • vajalikud seletused • sõna kasutusinfo • olulised sõnaühendid • jne

  13. Eesti–X-keele sõnastik Sõltumatu: • tulemsõnastiku sihtkeelest • sõnastiku tüübist (mahust, sihtgrupist, otstarbest) • tulemsõnastiku kujundusest Ü. Viks, Eesti–X-keele sõnaraamat ja grammatika. - Eesti Rakenduslingvistika Ühingu aastaraamat 2008

  14. Eesti–X-keele sõnastik Koostamine • Osa informatsiooni imporditakse muudest sõnastikest (taaskasutus) • Koostamine toimub ristlõikes: struktuurielementide kaupa

  15. Eesti–X-keele sõnastik: praegune seis • koostatud keskmise mahuga (u 40 000 üksust) märksõnastik • märksõnastikuga liidetud Eesti-vene sõnaraamatu eesti keele materjal (grammatika, märgendid, seletused, näited jne) • ette valmistatud stiili- ja erialamärgendite andmebaas (aluseks ÕS 2006) • alustatud EXS-i toimetamist

  16. Eesti–X-keele sõnastik: lõpptulemus Metatasandi andmebaas • rikkalik leksikaalne ja grammatiline info • kolm erimahulist sõnastikustandardit: • väike (15000-20000 märksõna) • keskmine (40000-50000 märksõna) • suur (80000-100000 märksõna)

  17. Avalik väljund: praegune seis ÕS 2006 avalik veebiversioon: • esimene versioon alates 2006 • lisatud liitsõnade täisotsing • lisatud komplekspäring • loodud linkimismehhanism muude ressurssidega

  18. Avalik väljund: lõpptulemus • Veebisõnastike varamu • hulk sõnastikke • mitmekesised päringuvõimalused • kasutajasõbralik • EELex-i laiatarbeversioon

  19. Järg: Andres Loopmann: • EELex-i töövahend – sõnastike haldussüsteem Indrek Hein: • ÕS2006 uus veebiversioon

  20. EKI sõnastike haldussüsteem EELex: töövahend Andres Loopmann andres.loopmann@eki.ee

  21. Põhifunktsioonid • Artiklite koostamine • Artiklite toimetamine • Sõnaraamatu küljendamine

  22. EELex ülesehitus • Andmeid hoitakse serveris XML failina • Tööjaama saadetakse artikkel XML-vormingus • Toimetamisala ja küljenduse vaated esitatakse XSLT teisenduste abil • Artikli struktuur on kindlaks määratud skeemiga • Parandamisel kontrollitakse artikli vastavust skeemile

  23. EELex avaleht

  24. 4 1 3 5b 5c 2 Infovahetus serveriga

  25. Toimetamine • Kontekstipõhine elementide lisamine ja kustutamine • Protseduurid plokkide ja/või lisaelementide lisamiseks • Kopeeri/kleebi, tühista/taasta funktsionaalsused • Kontekstmenüü: lisatähed ja sümbolid • Vaated omavahel seotud

  26. ÕS 2006: "rotisaba"

  27. Küljendus • Eksport MS Word-i • Küljendus MS Word-is vastab küljenduse vaatele

  28. Eksport MS Word-i

  29. Päringud • Iga elemendi järgi • Metasümbolid: * ja _ • Globaalne (terves artiklis) ja lokaalne (kindlas asukohas) otsing • Tõstutundlikkus, sümbolitega arvestamine • Regulaaravaldised, laiendatud võimalus-tega otsing

  30. Edasine • Laiendatud võimalustega päringu kasutajaliides: regulaaravaldised, XPath süntaks, mitu tingimust • Reeglipõhise morfoloogiatarkvara integreerimine: analüüs, süntees, kirjegeneraator

  31. Leksikograafi töökeskkond (EELex): ÕS veebis Indrek Hein Indrek.Hein@eki.ee

  32. XMLi kasutuselevõtt on sõnastike veebiliideste kirjutamist mõjutanud. Enam ei pea teksti tähenduslike elementide leidmiseks parsima, HTMLi kuju on enamasti juba ette valmis tehtud ja sõnastikel on struktuur. Päringute kiirendamiseks kasutab praegune veebi-ÕS endiselt indeksit, kuid see erineb varasemast. ÕSi indeksit hoitakse andmebaasis, mille igal real on • vahetu element, mille sees tekst on • elemendi atribuut • elemendi alguspositsioon • sõnavorm (või atribuudi väärtus) nagu see esines tekstis • sõnavorm, millest on puhastatud ebavajalikud märgid Sedalaadi indeksi koostamine on ülimalt lihtne, tulemus võimaldab otsida kõiki märgendatud osi nii erimärkidega kui ilma, alguspositsioonid võimaldavad teha struktureeritud päringuid. Võimalusel saab XPath süntaksiga päringuid eraldi lubada, kuid selle vajadus on küsitav. Eraldada võiks tavakasutaja ja keeleteadlase liidesed. Uue veebiliidese kasutamist hõlbustatakse JavaScriptiga.

  33. http://www.julia.eki.ee/dict/QS2006.tegemisel/full.html URL võib muutuda, lingi leiate ÕS2006 päringute lehel

More Related