1 / 15

Eesti keele spontaanse kõne foneetiline korpus

Eesti keele spontaanse kõne foneetiline korpus . Pire Teras Ettekanne EEKKT konverentsil 19. 11.2007. Eesmärgid (1). Keele akustika uurimise ja kõnetehnoloogiliste rakenduste loomise aluseks on esinduslikud kõne-korpused, mis spontaanse eesti keele kohta tuleb alles luua.

stevie
Download Presentation

Eesti keele spontaanse kõne foneetiline korpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eesti keele spontaanse kõne foneetiline korpus Pire Teras Ettekanne EEKKT konverentsil 19.11.2007

  2. Eesmärgid (1) • Keele akustika uurimise ja kõnetehnoloogiliste rakenduste loomise aluseks on esinduslikud kõne-korpused, mis spontaanse eesti keele kohta tuleb alles luua. • Eesmärgiks on luua teiste eestikeelse kõne korpustega ühilduv spontaanse kõne foneetiliselt märgendatud korpus. • Koostöö tulemusel teiste asutustega peaks korpus olema kasutatav nii kõnetehnoloogiliste rakenduste arendamiseks kui eesti keele häälduse põhiparameetrite analüüsimiseks.

  3. Eesmärgid (2) • Loodavasse foneetilisse korpusse salvestatakse esimeses etapis 40 keelejuhilt kolme laadi kõnetekste: argivestlused, võimalusel ametlikud vestlused (dialoogidena) või ametlikud monoloogid. • 20–70-aastased eesti keelt emakeelena rääkivad keelejuhid (20 meest ja 20 naist). • Arvestatakse piirkondliku ja haridusliku esinduslikkusega. • Salvestatud kõne märgendatakse erinevatel märgendus-kihtidel.

  4. Täitjad ja finantseerimine • Pire Teras, Pärtel Lippus, Tuuli Tuisk, Karl Pajusalu, Ellen Niit • TÜ üliõpilased ja magistrandid • 2006. a 500 000 krooni • 2007. a 500 000 krooni

  5. Lindistused ja keelejuhid (1) • Lindistused, märgendifailid ja keelejuhid on kodeeritud (nt SKK002-001_N.wav). • Lindistatud on 1 monoloog, lisaks on saadud 2 monoloogi küberneetika instituudist. • Lindistatud on 18 dialoogi. 9 lindistust on tehtud helistuudios, 9 välitöödel. Tabel 1. Keelejuhtide vanuserühmad, kavandatud arv ning praeguseni lindistatute arv (naised ja mehed, koguarv)

  6. Lindistused ja keelejuhid (2) • Lindistuste kogumaht on 19 tundi ja 45 min. • Keelejuhid on erineva piirkondliku taustaga (kesk-, kirde-ranniku-, lääne-, saarte-, Võru ja Tartu murde alalt). Tabel 2. Keelejuhtide piirkondlik taust

  7. Segmentimine ja märgenduskihid Märgenduskihtide valikul on olnud eelkõige eeskujuks Mietta Lennese ja Sanna Ahjoniemi märgendusjuhend. (http://www.helsinki.fi/~lennes/annotation_guide/annotation_guide.pdf) Foneetilised ja lingvistilised kihid • sõnad (ortograafiline kirjaviis; siin ka üneemid, nt .ee); • häälikud (SAMPA); • häälikustruktuurid (CV) – teisendatakse häälikutest scripti abil; • silbid – LL (lühike, lahtine), PL (pikk, lahtine), PK (pikk, kinnine) + silbi järjekorranumber. Nt kau|ba|ma|ja – 1PL|2LL|1LL|2LL • taktid – siin märgime pearõhku (1) ja kaasrõhku (2) ning väldet. Nt kava|lamale – 11|21, kavala|male – 11|21; • lausungid (JUTT, PAUS, täidetud paus, hingamine).

  8. Muud kihid • Häälelaad See puudutab pikemat üksust kui üksikhäälikut. Tähistame järgmiselt: kärin – .?, kähin – .Hv, sosin – .0. • Paralingvistilised nähtused Sisse- ja väljahingamine – .sisse, .välja; ohkamine – .ohe, haigutamine – .haigutus, köhimine – .köha või .köhatus jms. • Tundeseisundid ja muu Naermine – .naer või .naerdes, nutmine – .nutt või .nuttes, nuuksumine – .nuuksatus jms. Muu: nt keelenaksatus, huultega matsutamine jms – .matsutus.

  9. Segmentimisseis • Sõna- ja häälikukihil ning osaliselt silbi-, takti- ja lausungikihil on segmenditud ja märgendatud 5 tundi ja 35 min kõnet. Tabel 3. Segmentide arv korpuses

  10. Uurimused Meister, Einar, Pärtel Lippus 2007. Spontaanse kõne temporaalsest struktuurist. VI rakenduslingvistika kevadkonverents „Keel ja leksikon“ 26.–27. aprillil 2007. a Tallinnas. Ettekanne (artikkel on ilmumas). Meister, Einar, Pärtel Lippus 2007. On Temporal Organization of Spontaneous Estonian: Preliminary Analysis Results of Lecture Speech. III Baltic Conference “Human Language Technologies” 4.-5. oktoobril 2007. a Kaunases Leedus. Ettekanne (artikkel on ilmumas). Mesipuu, Margit 2007. Sõnaalguline h. Tartu Ülikool, Eesti keele ja üldkeeleteatuse instituut. Magistritöö. Raasik, Liis 2007. Intervokaalsed leenisklusiilid eesti keele spon-taanses kõnes ühe keelejuhi näitel. Tartu Ülikool, Eesti keele ja üldkeeleteatuse instituut. Bakalaureusetöö.

  11. Aitäh!

More Related