eesti keele spontaanse k ne foneetiline korpus l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Eesti keele spontaanse kõne foneetiline korpus PowerPoint Presentation
Download Presentation
Eesti keele spontaanse kõne foneetiline korpus

Loading in 2 Seconds...

play fullscreen
1 / 15

Eesti keele spontaanse kõne foneetiline korpus - PowerPoint PPT Presentation


  • 171 Views
  • Uploaded on

Eesti keele spontaanse kõne foneetiline korpus . Pire Teras Ettekanne EEKKT konverentsil 19. 11.2007. Eesmärgid (1). Keele akustika uurimise ja kõnetehnoloogiliste rakenduste loomise aluseks on esinduslikud kõne-korpused, mis spontaanse eesti keele kohta tuleb alles luua.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Eesti keele spontaanse kõne foneetiline korpus' - stevie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
eesti keele spontaanse k ne foneetiline korpus

Eesti keele spontaanse kõne foneetiline korpus

Pire Teras

Ettekanne EEKKT konverentsil 19.11.2007

eesm rgid 1
Eesmärgid (1)
  • Keele akustika uurimise ja kõnetehnoloogiliste rakenduste loomise aluseks on esinduslikud kõne-korpused, mis spontaanse eesti keele kohta tuleb alles luua.
  • Eesmärgiks on luua teiste eestikeelse kõne korpustega ühilduv spontaanse kõne foneetiliselt märgendatud korpus.
  • Koostöö tulemusel teiste asutustega peaks korpus olema kasutatav nii kõnetehnoloogiliste rakenduste arendamiseks kui eesti keele häälduse põhiparameetrite analüüsimiseks.
eesm rgid 2
Eesmärgid (2)
  • Loodavasse foneetilisse korpusse salvestatakse esimeses etapis 40 keelejuhilt kolme laadi kõnetekste: argivestlused, võimalusel ametlikud vestlused (dialoogidena) või ametlikud monoloogid.
  • 20–70-aastased eesti keelt emakeelena rääkivad keelejuhid (20 meest ja 20 naist).
  • Arvestatakse piirkondliku ja haridusliku esinduslikkusega.
  • Salvestatud kõne märgendatakse erinevatel märgendus-kihtidel.
t itjad ja finantseerimine
Täitjad ja finantseerimine
  • Pire Teras, Pärtel Lippus, Tuuli Tuisk, Karl Pajusalu, Ellen Niit
  • TÜ üliõpilased ja magistrandid
  • 2006. a 500 000 krooni
  • 2007. a 500 000 krooni
lindistused ja keelejuhid 1
Lindistused ja keelejuhid (1)
  • Lindistused, märgendifailid ja keelejuhid on kodeeritud (nt SKK002-001_N.wav).
  • Lindistatud on 1 monoloog, lisaks on saadud 2 monoloogi küberneetika instituudist.
  • Lindistatud on 18 dialoogi. 9 lindistust on tehtud helistuudios, 9 välitöödel.

Tabel 1. Keelejuhtide vanuserühmad, kavandatud arv ning praeguseni lindistatute arv (naised ja mehed, koguarv)

lindistused ja keelejuhid 2
Lindistused ja keelejuhid (2)
  • Lindistuste kogumaht on 19 tundi ja 45 min.
  • Keelejuhid on erineva piirkondliku taustaga (kesk-, kirde-ranniku-, lääne-, saarte-, Võru ja Tartu murde alalt).

Tabel 2. Keelejuhtide piirkondlik taust

segmentimine ja m rgenduskihid
Segmentimine ja märgenduskihid

Märgenduskihtide valikul on olnud eelkõige eeskujuks Mietta Lennese ja Sanna

Ahjoniemi märgendusjuhend.

(http://www.helsinki.fi/~lennes/annotation_guide/annotation_guide.pdf)

Foneetilised ja lingvistilised kihid

  • sõnad (ortograafiline kirjaviis; siin ka üneemid, nt .ee);
  • häälikud (SAMPA);
  • häälikustruktuurid (CV) – teisendatakse häälikutest scripti abil;
  • silbid – LL (lühike, lahtine), PL (pikk, lahtine), PK (pikk, kinnine) + silbi järjekorranumber. Nt kau|ba|ma|ja – 1PL|2LL|1LL|2LL
  • taktid – siin märgime pearõhku (1) ja kaasrõhku (2) ning väldet. Nt kava|lamale – 11|21, kavala|male – 11|21;
  • lausungid (JUTT, PAUS, täidetud paus, hingamine).
muud kihid
Muud kihid
  • Häälelaad

See puudutab pikemat üksust kui üksikhäälikut. Tähistame järgmiselt: kärin – .?, kähin – .Hv, sosin – .0.

  • Paralingvistilised nähtused

Sisse- ja väljahingamine – .sisse, .välja; ohkamine – .ohe, haigutamine – .haigutus, köhimine – .köha või .köhatus jms.

  • Tundeseisundid ja muu

Naermine – .naer või .naerdes, nutmine – .nutt või .nuttes, nuuksumine – .nuuksatus jms. Muu: nt keelenaksatus, huultega matsutamine jms – .matsutus.

segmentimisseis
Segmentimisseis
  • Sõna- ja häälikukihil ning osaliselt silbi-, takti- ja lausungikihil on segmenditud ja märgendatud 5 tundi ja 35 min kõnet.

Tabel 3. Segmentide arv korpuses

uurimused
Uurimused

Meister, Einar, Pärtel Lippus 2007. Spontaanse kõne temporaalsest struktuurist. VI rakenduslingvistika kevadkonverents „Keel ja leksikon“ 26.–27. aprillil 2007. a Tallinnas. Ettekanne (artikkel on ilmumas).

Meister, Einar, Pärtel Lippus 2007. On Temporal Organization of Spontaneous Estonian: Preliminary Analysis Results of Lecture Speech. III Baltic Conference “Human Language Technologies” 4.-5. oktoobril 2007. a Kaunases Leedus. Ettekanne (artikkel on ilmumas).

Mesipuu, Margit 2007. Sõnaalguline h. Tartu Ülikool, Eesti keele ja üldkeeleteatuse instituut. Magistritöö.

Raasik, Liis 2007. Intervokaalsed leenisklusiilid eesti keele spon-taanses kõnes ühe keelejuhi näitel. Tartu Ülikool, Eesti keele ja üldkeeleteatuse instituut. Bakalaureusetöö.