1 / 21

Eestikeelse kõnetuvastuse andmebaas

Eestikeelse kõnetuvastuse andmebaas. E.Meister, J.Lasn, L.Meister Foneetika ja kõnetehnoloogia labor TTÜ Küberneetika Instituut. Sissejuhatus. Eesti SpeechDat: projekti eesmärgid tehnilised parameetrid korpuse disain kõnelejate värbamine salvestusdialoog lõpptulemused. Laena oma häält

eytan
Download Presentation

Eestikeelse kõnetuvastuse andmebaas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eestikeelse kõnetuvastuse andmebaas E.Meister, J.Lasn, L.Meister Foneetika ja kõnetehnoloogia laborTTÜ Küberneetika Instituut

  2. Sissejuhatus • Eesti SpeechDat: • projekti eesmärgid • tehnilised parameetrid • korpuse disain • kõnelejate värbamine • salvestusdialoog • lõpptulemused Laena oma häält tulevikutehnoloogia arendamiseks

  3. Eesti SpeechDat • Eesmärk: suuremahulise - min 1000 kõnelejat - telefonisalvestuste andmebaasi loomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks • Prototüüp: SpeechDat andmebaasid, eriti soomekeelne SpeechDat • Kestus: 24 kuud • Finantseerijad: Haridusministeerium, Kultuuriministeerium • Toetajad: EMT, Tehnokratt, Vaata Maailma, Postimees, Õpetajate leht, Radiolinja Eesti,...

  4. Karakteristikud • Diskreetimissagedus: 8 kHz • Signaali format: 8-bit A-law, mono • Signaaliallikas: tava- ja mobiiltelefonid • Akustiline keskkond: kodu/büroo, tänav • Kõnelejad: min 1000 (500 naist, 500 meest) • Tekstikorpus: isoleeritud numbrid, numbrijadad, naturaalarvud, rahaühikud ja -summad, tähthaaval hääldatud sõnad ja nimed, kuupäevad, kellaajad, JAH/EI-küsimused, koha- ja isikunimed, IT-terminid ja laused, foneetiliselt rikkad sõnad ja laused.

  5. Tehniline platvorm: • 2 salvestuskeskust • 2 ISDN liini • ADA salvestusprogramm • 3 märgendaja töökohta • tarkvara märgendamiseks (WWW Transcriber, Speech Filing System, Praat) • server (300 GB kettaruumi)

  6. Tekstikorpus

  7. Tekstikorpus

  8. Kõnelejate värbamine • Projekti kodulehekülg http://www.phon.ioc.ee/base • Avalikud Interneti Punktid • Tehnokratt, Postimees, Eesti TV, Õpetajate leht, ülikoolid, asutused, sõbrad-tuttavad • Registreerimine Interneti teel • Juhised ja individuaalsed tekstid saadeti e-maili või posti teel • Boonused (september 2003): • Nokia 3510i • 3 EMT fliisi • 20 EMT T-särki • projekti T-särk vähemalt 10 salvestust teinud inimestele • T-särk vähemalt 10 uut liitujat värvanud isikutele

  9. Salvestusprotsess Salvestuskeskuse tasuta numbrid: 9652 - EMT klientidele 08005353 - Elioni ja Radiolinja klientidele Salvestatud juhistega dialoog: Tervitus Küsimus <piip> spontaanne vastus Juhis <piip> loetud tekst Tänuavaldus

  10. Tulemused • Registreerus üle 2500 isiku • Helistatud on üle 4500 korra • Kvaliteetse salvestuse tegid 1335isikut, neist ca 300 osales korduvsalvestustel • Elioni kliente ~45%, EMT kliente ~45%, Radiolinja kliente ~10%

  11. Registreerimiste ja salvestuste arv

  12. Sooline ja vanuseline jaotus

  13. Piirkondlik jaotus

  14. Korduvsalvestused

  15. Märgendamine

  16. LHD: <andmebaasi formaat>, <versioon> DBN: <andmebaasi nimi> VOL: <keele kood>_<nr> SES: <salvestuse number> DIR: <täielik tee salvestuse signaalideni, ilma lõpu kaldkriipsuta> SRC: <kõnesignaali faili nimi> CCD: <signaali korpuse identifikaator> CRP: <korpuse info marker> REP: <salvestuskeskuse asukoht> RED: <salvestuse kuupäev PP/KK/AAAA> RET: <salvestuse aeg TT:MM:SS> SAM: <diskreetimissagedus> BEG: <signaali algusdiskreet, tavaliselt 0> END: <signaali lõpudiskreet> SNB: <baite diskreedi kohta> SBF: <diskreedi sisene baitide järjestus, tähtsusetu kui baite on 1> SSB: <informatiivseid bitte baidis> QNT: <signaali kodeerimise standard> SCD: <diktori kood> SEX: <diktori sugu> AGE: <diktori vanus> ACC: <diktori aktsent, murdepiirkond> REG: <diktori asukoht/piirkond salvestuste teostamise ajal> ENV: <kõne keskkond> NET: <telefonivõrgu tüüp> LBD: <märgenduse info alguse marker> LBR: <ortograafiline tekst> LBO: <transkriptsioon> ELF: <märgendfaili lõpu marker> Märgendfailid

  17. LHD: SAM, 5.10 DBN:Estonian_SpeechDat_recordings_from_Fixed_and_Mobile_Networks VOL: Fixed1EE_01 SES: 00002 DIR: \Fixed1EE\Block00\SES00002 SRC: A100002A1.EEA CCD: a1 CRP: REP: Institute of Cybernetics at TTU, Tallinn, Estonia RED: 27/Nov/2002 RET: 13:48:38 SAM: 8000 BEG: 0 END: 24003 SNB: 1 SBF: SSB: 8 QNT: A-Law SCD: 50002 SEX: m AGE: 46 ACC: Võru murre REG: Harjumaa, Kehra ENV: silence NET: gsm LBD: LBR: 0, 24003,,,, lisa LBO: 0,, 24003, lisa ELF: Märgendfailid

  18. Grafeemide statistika

  19. Trifoonide statistika 5362 erinevat trifooni

  20. Kõnetuvastuse demo (1)

  21. Kõnetuvastuse demo (2) Häälega juhitav kalkulaator

More Related