1 / 15

Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Korpus z -alapú szövegfelolvasó rendszer fejlesztése. Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Besz édkutatási Laboratórium. Bevezetés. Korpusz-alapú szövegfelolvasó hullámforma-összefűzéses

Download Presentation

Korpus z -alapú szövegfelolvasó rendszer fejlesztése

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Beszédkutatási Laboratórium

  2. Bevezetés • Korpusz-alapú szövegfelolvasó • hullámforma-összefűzéses • kevés összefűzési pont • nagyobb elemméret • elemkiválasztás nagy beszédadatbázisból • Beszédkutatási Laboratórium munkatársainak közreműködésével • kiindulás: Nagy András diplomaterve

  3. A feladat • a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának áttekintése • a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs rendszer kialakítása • jó minőségű összefűzési algoritmus kialakítása • a rendszer minőségének értékelése percepciós tesztekkel

  4. Beszédszintetizátor rendszer architektúrája

  5. Szerver jellemző számai • nagy beszédkorpusz • 10 órányi felvétel • 5302 mondat • 3,57 Gb (hangfájlok + címkézés) • szerver indítás: 5-10 perc • szintézis sebessége • lejátszási idő 0,56-szorosa (WAP-os időjárás-jelentéseken) • szintézis reakcióideje • 1,9 sec (WAP-os időjárás-jelentéseken)

  6. A beszédszintézis folyamata • Elemkiválasztás • több szinten: szó és fonéma • szintetizálandó elemek meghatározása • jelöltek gyűjtése a beszédkorpuszból • Viterbi-algoritmus a legjobb jelölt-sorozat megtalálásához • összefűzési költség • célegyezési költség

  7. Összefűzési költség • két elem összefűzésének a költsége • két egymással határos elem között0 • azonos forrásból (hangfájlból) származó elemekpreferálása • alapfrekvencia-ugrás büntetése (pl. ma napos) • átmenet-vágási költségmátrix

  8. Célegyezési költség • egy elemnek a szintetizálandó céltól való eltérése • fonéma-környezet egyezése fonéma-helyettesítési költségmátrix • prozódiai jellemzők • szónak a prozódiai egységen belüli pozíciója • prozódiai egység mondaton belüli pozíciója • külön büntetés mondatzáró szónál

  9. Utófeldolgozás • vágás az összefűzési pontokon • mássalhangzó-hasonulásokszóhatáron (pl. „vad tornádó”) • intenzitás-módosítás • alapfrekvencia- és időtartam-módosítás • PSOLA (Pitch-Synchronous Overlap and Add) • pl. mondatzáró szónál

  10. beírt mondat szintézise célegyezési költség összefűzési költség minden elem minden jelöltjérefonetikai,prozódiai, alapfrekvencia, stb. információ

  11. Időjárás szövegadatbázis előállítása • alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhető • megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozása • származási helyenként eltérő felépítésű oldalak  tartalom forrása portálonként külön kezelendő • HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL) • adatbázisban további tisztítási lépések

  12. mondatok száma osztályzat Meghallgatásos tesztek • A fejlesztési irányt kijelölő 51 mondatos teszt • Egyetlen prozódiai egységből álló mondatokkal • 280 mondat • Szintézis módszerek összehasonlítása • természetes, korpuszos, triádos, formáns • 248 résztvevő • Fejlődési teszt • 25 „rossz” mondat, 87 résztvevő • preferencia: 76,20% • WAP-os időjárás-jelentésekkel • 539 mondat

  13. Reakció a bírálatra • időjárások korlátozott témakörének ismertetése • a bevezető előtti összefoglalóban • tesztelés egyetlen prozódiai egységből álló mondatokkal • a korábbi teszt alapján „nehéz” mondatok • mondatok válogatása: a korpuszban biztosan ne szerepeljenek  fél éves periódusból • szintézis módszerek összehasonlítása • 248 fő teszteredményei alapján • kiváló/jó/közepes/gyenge/rossz • sok minőségi szintű felvétel  kritikusabb hallgatók

  14. Továbblépési irányok • Más témakörök • További címkézési jellemzők • hangsúlyosság • hosszan ejtett hang • Nagyobb elemméret • szótag-szint  fonémákból építkezés kiváltható

  15. Kérdések

More Related