A beszéd-technológia jövője – kihívások és stratégiák

A beszéd-technológia jövője – kihívások és stratégiák Nyelvi áttörés A nyelv- és beszédtechnológia mint húzóágazat Mihajlik Péter BME-TMIT

Áttekintés Bevezetés Helyzetkép Mitől, hogyan működik? Kihívások és válaszlehetőségek A közeljövő alkalmazásai Összegzés

Bevezetés A beszédtechnológiakét fő ága: Gépi beszédfelismerés (ASR: Automatic Speech Recognition) Beszéd (hangnyomás-időfüggvény) szöveg (írott szósorozat) Gépi beszédkeltés (TTS: Text To Speech) Az előző megfordítása Mellékágak: Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés, beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszéd- felismerés, stb.

Bevezetés II. Abeszéd-szöveg átalakítás kiemelt jelentőségű, mert Ami igazán fontos, élőszóban hangzik el Gyorsabban és könnyebben beszélünk, mint írunk „Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs: beszédinformáció-kivonatolás, -visszakeresés, -strukturálás beszédértés (szűk értelemben se) beszédfordítás hanggal-, hangból keresés Nagyszámú alkalmazás épít(ene) rá A korszerű beszédkeltési technológiák is erre alapoznak

Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható! A áttörés

A gépi beszédfelismerés is!!! Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!

A gépi beszédfelismerés is!!! Noha a beszédfelismerési technológia messze nem tökéletes, a használhatósága ma már nem kétséges! Helyzetkép: az áttörés megtörtént – a beszédtechnológia használható!

Az áttörés megtörtént – a beszédtechnológia használható! Használható: kisebb költséggel, többet tud a gép, mint az ember?! Igen! Ki tudja 200 óra hangzó híranyagban megtalálni a megadott 1000 kulcsszó ~50%-át 24 óra alatt? 2 db (4 magos) CPU képes rá! (RTF<1 /mag) 2 ember, > 2 hét – csak lehallgatás (RTF>1/fő) 12 ember,> 2 hét – teljes lejegyzés (RTF>6/fő) Áramdíj < 2 eFt Munkadíj > 200 eFt/ 1.2 MFt

Az áttörés megtörtént – a beszédtechnológia használható! Használható: többet tud a gép, mint az ember?! Igen! Ki képes egy nagyváros összes lakosának (~250.000) főnevét és lakcímét első hallásra 10 esetből min. 9-szer hibátlanul leírni? 1 db CPU képes rá (+ beszédtechnológia)! ~0 sec válaszidő!! Áramdíj, válaszidő: ~0 visszakérdezések, hibák

Az áttörés megtörtént – a beszédtechnológia használható! Használható: kisebb költséggel, többet tud a gép, mint az ember?! Igen,igen! A beszédszintetizátor bármit kimond Nem fárad el, nem reked be Ha kérik, gyorsabban beszél, ha kérik, lassabban Nem sértődik meg, ha a felmenőit emlegetik …

Az áttörés megtörtént – a beszédtechnológia használható! Mitől? Új kutatási eredmények? – Alapjait tekintve nem igazán, több éve kiforrott a technológia… Meg van oldva a probléma? – Határozottan nincs Inkább: A beszédtechnológia megtalálta az alkalmazásait! A számítástechnika fejlődése egyre inkább lehetővé teszi a megfelelő (jórészt már ismert) algoritmusok alkalmazását

Mitől, hogyan működik? „Megérti a gép, amit mondok?” Neeeemm! (A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…) „Leírja, amit mondok?” Ez a cél, de általánosságban ez sem teljesül…

Mitől, hogyan működik? A gépi beszédfelismerés alapelve: Lényegkiemelés (jelfeldolgozás, normalizálások) Mintaillesztés (tárolt modellekhez történő összehasonlítás) Összetett beszédmodell Nyelvi, akusztikai információk Összehasonlítások!!! Órási keresési tér (akár > 1050 szósorozat) Mindig a legjobban illeszkedő modellekre-útvonalra döntünk! „eredmények a beszédtechnológiában”

Mitől, hogyan működik? Honnan vesszük a beszédfelismerési modelleket? Szinte minden statisztikai alapú! Lejegyzett beszédadatra van szükség a modelltanításhoz Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra van szükség a megfelelő becsléshez Nincs általános modell, minden feladatra külön kell gyűjteni Mindig számolni kell jelentős beszédfelismerési hibával A beszédfelismerési hiba főként attól függ, hogy akusztikailag, nyelvileg mennyire különböző lehetőségek közül választhatunk a mintaillesztés során Nem egyszerű feladat eldönteni, hogy az optimális felismerési eredmény (szósorozat) helyes is egyben

Kihívások és válaszlehetőségek Az ideális beszédfelismerő rendszer… … zajban sem rosszabb, az embernél … távoli mikrofonnal működik … témafüggetlen … beszélőfüggetlen (a beszédhibákat is kiküszöböli) … stílus-független (spontán beszédre is működik) … minden nyelvre könnyen adaptálható (…kis fogyasztású, olcsó eszközön fut) (…kézi átirat nélkül tanítható) …talán sosem fog működni… de azért….

Szófelismerésihiba % Kihívások és válaszlehetőségek Zajtűrő beszédfelismerés A zaj elmossa az akusztikai különb- ségeket Nem mindegy milyen (fehérzaj vs. háttérzene, -beszélgetés) Válasz: nemlineáris, idővariáns, nem- stacionárius megközelí- tések, fizikusok, agy- és halláskutatókkal közös kutatások, stb. Zajos Jel-zajviszony dB Tiszta Wall Street Journal – Olvasott hírek Humán vs Cambridge HTK LVCSR beszédfelismerő

Kihívások és válaszlehetőségek Távoli mikrofon (distant speech recognition) Probléma: a jelenlegi módszerek a közeli mikrofonokra, és/vagy csendes körülményekre használhatóak Távoli mikrofon: rossz jel-zaj viszony Válasz: a zajtűrő módszereken felül, mikrofon tömbök, adaptív karakterisztika szabályozás, önirányító mikrofonok

Kihívások és válaszlehetőségek Témafüggetlenség Probléma: a jelenlegi módszerek adott témakörökre igényelnek nagy mennyiségű tanítóanyagot, eltérő témára lényegesen nő a felismerési hiba Beszélőfüggetlenség Probléma: a jelenlegi módszerek a standard nyelvet kezelik, tájszólásra, beszédhibára kevésbé felkészültek Válaszok Minden eddiginél nagyobb mennyiségű tanítóadat használata Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy félig felügyelt módszerek kutatása

Kihívások és válaszlehetőségek Beszédstílus-függetlenség Probléma: a jelenlegi módszerek a spontán (lazán artikulált, bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a felismerési hiba Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően spontán Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!) Arab, észt,finn, magyar, török: a szóalaki változatosság jóval nagyobb, mint az angol, spanyol, német, stb. nyelvekre Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár, rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli szavak nagy száma alacsonyabb szófelismerési pontosság

Magyar (tervezett) Magyar (félig tervezett) Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Magyar (spontán)

Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Angol szavak ~ magyar morf(émák) Illusztráció: look at it ~ néz + d Építsük a nyelvi és kiejtési modelleket szó helyett morféma (szótő, rag, stb.) alapon Szó  morféma leképezés? Nyelvi szabály alapon? Statisztikai felügyelet nélküli módszerrel? Kombináció? Szóhatár visszaállítás?

Magyar nyelvű beszédfelismerési eredmények Morféma alapú rendszerek Szófelismerési pontosság % Spontán Sajtótájékoztató Hírműsor Sp. St. Hír Szóalaki változatosság – beszédstílus, nyelvek Akusztikus adaptáció hatása Hibacsökkenés % Szótárméret: 20K-285K szó 2k – 80K morf Tisztán statisztikai (MB) morf-alapú rendszerek javulása

R=0,937 Szóalaki változatosság – beszédstílus, nyelvek – kutatási eredmények Morféma-alapú megközelítések általi felismerési hibacsökkenésnemzetközi összehasonlításban Javulás statisztikai morf modellezés által [%] Különböző szóalakok száma 160 ezer szavas korpuszban [x1000]

Kihívások és válaszlehetőségek Beszédstílus-függetlenség Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek A nyelvfüggetlen statisztikai módszer hatékonysága nem elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki változatosságtól függ Minél nagyobb a szóalak-változatossági probléma, annál jobban segít Mégsem ettől lesz kicsi a felismerési hiba Válasz? minden eddiginél több tanítóadat? minden eddiginél nagyobb memória?

Kihívások és válaszlehetőségek Tanítóadatbázis-méret növelés Kulcsfontosságú mind a kutatás, mind a fejlesztés szempontjából Ahol az adat, ott fejlődik(-het) a technológia… 3 éves gyerek 5M-20M szót hallott! Probléma: drága az előállítás (beszélt nyelvi korpuszokról van szó!), a kutatás-fejlesztési eszköztár is az… Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség>1.5 MFt) – és ez csak a „voice search” alkalmazás… Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig felügyelt módszerek kutatása, felügyelet nélküli módszerek kutatása

A közeljövő alkalmazásai Jó – közepes akusztikai viszonyokra készülnek Felismerési hiba tűrőek Az embert nem „lecserélni”, segíteni akarják Ezeknek megfelelő gyakorlati feladatok: audio indexálás, keresés hang (video)tárakban, információ kivonatolás hanganyagból, kategorizálás, infobányászat, audio minőségbiztosítás, ügyfélszolgálat részbeni automatizálása, …

A közeljövő alkalmazásai A folyamatos nagyszótáras beszédfelismerési technológia potenciális felhasználói általános beszédinformációs tárak: rádió, TV, mozi vállalati szféra: mindenféle szintű megbeszélések hanganyaga, ügyfélszolgálatok, sajtótájékoztatók állami szféra: felügyelő szervek, biztonsági szervek oktatás-kutatás: konferencia-, tanrendi előadások internetezők… Nem az a kérdés, hogy a beszédtechnológia alkalmazásérett-e, hanem, hogy ki kerül versenyhátrányba, mert későn ébredt….

Összefoglalás Az áttörés megtörtént – a beszédtechnológia használható! Az általános probléma még nincs megoldva A kutatás-fejlesztés számára létfontosságú az eddigieknél sokkal komolyabb adatbázis-infrastruktúra kialakítása Vannak olyan kutatási területek, melyek illeszkednek a hazai adottságokhoz és jól exportálhatóak

Köszönöm a figyelmet! „Az áttörés megtörtént – a beszédtechnológia használható!”

A beszéd-technológia jövője – kihívások és stratégiák