320 likes | 474 Views
Beszédfelismerés és szintézis. Prozódia a beszédben. Takács György. Bárdi Tamás előadására építve. Tartalom. Ismétlés Szegmentális és szupraszegmentális jellemzők Hanglejtés Hangsúly Tempó, ritmus. Beszédhang -- Szegmentum.
E N D
Beszédfelismerés és szintézis Prozódia a beszédben Takács György Bárdi Tamás előadására építve
Tartalom • Ismétlés • Szegmentális és szupraszegmentális jellemzők • Hanglejtés • Hangsúly • Tempó, ritmus
Beszédhang -- Szegmentum • A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. • A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. • A beszédhangok a nyelvre jellemzőek! • Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet beszédhangokat. • Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.
A beszéd szerkezete • A beszéd egymástól megkülönböztethető elemek (SZEGMENTUMOK) szervezett időbeni egymásutánisága – soros szerkezet. • Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. • Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. • A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.
A fonéma • Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő • A fonémakészlet elemei a fonémák. • Az azonos fonémákat képviselő beszédhangok az allofonok.
A prozódia szó jelentése • Verstanban: az időmértékes és ütemhangsúlyos verselés tudománya • Zenében: a dallam és a szöveg illesztésének tudománya • A beszédfeldolgozásban: a beszéd szupraszegmentális akusztikai jegyeivel foglalkozó tudományág szupraszegmentális: több szegmentumon (több fonémán) átívelő jelenség
Prozódikus vagy szupraszegmentális jellemzők – az akusztikus megjelenés szempontjából • Intonáció: Hanglejtés. Az alapfrekvencia (F0) változtatásaival produkáljuk. A zöngétlen hangok nem játszanak szerepet a beszéddallam alakításában. • Hangerő: Elsősorban a tüdőből kiáramló levegő mennyiségével szabályozzuk. A hang intenzitásához kapcsolódik. • Ritmus: Időtartamok. Ide tartozik a beszéd sebesség, bizonyos szótagok vagy fonémák nyújtása, és a szünet. • Hangszín: Érzékelhető kommunikációs szerepe van, de hogy pontosan mi a hangszín, azt nehéz megfogalmazni, és még nehezebb mérni. Spektrális tulajdonság.
Prozódikus vagy szupraszegmentális jellemzők képzése • Ugyanazokkal a szervekkel képezzük. • A beszédhangokkal, szegmentumokkal egy időben képezzük. • A beszédszerveket működésekor ugyanazon agy vezérli akár a szupraszegmentális tényezők, akár a szegmentumok képzésénél.
Prozódikus vagy szupraszegmentális jellemzők – a jelentéshordozás szempontjából • Hanglejtés: „Dallamforma” • Hangsúly: A dallamforma, a hangerő és a ritmus együtteséből alakul ki. • Ritmus: beszédtempó változását, hullámzását és a szüneteket foglalja magába..
Megkülönböztetés prozódikus elemek segítségével • Egyszerű példa: jó Jó? Jó. • Összetett példa: az nem fontos kivel köt a tulajdonos szerződést Az nem fontos, kivel köt a tulajdonos szerződést. Az nem fontos. Kivel köt a tulajdonos szerződést? • A királynő mondta, a lovag egy szörnyeteg. • A királynő -- mondta a lovag -- egy szörnyeteg.
A magyar nyelv prozódiája • Magyar Nyelvi Beszédtechnológiai Alapismeretek - demo5.4 A magyar beszéd - Prozódia
A prozódia és az írás • Írásban a prozódiát írásjelekkel, időnként tipográfiai eszközökkel közelítjük. A kapcsolat azonban jóval kevésbé szoros vagy definiált, mint a betűk és az elhangzó fonémák között. • Példák:A bizottság elnöke Veres Lajos professzor lett.A bizottság elnöke, Veres Lajos professzor lett.Nem erre válaszoltam. Nem erre – válaszoltam.Van még időd? Van még időd!A tüntetések Bolognában illetve Rómában voltak. A tüntetések Bolognában – illetve Rómában voltak.
A beszéd agyi szerveződése • Aszimmetria:A bal agyfélteke dominál a beszédképzésben és megértésben. A jobb agyfélteke leginkább a beszéd zenei jellemzőivel foglalkozik, vagyis a prozódiával. • A beszéd jellemzően emberi jelenség:Az állatvilágban ismeretlen az agyféltekék ilyen aszimmetrikus szereposztása
Nyelvfüggőség - nyelvfüggetlenség • A beszéd prozódikus jelenségei nyelvről nyelvre másképp viselkednek, de vannak nyelvcsaládon belül, vagy néhány nyelvre érvényes szabályszerűségek • Univerzális szabályszerűségek: - Alapfrekvencia deklináció és terjedelem redukció - Hangerő csökkenés - Szavak csoportokba szervezése (frázis tagolás) - Szillabifikáció (szótagok képződése)A minden nyelvre érvényes szabályszerűségek gyaníthatóan biológiai okokból erednek. De pl. a szillabifikációnál vitatott, hogy van-e ilyen biológiai kényszer.
Alapfrekvencia lejtési trendés tartomány csökkenés Biológiai okok: légzés, crico-thyroid rendszer mechanikája
Fujisaki modell Forced-dumped oscillations:
Hangerő csökkenés A légzésre visszavezethető.
Hangerő - hangzósság Azonos képzési erőhöz különböző mérhető hang intenzitás tartozik a különböző fonémáknál.
Hangerő megválasztása • A hangerő megválasztása elsősorban a fizikai és pszichikai „távolsághoz” igazodik. • Sok ember jelenlétében ezzel fejezzük ki, hogy mekkora körnek szól amit éppen mondunk. • A kisebb hangerő utal a tartalom bizalmasságára,a nagyobb távolságtartást jelezhet.
Lombard speech • Amikor nagy az alapzaj (mások is beszélnek) • Növekvő alapfrekvencia • Nagyobb hangerő • Hosszabb beszédhang időtartam • A kulcsszavak még kitartottabbak • Felfelé tolódó formánsfrekvenciák • Kifejezőbb arcmozgás
Szavak csoportokba szervezése Nem tudni biztosan, van-e biológiai oka.
Szavak csoportokba szervezése 2 Frázisok képzése: A prozódiai frázist jellegzetes hanglejtés minták zárják le, gyakran szünettel kiegészítve. Jellemzően emelkedő dallam zárja a nem mondatvégi frázisokat, jelezve hogy még folyt. köv. Prozódiai mondat: Tipikusan levegővételtől levegővételig tart. Általában eső alapfrekvencia zárja a mondat többi részénél mélyebb értéken. Szinte mindig van utána szünet.
Szillabifikáció Még kevésbé tudni, van-e biológiai oka.
A prozódia szerepe a beszédben • Az élő beszédet hallgatni, értelmezni nehéz munka.Ezt lehet megkönnyíteni a beszéd értelemszerű tagolásával és a hangsúlyozással. • Szerepe a nyelvben:- szemantika: tonális nyelvekben- szintaktika és pragmatika: minden nyelvben • Jellemzően prozódikus eszközökkel fejezi ki a beszélő érzelmi állapotát, hangulatát, indulatait.
Tonális nyelvek A tonális nyelveken a dallam lexikális információt hordoz. Ezekben ugyanaz a fonéma sor más-más szót jelent különböző dallammal kiejtve. Tonális nyelvek pl. a kínai (mandarin), kantoni, tibeti, vietnami, thai Egy példa vietnamiból: Mandarin kínai szótagtípusok:
Hangsúlyozás • Mi a hangsúly?Az a szótag hangsúlyos, amelynek a képzésébe érezhetően több fiziológiai erőt fektetünk, mint a szomszédaiba. • Hangsúlyok hatóköre:ütemhangsúly, szakaszhangsúly, mondathangsúly • Hangsúlyok szerepe:A mondanivaló fontos részeinek megjelölése.Topic-comment megkülönböztetés. A figyelem felkeltése mikor a korábbiakhoz képest újat mondunk. • Érzelmi hangsúlyok: az értelmieket gyakran felülírják.
Prozódia a beszédtechnológiában • Beszéd szintézis:Ma már a jó minőségű TTS rendszereknél elvárás, hogy (közel) természetesen hangzó intonációval és ritmussal beszéljen. Az automatikus hírolvasók még hangsúlyozni is elfogadhatóan tudnak.Új törekvés: Expressive Speech Synthesis • Felismerés prozódia alapján (ez még gyerekcipőben van):Kérdés-válasz megkülönböztetés, mondathatárok megállapítása, érzelmi állapot felismerése. • Dialógus rendszerek:Itt mindkét irány kéne. Elsősorban azt kéne jelezni és észrevenni, hogy mikor kinek kell átvenni a szót (turn taking prosody).
Prosody in TTS • Újabb megközelítés:text-to-speech helyett concept-to-speechehhez megfelelő markup language bemenet kell
Szimbolikus prozódia • Tones and Break Indices (ToBI)