VYSTADIAL

VYSTADIAL Vývoj metod pro návrh statistických mluvených dialogových systémů Hana Bednářová

VYSTADIAL • Vývoj statistických dialogových systémů • Cílem projektu je vývoj statistických metod, které umožní návrh komplexních dialogových systémů včetně optimalizace jednotlivých statistických modelů z dat • Budou vyvíjeny metody, které umožňují optimalizaci strategie řízení z již dříve pořízených dat (korpusu) nebo přímo z interakce s reálnými uživateli

Hlasové dialogové systémy • Hlasové dialogové systémy mají široké možnosti uplatnění, kterými jsou například automatizace hlasových kontaktních center nebo pomoc hendikepovaným • Přestože se tyto systémy začínají čím dál víc uplatňovat v praxi, stále neumožňují plynulou konverzaci, zejména proto, že metody řízení dialogu využívají deterministických algoritmů, které jsou pouze manuálně optimalizovány

Hlasové dialogové systémy • Zkušenosti z vývoje statistických metod pro zpracování přirozeného jazyka naznačují, že učení z dat a optimální rozhodování významně zlepšuje kvalitu a usnadňuje nasazení takových technologií • Proto budou v rámci tohoto projektu hlasové dialogové systémy modelovány jako tzv. částečně pozorovatelný Markovův proces (POMDP) a trénování takových systémů bude založeno na statistických metodách

VYSTADIAL • Ačkoliv se projekt bude zabývat především vývojem statistických metod pro popis a poznání zákonitostí dialogu v přirozeném jazyce, a tedy bude převážně výzkumem základním, hmatatelným výsledkem projektu bude prototyp dialogového systému a metody pro jeho trénování z dat • Vývoj a popis těchto technologií následně povede ke zvýšení robustnosti a přirozenosti dialogových systémů za současného snížení nákladů na jejich uvedení do provozu

Dialogový systém • Dialogový systém je počítačový program, jehož účelem je komunikovat s člověkem pomocí mluvené řeči • Hlasové dialogové systémy mají široké možnosti uplatnění, kterými jsou například automatizace hlasových kontaktních center, interaktivní zábava, výuka jazyků, pomoc hendikepovaným a aplikace, kde jiné ovládací a prezentační možnosti zařízení (například zobrazovací) jsou omezené

Dialogový systém • Typický dialogový systém se skládá z těchto základních komponent: • rozpoznávání mluvené řeči • porozumění přirozenému jazyku • řízení dialogu • generování odezvy a syntézy řeči

Dialogový systém • Účelem komponenty rozpoznávání řeči v dialogovém systému je převedení spontánní řeči do textové podoby • V současnosti se pro tyto účely nejčastěji používají statistické přístupy založené na skrytých markovských modelech a umělých neuronových sítí (Psutka & Müller, 2006)

Dialogový systém • V obou přístupech se model rozpoznávání řeči dělí na model akustický, který modeluje, jak se jednotlivé hlásky slov vyslovují, a na model jazykový, který modeluje, jak se řadí slova do vět • Dialogové systémy musí pracovat se spontánní řečí, která se významně liší od řeči čtené

Dialogový systém • Spontánní řeč je typická používáním nespisovného jazyka a negramatických vět, dále častými přeřeknutími, opakováním již vysloveného, užitím výplňových frází, výskytem neřečových událostí, jako je například váhání, hlasitý nádech, řeč na pozadí nebo hluk okolí

Dialogový systém • Proto se komponenta rozpoznávání řeči připravuje dialogové úloze většinou na míru na základě dat podobných řešené úloze, ideálně na základě anotovaných dat komunikace uživatele a prototypu vyvíjeného dialogového systému

Dialogový systém • Přestože v úloze rozpoznávání čtené řeči se již běžně dosahuje chybovosti rozpoznaných slov méně než 5 %, v úloze rozpoznávání spontánní řeči v rámci dialogového systému provozovaném v reálném prostředí se spolehlivost rozpoznávání řeči pohybuje mezi 20–30 %

Dialogový systém • Komponenta porozumění přirozenému jazyku převádí textový přepis řeči do sémantické reprezentace • Mezi používané formalismy reprezentace sémantické informace patří dialogové akty (Austin, 1962), sémantické rámce (Psutka & Müller ad., 2006), lambda kalkulus (Zettlemoyer & Collins, 2007)

Dialogový systém • V současnosti se v praktických dialogových systémech nejčastěji používá reprezentace významu založená na dialogových aktech (Thomson & Young, 2010; Young & Gašić ad., 2010) • Dialogový akt se skládá z typu aktu a jeho atributů a hodnot (Young & Gašić ad., 2010) (atributům se také často říká koncepty nebo sloty)

Dialogový systém • Typ aktu reprezentuje základní význam promluvy, jako je „pozdrav“, „poděkování“, „rozloučení“, nebo že uživatel o něčem informuje, chce něco potvrdit nebo zjistit • To, o čem chce uživatel informovat nebo co chce potvrdit či zjistit, má potom podobu atributů a jejich hodnot inform(to_stop="Chodov")

Dialogový systém • Například v úloze spočívající v poskytování informací o restauracích by byl atributem „typ jídla“ nebo „poloha“ a jim odpovídající hodnoty by byly „italské“ nebo „centrum“ inform(food_type="škvarky") • Úloha interpretace mluvené řeči z rozpoznaného textu je složitá nejenom kvůli dříve popsaným aspektům spontánní řeči, ale také kvůli velké chybovosti rozpoznaného textu

Dialogový systém • Z těchto důvodů se standardní techniky vyvinuté v oboru komputační lingvistiky nepoužívají v praxi přímo, ale jsou upraveny tak, aby dosáhly vysoké robustnosti vůči výše popsaným jevům • Příkladem tohoto postupu je sémantický interpret Phoenix (Ward & Issar, 1994), který je založen na robustní kombinaci bezkontextových gramatik odpovídající jednotlivým konceptům v řešené úloze

Dialogový systém • Robustnost tohoto řešení spočívá v tom, že umožňuje přeskočit slova v textu, která neodpovídají žádné gramatice • Pro účely zpracování spontánní řeči nebo špatně rozpoznané promluvy je interpret doplněn o další kombinační pravidla, která umožní vynechat nebo naopak doplnit některá slova promluvy tak, aby se dala odvodit i negramatická věta (Zettlemoyer & Collins, 2007)

Dialogový systém • Komponenta řízení dialogu reaguje na vstup uživatele a generuje systémový akt jako odpověď • Komponenta řízení dialogu se typicky dělí na dvě části: • model dialogu, který modeluje stav dialogu • strategii řízení dialogu, která určuje následující akci dialogového systému na základě odhadnutého stavu

Dialogový systém • Stav dialogu reprezentuje všechnu informaci potřebnou k úspěšnému pokračování dialogu, tj. zejména cíl uživatele a to, co bylo během konverzace již řečeno a potvrzeno • V současné praxi je komponenta řízení dialogu většinou založena na využití ručně psaných deterministických algoritmů a stavových automatů

Dialogový systém • Dialogové systémy mohou kromě hlasu využít také jiných výrazových prostředků ke komunikaci s člověkem; v takovém případě hovoříme o multimodálních dialogových systémech • Multimodální vstup může mít podobu textu vloženého pomocí klávesnice (angl. typed text), ručně psaného textu (angl. handwritten text), gest pořízených pomocí dotykových obrazovek a gest vyjádřených pohybem například rukou nebo hlavy a pořízených videokamerou

Exampleof a TownInfoconversation S: Thankyouforcalling. Howmay I helpyou? U: I amlookingfor a Chinese restaurant. S: Right, whatpricerange do youhave in mind? U: Cheap. S: Charles Sueis a Chinese restaurant in a cheappricerange. U: Isit in the centre? S: Yes, Charles Sueis in the city centre. U: Whatisthephonenumber? S: Phonenumberof Charles Sueis 224 226 305. U: Thankyougoodbye.

Exampleof a TownInfoconversation I amlookingfor a Chinese restaurant. inform(venue_type=restaurant,food_type=Chinese)

Sémantické anotace českých DA • ANO <=> affirm() • ZÁBAVNÁ PANÍ <=> null() • TOHO <=> null() • Z HUSINECKÁ <=> inform(from_stop="Husinecká") • DALŠÍ MOŽNOST PROSÍM <=> inform(alternative="next")

Sémantické anotace českých DA • DO ZASTÁVKY MALOSTRANSKÉ NÁMĚSTÍ <=> inform(to_stop="Malostranské náměstí") • ZE ZASTÁVKY LETŇANSKÁ <=> inform(from_stop="Letňanská") • SLYŠET ZNOVA TY SPOJENÍ <=> repeat() • CHTĚL BYCH JET ZE ZASTÁVKY LETŇANSKÁ DO ZASTÁVKY MALOSTRANSKÉ NÁMĚSTÍ <=> inform(from_stop="Letňanská")&inform(to_stop="Malostranské náměstí")

Sémantické anotace českých DA • NE NECHCI JET Z ANDĚLA <=> deny(from_stop="Anděl")&negate() • NE NEJEDU Z CENTRA <=> negate()&deny(centre_direction="from") • NE ZE ZASTÁVKY ŠPERLOVA <=> inform(from_stop="Šperlova")&negate() nebo deny(from_stop="Šperlova")?

Informace o pražské MHD 800 899 998  Data z rozhovoru budou použita pro rozvoj dialogového systému; při komunikaci s automatem prosím o strpení, někdy se „nechytne“ hned. Děkuji za pozornost.

Literatura • AUSTIN, J. L. How to do ThingswithWords, 1962. • BOHUS, D. & A. RUDNICKY. TheRavenClaw dialog management framework: Architecture and systems, ComputerSpeech & Language, 23(3), 332–361, 2009. • HUNT, A. & A. W. BLACK. Unit selection in a concatenativespeechsynthesissystemusing a largespeech database. In Proceedingsof ICASSP 96, vol. 1, 1996, 373–376. • MAIRESSE, F. & M. GAŠIĆ AD. Spokenlanguageunderstandingfromunaligned data usingdiscriminativeclassificationmodels. In: ICASSP '09: Proc. IEEE Int. Conf. Acoustics, Speech and SignalProcessing, 2009, 4749 – 4752. • MAIRESSE, F. & M. GAŠIĆ AD. Phrase-basedStatisticalLanguageGenerationusingGraphicalModels and ActiveLearning. In Proceedingsofthe 48th Annual Meeting oftheAssociationforComputationalLinguistics (ACL), 2010, 1552–1561. • MAIRESSE, F. & M. A. WALKER. Controlling User PerceptionsofLinguistic Style: TrainableGenerationof Personality Traits, ComputationalLinguistics, vol. 37, no. 3, 2011, 455–488. • PSUTKA, J. & L. MÜLLER AD. Mluvíme s počítačem česky, 2006. • RIESER, V. & O. LEMON. Learning and EvaluationofDialogueStrategiesfor New Applications: EmpiricalMethodsforOptimizationfromSmall Data Sets, ComputationalLinguistics, vol. 37, no. 1, 2011, 153–196. • STEEDMAN, M. SurfaceStructure and Interpretation,1996. • SUTTON, R. S. & A. G. BARTO. ReinforcementLearning: AnIntroduction, 1998. • THOMSON, B. & S. YOUNG. Bayesian update ofdialoguestate: A POMDP frameworkforspokendialoguesystems, ComputerSpeech & Language, vol. 24, no. 4, 2010, 562–588. • YOUNG, S. & M. GAŠIĆ AD. TheHiddenInformationState Model: a practicalframeworkfor POMDP-basedspokendialogue management, ComputerSpeech and Language, 24(2), 2010, 150–174. • VOICEXML 2.1, Working Draft, 2013 (http://www.w3c.org/TR/ 2004/WD-voicexml21-20040323). • WARD, W. & S. ISSAR. Recentimprovements in the CMU spokenlanguageunderstandingsystem. In Proceedingsofthe workshop on HumanLanguage Technology (ACL), 1994, 213–216. • ZEN, H. & K. OURA AD. Recentdevelopmentofthe HMM-basedspeechsynthesissystem (HTS). In Asia-PacificSignal and InformationProcessingAssociation (APSIPA), 2009, 121–130. • ZETTLEMOYER, L. S. & M. COLLINS. Online learningofrelaxed CCG grammarsforparsing to logicalform. In Proceedingsofthe 2007 Joint Conference on EmpiricalMethods in Natural • LanguageProcessing and Computational Natural LanguageLearningEMNLPCoNLL, 2007, 678–687.

Literatura Text příspěvku upraven podle: • JURČÍČEK, F. VYSTADIAL: Vývoj metod pro návrh statistických mluvených dialogových systémů. Dostupné z: https://sites.google.com/site/filipjurcicek/projects/vystadial • F. Jurčíček, B. Thomson, S. Young: Reinforcementlearningforparameterestimation in statisticalspokendialoguesystems. (GS) In: ComputerSpeech and Language, 3, June 2012. • F. Jurčíček, B. Thomson, S. Young: Natural actor and beliefcritic: Reinforcementalgorithmforlearningparametersofdialoguesystemsmodelled as POMDPs. (GS) In: ACM Trans. Speech Lang. Process., June 2011.

VYSTADIAL

VYSTADIAL

Presentation Transcript