Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

Dijalogizmedju računara i čoveka kaodelimično primetan Markovljev proces odlučivanja Grupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu MilicaGašić

Siže • Motivacija • Elementi sistema za dijalog • Menadžer dijaloga • Potkrepljeno učenje • Markovljev proces odlučivanja • Delimicno primetan Markovljev proces odlučivanja • Dijalog kao delimicno primetan Markovljev proces odlučivanja • Hidden Information State sistem • Treniranje sistema za dijalog • Evaluacija • Zaključak

Motivacija • Sistem za dijalog • Omogućava komunikaciju uz pomoć govora • Intuitivan za korišćenje • Otporan na buku • Primeri • Pomoćni servisi banaka, Info-centri, rezervacije letova... • Izgradnja sistema za dijalog • Jednostavna • Bazirana na podacima • Da omogućava poboljšanje sistema tokom korisćenja

Elementi sistema za dijalog Akcija korisnika u formi teksta Akcija korisnika u formi semantičkih celina AUTOMATSKI PREPOTNAVAČ GOVORA SEMANTIČKIDEKODER Akcija korisnika u formi govora RAZUMRVANJE GOVORA MENADŽER DIJALOGA Akcija sistema u formi teksta Akcija sistema u formi govora SINTETIZATOR GOVORA GENERATORPRIRODNOGJEZIKA Akcija sistema u formi semantičkih celina GENERISANJE GOVORA

Menadžer Dijaloga • Proizvodi akciju sistema na osnovu akcije korisnika

Potkrepljeno učenje Reinforcement Learning Sutton and Barto 1998 • Cilj: izvršavati akcije koje vode maksimalnoj ukupnoj nagradi • Učenje kratkoročnih akcija koje vode dugoročnoj nagradi Agent • Agent je u nekom stanju • Kada izvrši akciju prelazi u novo stanje i od okoline dobije nagradu nagrada akcija novo stanje stanje Okolina

Markovljev proces odlučivanja Markov decission process (MDP) • Model za rešavanje problema potkrepljenog učenja • Pretopstavka: novo stanje u kome je agent zavisi samo od prethodnog stanja i predzete akcije st st+1 • Dinamika modela • Tranziciona verovatnoca • Očekivana kratkoročna nagrada novo stanje stanje rt+1 at nagrada akcija

Belmanova jednačina optimalnosti • Polisa funkcija koja daje akciju za svako stanje • Funcija vrednosti stanja za datu polisu je očekivana dugoročna nagrada koja se dobija tom polisom • Belmanova jednačina daje optimalnu funkciju vrednosti • Aproksimacije • Poznata dinamika modela • Nepoznata dinamika modela

Delimično primetan Markovljev proces odlučivanjaPartially observable Markov Decission Process (POMDP) • Sta ako stanje u kome je agent nije moguće u portpinosti opaziti već samo postoji neka obzervacija, korumpirana bukom • Polisa je funkcija koja za trenutnu raspodelu stanja daje akciju skriveno stanje • Dinamika modela • Tranziciona verovatnoća • Obzervaciona verovatnoća • Očekivana kratkoročna nagrada st st+1 novo stanje rt+1 ot at ot+1 nagrada obzervacija akcija nova obzervacija

s s′ u u s s′ d d ¢ a a’ u u ¢ s s m m Dijalog kao delimicno primetan Markovljev proces odlučivanja cilj korisnika istorija dijaloga akcija korisnika stanje novo stanje r′ nagrada ¢ o o am nova obzervacija obzervacija akcija mašine

Dijalog kao delimicno primetan Markovljev proces odlučivanja s s’ u u s s’ d d a a’ u u a r’ ¢ o o

Kako do sistema za dijalog za realni problem • Skup stanja se sastoji od svakog mogućeg korisnikovog cilja,svakemoguće korisnikove akcije i svakemoguće istorije dijaloga

Hidden Information State (HIS) sistem Young et al 2009 • Sistem izgradjen za rešavanje realnog problema • Domen: Turističke informacije o hotelima, restoranima, pabovima u Kembridžu (preko 500 entiteta) • Baziran je na delimično primetnom Markovljevom procesu odlučivanja • Aproksimacije • Ažurira raspodelu samo na N stanja sa najvećom verovatnocom • Učenje se izvršava na redukovanom prostoru

Razumevanje govora 1. HI I’M LOOKING FOR INEXPENSIVE RESTAURANTS 2. HI I’M LOOKING FOR INEXPENSIVE RESTAURANT 3. HI I’M LOOKING FOR EXPENSIVE RESTAURANTS 4. I'M LOOKING FOR AN RESTAURANTS 5. I'M LOOKING FOR EXPENSIVE RESTAURANT 6. I'M LOOKING FOR AN RESTAURANT … UA1: inform(type=restaurant, pricerange=cheap) UA2: inform(type=restaurant, pricerange=expensive) Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

Cilj korisnika – Predstavljen particijama UA1: inform(type=restaurant, pricerange=cheap) Prema ontologiji domena entity entity entity restaurant restaurant pricerange cheap

Cilj korisnika – Prestavljen particijama UA2: inform(type=restaurant, pricerange=expensive) entity entity entity entity restaurant pricerange restaurant restaurant pricerange cheap expensive

Istorija dijaloga Dodati infomacije iz istorije entity entity entity entity restaurant pricerange restaurant pricerange restaurant cheap expensive DB match DB match DB match DB match Konsultovati Bazu Podataka

UA1 UA2 UA1 UA2 entity entity entity entity restaurant pricerange restaur. pricera. restau. restaur. DB UA1 DA1 UA2 cheap DB match expens. type entity ent DB match Raspodela N najverovatnijih hipoteza

. Selekcija akcije Raspodela N hipoteza Redukovani prostor SA: confirm(type=restaurant, pricerange=cheap) CONFIRM

Treniranje sa Simulatorom Korisnika u usloviama buke Redukovaniprostor • Simulator imitira ponašanje korisnika • Simulator imitira gresku koja se javlja pri prepoznavanju govora • Menadžer učikroz interakciju sa simulatorim • Greška se inkrementalno povećava tokom učenja • 100.000 dijaloga za optimalnu polisu stanje nova akcija nova akcija nova akcija nova akcija nova akcija nova akcija novo stanje nagrada

Rezultati na Simuliranom korisniku Procenat uspeha (%) 95 90 HIS-POMDP 85 80 75 MDP 70 65 60 55 0 5 10 15 20 25 30 35 40 45 Stopa konfuzije(%)

Rezultati sa pravim korsnicima u uslovima buke • Domen: Turističke informacije • 36 učesnika kojima je engleski maternji jezik • Veštački je dodata buka sa autoputa • Semantička greška 25.2%

Zaključak i budući rad • Arhitektura statističkog sistema za dijalog • Hidden Information State sistem za rešavanje realnog problema zasnovan na delimično primetnom Markovljevom procesu odlučivanja • Rezultati pokazuju otpornost na buku i na simulatoru i na pravim korisnicima • Buduci rad: učenje od pravih korisnika i adaptacije

Hvala Veb strana Grupe za dijalog: http://mi.eng.cam.ac.uk/research/dialogue/ Moja veb strana: http://mi.eng.cam.ac.uk/~mg436/

Razumevanje govora Očekivana nagrada Optimialna polisa Generisanje Govora Dijalog kaodelimično prepoznatljiv Markovljev proces odluke ažuritati Raspodela stanja akt korisnika akt sistema polisa Reinforcement learning Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

UA1 entity restaurant pricerange cheap DB match Q1. State – Summary Space Mapping Heuristics Grounding info Hypothesis status Heuristics Matching with DB Partition status Top Hypothesis prob Next Hypothesis prob User Act Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

UA1 entity restaurant pricerange cheap DB match Q2. Summary Action – Action Mapping CONFIRM SA: confrm(type=restaurant, pricerange=cheap) Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

Q3. Q-learning • Belief is heuristically mapped to summary state space • Q-learning on discretised summary state space – grid points • Exploitation – following the current best policy • Exploration – taking a random action Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

Presentation Transcript

PAKIRANJE ROBE

Ozljeđivanje-sadržaj predavanja

Procesy biznesowe

ANTIČKA GRČKA UMETNOST

Autoimunitní procesy

Mendelovska teorija nasleđivanja. Mendelovski principi i odnosi. Modifikacije Mendelovih odnosa.

BIM

1. Definice marketingu

Nanotehnologija

9 Købsadfærd på konsumentmarkedet

Evropské mezinárodní právo soukromé - proces

Poslovna informatika

G R U P N A D I N A M I K A I

Borrelia burgdorferi

Genski polimorfizmi i poligenske bolesti

Zaščita in varnost operacijskih sistemov

STATISTICKÁ REGULACE S P C první část

FRANCUSKA DRŽAVA U VREME GRAĐANSKE REVOLUCIJE

Memorijski sistem

PREDVIĐANJE – postupak određivanja pojava za koje mislimo da će se dogoditi u budućnosti.

Genski polimorfizmi i poligenske bolesti

Waardecreatie op microniveau