1 / 28

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja. Grupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu Milica Ga š i ć. Siže. Motivacija Elementi sistema za dijalog Menadžer dijaloga Potkrepljeno učenje

gay
Download Presentation

Dijalog izmedju računara i čoveka kao delimi čno primetan Markovljev proces odlučivanja

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dijalogizmedju računara i čoveka kaodelimično primetan Markovljev proces odlučivanja Grupa za dijalog Departmana za Inžinjerstvo Univerziteta u Kembridžu MilicaGašić

  2. Siže • Motivacija • Elementi sistema za dijalog • Menadžer dijaloga • Potkrepljeno učenje • Markovljev proces odlučivanja • Delimicno primetan Markovljev proces odlučivanja • Dijalog kao delimicno primetan Markovljev proces odlučivanja • Hidden Information State sistem • Treniranje sistema za dijalog • Evaluacija • Zaključak

  3. Motivacija • Sistem za dijalog • Omogućava komunikaciju uz pomoć govora • Intuitivan za korišćenje • Otporan na buku • Primeri • Pomoćni servisi banaka, Info-centri, rezervacije letova... • Izgradnja sistema za dijalog • Jednostavna • Bazirana na podacima • Da omogućava poboljšanje sistema tokom korisćenja

  4. Elementi sistema za dijalog Akcija korisnika u formi teksta Akcija korisnika u formi semantičkih celina AUTOMATSKI PREPOTNAVAČ GOVORA SEMANTIČKIDEKODER Akcija korisnika u formi govora RAZUMRVANJE GOVORA MENADŽER DIJALOGA Akcija sistema u formi teksta Akcija sistema u formi govora SINTETIZATOR GOVORA GENERATORPRIRODNOGJEZIKA Akcija sistema u formi semantičkih celina GENERISANJE GOVORA

  5. Menadžer Dijaloga • Proizvodi akciju sistema na osnovu akcije korisnika

  6. Potkrepljeno učenje Reinforcement Learning Sutton and Barto 1998 • Cilj: izvršavati akcije koje vode maksimalnoj ukupnoj nagradi • Učenje kratkoročnih akcija koje vode dugoročnoj nagradi Agent • Agent je u nekom stanju • Kada izvrši akciju prelazi u novo stanje i od okoline dobije nagradu nagrada akcija novo stanje stanje Okolina

  7. Markovljev proces odlučivanja Markov decission process (MDP) • Model za rešavanje problema potkrepljenog učenja • Pretopstavka: novo stanje u kome je agent zavisi samo od prethodnog stanja i predzete akcije st st+1 • Dinamika modela • Tranziciona verovatnoca • Očekivana kratkoročna nagrada novo stanje stanje rt+1 at nagrada akcija

  8. Belmanova jednačina optimalnosti • Polisa funkcija koja daje akciju za svako stanje • Funcija vrednosti stanja za datu polisu je očekivana dugoročna nagrada koja se dobija tom polisom • Belmanova jednačina daje optimalnu funkciju vrednosti • Aproksimacije • Poznata dinamika modela • Nepoznata dinamika modela

  9. Delimično primetan Markovljev proces odlučivanjaPartially observable Markov Decission Process (POMDP) • Sta ako stanje u kome je agent nije moguće u portpinosti opaziti već samo postoji neka obzervacija, korumpirana bukom • Polisa je funkcija koja za trenutnu raspodelu stanja daje akciju skriveno stanje • Dinamika modela • Tranziciona verovatnoća • Obzervaciona verovatnoća • Očekivana kratkoročna nagrada st st+1 novo stanje rt+1 ot at ot+1 nagrada obzervacija akcija nova obzervacija

  10. s s′ u u s s′ d d ¢ a a’ u u ¢ s s m m Dijalog kao delimicno primetan Markovljev proces odlučivanja cilj korisnika istorija dijaloga akcija korisnika stanje novo stanje r′ nagrada ¢ o o am nova obzervacija obzervacija akcija mašine

  11. Dijalog kao delimicno primetan Markovljev proces odlučivanja s s’ u u s s’ d d a a’ u u a r’ ¢ o o

  12. Kako do sistema za dijalog za realni problem • Skup stanja se sastoji od svakog mogućeg korisnikovog cilja,svakemoguće korisnikove akcije i svakemoguće istorije dijaloga

  13. Hidden Information State (HIS) sistem Young et al 2009 • Sistem izgradjen za rešavanje realnog problema • Domen: Turističke informacije o hotelima, restoranima, pabovima u Kembridžu (preko 500 entiteta) • Baziran je na delimično primetnom Markovljevom procesu odlučivanja • Aproksimacije • Ažurira raspodelu samo na N stanja sa najvećom verovatnocom • Učenje se izvršava na redukovanom prostoru

  14. Razumevanje govora 1. HI I’M LOOKING FOR INEXPENSIVE RESTAURANTS 2. HI I’M LOOKING FOR INEXPENSIVE RESTAURANT 3. HI I’M LOOKING FOR EXPENSIVE RESTAURANTS 4. I'M LOOKING FOR AN RESTAURANTS 5. I'M LOOKING FOR EXPENSIVE RESTAURANT 6. I'M LOOKING FOR AN RESTAURANT … UA1: inform(type=restaurant, pricerange=cheap) UA2: inform(type=restaurant, pricerange=expensive) Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

  15. Cilj korisnika – Predstavljen particijama UA1: inform(type=restaurant, pricerange=cheap) Prema ontologiji domena entity entity entity restaurant restaurant pricerange cheap

  16. Cilj korisnika – Prestavljen particijama UA2: inform(type=restaurant, pricerange=expensive) entity entity entity entity restaurant pricerange restaurant restaurant pricerange cheap expensive

  17. Istorija dijaloga Dodati infomacije iz istorije entity entity entity entity restaurant pricerange restaurant pricerange restaurant cheap expensive DB match DB match DB match DB match Konsultovati Bazu Podataka

  18. UA1 UA2 UA1 UA2 entity entity entity entity restaurant pricerange restaur. pricera. restau. restaur. DB UA1 DA1 UA2 cheap DB match expens. type entity ent DB match Raspodela N najverovatnijih hipoteza

  19. . Selekcija akcije Raspodela N hipoteza Redukovani prostor SA: confirm(type=restaurant, pricerange=cheap) CONFIRM

  20. Treniranje sa Simulatorom Korisnika u usloviama buke Redukovaniprostor • Simulator imitira ponašanje korisnika • Simulator imitira gresku koja se javlja pri prepoznavanju govora • Menadžer učikroz interakciju sa simulatorim • Greška se inkrementalno povećava tokom učenja • 100.000 dijaloga za optimalnu polisu stanje nova akcija nova akcija nova akcija nova akcija nova akcija nova akcija novo stanje nagrada

  21. Rezultati na Simuliranom korisniku Procenat uspeha (%) 95 90 HIS-POMDP 85 80 75 MDP 70 65 60 55 0 5 10 15 20 25 30 35 40 45 Stopa konfuzije(%)

  22. Rezultati sa pravim korsnicima u uslovima buke • Domen: Turističke informacije • 36 učesnika kojima je engleski maternji jezik • Veštački je dodata buka sa autoputa • Semantička greška 25.2%

  23. Zaključak i budući rad • Arhitektura statističkog sistema za dijalog • Hidden Information State sistem za rešavanje realnog problema zasnovan na delimično primetnom Markovljevom procesu odlučivanja • Rezultati pokazuju otpornost na buku i na simulatoru i na pravim korisnicima • Buduci rad: učenje od pravih korisnika i adaptacije

  24. Hvala Veb strana Grupe za dijalog: http://mi.eng.cam.ac.uk/research/dialogue/ Moja veb strana: http://mi.eng.cam.ac.uk/~mg436/

  25. Razumevanje govora Očekivana nagrada Optimialna polisa Generisanje Govora Dijalog kaodelimično prepoznatljiv Markovljev proces odluke ažuritati Raspodela stanja akt korisnika akt sistema polisa Reinforcement learning Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

  26. UA1 entity restaurant pricerange cheap DB match Q1. State – Summary Space Mapping Heuristics Grounding info Hypothesis status Heuristics Matching with DB Partition status Top Hypothesis prob Next Hypothesis prob User Act Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

  27. UA1 entity restaurant pricerange cheap DB match Q2. Summary Action – Action Mapping CONFIRM SA: confrm(type=restaurant, pricerange=cheap) Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

  28. Q3. Q-learning • Belief is heuristically mapped to summary state space • Q-learning on discretised summary state space – grid points • Exploitation – following the current best policy • Exploration – taking a random action Milica Gašić et al. Training and Evaluation of HIS System, SigDial08

More Related