1 / 22

Monte-Carlo Tree Search

Monte-Carlo Tree Search. Matej Guid. Laboratorij za umetno inteligenco, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani Marec 200 9. Monte-Carlo simulacije. trenutna pozicija. Izvajanje številnih simulacij partij iz pozicij, ki jo želimo oceniti.

hei
Download Presentation

Monte-Carlo Tree Search

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Monte-Carlo Tree Search Matej Guid Laboratorij za umetno inteligenco, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani Marec 2009

  2. Monte-Carlo simulacije trenutnapozicija Izvajanje številnihsimulacij partij iz pozicij, ki jo želimo oceniti. Pri vsaki simulaciji odigramo (psevdo) naključne poteze, dokler ne dosežemo končnih stanj igre. Povprečen rezultat simuliranih partij služi kot ocena trenutne pozicije. simulacije Prednost: ogromno število simuliranih partij v zelo kratkem času Slabost: izjemno slaba kvaliteta simuliranih partij 1 0 1 0 rezultati

  3. Monte-Carlo Tree Search • best-first search algoritem oz. tehnika • uporablja psevdo-naključno preiskovanje prostora • ne zahteva hevrističnega domenskega znanja • možno uporabiti pri katerikoli igri s končno dolžino trajanja • gradnja drevesa iskanja s pomočjo rezultatov Monte-Carlo simulacij

  4. Monte-Carlo Tree Search • drevo iskanja na začetku še ne obstaja, začnemo v korenu – trenutni poziciji • smer preiskovanja je na začetku naključna, kasneje rezultati simulacij usmerjajopreiskovanje k bolj obetavnim nadaljevanjem • vsako vozlišče vsebuje dve vrednosti: • vrednost vozlišča: povprečen rezultat simuliranih partij • števec obiskov tega vozlišča

  5. Monte-Carlo Tree Search • SELECTION izbira ustreznega vozlišča na dnu izgrajenega drevesa • EXPANSION v drevo dodamo enega ali več naslednikov v izbranem listu • SIMULATIONpsevdo-naključni self-play do končnega stanja igre • BACKPROPAGATION • rezultat simulirane partije vpliva na vsa vozlišča na poti do korena

  6. Monte-Carlo Tree Search vrednost pozicije števec obiska drevo iskanja 1|1 trenutna pozicija simulacija 1 rezultat

  7. Monte-Carlo Tree Search drevo iskanja 1|2 0|1 0

  8. Monte-Carlo Tree Search drevo iskanja 2|3 1|1 0|1 1

  9. Monte-Carlo Tree Search drevo iskanja 2|4 1|2 0|1 0|1 0

  10. Monte-Carlo Tree Search drevo iskanja 3|5 2|3 0|1 0|1 1|1 0 1

  11. Selection Strategy 1. SELECTION drevo iskanja 3|5 2|3 0|1 0|1 1|1 • izbira ustreznega vozlišča glede na shranjene statistike • pomembno ohraniti ravnovesje med exploitation in exploration EXPLOITATION Raziskati želimo nadaljevanje, ki vodi do najboljših rezultatov. EXPLORATION Tudi manj obetavna nadaljevanja je potrebno raziskati, zaradi nezanesljivih ocen, ki temeljijo na rezultatih simulacij.

  12. UCT 1. SELECTION drevo iskanja 3|5 2|3 0|1 0|1 1|1 • UCT = UpperConfidenceboundapplied to Trees • strategija za izbiro vozlišča (Kocsis in Szepesvári 2006) • Izberemo vozlišče i, ki maksimizira: • vi + C × • Vi – vrednost vozlišča i • N – števec obiskov starša vozlišča i • ni – števec obiskov vozlišča i • C – koeficient • (večji kot je C, bolj se favorizira exploration)

  13. Exploitation 1. SELECTION drevo iskanja 6|10 5|7 0|2 0|1 4|5 0|1 1|1 2|3 0|1 1|1 vi + C ×

  14. Exploration 1. SELECTION drevo iskanja 6|10 5|7 0|2 0|1 4|5 0|1 1|1 2|3 0|1 1|1 vi + C ×

  15. Expansion Strategy 2. EXPANSION drevo iskanja 3|5 2|3 0|1 0|1 1|1 0|0 • v drevoiskanja pri izbranem listu dodamo enega ali več naslednikov • najenostavnejša strategija je preprosto dodati eno vozlišče pri vsaki simulaciji(Coulom 2007)– ta strategija se je izkazala za uspešno v go programu Crazy Stone

  16. Simulation Strategy 3. SIMULATION drevo iskanja 3|5 2|3 0|1 0|1 1|1 0|0 • igranje psevdo-naključnih potez, dokler ni doseženo končno stanje v drevesu igre • s pomočjo naučenih vzorcev in dodatnih omejitev je mogoče izboljšati kvaliteto simuliranih partij ISKANJE RAVNOVESJA: več znanja & boljša kvaliteta simuliranih partij ali večje število simuliranih partij & statistično močnejši rezultat 1

  17. Backpropagation 4. BACK-PROPAGATION drevo iskanja 3|5 2|3 0|1 0|1 1|1 0|0 1

  18. Backpropagation 4. BACK-PROPAGATION drevo iskanja 3|5 2|3 0|1 0|1 1|1 1|1 1

  19. Backpropagation 4. BACK-PROPAGATION drevo iskanja 3|5 2|3 0|1 0|1 2|2 1|1 1

  20. Backpropagation 4. BACK-PROPAGATION drevo iskanja 3|5 3|4 0|1 0|1 2|2 1|1 1

  21. Backpropagation 4. BACK-PROPAGATION drevo iskanja 4|6 3|4 0|1 0|1 2|2 1|1 1

  22. Reference Chen, K., Zhang, P.: Monte-Carlo Go with Knowledge-guided Simulations. ICGA Journal 31(2), 2008. Coulom, R.: Effcient selectivity and backup operators in Monte-Carlo tree search. In: the 5thInternational Conference on Computers and Games, Turin, Italy, 2006. Gelly, S. and Wang, Y. (2006). Exploration Exploitation in Go: UCT for Monte-Carlo Go, in Twentieth Annual Conference on Neural Information Processing Systems (NIPS 2006). S. Gelly and D. Silver. Combining online and online knowledge in UCT. InProceedings of the 24th international conference on Machine learning, pages 273-280. ACM Press New York, NY, USA, 2007. Kocsis, L. and Szepesv´ari, C. (2006). Bandit Based Monte-Carlo Planning, inJ. Füernkranz, T. Schaeffer and M. Spiliopoulou (eds.), Machine Learning: ECML 2006, Lecture Notes in Artificial Intelligence 4212, pp. 282–293. Y. Wang and S. Gelly. Modications of UCT and sequence-like simulations for Monte-Carlo Go. In Computational Intelligence and Games, 2007. CIG 2007. IEEE Symposium on, pages 175-182, 2007.

More Related