Monte-Carlo Tree Search

Monte-Carlo Tree Search Matej Guid Laboratorij za umetno inteligenco, Fakulteta za računalništvo in informatiko, Univerza v Ljubljani Marec 2009

Monte-Carlo simulacije trenutnapozicija Izvajanje številnihsimulacij partij iz pozicij, ki jo želimo oceniti. Pri vsaki simulaciji odigramo (psevdo) naključne poteze, dokler ne dosežemo končnih stanj igre. Povprečen rezultat simuliranih partij služi kot ocena trenutne pozicije. simulacije Prednost: ogromno število simuliranih partij v zelo kratkem času Slabost: izjemno slaba kvaliteta simuliranih partij 1 0 1 0 rezultati

Monte-Carlo Tree Search • best-first search algoritem oz. tehnika • uporablja psevdo-naključno preiskovanje prostora • ne zahteva hevrističnega domenskega znanja • možno uporabiti pri katerikoli igri s končno dolžino trajanja • gradnja drevesa iskanja s pomočjo rezultatov Monte-Carlo simulacij

Monte-Carlo Tree Search • drevo iskanja na začetku še ne obstaja, začnemo v korenu – trenutni poziciji • smer preiskovanja je na začetku naključna, kasneje rezultati simulacij usmerjajopreiskovanje k bolj obetavnim nadaljevanjem • vsako vozlišče vsebuje dve vrednosti: • vrednost vozlišča: povprečen rezultat simuliranih partij • števec obiskov tega vozlišča

Monte-Carlo Tree Search • SELECTION izbira ustreznega vozlišča na dnu izgrajenega drevesa • EXPANSION v drevo dodamo enega ali več naslednikov v izbranem listu • SIMULATIONpsevdo-naključni self-play do končnega stanja igre • BACKPROPAGATION • rezultat simulirane partije vpliva na vsa vozlišča na poti do korena

Monte-Carlo Tree Search vrednost pozicije števec obiska drevo iskanja 1|1 trenutna pozicija simulacija 1 rezultat

Monte-Carlo Tree Search drevo iskanja 1|2 0|1 0

Monte-Carlo Tree Search drevo iskanja 2|3 1|1 0|1 1

Monte-Carlo Tree Search drevo iskanja 2|4 1|2 0|1 0|1 0

Monte-Carlo Tree Search drevo iskanja 3|5 2|3 0|1 0|1 1|1 0 1

Selection Strategy 1. SELECTION drevo iskanja 3|5 2|3 0|1 0|1 1|1 • izbira ustreznega vozlišča glede na shranjene statistike • pomembno ohraniti ravnovesje med exploitation in exploration EXPLOITATION Raziskati želimo nadaljevanje, ki vodi do najboljših rezultatov. EXPLORATION Tudi manj obetavna nadaljevanja je potrebno raziskati, zaradi nezanesljivih ocen, ki temeljijo na rezultatih simulacij.

UCT 1. SELECTION drevo iskanja 3|5 2|3 0|1 0|1 1|1 • UCT = UpperConfidenceboundapplied to Trees • strategija za izbiro vozlišča (Kocsis in Szepesvári 2006) • Izberemo vozlišče i, ki maksimizira: • vi + C × • Vi – vrednost vozlišča i • N – števec obiskov starša vozlišča i • ni – števec obiskov vozlišča i • C – koeficient • (večji kot je C, bolj se favorizira exploration)

Exploitation 1. SELECTION drevo iskanja 6|10 5|7 0|2 0|1 4|5 0|1 1|1 2|3 0|1 1|1 vi + C ×

Exploration 1. SELECTION drevo iskanja 6|10 5|7 0|2 0|1 4|5 0|1 1|1 2|3 0|1 1|1 vi + C ×

Expansion Strategy 2. EXPANSION drevo iskanja 3|5 2|3 0|1 0|1 1|1 0|0 • v drevoiskanja pri izbranem listu dodamo enega ali več naslednikov • najenostavnejša strategija je preprosto dodati eno vozlišče pri vsaki simulaciji(Coulom 2007)– ta strategija se je izkazala za uspešno v go programu Crazy Stone

Simulation Strategy 3. SIMULATION drevo iskanja 3|5 2|3 0|1 0|1 1|1 0|0 • igranje psevdo-naključnih potez, dokler ni doseženo končno stanje v drevesu igre • s pomočjo naučenih vzorcev in dodatnih omejitev je mogoče izboljšati kvaliteto simuliranih partij ISKANJE RAVNOVESJA: več znanja & boljša kvaliteta simuliranih partij ali večje število simuliranih partij & statistično močnejši rezultat 1

Backpropagation 4. BACK-PROPAGATION drevo iskanja 3|5 2|3 0|1 0|1 1|1 0|0 1

Reference Chen, K., Zhang, P.: Monte-Carlo Go with Knowledge-guided Simulations. ICGA Journal 31(2), 2008. Coulom, R.: Effcient selectivity and backup operators in Monte-Carlo tree search. In: the 5thInternational Conference on Computers and Games, Turin, Italy, 2006. Gelly, S. and Wang, Y. (2006). Exploration Exploitation in Go: UCT for Monte-Carlo Go, in Twentieth Annual Conference on Neural Information Processing Systems (NIPS 2006). S. Gelly and D. Silver. Combining online and online knowledge in UCT. InProceedings of the 24th international conference on Machine learning, pages 273-280. ACM Press New York, NY, USA, 2007. Kocsis, L. and Szepesv´ari, C. (2006). Bandit Based Monte-Carlo Planning, inJ. Füernkranz, T. Schaeffer and M. Spiliopoulou (eds.), Machine Learning: ECML 2006, Lecture Notes in Artificial Intelligence 4212, pp. 282–293. Y. Wang and S. Gelly. Modications of UCT and sequence-like simulations for Monte-Carlo Go. In Computational Intelligence and Games, 2007. CIG 2007. IEEE Symposium on, pages 175-182, 2007.

Monte-Carlo Tree Search

Monte-Carlo Tree Search

Presentation Transcript

Monte Carlo Simulation

Simulasi Monte Carlo

Monte Carlo Simulation

Monte Carlo Simulation

Monte Carlo

Monte Carlo, Monaco

Monte Carlo Simulation

Monte Carlo

Monte Carlo Tree Search: Insights and Applications BCS Real AI Event

Monte-Carlo Tree Search

Progressive Strategies For Monte-Carlo Tree Search

Parallel Monte-Carlo Tree Search with Simulation Servers

Monte-Carlo Search Algorithms

Monte Carlo Methods

MONTE CARLO PALACE

Monte Carlo Simulations

Monte Carlo (MC)

Monte Carlo Methods

Monte Carlo Integration

Monte-Carlo Methods

Monte Carlo Simulation

Monte Carlo Issues