Download
emergencia strat gie hry n.
Skip this Video
Loading SlideShow in 5 Seconds..
Emergencia strat é gie hry PowerPoint Presentation
Download Presentation
Emergencia strat é gie hry

Emergencia strat é gie hry

137 Views Download Presentation
Download Presentation

Emergencia strat é gie hry

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Emergencia stratégie hry Peter Lacko Fakulta informatiky a informačných technológií

  2. Emergencia stratégie hry • vznik stratégie hry bez znalosti experta • Neurónové siete • Evolučné algoritmy • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Go (patter recognition) • Analýza siete

  3. Neurónová sieť • Predspracovanie vstupov • Skryté vrstvy

  4. Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

  5. Mixture of Experts • Mixture of experts • Hybrid Mixture of Experts • Meta PI • Iná štruktúra • Rôzne topológie expertov • Evolučný princíp

  6. Ciele • Vznik stratégie hry bez znalosti experta experta • Neurónové siete • Mixture of experts • Reinforcement learning • Použitá hra • Dáma (Zjednodušená dáma) • Othello (CEC 2006 Othello competition) • Analýza siete

  7. Pravidlá zjedodušenej dámy Hra ako vhodný problém pre umelú inteligenciu • hra je štruktúrovaný dobre definovaný problém • ľubovoľný stav hry má presnú reprezentáciu • úspešnosť riešenia sa dá dobre merať Zjednodušená dáma • vyhráva hráč ktorý si vytvorí dámu

  8. Model hry dáma • model hry je pokrytý algoritmom MiniMax do hĺbky 3 3 1 2

  9. Formalizácia hry • diskrétna množina stavov • diskrétna množina akcií • množina ohodnotení

  10. Učenie s trestom a odmenou • Zákon účinku sa zaoberá pôsobením odmeny/trestu na opakujúce sa, bezprostredne po sebe idúce podnety (vstupy, stimuly) a odozvy (výstupy, reakcie). • Podľa zákona opakovaného používania je požadované správanie výsledkom častého používania dvojice podnet a odozva.

  11. Učenie s trestom a odmenou • dvojvrstvová dopredná neurónová sieť • sieť si upravuje svoje váhy až po odohraní partiepomocouTD() pravidla • na učenie nepotrebujeme učitela, stačí nám, ak vieme rozhodnúť či sieť vyhrala alebo prehrala

  12. Evolučný prístup • populácia neurónových sietí hrá megaturnaj z ktorého výsledku získajú fitness • fitness ovplyvňuje pravdepodobnosť repredukcie • reprodukcia je spojená s mutáciou (pripočítanie náhodného čísla k váhe neurónovej siete)

  13. Dosiahnuté výsledky Výsledok učenia neurónovej siete s učiteľom (MiniMax) • 64 skrytých neurónv • rýchlosťou učenia 0,01 • koeficientom =0,9 MiniMax hĺbky 1 MiniMax hĺbky 3

  14. Dosiahnuté výsledky Priemerný výsledok adaptácie populácie 20 neurónových sietíučeným metódou trestu a odmenu, testovaných na algoritme MiniMax hĺbky 3 • 64 skrytých neurónov • rýchlosťou učenia 0,01 • koeficientom =0,9

  15. Dosiahnuté výsledky Priemerný výsledok evolučnej adaptácie populácie neurónových sietí testovaných proti algoritmu MiniMax hĺbky 3 Megaturnaj bez MiniMax-u Megaturnaj s MiniMax-om

  16. Analýza siete • sieť sa snaží dostať svoje figúrky na víťazné políčka • figúrky z 2 rady by mali čo najskôr opustiť svoje pozície a ísť do útoky • figúrky z prvého radu by tam mali zostať. • sieť sa bude snažiť zabrániť preniku súpera k jeho víťaznej pozícií. • súperove figúrky stojace na políčkach ktoré znamenajú víťazstvo sa bude sieť snažiť z tejto pozície vylákať

  17. Odozva siete na figúrku Odozva na súperovu figúrku Odozva na hráčovu figúrku

  18. Paralelné spracovanie • megaturnaj 100 agentov je 9900 hier • použité rozhranie zasielania správ MPI • pri našich pokusoch sme používali 12 počítačov (Intel P4 2,6GHz) spojených 100Mbit prepínanou sieťou • zrýchlenie oproti jednému počítaču dosahovalo hodnotu 8,5-10x

  19. Zhodnotenie • neurónová sieť bola schopná naučiť sa hrať hru a vytvoriť si stratégiu ktorou bola schopná poraziť svojho súpera • algoritmus MiniMax od určitej hĺbky generovania stromu neurónovú sieť porážal • rýchlosť generovania odpovede bola pri neurónovej sieti neporovnateľne rýchlejšia a taktiež pamäťové nároky neurónovej siete sú minimálne • nevýhodou neurónovej siete je potreba učenia, ktoré môže byť zdĺhavé • neurónová sieť si dokáže pri hre so slabším protivníkom vytvoriť stratégiu, ktorá je vhodná aj proti silnejším protivníkom.

  20. Ďakujem za Vašu pozornosť

  21. Neurónová sieť Sekvecia pozícií s ich ohodnotením Kde ohodnotenie je Potom sa snažíme minimalizovať funkciu TD() pravidlo na zmenu váh neurónovej siete