1 / 18

Le No Limit Heads Up Hold’em et l’apprentissage de la machine

Le No Limit Heads Up Hold’em et l’apprentissage de la machine. Comment jouer au poker à 2 joueurs ?. Introduction. Pourquoi le poker est-il étudié? - connaissances et données partielles - environnement dynamique et stochastique (évaluation des risques)

Download Presentation

Le No Limit Heads Up Hold’em et l’apprentissage de la machine

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Le No Limit Heads Up Hold’em et l’apprentissage de la machine Comment jouer au poker à 2 joueurs?

  2. Introduction • Pourquoi le poker est-il étudié? - connaissances et données partielles - environnement dynamique et stochastique (évaluation des risques) - Un univers à valeurs continues (hautes dimensions) - Modélisation des joueurs - Calcul des côtes et probabilités - Bluff • Un univers d’IA totalement différent des Echecs ou des Dames.

  3. L’existant • L’université d’Alberta • Bots online • PsOpti (limit poker) • Aucune étude sur le No Limit.

  4. Buts de l’étude • Passer outre les difficultés • Ecrire un programme “intelligent” • Meilleur que les probabilités • Auto correcteur • Adaptable

  5. Règles et vocabulaire Community cards Joueur1 Joueur 2 Flop Turn River Small blind Cartes privées Big blind Pot

  6. Boîtes à outils • Utilisation d’un data set • Tables de probabilité pré calculées • Un univers discret d’actions et de type de cartes • Algorithmes de calculs de probabilité en temps réel

  7. Procédé global • Descriptions des joueurs • Poids calculés de la main adverse • Description de la force de la main • Calculs des probabilités des actions • Online learning

  8. Actions observées DATASET Modélisation de l’adversaire Poids des cartes AsAh AsKd KsQh TsTh Suppositions des cartes

  9. Cartes adverses supposées Forces de la main DATASET Modélisations des joueurs Réponse appropriée Choix de l’action

  10. DATASET Apprentissage offline Apprentissage temps réel (correction) Cycle d’apprentissage

  11. Outils utilisés • PokDTC Network (Serveur et clients) • Poker Academy Pro • Scripts de jeu

  12. Expériences

  13. Random Bot

  14. Apprentissages

  15. Abitbot vs Angus

  16. Joueur humain

  17. Conclusion • Bonnes performances contre d’autres bots • Echecs contre joueurs humains de bons niveaux • Besoin de modifier le dataset • Apprentissage réussi mais insuffisant • Possibilités d’utilisation sur d’autres variantes

More Related