Le No Limit Heads Up Hold’em et l’apprentissage de la machine

Le No Limit Heads Up Hold’em et l’apprentissage de la machine Comment jouer au poker à 2 joueurs?

Introduction • Pourquoi le poker est-il étudié? - connaissances et données partielles - environnement dynamique et stochastique (évaluation des risques) - Un univers à valeurs continues (hautes dimensions) - Modélisation des joueurs - Calcul des côtes et probabilités - Bluff • Un univers d’IA totalement différent des Echecs ou des Dames.

L’existant • L’université d’Alberta • Bots online • PsOpti (limit poker) • Aucune étude sur le No Limit.

Buts de l’étude • Passer outre les difficultés • Ecrire un programme “intelligent” • Meilleur que les probabilités • Auto correcteur • Adaptable

Règles et vocabulaire Community cards Joueur1 Joueur 2 Flop Turn River Small blind Cartes privées Big blind Pot

Boîtes à outils • Utilisation d’un data set • Tables de probabilité pré calculées • Un univers discret d’actions et de type de cartes • Algorithmes de calculs de probabilité en temps réel

Procédé global • Descriptions des joueurs • Poids calculés de la main adverse • Description de la force de la main • Calculs des probabilités des actions • Online learning

Actions observées DATASET Modélisation de l’adversaire Poids des cartes AsAh AsKd KsQh TsTh Suppositions des cartes

Cartes adverses supposées Forces de la main DATASET Modélisations des joueurs Réponse appropriée Choix de l’action

DATASET Apprentissage offline Apprentissage temps réel (correction) Cycle d’apprentissage

Outils utilisés • PokDTC Network (Serveur et clients) • Poker Academy Pro • Scripts de jeu

Expériences

Random Bot

Apprentissages

Abitbot vs Angus

Joueur humain

Conclusion • Bonnes performances contre d’autres bots • Echecs contre joueurs humains de bons niveaux • Besoin de modifier le dataset • Apprentissage réussi mais insuffisant • Possibilités d’utilisation sur d’autres variantes

Le No Limit Heads Up Hold’em et l’apprentissage de la machine

Le No Limit Heads Up Hold’em et l’apprentissage de la machine

Presentation Transcript

Drilling Machine Accessories

Poker Club’s guide to No-Limit Texas Hold Em

APPRENTISSAGE ARTIFICIEL (« Machine-Learning »)

Ergonomie des Interactions personne-machine

Troubles d’apprentissage

TRACE D’APPRENTISSAGE

Situations d’apprentissage et d’évaluation

L’évaluation au service de l’apprentissage

Tweed Heads

Wire Figures

Apprentissage supervisé à partir de séquences

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

L’APPRENTISSAGE: UNE ILLUSTRATION L’apprentissage de la lecture

Florida Engineering Foundation No-Limit Texas Hold ‘Em Tournament

Apprentissage Anticipé de la conduite (AAC) R.211-5

« apprentissage, éducation et formation »

Marjolaine PRIOLET

Par rapport aux modèles d’apprentissage classiques,

Béhaviorisme L ’apprentissage est basé sur le transfert des connaissances

La course à l’apprentissage

Les objectifs d’apprentissage