60 likes | 134 Views
Αυτόνομοι Πράκτορες ΠΛΗ 503. Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:2002030120. Ορισμός Περιβάλλοντος. Εικονικό περιβάλλον προσομοίωσης ενός παίκτη που παίζει poker . ( Reinforcement Learning)
E N D
Αυτόνομοι ΠράκτορεςΠΛΗ 503 Project Εξαμήνου 2008 Χρήση Ενισχυτικής Μάθησης Για Την Εύρεση Πολιτικών Του Παιχνιδιού Με Χαρτιά Poker. Μιχάλης Τρουλλινός ΑΜ:2002030120
Ορισμός Περιβάλλοντος • Εικονικό περιβάλλον προσομοίωσης ενός παίκτη που παίζει poker. (Reinforcement Learning) • Έχουμε μια τράπουλα με 32 φύλλα, ο παίκτης παίρνει 5 φύλλα και μπορεί να αλλάξει από 0 μέχρι και 3 φύλλα. • Μετά την αλλαγή ανάλογα με τον συνδυασμό που έχει σχηματίσει επιβραβεύεται με το κατάλληλο reward. • Ο θόρυβος προέρχεται από το γεγονός ότι ανακατεύουμε την τράπουλα με τυχαίο τρόπο.
Συνάρτηση Προσέγγισης • Οι καταστάσεις που έχουμε είναι =201,376 και υπάρχουν 26 τρόποι να αλλάξουμε από 0-3 φύλλα. • Αυτά μας κάνουν 5,235,775. Για τον λόγο αυτό χρησιμοποιούμε συνάρτηση προσέγγισης. • Η συνάρτηση προσέγγισης ορίστηκε με βάση την συμπεριφορά που επιδεικνύουν τα 5 φύλλα στο χέρι. • Με αυτόν τον τρόπο έχουμε δραματική μείωση των καταστάσεων που απαιτούνται.
Q-Learning • Αποτέλεσμα της χρήσης συνάρτησης προσέγγισης είναι να μπορούμε με μόλις 600training loops να εκπαιδεύσουμε τον πράκτορα μας. • Τα στοιχεία που αποθηκεύονται από τον αλγόριθμο είναι το reward που κέρδισε με βάση την συνάρτηση προσέγγισης και τον αριθμό φύλλων που άλλαξε. • Ακολουθεί η γραφική παράσταση που δείχνει για όλα τα training loops το reward που κέρδισαν. (Ομαδοποιημένα κατά 50 για 35 επαναλήψεις.)
Συμπεράσματα • Από την αξιολόγηση της γραφικής παράστασης έχουμε τα ακόλουθα συμπεράσματα: • Οι γύροι εκπαίδευσης που απαιτούνται είναι σχετικά λίγοι περίπου 600 για να φτάσει σε ένα αποδεκτό επίπεδο. • Μετά από αυτόν τον αριθμό η απόδοση του παραμένει σταθερή. • Ο πράκτορας μετά την εκπαίδευση του σχηματίζει κατά μέσο όρο συνδυασμό αξίας δύο ζευγαριών που θεωρώ ότι είναι ένα ικανοποιητικό επίπεδο επιδόσεων.