משחקים הסתברותיים אלגוריתם Expectimax משחק השש- בש

משחקים הסתברותייםאלגוריתם Expectimaxמשחק השש-בש מבוא לבינה מלאכותית (236501) מדעי המחשב, טכניון עומר גייגר חורף 2013-14

Lesson Plan • בשיעור זה נדון במשחקים הסתברותיים. • לצורך כך... • נרענן מושגים בסיסיים בהסתברות בדידה וקומבינטוריקה: • התפלגויות נפוצות: יוניפורמית, ברנולי, בינומית, גאומטרית. • תוחלת, שונות, סטיית תקן. • בחירה קומבינטורית עם\ללא חזרות, עם\בלי חשיבות לסדר. • נתרגל את האלגוריתם המרכזי בקורס למשחקים הסתברותיים: Expectimax. • נתמקד בשאלות הרלוונטיות למשחק השש-בש: • נסקור את חוקי המשחק בקצרה. מי שלא בקיא במשחק, מתבקש לקרוא את השקפים בעיון ולוודא הבנה של המשחק ובפרט לקראת הבחינה. • נגדיר יוריסטיקה בסיסית מתאימה למשחק. • נדון באספקטים של ביצועי שחקן Expectimax עם יוריסטיקה זו. • נזכיר את אלגוריתם Monte-carlo למשחקים עם אינפורמציה חלקית (ואחרים). מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q1 מה התפלגות התוצאות של זוג קוביות הוגנות זהות עם 6-פאות? לא דאבל: דאבל: מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q2 נכליל ונשאל לגבי התפלגות זוג "קוביות" הוגנות עם K פאות... לא דאבל: דאבל: מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Combinatorics Q3 כמה אפשרויות שונות יש לתוצאת זוג "קוביות" זהות עם -פאות? דרך 1: ספור שורות וסכם סדרה חשבונית. דרך 2: ספור דאבליםואחרים. דרך 3: בחר 2 מתוך עם חזרות ובלי חשיבות סדר. עבור נקבל 21 אפשרויות. מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon • שש-בש • משחק שני שחקנים • תור מתחלף • סכום אפס • אינפורמציה מלאה • אי דטרמיניסטי • חוקי המשחק • המצב התחילי קבוע וידוע מראש. • המטרה: "הוצאת" כל הכלים של השחקן מהלוח. • האמצעי: הנעת חיילי השחקן עם כיוון השעון לשחקן א' או נגד כיוון השעון לשחקן ב'. • לאחר שכל חיילי השחקן הועברו לרביע האחרון שלו, הוא מתחיל להוציא את חייליו. מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon • חוקי המשחק • בכל תור השחקן מגלגל זוג קוביות זהות (עם 6 פאות). • אם יצאו שונים : השחקן בוחר להזיז אחד מחייליו צעדים בכיוון המוגדר ואח"כ כל אחד מחייליו צעדים (או בסדר ההפוך). • אם יצא "דאבל" : השחקן בוחר לבצע 4 הזזותצעדים עם חיילים לבחירתו. • אסור לסיים הזזה על מיקום בו נמצאים יותר משני חיילי יריב (זה נקרא "בית"). • סיום הזזה על חייל יריב בודד נקרא "לקיחה". במקרה זה החייל מוצא מהלוח ונדרש לחזור לרביע הראשון של השחקן בתור הבא (יוסבר בשקף הבא). • ניתן להזיז אותו חייל מספר פעמים בתור. I I מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon • חוקי המשחק • חיילים שנלקחו חייבים לחזור לרביע הראשון של השחקן לפני שהשחקן מבצע כל מהלך נוסף. • מיקום החזרה לרביע הראשון מתבצעת עפ"י המספר שעל הקובייה ו"צורך" צעד. 6 5 4 3 2 1 I I I 6 5 4 3 2 1 מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon • חוקי המשחק • בכל מקרה שאין אפשרות להשתמש בצעד, הוא הולך לאיבוד. • במידה וניתן להשתמש בשני המהלכים - חייב השחקן לעשות זאת. • זאת אומרת שאסור לבצע מהלך ולוותר על השני כיוון שלא נותרו מהלכים חוקיים אם ניתן להימנע מכך. 4 6 מצב נוכחי: 4 6 תקוע! 6 4 חייב לבצע! מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon • חוקי המשחק - סיום • לאחר ששחקן הביא את כל חייליו לרביע האחרון שלו, הוא מתחיל להוציא את חייליו. • ניתן לחשוב על הוצאה כעל הזזה לנקודה הבאה שנמצאת מעבר ללוח. • לפיכך ההוצאות האפשריות הן בהתאם למספור המיקומים הבא. • ניתן גם להוציא חייל במיקום באמצעות קובייה עם ערך אך זאת אך ורק במקרה שאין אף חייל במיקום גדול מ-. 6 5 4 3 2 1 4 5 מצב נוכחי: IV NO! 4 IV 5 I OK 5 4 1st 2nd 6 5 4 3 2 1 מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon game tree Max PROB מהו מקדם הסיעוף? (בצומת PROB) מה ההסתברויות על הקשתות? MIN 21 לא דאבל: דאבל:

Expectimax algorithm DIFF (with RB-Minimax)

Backgammon Q4 הציעו יוריסטיקה פשוטה עבור משחק השש-בש נרצה לבטא את המרחק של כלל חיילי שני השחקנים מסוף מהלוח. לצורך כך נמספר את צעדי היחידה מכל נקודה בלוח עד ל"יציאה". נסכם את מרחקי כל חיילי היריב מהיציאה ונחסיר את הסכום המקביל עבור חיילי הסוכן. נקרא ליוריסטיקה זו 12+ : 1 2 3 456 1 2 3 45 6 : + 18 דוגמת חישוב חוץ = 25 II I III IV I 6 5 4 3 2 1 6+ : 6 5 4 3 2 1 מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Exam Q5 חורף 2007-8, מועד א האלגוריתם מחשב תוחלת בצמתים הסתברותיים, כלומר סכום משוקלל של ערכי RB-Expectimax לפי ההסתברויות השונות. משפט ההבטחה מבטיח שלאחר D צעדים נגיע למצב בו הערך היוריסטי הוא לפחות הערך המוחזר. על מנת להבטיח זאת, צריך לבחור בצמתים ההסתברותיים את הערך הנמוך ביותר במקום התוחלת. כלומר, להתייחס לצמתים ההסתברותיים כצמתי מינימום נוספים. מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Exam Q5 חורף 2007-8, מועד א שחקן זה ישחק באופן שמרני (פחדני) כיוון שהוא מניח את המקרה הגרוע עבור הגורמים ההסתברותיים וכך ימנע ממהלכים אשר בהסתברות גבוהה יניבו תוצאות טובות רק בגלל החשש מהמקרה הגרוע והפחות סביר. ככל הנראה השחקן ישחק בצורה פחות טובה מהאלגוריתם המקורי. מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon expansion question בהינתן מצב הלוח הבא בשש-בש, מה המהלך שיבחר שחקן Expectimaxרגיל ומה המהלך שיבחר השחקן השמרני מהשאלה הקודמת? הצדק את בחירתך באמצעות ערכי הExpectimaxעבור שני המהלכים הנ"ל לפי עומק 3: MAX, אז PROB ואז MIN. ניתוח פשטני כל מהלך אפשרי נותן לערך הExpectimax עבור ההתקדמות. המהלך ה"רצוי" מוסיף לכך ערך עבור האכילה אך פותח אפשרות לאכילה חוזרת ע"י היריב בתור הבא. ההסתברות שבמהלך הבא היריב יוכל את החייל בחזרה היא יחסית נמוכה, אך זהו בדיוק הסיכון שהשחקן הזהיר נמנע מלקחת. 2 2 המהלך שייבחר המהלך הרצוי 1 2 1 מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Backgammon expansion question : המצב הקודם 1 2 : המצב לאחר המהלך השמרני : המצב לאחר המהלך הרצוי בחוץ: 1 נחשב את ההפרש בין ערכי המינימקס של ושל לעומק הנותר 2 הרווח היוריסטי בעקבות האכילה: הסיכוי לאכילה חוזרת ע"י היריב בתור הבא: ההפסד היוריסטי בעקבות אכילה חוזרת שכזו: השחקן השמרני מתעלם מההסתברות ולכן מתקבל הפרש שלילי מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q6 מה התפלגות הסכום של זוג קוביות הוגנות זהות עם 6 פאות? מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q7 במשחק Sennetמספר הצעדים לתזוזה נקבע ע"י הטלת 6 מטבעות הוגנים וספירת מספר ה"פלי" שהתקבלו. מה ההתפלגות של תוצאת שישיית הטלות שכזו? הטלה בודדת: התפלגות ברנולי שישיית הטלות: התפלגות בינומית מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q8 התפלגות בינומית מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q8 מה התוחלת, השונות וסטיית התקן של התפלגות זו? מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q8 ורק לאימות... ידוע שמשתנה המפולג בינומית מקיים במקרה שלנו () זכרו גם שתוחלת הינה אדיטיבית: מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Probability Q9 במשחק מונופול בכל תור מגלגלים זוג קוביות הוגנות זהות עם 6 פאות. במקרה שהשחקן מטיל "דאבל" (ורק במקרה זה) הוא זוכה בתור נוסף. מה התוחלת של כמות התורות הרצופים של שחקן? מדובר בהתפלגות גאומטרית שהרי ההסתברות לקבל דאבל הינה . בפועל, במשחק המונופול מספר התורות הרצופים לשחקן חסום ע"י הקבוע 3. נקבל התפלגות גאומטרית קטומה, נחשב את התוחלת לפי הגדרה: מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Monte-Carlo algorithm • מתאים למשחקים בהם יש אינפורמציה חלקית: מצב המשחק ידוע רק חלקית לשחקנים. • נדגום מצבים מלאים שהינם קונסיסטנטיים עם האינפורמציה הידועה. • נשערך אלפא-ביטא עבור מצבים אלו למהלכים האפשריים ונחשב ממוצע. • נבצע את המהלך שמוביל למצב עם ערך ממוצע הטוב ביותר. מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר חורף 2013-14

Thank you! questions? התרגול מבוסס על חומרים באדיבותו של: פרופ' שאול מרקוביץ' מבוא לבינה מלאכותית (236501) מדעי המחשב- טכניון. עומר גייגר, חורף 2013-14

משחקים הסתברותיים אלגוריתם Expectimax משחק השש- בש

משחקים הסתברותיים אלגוריתם Expectimax משחק השש- בש

Presentation Transcript

Games: Expectimax

Temporal Difference Learning with Expectimax Search for the CGI-Threes

Temporal Difference Learning with Expectimax Search for the Threes-bot

Quiz 5: Expectimax/Prob review