slide1
Download
Skip this Video
Download Presentation
הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה

Loading in 2 Seconds...

play fullscreen
1 / 31

הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה - PowerPoint PPT Presentation


  • 151 Views
  • Uploaded on

הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה. מגישים: משה שגיב רועי דימינטשטיין מנחה : כפיר לוי. מערכות לומדות מימוש סוכן לומד המשחק פקמן. מבנה המצגת. הצגת הנושא מימוש האלגוריתמים סוכן אמיץ/פחדן התוכנה הדגמה תוצאות ומסקנות שלבים בפיתוח. הצגת הנושא. למידה ע"י חיזוקים

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה' - xiang


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה

מגישים:

משה שגיב רועי דימינטשטיין

מנחה:

כפיר לוי

מערכות לומדות

מימוש סוכן לומד המשחק פקמן

slide2
מבנה המצגת
  • הצגת הנושא
  • מימוש האלגוריתמים
  • סוכן אמיץ/פחדן
  • התוכנה
  • הדגמה
  • תוצאות ומסקנות
  • שלבים בפיתוח
slide3
הצגת הנושא
  • למידה ע"י חיזוקים
  • עבודות קודמות בנושא
  • מוטיבציה
slide4
למידה ע"י חיזוקים
  • מהי למידה ע"י חיזוקים?
  • הצגת המודל
    • מצבים אפשריים, פעולות אפשריות, פונקצית מעבר, פונקצית מדיניות ופונקצית רווח.
slide5
עבודות קודמות בנושא
  • אלגוריתם Sarsa
    • מתבסס על חישוב תוחלות
  • אלגוריתם CVaR
    • פיתוח המשוואה
    • משערך פונקצית צפיפות הסתברות במקום תוחלת
  • גישת actor-critic:
slide6
מוטיבציה
  • השוואה בין Sarsa ל- CvaR
  • יצירת סוכן אמיץ/פחדן
sarsa
מימוש האלגוריתמים - Sarsa
  • האלגוריתם במבט על:
    • מתחילים ממדיניות אקראית
    • בוחרים פעולה למצב הנוכחי לפי פונקצית המדיניות
    • צופים בערכי התצפית (המצב הבא שהתקבל, הרווח וכד').
    • עדכון פונקצית התגמול , Q, עבור המצב ופעולה לפי הנוסחא:
sarsa1
מימוש האלגוריתמים - Sarsa
  • Bellman error
    • מדד למתי הסוכן למד "מספיק" ויש לעדכן את המדיניות.
sarsa2
מימוש האלגוריתמים - Sarsa
  • בעיה: נניח מצב בו הפקמן מוצא דרך המניבה רווחים חיוביים מאוד, אך היא איננה הדרך האופטימאלית. מצב זה נקרא exploitation
  • פתרון: נוסיף אקראיות לבחירת הפעולה ובכך נאפשר exploration.
slide10
מימוש האלגוריתם - CVaR
  • שערוך פונקצית צפיפות ההסתברות
    • Particles
    • פיתוח לפי המאמר המראה את התלות בין צפיפות ההסתברות של המצב הנוכחי לזו של המצבים האחרים.
    • שימוש ב- particles לשערוך
slide11
מימוש האלגוריתם - CVaR
  • האלגוריתם במבט על
    • מאתחלים עבור כל מצב פעולה Kparticles מפולגים יוניפורמית בגובה 1/K ( אין בידינו מידע עדיין).
    • עבור המצב הנוכחי בוחרים פעולה לפי פונקצית המדיניות.
    • צופים בערכי התצפית ( הרווח והמצב הבא).
    • מזיזים מספר particles קבוע מראש לפי הנוסחא:

כאשר p , q מייצגים שני particles אקראיים ו-v מיצג את מיקומם.

slide12
מימוש האלגוריתם - CVaR
  • מדד דואלי לשגיאת bellman
    • יצירת מיצוע על פונקציות צפיפות הסתברות של המצב הנוכחי והמצב הבא נסמן f , g.
    • יצירת פונקציות הסתברות מצטברת: F, G.
    • מכך ש:

(הרווח המהוון המצטבר של המצב הנוכחי צריך להיות "קרוב" לזה של המצב הבא).

    • נקבל שהביטוי הבא

צריך להיות קטן

slide13
סוכן אמיץ/פחדן
  • גזירת התנהגות אמיצה/פחדנית מפונקצית ההסתברות
    • יצירת פונקצית הסתברות מצטברת
    • שערוך חלק עליון/תחתון של פונקצית ההסברות
slide14
סוכן אמיץ/פחדן
  • אמיץ: "אם אני מצליח אז אני רוצה להצליח הכי הרבה שאפשר"
  • פחדן: "אם כבר נפלתי אז אפול פחות"
slide15
התוכנה
  • פותחה בשפת Java – מבוססת תכנות מונחה עצמים.
  • כל אלגוריתם מומש כאובייקט היורש מאובייקט אבסטרקטי הנקרא "מוח" ( Brain בתוכנה)
  • מאפשרת reuse והרחבה ל"מוחות" אחרים
  • הפרדה מלאה בין מימוש האלגוריתמים למשחק עצמו.
  • תיעוד עפ"י קונבנציות – javadoc
  • UML
slide19
תוצאות ומסקנות
  • קריטריוני ההשוואה מתבססים על איסוף נתונים אונליין (תוך כדי ריצה) של הרווח המהוון בנקודות דגימה שונות.
  • נתונים אלו נותחו אופליין בעזרת matlab.
  • כל הגרפים, פרט לגרפים האופייניים מהווים אינטרפולציה של 10 הרצות של המשחק, כאשר כל הרצה היא למידה של כחצי שעה.
    • מסקנה: הפקמן עבד קשה!!!
slide27
הפקמן מינקות לבגרות
  • הרצה ראשונית של Sarsa –
    • מסך גדול, ללא מפלצת
    • הפקמן נתקע בקירות

 הוספת עונש על מצב stand.

  • עדכון כעבור מספר קבוע של צעדים ( לפני bellman error)
    • עדכונים מהירים  לומד מסלול קצר, נמנע מ"שיגעון" יותר מהר.
    • רועי: "הוא לומד, הוא לומד..".
slide28
יש "התבייתות" על המטרה ברגע שהוא קרוב אליה בשאר המקומות המצב נראה אקראי ( המסך עדיין גדול)
    • משה: "יש פה למידה"
  • הוספת אקראיות, הגדלת הזמן בין כל

עדכון (עדיין קבוע)

    • כאשר יש הרבה אקראיות הוא נחלץ יותר

מהר מ"שטויות".

  • מסקנה:
    • עדכונים מהירים  למידה התחלתית יותר מהירה
    • עדכונים יותר ארוכים  התכנסות יותר טובה
slide29
תמיד צריך אקראיות "לתת לו סטירות כאשר הוא נתקע".
  • רעיון: להתחיל עם אקראיות רבה ועם הזמן להקטין אותה.
  • הוספת שגיאת בלמן
  • הקטנת מסך
  • הוספת מצב fast forward
  • יש למידה + התכנסות
  • הוספנו מפלצת
  • רועי: "זה עובד!!!!!!!!!!"
ad