1 / 26

התניה אופרנטית – חלק א'

התניה אופרנטית – חלק א'. מבוא ללמידה והתנהגות: התניה ומח שעור 4. נושאים. חובות מפעם קודמת: כמה מלים על חוק בייס ו- Kalman filter התניה קלאסית ובני אדם: טיפול בפוביות Thorndike וה- Law of Effect סוגי פרוצדורות בצעדים בדידים Skinner ולוחות חיזוק

zihna
Download Presentation

התניה אופרנטית – חלק א'

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. התניה אופרנטית – חלק א' מבוא ללמידה והתנהגות: התניה ומח שעור 4

  2. נושאים • חובות מפעם קודמת: • כמה מלים על חוק בייס ו-Kalman filter • התניה קלאסית ובני אדם: טיפול בפוביות • Thorndike וה- Law of Effect • סוגי פרוצדורות בצעדים בדידים • Skinner ולוחות חיזוק • מודל Actor Critic – קשר ל-TD, מימוש ברשת נוירונים • מימוש במח – תאוריה, ומעשה (fMRI – O’Doherty+Dayan, Wightman+Phillips - FSCV)

  3. אי ודאות והתניה קלאסית • לכל ערך של גירוי מוצמד גם מידת בטחון (uncertainty) בערך. הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה. • מבחינת שילוב אופטימלי של מידע חדש עם ישן, ככל שהבטחון נמוך יותר, נרצה להגביר את קצב הלמידה • איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית?

  4. חוק Bayes – הסקה סטטיסטית • המטרה: לייצג אמונות על העולם • אקסיומות Cox: אם מייצגים אמונות ע"י מספרים ממשיים, הדרך היחידה לתפעל אותם, שהיא סבירה וקונסיסטנטית, היא ע"י חוק Bayes. • דרך אופטימלית (מבחינה סטטיסטית) לשלב בין הנחות קודמות למידע חדש • המון מחקר כיום מראה כי אנשים ובע"ח משתמשים בהסקה בייסאנית (מע' מוטורית, ויזואלית וכו'). עוד בסוף הקורס.

  5. Kalman filter – הסקה סטטיסטית ותחרות • במודל סטטיסטי מסויים של העולם (הילוך מקרי עם רעש גאוסיאני של הערכים, רעש גאוסיאני בתצפיות), ההסקה הסטטיסטית האופטימלית (מהנצפה אל הערכים האמיתיים, לפי חוק Bayes) היא עפ"י Kalman filter: • כמודל של למידה קלאסית מגלם: קצב למידה תלוי בבטחון היחסי; תחרות בין גירויים (לא כתוצאה ממחסור במשאבים!)

  6. שימושי התניה קלאסית בבני אדם: טיפול בפוביות • רוב התגובות האמוציונליות שלנו נלמדות, דרך התניה קלאסית • Watson+Rayner (1920) – בדקו תגובות של תינוקות לגירויים שחשבו שהם מפחידים מלידה (אש, חולדות, כלבים) – אף אחד מהם לא היה מפחיד. צליל חזק: כן. • ניסוי אלברט הקטן המפורסם (לא הגיע לסיומו) • פוביות: פחד בלתי פרופורציונלי לסכנה שבמצב. ל- 7-20% מהאוכלוסיה יש סימפטומים, ב- 1% - פוביה חמורה הפוגעת בתפקוד. • תלמידה של Watson: Mary Jones השתמשה בהתנייתנגד בכדי לבטל התניית פחד. • התניית נגד: שילוב CS-ים עם תגובות נוגדות. התהליך הדרגתי • כיום מקובל: Systematic desensitization במצב של רגיעה עמוקה מעלים באופן הדרגתי גירויים יותר ויותר מפחידים

  7. שימושים נוספים בהתניה קלאסית בבני אדם • מניעת אברסיה למזון בחולים המקבלים כמותרפיה ע"י סוכריה מסויימת לפני הטיפול (תהיה אברסיה רק אליה) • פרסום: צימוד של המוצר ל-US המעורר תגובה רגשית חיובית גורם ליחס חיובי יותר למוצר • Conditioned immunosuppression: לטיפול בשלבקת חוגרת (Lupus), למשל. התרופות גורמות לעיכוב מערכת החיסון. צימוד של CS (שמן עם טעם מסויים) עם התרופה  בהמשך ניתן לתת את השמן במקום התרופה ותתקבל אותה תגובה חיסונית! • (אותו דבר אולי באלרגיות – אלרגיה נלמדת למראה פרחים, ולא לאבקנים)

  8. סיכום: התניה קלאסית צימוד בין גירויים גורר (בתנאים מסויימים) למידה ללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות (סרט) נעבור עכשיו להתניה אופרנטית תזכורת: שאלות חשובות • באילו תנאים ישנה למידה (מה תפקיד החיזוק?) • מה נכנס לאסוסיאציה הנוצרת? • האם יש יותר מסוג אחד של למידה?

  9. Edward Thorndike (1874-1949) • רקע: דרווין, נסיונות להראות שבע"ח אינטליגנטים • הראשון שעשה זאת באופן סיסטמטי (לא אנקדוטות). בגיל 23 הגיש תזת דוקטורט:Animal intelligence: An experimental study ofthe associative processes in animals • חתולים רעבים ב-Puzzle boxes (גם כלבים, אפרוחים) • הגדרה אופרציונלית ללמידה: זמן עד החלצות • עקומת למידה: הדרגתית. לא נראהכמו insight אלא ניסוי וטעיה (הצלחה).

  10. Law of Effect • החיזוק "מקבע" (stamps in) קשר בין הגירויים לפעולות מסוימות, ולא אחרות. (satisfiers vs. annoyers) • אין צורך להניח אינטליגנציהנוספת (אין חיקוי), או למידה מתוך תובנה/הבנת סיבתיות • תהליך אוטומטי (ברגע שיש לחיה מטרה) • גם: ניסויי הכללה, אבחנה • אנקדוטה (אבחנה):“I must feed those cats”“I will not feed them”

  11. תפקיד החיזוק עפ"י Thorndike • רק stamping in, אך לא חלק מהאסוסיאציה S-R • תפקיד רק בלמידה  הופך בסוף להרגל ולא תלוי יותר בחיזוק (לא חקר/הסביר הכחדה כלל) • כנ"ל תפקיד המוטיבציה – חיונית ללמידה, לא לביצוע (סרט)

  12. התניה אופרנטית/אינסטרומנטלית • מקור השם (פעולה רצונית על הסביבה; משיגה מטרה) • תגובות נחקרות: ריצה במבוך, לחיצה על דוושה/מקש/key, משיכת חבל, וכו' • סוגי פרוצדורות: • ניתן עם כל US להגביר או להוריד תגובה!בשונה מהתניה קלאסית – לטבע החיזוק אין השפעה אוטומטית על התגובה

  13. מספר גורמים המשפיעים על הביצוע • מוטיבציה (drive) – משפיע גם על למידה וגם על ביצוע (נפרט יותר בהמשך הקורס) • גודל החיזוק (גם: אפקט קונטרסט וכו') • עיכוב החיזוק. הסברים אפשריים: • תגובות מתערבות בזמן ה-delay • ערך החיזוק מוקטן (חיות מעדיפות חיזוק מיידי על מעוכב) • חיזוק חלקי (PRF לעומת CRF) – נפוץ מאוד בחיים. סדר רנדומלי: ריצה מהירה אחרי צעד מחוזק, איטית אחרי לא מחוזק. בסדר קבוע (דוג' – לסירוגין) בהדרגה לומדים את החוקיות.(החיזוק גם יכול לספק מידע. איך נראה שהחיה משתמשת בזכרון הצעד הקודם לקביעת תגובתה?)

  14. Free operant training: B.F. Skinner • בהביוריסט, 1904-1990 • (Watson – אבי הבהביוריזם – שלל מנטליזם) • (1938) The behavior of organisms • טען שפסיכולוגיה צריכה להתבסס רק על מהשניתן למדוד. מדע תאורי ולא תאורטי, black box. • האמין שמלבד מעט רפלקסים כל ההתנהגות היא נלמדת • דיבר על עיצוב התנהגות ע"י חיזוקים. הבנת התנהגות = ניבוי ושליטה בה (functional analysis של התנהגות – הסברים מנטליסטים חסרי ערך ניבויי ושליטתי). • נגד S-R – לא ברור מה ה-S, וכן – למה להניח שנוצרים קשרים תאורטים היפותטים?

  15. Schedules of reinforcement • אימון Free operant בקופסת סקינר • לוחות חיזוק: • Fixed ratio (FR) • Fixed interval (FI) • Variable ratio (VR) • Variable interval (VI) • תוספת מאוחרת: RR/RI • לוחות מורכבים: DRL, DRH... • כמו כן – גירוי מבחין SD (occasion setter) – עוד התנגדות ל-S-R, גירוי שאינו מעורר תגובה בעצמו אלא מעיד על כדאיות של תגובה

  16. מבחינה מעשית – אימון • Pretraining • Shaping • (superstitious behaviors) • יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית מסייעת להם (ניקור ביונים) ויש להיפך. • מתחילים תמיד עם CRF • Ratio מייצר תגובות מהירות יותר מ-interval (yoked) • Interval קל יותר ללמד מ-ratio (בייחוד גבוהים) • מסובך לנתח את ההתנהגות בלוחות אלו: הרבה התיאשו. נחזור לכך בעוד שני שעורים.

  17. 2 1 4 0 S2 S3 S1 הרחבת TD להתניה אופרנטית: Actor Critic • S3 - אם בוחרים חצי מהפעמים שמאל, V(S3) = 1, אבל: • בכל בחירה של שמאל תהיה טעות ניבוי חיובית (קבל יותר מהצפוי) • בכל בחירה של ימין תהיה טעות ניבוי שלילית (קבל פחות מהצפוי) • אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות ניבוי חיובית, ההתנהגות תהיה יותר אופטימלית • אותו דבר בדיוק ב-S2 ו-S1 – תכנון אופטימלי לטווח ארוך!

  18. wsa a1 s1 2 1 4 0 S2 S3 Actor s2 a2 Policy s3 a3 S1 TD error δ(t) s1 Critic wsv V(t) - Value Function state action s2 V s3 r(t) - reward Environment TD:לא רק למידת ניבוי אלא גם שליטה Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update value of state →update policy

  19. Actor-Critic במח: • טעות ניבוי: דופמין • Actor:dorsolateral striatum • Critic: ventral striatum (NAC) • (שני מסלולים דופמינרגים)

  20. הרבה עדויות: דוגמא - O’Doherty et al. 2004 • שני סוגי צעדים: rewarding; neutral • בכל צעד: שני גירויים (High – 60%, Low – 30%) • קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral • קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)

  21. הרבה עדויות: דוגמא - O’Doherty et al. 2004 • (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: • Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:

  22. הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue elicited lever-pressing for sucrose at peak of DA burst Cues elicit DA burst in trained but not untrained rats

  23. Corticostriatal synapses: 3 factor learning Stimulus Representation Cortex X1 X2 X3 XN Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Prediction Error (Dopamine) R P PPTN? VTA/SNc

  24. קריאה נוספת: • דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר • קיצור תולדות הבהביוריזם- http://www.biozentrum.uni-wuerzburg.de/genetics/behavior/learning/behaviorism.html • מאמר קצר של סקינר על אמונות תפלות ביונים http://psychclassics.yorku.ca/Skinner/Pigeon • ביוגרפיה קצרה של סקינר (נכתבה ע"י בתו) - http://www.bfskinner.org/bio.asp • סקינר על התנהגות אופרנטית - http://www.bfskinner.org/Operant.asp • ועוד סיכום טוב על האיש ופועלו - http://www.ship.edu/~cgboeree/skinner.html

More Related