340 likes | 960 Views
התניה קלאסית – חלק א'. מבוא ללמידה והתנהגות: התניה ומח שעור 2. נושאים. התניה קלאסית – הפרוצדורה, תוצאות בסיסיות ניסויי מפתח: חסימה והצללה מודל Rescorla Wagner התניה מסדר שני מודל Temporal difference דופמין – 'תאורית טעות הניבוי' תמונה כללית – התניה קלאסית כלמידה של ניבויים.
E N D
התניה קלאסית – חלק א' מבוא ללמידה והתנהגות: התניה ומח שעור 2
נושאים • התניה קלאסית – הפרוצדורה, תוצאות בסיסיות • ניסויי מפתח: חסימה והצללה • מודל Rescorla Wagner • התניה מסדר שני • מודל Temporal difference • דופמין – 'תאורית טעות הניבוי' • תמונה כללית – התניה קלאסית כלמידה של ניבויים
= Conditional stimulus (גירוי מותנה/תלוי) = Unconditional stimulus (גירוי בלתי מותנה/תלוי) ריור = Unconditional response(reflex); conditional response (reflex) התניה קלאסית Ivan Pavlov
חיזוק - Reinforcement • פבלוב קרא ל-US חיזוק (reinforcer) • הגדרת החיזוק עפ"י פבלוב: חיזוק הוא כל דבר שמעלה את הסבירות (probability) להופעת ה-CR לאחר הצגת ה-CS • הגדרה אופרציונלית טהורה – לא מניחה שום ערך סובייקטיבי או אפקטיבי (affective) של החיזוק • רכישה (acquisition) – הצגה חוזרת של CS-US מביאה לרכישת ה-CR.
פרוצדורות נפוצות • התניית עפעף בד"כ בארנבות – Nicticating membrane response. • התנית קיפול רגל בכלבים (leg flexion) • התנית גישה (approach) בחולדות • התנית ניקור ביונים (autoshaping) • התנית אברסיה למזון (Conditioned taste aversion) • התנית תגובה רגשית (CER - Conditioned emotional response); התנית דיכוי מותנה (conditioned suppression) • (מה הן קבוצות הביקורת?)
Key Variable: The CS-US Interval (ISI) יחסים טמפורלים בין US ל-CS 1. Simultaneous Conditioning 2. Delay conditioning 3. Trace conditioning 4. Backward conditioning CS US
הכחדה - Extinction לפי ההגדרה של למידה: האם הכחדה היא למידה חדשה או שכחה?
תאוריות על הכחדה • שכחה – לא, כי לא תלוי רק במעבר הזמן אלא בהצגה בלתי מחוזקת של הגירוי • Pavlov – העלמות ה-CR כתוצאה מעיכוב (inhibition) – תהליך שונה מזה של הלמידה. מסביר spontaneous recovery, ו-disinhibition (במונחים של external inhibition). • Gutherie – הכחדה כתוצאה מהתנית תגובה מתחרה (אותו תהליך כמו במידה, רק תגובה שונה) • תמיכה בפבלוב: אימון מרווח מול צפוף עדיף ברכישה, ההפך בהכחדה; ניתן להשפיע פרמקולוגית שונה על שני התהליכים
תגובה מותנית לשם מטרה? • הטענות בעד • איך ניתן לבדוק? • ניסויי omission – Hearst + Jenkins 1974 • זהו המאפיין המרכזי (והמבחן הקובע) להתנהגות פבלובית!
התאמה בין CS, US, CR • לכל US גירויים שקל יותר להתנות אתו (Garcia&Koelling ניסוי המים הרועשים בחולדות, התניה לשוק או ל-LiCl) • תלוי בחיה – יונים מקשרות צבע לבחילה, חולדות - טעם • יתרון אדפטיבי – מגבלות אבולוציוניות/נלמדות • CR לרוב דומה ל-UR אך חלש ממנו. אך: • לא כל תגובות ה-UR כלולות ב-CR (ריור לעומת נשיכה) • לעתים ה-CR שונה בתכלית מה-UR (קפיאה מול קפיצה/בריחה)
מהי האסוסיאציה שנוצרת?תאוריות ראשונות של התניה קלאסית: S-S / S-R • פבלוב - Stimulus substitution – למידה של קשרים בין ה-CS ל-US (S-S) • Gutherie – Stamping in – ההתניה היא בין ה-CS לתגובה, כאשר ה-US רק משמש ל'הטבעת' האסוסיאציה • מבחנים: • מניעת אפשרות לביצוע תגובה עדיין יש התניה • Sensory preconditioning • שינוי ערך החיזוק לאחר ההתניה – נחזור לכך בהמשך • מסקנה כיום: שניהם (Rescorla – Two process theories, Mackintosh – התניה מסדר שני, Holland – תלוי במרחק מהחיזוק)
מתי מתרחשת למידה? שלושה ניסויי מפתח • Rescorla – Background conditioning • Temporal contiguity is not enough, need contingency Contiguity = סמיכות, הופעה יחד Contingency = תלות
מתי מתרחשת למידה? שלושה ניסויי מפתח • Kamin – Blocking (and unblocking) • Reynold – Overshadowing • Contingency is alsonot enough!! • Kamin: The US needsto be surprising • Seems like the stimuli compete for learning
תאוריות חישוביות של למידה • מנסות להסביר כיצד ה-CS רוכש "ערך" בתהליך הלמידה • מנסות להסביר באילו תנאים הוא רוכש ערך • מגבלות: • עקומת למידה – הדרגתית (אם כי אולי לא בחיה בודדת?) • הכחדה (גם הדרגתית, החלמה ספונטנית) • חסימה, הצללה • יחסים טמפורלים • מה קובע את התגובה: stimulus substitution, CS
Rescorla + Wagner 1972 • תנאי הכרחי ללמידה: הפרת ציפיות • חוק הלמידה: • שילוב כמה מנבאים: אדטיבי • הטענה המרכזית: הבדל בין מצוי לצפוי מהווה reinforcement • הסביר: רכישה, הכחדה, הצללה, חסימה... • ניבא: overexpectation effect (לא אינטואיטיבי) • תאוריה עם השפעה רבה מאוד • ניתן לגזור את החוק כירידה במורד של ריבוע טעות ניבוי, מקסימיזציה של דמיון בין ערך ה-CS וזה של ה-US (מנסים ליצור מצב בו צפוי = מצוי)
אבל... התניה מסדר שני • שלב א': צימוד CS1 – US עד ללמידה • שלב ב': צימוד CS2 – CS1 (ללא US) • Test: CS2 • מה יקרה? • צעדים מעורבים או בלוקים • (Miller – יחסים טמפורלים מורכבים) • מה מנבאת תאורית R-W?
אילו תופעות התאוריות מסבירות? R-W • עקומת למידה הדרגתית • הכחדה הדרגתית • החלמה ספונטנית • חסימה • הצללה • יחסים טמפורלים • מה קובע את התגובה • ציפיית יתר • התניה מסדר שני
TD learning (Sutton+Barto ‘90s) The general case: long term prediction. The true predictions should be self consistent: If the predictions are imperfect, there will be an error: Updating V according to this will result in correct (optimal) predictions Temporal Difference error
TD: תאורית Real Time • Real-time: מתיחסת למה שקורה בתוך צעד – התנהגותית ולמידתית (כמו Hull – stimulus trace hypothesis) • מה יקרה אם פתאום נשמיט את החיזוק? מה יקרה בהתניה מסדר שני?
אילו תופעות התאוריות מסבירות? R-WTD • עקומת למידה הדרגתית • הכחדה הדרגתית • החלמה ספונטנית • חסימה • הצללה • יחסים טמפורלים • מה קובע את התגובה • ציפיית יתר • התניה מסדר שני
דופמין - Dopamine Parkinson’s Disease Motor control + initialtion? Intracranial self-stimulation; Drug addiction; Natural rewards Reward pathway? Learning? Also involved in: • Working memory • Novel situations • ADHD • Schizophrenia • …
מה דופמין מייצג? Schultz – רישומים בקופים (Schultz etal. 1993)
Unpredicted reward (unlearned/no stimulus) Predicted reward (learned task) Omitted reward (probe trial) מה דופמין מייצג? פרשנות של Montague+Dayan (Montague et al. 1996)
The TD hypothesis of DA (Montague+Dayan ‘96) The idea: Phasic dopamine encodes a reward prediction error • Precise (normative!) theory for generation of DA firing patterns • Compelling account for the role of DA in classical conditioning: prediction error acts as signal driving learning in prediction areas • Corticostriatal synapses: three factor learning rule modulated by DA (Wickens+Kotter)
Corticostriatal synapses: 3 factor learning Stimulus Representation Cortex X1 X2 X3 XN Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Prediction Error (Dopamine) R P PPTN? VTA/SNc
More dopamine responses • Partial reinforcement task (Fiorillo, Tobler & Schultz 2003) • Accords with TD model
תמונה כללית • התניה קלאסית = למידת ניבוי • ההתנהגות: אוטומטית במובן מסוים, נובעת מהניבוי (עוד אין control) • איך נלמדים הניבויים? מתוך התבוננות בסביבה, ע"י השוואת צפוי למצוי, בצורה הדרגתית • במח: למידה תלוית דופמין (קשר בין מודל חישובי נורמטיבי לפעילות של תאים ספציפים) • תאוריות TD, RW – תאוריות מסוג caching (למידה של ערך במנותק מזהות ה-CS וה-US)
תרגיל בית – להגשה ב-30 למרץ • Matlab tutorials – באתר (גישה ל-Matlab?) • תכנות TD ו-RW והשוואה בתנאים שונים (בסיס גם לתרגיל השני) • שאלות תאורטיות • קריאה לשבוע הבא: Tobler, Dickinson + Schultz