200 likes | 958 Views
שיטת משתני עזר והרצה בשני שלבים (Instrumental Variables & 2SLS). y = b 0 + b 1 x 1 + b 2 x 2 + . . . b k x k + u x 1 = p 0 + p 1 z + p 2 x 2 + . . . p k x k + v. מדוע להשתמש במשתני עזר?. אומדני OLS אינם עקיבים כשבמודל האמפירי ישנם משתנים מושמטים וכתוצאה מכך נוצרת ההטיה
E N D
שיטת משתני עזר והרצה בשני שלבים (Instrumental Variables & 2SLS) y = b0 + b1x1 + b2x2 + . . . bkxk + u x1 = p0 + p1z + p2x2 + . . . pkxk + v
מדוע להשתמש במשתני עזר? • אומדני OLS אינם עקיבים כשבמודל האמפירי ישנם משתנים מושמטים וכתוצאה מכך נוצרת ההטיה • פתרונות אפשריים: • להתעלם מהבעיה ולשאת בתוצאות (ובהשלכות) השימוש באומדנים מוטים ולא עקיבים. דוגמא: אתם רוצים להראות שהמקדם חיובי, אולם ידוע לכם שהוא מוטה כלפי מטה. כל עוד המקדם הנאמד הנו חיובי, אתם יודעים שהמקדם הבלתי מוטה גם הוא חיובי ואפילו גדול יותר • להשתמש במשתנה שהוא proxy למשתנה המושמט (תזכרו בדוגמא שלנו בה השתמשנו בתוצאות מבחן IQ כ- proxyליכולת) • (נושא שנלמד בסמסטר הבא) להשתמש בטכניקת ניתוח נתוני פנל ולהניח שהמשתנה המושמט אינו משתנה על פני זמן • להשתמש בשיטת משתני עזר (IV- Instrumental Variables)
אמידה בשיטת משתני עזר(IV) • ניתן להשתמש באמידה בשיטתIVכאשר ה-x-ים של המודל הנאמד הנם אנדוגניים • אנדוגניות: משתנה נקרא אנדוגני כאשר הוא מתואם עם הטעות(Cov(x,u) ≠ 0 ) כתוצאה מהשמטת משתנה, טעות מדידה או סימולטניות • ניתן להשתמש בשיטתIVכדי לפתור את בעיית ההטיה הנובעת מהשמטת משתנה כשאין לנו משתנה שיכול לשמשproxyטוב
מה זה משתנה עזר? • y = b0 + b1x + u • אנו חושבים ש-xו-uמתואמים. אם נריץ רגרסיה כמו שהיא, נקבל אומדן מוטה ל-b1. • על מנת להריץ את הרגרסיה ולקבל אומדן בלתי מוטה ל-b1נצטרך מידע נוסף. נשיג את המידע הזה בעזרת משתנה חדש, נקרא לוz. • על מנת להשתמש במשתנהzכמשתנה עזר בר-תוקף עבורxחייבים להתקיים שני תנאים • משתנה עזר חייב להיות אקסוגני, כלומרCov(z,u) = 0 • משתנה עזר חייב להיות מתואם עם המשתנה האנדוגניx, כלומר Cov(z,x) ≠ 0
עוד על משתנה עזר בר-תוקף • אין שום דרך לבדוק האם מתקייםCov(z,u) = 0 כי הטעות,u, אינה נצפית. לפיכך, אנו צריכים להשתמש בהיגיון ובתיאוריה הכלכלית כדי להחליט האם יש בסיס להניח הנחה כזאת. • אנו יכולים לבחון האם מתקייםCov(z,x) ≠ 0 • נבחן השערה:H0: p1 = 0 במשוואה x = p0 + p1z + v • Cov(z,x) ≠ 0 p1 ≠ 0 • תזכרו בדוגמא שלנו של השפעת ההשכלה על השכר (log(wage)) עם משתנה מושמט של יכולת מולדת. • האם מספר תעודת זהות יכול לשמש משתנה עזר טוב? • מה עם תוצאת מבחןIQ? • לעיתים לרגרסיה הזאת קוראים רגרסיה של השלב הראשון (first-stage regression)
דוגמא • נרצה לאמוד השפעת היעדרות משיעורים על ציון המבחן הסופי • exam score = b0 + b1skip_class + u • האם נוכל לקבל אומדן טוב להשפעה הסיבתית של היעדרות משיעורים על הציון במבחן הסופי מהרגרסיה הנ"ל? • איזה משתנה יכול לשמש אינסטרומנט (IV) טוב?
אמידה בשיטתIVבמקרה של רגרסיה פשוטה • עבור המשוואהy = b0 + b1x + uובהינתן ההנחות שלנו • Cov(z,y) = b1Cov(z,x) + Cov(z,u)ומכאן • b1 = Cov(z,y) / Cov(z,x) • לכן אומדןIVעבורb1יהיה שווה ל- • מה קורה כאשרz = x? • דוגמא 13-1
האב טיפוס של כל הדוגמאות לשימוש בשיטת IV • Angristו-Krueger(1991) • השתמשו ברבעון הלידה של הפרט כמשתנה עזר להשכלה. מהו הרעיון מאחורי השיטה? • רבעון שבו הפרט נולד (ינואר-מרץ, אפריל-יולי וכד') אינו מתואם עם יכולת. • ישנה קורלציה בין רבעון בו נולד הפרט והשכלתו. איך? בארה"ב החוק קובע גיל מינימלי לתחילת הלימודים בבית ספר ולנשירה ממנו. • נניח שילד מתחיל את לימודיו בבית ספר בשנה בה הוא יהיה בן 6. ילד שנולד ב-1 לינואר יהיה כמעט בן 7 בסתיו כשהוא יתחיל ללמוד וילד שנולד בדצמבר של אותה שנה לא יהיה אפילו בן 6 כשתתחיל שנת הלימודים. אם הגיל שבו ניתן לפי חוק לעזוב את הלימודים בבית ספר הוא 16, ניתן לראות השתנות מסוימת בסך מספר שנות לימוד בקרב האוכלוסייה.
המשך הדוגמא • ברור שמקדם המתאם בין רבעון הלידה לבין מספר שנות לימוד הוא קטן. כדי לפצות על כך, הם השתמשו במדגם גדול מאוד (250,000 גברים שנולדו בין השנים 1920 ו-1929) • הם מצאו שתשואה להשכלה שווה ל-0.0801 (עם סטיית תקן של 0.0004) באמידה בשיטתOLSול-0.0715 (עם סטיית תקן של 0.0219) באמידה בשיטתIV • העובדה המעניינת היא שאין הבדל משמעותי בין שני האומדנים. למעשה, אומדן ה-OLSנמצא בתוך רווח סמך עבור אומדן ה-IV
המשך הדוגמא • Bound, Jaegerו-Baker(1995) • הטענה כי רבעון הלידה אינו מתואם עם גורמים אחרים שמשפיעים על רמת השכר כלל אינה מובנת מאליה • מתברר שמקרי דיכאון, סכיזופרניה, פיגור שכלי, פיצול אישיות וכד' מתועדים יותר בקרב האנשים שנולדו בחלק מסוים של השנה. בנוסף, הסתברות הלידה בחודשי חורף נמוכה יותר בקרב בעלי הכנסה גבוהה • המאמר מראה כי במקרה של "משתני עזר חלשים", כאשר מידת הקורלציה בין האינסטרומנט והטעות נמוכה, אנו עלולים להיתקל בבעיות רציניות (הטיה, חוסר עקיבות באומדניIV) • הבעיה נקראת "בעיית משתנה עזר חלש"
אמידה בשיטתIVבמקרה של רגרסיה מרובה • שיטת האמידהIVניתנת להרחבה למודל הרגרסיה המרובה • תקראו למודל שאנו מעוניינים לאמוד בשם "המודל המבני" (סטרוקטוראלי – structural model) • הבעיה היא שיש לנו אחד או יותר משתנים אנדוגניים • נצטרך משתנה עזר לכל אחד מהמשתנים האנדוגניים
אמידה בשיטתIVבמקרה של רגרסיה מרובה, המשך • תכתבו את המודל המבני בצורה: • y1 = b0 + b1y2 + b2x1 + u1 • כאשר משתנהy2אנדוגני ומשתנהx1אקסוגני • נניח ש-z2הוא משתנה עזר, ומתקיים Cov(z2,u1) = 0 וגם • y2 = p0 + p1x1 + p2z2 + v2,כאשרp2≠ 0 • המשוואה המקוצרת הזאת (reduced form equation) מריצה את המשתנה האנדוגני על כל המשתנים האקסוגניים
שיטת הרצה של ריבועים פחותים בשני שלביםTwo Stage Least Squares (2SLS) • אפשר להשתמש במספר משתני עזר לאותו משתנה אנדוגני • תחשבו על המודל המבני המקורי שלנו ותניחו ש- • y2 = p0 + p1x1 + p2z2 + p3z3 + v2 • כאן אנו מניחים שהןz2והןz3הם שני משתני עזר ברי תוקף – שניהם אינם מופיעים במודל המבני ואינם מתואמים עם הטעות,u1
משתנה עזר אופטימלי • אנו יכולים להשתמש הן ב-z2והן ב-z3בתור משתנה עזר • משתנה עזר אופטימלי הנה קומבינציה ליניארית של כל המשתנים האקסוגניים, y2* = p0 + p1x1 + p2z2 + p3z3 • נוכל לאמוד אתy2* באמצעות הרצתy2עלx1, z2ו-z3 – נוכל לקרוא לזה השלב הראשון • אם לאחר מכן נחליף במודל המבני את ה-y2ב-ŷ2, נקבל אותם מקדמים כמו בשיטתIV
עוד על שיטת ההרצהSLS2 • בזמן שהמקדמים הנאמדים יהיו זהים בשתי השיטות, סטיות תקן בהרצת2SLSידנית לא יהיו נכונות, לפיכך תנו ל-Stataלבצע את ההרצה • השיטה ניתנת להרחבה למשתנים אנדוגניים מרובים – צריך להבטיח שמספר המשתנים האקסוגניים המושמטים (משתני עזר) שווה לפחות למספר המשתנים האנדוגניים המופיעים במשוואה המבנית (התנאי ההכרחי לזיהוי) • לדוגמא, כשיש לכם שני משתנים אנדוגניים אתם חייבים להשתמש בשני משתני עזר לפחות (כלומר, שלושה משתני עזר זה בסדר, אלם אחד אינו מספיק).
בדיקת אנדוגניות • מכיוון שהרצה בשיטתOLSעדיפה עלIVכאשר אין לנו בעיית אנדוגניות, נרצה, במידת הצורך, לבדוק האם קיימת אנדוגניות • כשאין בעיית אנדוגניות, שתי השיטות (OLSו-IV) נותנות אומדנים עקיבים • למרות שהרעיון לבדוק האם שתי השיטות מביאות למסקנות שונות מעניין כשלעצמו, קל יותר להשתמש במבחן מיוחד של אנדוגניות המבוסס על תוצאות ההרצה • אם משתנהy2הוא אנדוגני, אזיv2(ממשוואה מקוצרת) ו-u1מהמודל המבני יהיו מתואמים
בדיקת אנדוגניות, המשך • מבחן Durbin-Wu-Hausman • 1. תריצו את המשוואה המקוצרת (reduced form regression ) של המשתנה האנדוגני על משתנה עזר וכל שאר המשתנים האקסוגניים • 2. תבנו תחזית עבור השאריות במשוואה שהרצתם • 3. תריצו את המודל המבני, כולל משתנה אנדוגני ושאריות מהשלב הראשון • 4. אם t-סטטיסטי של המקדם הנאמד של השאריות מצביע על מובהקות סטטיסטית, אזי יש לנו בעיית אנדוגניות • כשיש לנו מודל עם מספר משתנים אנדוגניים, תעשו בדיקה משותפת לכל השאריות מכל ההרצות של השלב ראשון (לכל המשתנים האנדוגניים) • Stata, דוגמא13-2
בדיקת מגבלות זיהוי יתר (Testing Overidentifying Restrictions) • כשיש לנו משתנה עזר אחד בלבד למשתנה האנדוגני, איננו יכולים לבדוק את חוסר הקורלציה בין משתנה עזר וטעות • במקרה כזה נגיד שהמודל מוגדר היטב (או מזוהה) • כשיש לנו מספר משתני עזר לאותו משתנה אנדוגני, ניתן לערוך בדיקה של מגבלות זיהוי יתר (overidentifying restrictions ) במטרה לבדוק האם חלק ממשתני העזר מתואמים עם הטעות
מבחן ל-OverID • 1. לאמוד את המודל המבני בעזרת שיטת משתני עזר ולשמור את השאריות • 2. להריץ את השאריות על כל המשנים האקסוגניים, לקבלR2ולחשב סטטיסטיnR2 • תחת השערת האפס, לפיה כל משתני העזר אינם מתואמים עם הטעות,LM ~ cq2, כאשרqהנו מספר משתני עזר עודפים • Stata, דוגמא13-3