1 / 20

רגרסיה וניבוי לינארי

אחת המטרות של מתאם ( r ) היא לדעת האם קיים קשר בין שני משתנים. מטרה נוספת היא ניבוי .

york
Download Presentation

רגרסיה וניבוי לינארי

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. אחת המטרות של מתאם (r) היא לדעת האם קיים קשר בין שני משתנים. מטרה נוספת היא ניבוי. במידה ומצאנו קשר בין x לבין y, אנו נוכל להשתמש במידע זה על מנת לנבא את y באמצעות x במדגמים חדשים (בהם רק נמדוד את x). אנחנו נחליט בהתאם לצרכים (הסטטיסטיים) שלנו, איזה משתנה יהיה המנובא (y), ואיזה יהיה המנבא (x). לדוגמא: אם מצאנו במדגם מסוים שקיים קשר בין מספר הסיגריות ליום שהאם עישנה במהלך ההריון לבין משקל העובר, נוכל לנצל ידע זה ולנבא במדגמים אחרים את משקל התינוק ע"פ כמו הסיגריות שהאם מעשנת, לפני הלידה. רגרסיה מבוססת על מתאם Pearson. מתאם פירסון בוחן האם קיים קשר לינארי בין התצפיות, דהיינו האם התצפיות מסתדרות סביב קו ישר, כעט נעסוק בקו עצמו, נשאל מהי נוסחת הקו הזה. רגרסיה וניבוי לינארי

  2. העיקרון על פיו מבוסס קו זה הוא מינימום הריבועים, דהינו הקו אשר יגרום למינימום הסטיות הריבועיות.

  3. נוסחת הניבוי כאשר r=0 אין קשר בין x לבין y, לכן המידע על x לא יעזור בניבוי y. במצב כזה, למדנו בסמסטר הקודם שהערך אשר יגרום למינימום הסטיות הריבועיות הוא הממוצע . לכן נוסחת קו הניבוי תהיה: בציוני תקן בציונים גולמיים ציר ה-x

  4. כאשר r=1 המתאם מושלם, מכאן שעבור כל נקודה, מידת הקיצוניות ב-y זהה למידת הקיצוניות ב-x לכן: (כרגע נעבוד רק בציוני תקן, בהמשך נעבור לציונים גולמיים) אם המתאם קטן מ-1 (בערכו המוחלט), מידת הקיצוניות של תהיה קטנה יותר ממידת הקיצוניות של , זאת באופן פרופורציונלי למתאם. באופן כללי:

  5. חוץ מאשר המקרים בהם r=1/-1, הציון המנובא של y פחות קיצוני מאשר ציון x, דהיינו יותר קרוב לממוצע שלו. זאת תופעת הרגרסיה לממוצע (שנדון בה בהמשך) ומכאן השם נוסחת הרגרסיה. מקור השם מSir Francis Galton- (סטטיסטיקאי חשוב אך חוקר נוראי וגזעני) אשר הבחין שבנים של אנשים גבוהים מאד או נמוכים מאד פחות קיצונים מהוריהם (יותר דומים לממוצע). מאחר וניתן לבנות קו רגרסיה ל-y מתוך x, וקו ל-x מתוך y, קיימים שני קווים אפשריים. מינימום הריבועים בכוון x מינימום הריבועים בכוון y

  6. r = 1 0 < r < 1 r = 0 zy zy zy z’x z’x z’y z’x z’y z’y zx zx zx אם נמיר את נוסחת קו הניבוי לציונים גולמיים: מיקומו של y’ מתוך ההתפלגות של y. b a

  7. נקודת החיתוך עם ציר ה-y.  שיפוע הקו a b=tan() במקביל, נוסחת הקו לניבוי x:  axy

  8. ayx קווי הניבוי עוברים דרך מפגש הממוצעים . הוכחה: עבור קו הניבוי (של y) חותך אתציר ה-y ב-a לכן הוא עובר דרך הנקודה (0,a) מאחר וידועות לנו 2 נקודות בהן עובר הקו, אנו יכולים לצייר אותו. y’ a הקו עבור x’ עובר דרך הנקודות ו- .

  9. ניבוי כעת, לאחר שבנינו קו, בהינתן xi נוכל לנבא את ערך ה-y (yi’). המטרה היא לבנות את הקו על סמך מדגם מסוים וליישם אותו על מדגמים אחרים. במדגם שבו נבנה הקו, ניתן לחשב עבור כל פרט את הטעות שבניבוי: error כך ניתן לפרק את ערכו של yi ל-2 חלקים: החלק המנובא והטעות שבניבוי.

  10. הנחות המודל • הקשר בין המשתנים לינארי • Y מתפלג נורמלית • עבור כל xi הטעויות ( ) מתפלגות נורמלית באוכלוסייה. • ממוצע הטעויות שווה 0, גם בפרט עבור כל xi באוכלוסייה . • אין קשר בין x לבין הטעות ב-y. הומוסקדסטיות (homoscedasticity) . כי y’ הוא טרנספורמציה לינארית של x. זה כמו לומר

  11. להלן ציוניהם הן בחלק הפתוח והן בחלק הסגור במבחן בסטטיסטיקה של 10תלמידים אשר נדגמו מקרית. דוגמא

  12. מהו הערך המנובא עבור הסטודנט אשר קיבל x=30? הערך שלו בפועל הוא y=38 הטעות בניבוי היא: ברור שמטרת הרגרסיה היא לשם יישום הקו עבור תלמידים אחרים. לדוגמא אם חלק מהמבחנים עבדו אך נשארו הטפסים של החלק הפתוח. אם זאת, אנו יכולים ללמוד על גודל הטעויות על סמך המדגם עליו נבנה הקו.

  13. סיכום ביניים בציוני תקן =שפוע הקו בציוני תקן (גם סטטיסטי וגם פרמטר) ברגרסיה פשוטה • שני הקווים נפגשים בראשית הצירים (0,0). • ככל שהשיפוע גדול יותר, כך קו הניבוי טוב יותר. • בגלל תופעת הרגרסיה לממוצע קו הניבוי של y קרוב יותר לממוצע y (ציר zx), ואילו קו הניבוי של x קרוב יותר לציר ה- zy. משמעות תופעת הרגרסיה: מידת הקיצוניות ב-x היא פונקציה של חלק אמיתי ושל חלק מקרי ("טעותי"). אם פרט קיצוני, אנו מניחים שה"טעות" שיחקה לטובתו. מאחר וממוצע הטעות שווה ל-0, אנו מצפים (הניבוי הטוב ביותר) שבתכונה השנייה הטעות תהיה קרובה יותר ל-0. התופעה לא קיימת כאשר r=1, כי אין טעות.

  14. בציונים גולמיים • x ו-y נמדדים בסקאלות שונות (לא בהכרח), לכן השיפועים שונים. • בהינתן שני קווי רגרסיה (המבוססים על נתונים שונים), לא ניתן לומר שהקו בעל השיפוע הגדול הוא טוב יותר. השיפוע הוא פונקציה הן של המתאם והן של סטיות התקן.

  15. =0 פירוק שונויות ראינו ש: לכן: =0 ממוצע הטעויות שווה 0 וגם אין קשר בין x לבין הטעות ב-y ו-y’ הוא טר' לינארית של x) שונות טעויות+שונות ניבויים=שונות y

  16. שונות הניבויים השונות שבין הנקודות שעל הקו שונות הטעויות השונות שבין הנקודות מסביב לקו סה"כ שונות של y השונות שבין הנקודות סביב הממוצע

  17. אני בודק עד כמה הניבויים שונים אחד מהשני. ככל ש-r גדל כך אני גם גדל אני בודק עד כמה הנקודות רחוקות מהקו. ככל ש-r גדל כך אני קטן אני בודק עד כמה ערכי ה-y שונים ביניהם

  18. אחוז השונות המוסברת ניתן להוכיח (בקלות) ש: במדגם: % השונות המוסברת הוא r2.

  19. אחוז השונות המוסברת שונות מוסברת = שונות הניבויים אבל מאחר ו: שונות לא מוסברת = שונות הטעויות

  20. נוסחה זו נכונה באוכלוסיה או בתוך המדגם כי אז המכנה של השונויות זהה עבור כל האיברים: N באוכלוסייה או n במדגם. לגבי האומדנים, דרגות החופש לא זהות עבור השונויות השונות לכן השוויון איננו מתקיים.

More Related