רגרסי ה לינארית, ניתוח שונות ו תכנון ניסויים סטטיסטיים הרצאה 1 רגרסיה פשוטה

המחלקה לניהול תעשייתי סמסטר א', תשע"ב רגרסיה לינארית, ניתוח שונות ותכנון ניסויים סטטיסטייםהרצאה 1רגרסיה פשוטה מרצה: אולגה גרצ'קו

מבנה הקורס • שעת קבלה: יום ה' 15:30-16:30 בתאום מראש • דוא"ל:grachko@bgu.ac.il • דרישות הקורס: • נוכחות בהרצאות – מומלץ. • הכנת תרגילי בית. • התרגילים יימסרו בזוגות. במהלך הסמסטר, ייבדקו לכל סטודנט לפחות 2 תרגילים עם ציון, אך לא תינתן הודעה מראש איזה תרגיל ייבדק. חובת הגשה: לפחות 80% מהתרגילים. הציון הסופי יהיה פרופורציית התרגילים שנמסרו (יחסית למספר התרגילים שיש חובה למסרם) מוכפלת בציון הממוצע של התרגילים שנבדקו. תרגיל לא מלא או ברמת איכות ירודה לא ירשם. • מבחן סוף סמסטר. • ציון הקורס: • תרגילי בית 10%. • מבחן סוף סמסטר – 90% . • חובת קבלת ציון עובר במבחן סוף סמסטר: כן • ספרי הקורס: • Montgomery, D. C., Peck, E. A., Vining, G. G. Introduction to Linear Regression Analysis, Wiley-Interscience, 4th edition, 2006. Chapters 1-4. • Montgomery, D.C.Design and Analysis of Experiments, 6th edition, Wiley, 2005. Chapters 1, 2, 3, 4, 5, 6, 10.

הגדרת רגרסיה • y – משתנה מקרי התלוי במשתנים בלתי תלויים ("משתנים מסבירים"). • מודל של רגרסיה הוא מודל סטטיסטי שבא להחליף מודל המקשר משתנה תלוי ומשתנים בלתי תלויים דרך קשר פונקציונאלי (חד ערכי): כאשר: x1,x2,…,xn– משתנים מסבירים ב"ת β1,β2,…,βn – פרמטרים קבועים באוכלוסיה (מקדמי הרגרסיה) εi – שגיאה (גורמי רעש) בתצפית i נחפש קשר בין התוחלת של y כתלות בקבוצת המשתנים המסבירים. נתאר קשר זה בעזרת קשר מתמטי:

הגדרת רגרסיה • מודל רגרסיה לינארית מגדיר קשר סטטיסטי בין משתנה תלוי לקבוצת משתנים בלתי תלויים. • לדוגמא: • y – כמות יבול שבועי בחלקה מסוימת בחממה • x1– כמות השקייה יומית • x2– כמות חומר דשן בחלקה • x3– אחוז לחות בחממה עליו ניתן לשלוט • קשר מתמטי (פונקציונאלי, דטרמיניסטי) – y=f(x1,x2, x3) • אולם קשר זה לא קיים במציאות כי סביר להניח שקיימים גורמים נוספים שלא נלקחים בחשבון. גורמים אלו נקראים גורמי רעש. במקרה שלנו למשל, טמפרטורה, טפילים, שגיאות מדידה וכו'.

רגרסיה לינארית פשוטה • מבוססת על משתנה בלתי תלוי אחד – x (רק גורם אחד משפיע) • מניחה קשר ליניארי בין התוחלת של y ל-x • אם xi, yi הינן דגימות i של משתנים x ו- y בהתאמה, אזי • כאשר εi הינה שגיאה ה-i, β0, β1הינם פרמטרים (מקדמי הרגרסיה) לא ידועים שאפשר לאמוד אותם על סמך מדגם. • קו רגרסיה תיאורטי על סמך כל אוכלוסיה: • המודל הוא מודל ביחס לכל האוכלוסיה. • פרמטר – גודל קבוע שמאפיין התפלגות לא ידועה. • yiפחות ערך הקו זוהי שגיאה εi

הנחות המודל ,כלומר xi הינו קבוע או משתנה מקרי מנוון, εi סופג את כל הרעש. εiהינו משתנה מקרי מפולג נורמלית בלתי מתואמים (cov=0).

הסיבות להפרעה: • שגיאות מדידה • החסרת משתנים (יתכן וקיימים משתנים נוספים שלא נלקחו בחשבון ולא נמדדו) • טעות בקביעת המודל (למשל, מודל לא ליניארי) • מטרות המודל: • כוח הסבר לתופעות • יכולת ניבוי • בקרה על תהליכי החלטה

טענות המודל yi הינו משתנה מקרי כי εi הינו משתנה מקרי. 2. הוכחה: שינוי שולי: הקשר בין תוחלת משתנה התלוי לבין המשתנה הבלתי תלוי הוא קשר ליניארי – הנגזרת קבועה. כלומר, שינוי שולי ב- x משנה את y בערך קבוע β1.

טענות המודל 3. השונות של y (מידת פיזור סביב קו רגרסיה) קבועה ולא תלויה ב- x: 4. מדידות של משתנים תלויים לא מתואמים ביניהן:

אמידת הפרמטרים • את β0, β1נאמוד בעזרת אומדנים b0 ו-b1 ונקבל את משוואת הישר הידוע גם כ-"ישר מותאם". • נשתמש בשיטת הריבועים הפחותים (קריטריון מינימום SSE) כדי למצוא את הישר המותאם. המרחק בין תצפית לישר המותאם המרחק בין תצפית לישר התוחלות המותנות ערך החזוי (ערך שמעריכים שיהיה על סמך הישר אותו אמדנו באמצעות המדגם

שיטת ריבועים הפחותים לאמידת הפרמטרים • , כלומר סכום ריבועי המרחקים בין התצפיות לישר המותאם • אנו רוצים את מינימום של SSE (נחשב b0 ו-b1כך ש- SSE יהיה מינימאלי): משוואות נורמליות של ריבועים הפחותים

שיטת ריבועים הפחותים לאמידת הפרמטרים

פיתוח נוסחאות עבור ריבועים הפחותים מציאת b0:

פיתוח נוסחאות עבור ריבועים הפחותים מציאת b1:

פיתוח נוסחאות עבור ריבועים הפחותים מציאת b1(המשך):

תכונות של b0 ו- b1 • הם משתנים מקריים (כי הם תלויים ב- y) • הם אמדים ליניאריים כפונקציה של תצפיות • הם אמדים חסרי הטיה ל- β0 ו- β1 • מבין כל אמדים הליניאריים שהם פונקציות של תצפיות וחסרי הטיה הם מסיגים שונות מינימאלית

דוגמה בוחנים את הקשר בין גודל מנת הייצור לשעות העבודה שיש להשקיע כדי לייצר מנה זו. נתונים נתוני המדגם (10 תצפיות): יש למצוא: א) משוואת קו רגרסיה בשיטת הריבועים הפחותים. ב) כמה שעות עבודה נצפה להשקיע במנת ייצור שגודלה 30 על פי החישובים בסעיף א'?

פתרון דוגמה תחילה נחשב נתונים הדרושים לחישוב b1:

פתרון דוגמה כעת נחשב את b0: תשובה לסעיף א': משוואת קו רגרסיה הינה:

פתרון דוגמה סעיף ב': כמה שעות עבודה נצפה להשקיע במנת ייצור שגודלה 30 על פי החישובים בסעיף א'? פתרון סעיף ב': נציב במשוואת קו רגרסיה שמצאנו בסעיף א' 30: כלומר עבור מנה בגודל 30 יש להשקיע 70 שעות ייצור. בפועל לפי נתוני השאלה, עבור מנה של 30 נתונה דגימה של 73. נחשב שגיאה: עבור תצפית מס' 8 (x8=30, y8=69) השגיאה היא שונה: הערך החזוי לפי רגרסיה שונה מערך במדגם בפועל.

בניית רווחי סמך לפרמטרים β0 ו- β1 מצאנו אמדים נקודתיים עבור מקדמי הרגרסיה. כעת נמצא רווחים בהם נמצאים β0 ו- β1: כאשר: n – גודל המדגם p – מספר הפרמטרים הנאמדים לצורך חישוב

בניית רווחי סמך לפרמטרים β0 ו- β1 במקרה שלנו p=2 מאחר ואמדנו 2 פרמטרים (b0, b1). b0 מתפלג: b1 מתפלג: לא ידועה, לכן נציב במקומה אמד (MSE).

בניית רווחי סמך לפרמטרים β0 ו- β1 ולכן: נבנה רווח סמך ברמת מובהקות α:

בניית רווחי סמך לפרמטרים β0 ו- β1 אמד לסטיית תקן של b0הינו: אמד לסטיית תקן של b1הינו: כאשר MSE (ממוצע ריבועי הטעויות) הינו:

בניית רווחי סמך לפרמטרים β0 ו- β1 אם כך, רווח סמך עבור b0הינו: ובאופן דומה, רווח סמך עבור b1הינו: משמעות של רווח סמך: אם נדגום הרבה מדגמים וכל מדגם נבנה רווח סמך, אזי בהסברות 1-α מקדם באמת ייפול תחום זה.

נחזור לדוגמה ונמצא רווחי סמך למקדמים עבור β1: כעת נחשב את : נציב בנוסחא של רווח סמך עבור β1: אורך רווח סמך:

נחזור לדוגמה ונמצא רווחי סמך למקדמים כעת נחשב רווח סמך עבור β0: נציב בנוסחא של רווח סמך עבור β0: אורך רווח סמך:

רגרסי ה לינארית, ניתוח שונות ו תכנון ניסויים סטטיסטיים הרצאה 1 רגרסיה פשוטה

רגרסי ה לינארית, ניתוח שונות ו תכנון ניסויים סטטיסטיים הרצאה 1 רגרסיה פשוטה

Presentation Transcript