1 / 29

An introduction to the bootstrap פרקים 10-11 13.11 עמית אוסי

An introduction to the bootstrap פרקים 10-11 13.11 עמית אוסי. פרק 10: אמידת ההטיה. הקדמה: עסקנו עד כה בסטיית התקן כמדד דיוק לאומד פרק זה יתרכז בהטיה , ההפרש בין תוחלת של האומד לבין שאמדנו אותו.

sirius
Download Presentation

An introduction to the bootstrap פרקים 10-11 13.11 עמית אוסי

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. An introduction to the bootstrap פרקים 10-11 13.11 עמית אוסי

  2. פרק 10: אמידת ההטיה. הקדמה: עסקנו עד כה בסטיית התקן כמדד דיוק לאומד פרק זה יתרכז בהטיה , ההפרש בין תוחלת של האומד לבין שאמדנו אותו. אלגוריתם הBootstrap מסוגל בקלות לתת לנו אומד להטיה בנוסף לסטיית התקן. נציג כאן בנוסף את שיטת הjackknife להטיה,למרות שנלמד עליו בהרחבה בפרק הבא.

  3. אומד bootstrap להטיה: נניח שאנו מדברים על מדגם יחיד א-פרמטרי. (הרגיל שאנחנו מכירים, אין הנחות פרמטריות על ההתפלגות ). התפלגות F נותנת לנו X ע"י דגימה מקרית, אנחנו רוצים להעריך את הערך האמיתי של הפרמטר, לעת עתה ניקח את האומד להיות הסטטיסטי מאוחר יותר נתעניין באומד הplug-in ההטיה של כאומד ל מוגדרת להיות ההפרש בין התוחלת של והערך של הפרמטר : הטיה גדולה לרוב לא רצויה להעדפת האומד. אומד חסר הטיה משחק תפקיד חשוב בתיאוריה סטטיסטית. הוא נותן תחושה טובה.

  4. לעומת זאת, אומדי הplug-in = לא בהכרח חסרי הטיה, אבל הם נוטים לתת הטיה נמוכה יחסית לסטיית תקן שלהם. ניתן להשתמש בבוטסראפ על מנת להעריך את ההטיה של . אומד ההטיה לבוטסראפ מוגדר באופן הבא: אם s(X) הוא המוצע, וt(F) הוא אוכלוסית הממוצעים, קל לראות שההטיה במקרה זה הגיוני, כי הממוצע הוא אומד בלתי מוטה של אוכלוסית ממוצעים, ולכן בד"כ לסטטיסטים יש הטיה ולכן נאמוד אותה.

  5. האלגוריתם לאמידת ההטיה הוא כדלהלן: יוצרים מדגמי בוטסטראפ בלתי תלויים מציבים , קירוב ל י יהיה ע"י הממוצע ולבסוף, ההטיה: • Example: the patch data קצת היסטוריה: סטטיסטיקאים היו מודגאים רבות מהטיה אפשרית באומדי יחס. :דוגמה הדביקו על שמונה נבדקים מדבקה רפואית, שמטרתה להכניס הורמון טבעי מסויים לדם. לכל נבדק, בדקו את רמת ההורמון בדם אחרי שלבשו את כל אחד מ3 המדבקות: מדבקת דמה, מדבקה "קיימת", והמדבקה החדשה, שאותה רוצים לבדוק. שלושת הטורים הראשונים בטבלא מראים את רמת הדם לכל נבדק. מטרת הניסוי הוא להראות שוויון ביולוגי.

  6. הסבר הטבלא: עמודה ראשונה,מדבקת הדמה. עמודה שנייה, המדבקה הישנה, עמודה שלישית, המדבקה החדשה. Z=oldpatch-placebo Y=newpatch-oldpatch

  7. המדבקות הישנות אושרו למכירה ע"י הFDA . המדבקות החדשות לא הוצרכו לעבור את כל התנאים בFDA. הם היו מאושרים למכירה, אם היה אפשר להוכיח שהם היו שוויונים מבחינה ביולוגית למדבקות הישנות. הקריטריון של הFDA לשוויון ביולוגי ש- במילים אחרות , הFDA דורש, שהמדבקות החדשות יתואמו ב20% מרמת ההורמון שהמדבקה הישנה מוסיפה למדבקת דמה ברמת הדם. יהי הפרמטר בפרקים הבאים נעסוק ברווח סמך ל . בפרק זה נעסוק בהטיה וסטיית התקן לאומד הפלאג-אין אנו מעוניינים ב2 סטטיסטים, zi yi שמחושבים עבור כל אחד מ8 הנבדקים מטרת הניסוי הייתה להציג פאטצ'ים ששווים לאלה של הold-plant. נניח שהזוג מתקבל ע"י דגימה מקרית מהתפלגות הדו-משתנית לכן יהיה הפרמטר .

  8. אומד הפלאג-אין של תטא יהיה שניקח אותו להיות האומד שלנו ערך האומד יהיה וערכו המוחלט קטן מ0.20, לכן יש תקווה שזה יספיק לתנאי השוויון הביולוגי של FDA. כעת נחשב את ההטיה. ניצור 400 מדגמים מקריים עם 8 תצפיות. בסופו של דבר הסבר: מכל מדגם נמצע את y ואת z , ונחלק. לאחר מכן נמצע ערכים אלו. יהיה לנו סטיית תקן וממוצע המדגם אומד הבוטסראפ להטיה יהיה

  9. האיור מראה היסטוגרמה עבור B=400 מדגמי בוטסראפ עבור

  10. הערה: היחס בין ההטיה לסטיית התקן הוא קטן, ושווה ל.041. כלל אצבע: אם יחס זה פחות 0.25 ,ניתן להתעלם מההטיה [ אלא אם כן אנו נרצה לבנות רווח סמך לפרמטר בדיוק גבוה]. נדון כעת על הMSE. שורש הMSE לאומד עבור יהיה: השלב האחרון נובע מפיתוח טיילור. מסתמכים על זה שהיחס קטן מ1. אם ההטיה = 0, השורש מקבל ערך מינימלי ושווה

  11. אם אז אז השורש של הMSE לא גדול יותר ב3.1% מסטיית התקן. ידוע שB=400 מדגמי בוטסטראפ יותר ממספיק לקבלת אומד טוב לסטיית התקן. האם זה מספיק להטיה? התשובה המפתיעה היא לא. רווח סמך יהיה הסבר: השורה הראשונה היא רווח סמך סטנדרטי מהתפלגות נורמלית. האומד להטיה- מחליף את (אנו רוצים לאמוד את ההטיה), ו מחליף את (הערך האמיתי של ההטיה). נסתכל על הנתונים שלנו אשר להם B=400 ונקבל רווח סמך טווח שגיאה גדול יחסית לערך (0.0105 כמעט פי 2 מ0.0043!)

  12. נקבל לפי אי"ש המשולש ו לכן <0.14 ולפי כלל האצבע, זה זניח. אולם, נרצה עדיין לחשב במדויק את , או קירוב טוב מספיק, וראינו כבר שאי אפשר לסמוך על 0.0043= . אפשר להגדיל את B. אבל ניראה שאין צורך. • An improved estimate of bias מסתבר שיש דרכים טובות יותר לקרב את מבוטסראפ. הדרך החדשה עובדת כש הוא האומד פלאג-אין עבור כאן נתאר את השיטה אבל בפרקים הבאים נסביר מדוע היא עובדת.

  13. יהי מצביע על הפרופורציה של תצפית הבוטסראפ מהמדגם , כלומר הResampling vector מורכב מאיברים אי שליליים שסכומם אחד. תפקידו הוא לציין את הפרופורציה של כל תצפית במדגמי בוטסראפ. למשל אם אז אפשר לחשוב על כפונקציה של הוקטור למשל עבור הדוגמה ש השימוש יהיה

  14. עבור אומד הפלאג-אין של , נרשום ע"מ להצביע על כפונקציה של P*. יהיה הוקטור שנותן סיכוי אחיד לכל התצפיות הערך הוא הערך עבור כש לכל j, ז"א כשכל אחד מהנתונים הופיע בדיוק פעם אחת במדגם ,מה שאומר ש ,מלבד אולי ערבוב בסדר התצפיות לכן לא ישתנה, במילים אחרות: B מדגמי הבוטסראפ נותנים מדגמים וגוררים וקטורים. כעת נגדיר את הממוצע הוקטורי שלהם נוכל לרשום את אומד הבוטסראפ להטיה כ- "אומד טוב יותר לבוטסראפ" אשר יסומן ב יהיה:

  15. בדוגמה עם המדבקות, עבור 400 מדגמים, יוצא ש אשר נותן ולבסוף בהשוואה ל האיור הבא מראה סקאלה לוגריתמית עבור B. הקווים המקווקווים הם הבוסטראפ הרגיל והקו הרציף הוא השיטה החדשה. אומד יותר טוב אומר שההתכנסות יותר מהירה ואנו רואים בציור את התכנסותו המהירה של השיטה החדשה עבור האומדים להטייה.

  16. The jackknife estimate of bias הגדרה: יהיה מדגם נגדיר את להיות כל המדגם מלבד התצפית הi כלומר עבור כל i=1…n. עבור סטטיסטי ננגדיר עבור כל i עבור סטטיסטי פלאג אין , , שווה ל כש הוא ההתפלגות האמפירית עם n-1 תצפיות במדגם . האומד להטייה מוגדר כ נוסחה זו לא תעבוד אם הוא סטטיסטי שאינו חלק, כמו החציון. היא תעבור טוב במקרה שהסטטיסטי חלק (פונקציה דיפרנציאבילית של התצפיות). נשאלת השאלה מאין הגיע הגורם n-1? הסיבה היא הקשר החזק בין המדגמים. מכיוון שלכל 2 מדגמים יש n-2 תצפיות דומות, יהיה קשר חזק ביניהם ועל כך נכפיל בגורם המתקנן n-1.

  17. למשל בדוגמאת המדבקה:הסטטיסטי שלנו הוא והוא חלק (חלוקה של פונקציות חלקות), אופן החישוב הוא כדלהלן: לכל i , מוציאים את השורה הi מהטבלא, ועושים חלוקת הממוצעים של y בz. ניזכר שיצא לנו עבור הבוטסראפ אם נמצע את השורה נקבל 0.072- לכן ניזכר בכך שהבוטסראפ האידיאלי יצא לנו אותה התשובה. זה לא במקרה. ובעתיד נראה ששיטת האולר מהווה קירוב טיילור ריבועי עבור הבוטסראפ האידיאלי.

  18. תיקון הטיה: למה אנו מחפשים את ההטיה? כדי לתקן את האומד, ע"מ לקבל אח"ה התיקון הסביר הוא ואם נציב זה ייתן בדוגמאת היחס (הטיה זאת יוצאת גם בשיטת האולר וגם בשיטת השיפור לבוטסראפ), לכן צריך להזהר עם זה כי לעיתים זה נותן סטיית תקן גדולה יותר. לסיכום, אמידת ההטיה לעיתים מעניינת וכדאית אך יותר קשה מאמידת סטיית התקן. תיקון ההטיה עלול להיות מסוכן ועלול להגדיל את סטיית התקן, עד כדי שתתן אפילו MSE גדול יותר. אם קטנה יחסית לסטיית התקן אז בטוח להשתמש באומד ללא תיקון ההטיה. אם המצב הפוך, אז כנראה שהסטטיסטי אינו אומד הולם לפרמטר

  19. The jackknife הקדמה: בפרק הקודם הוזכר האולר, טכניקה לאמידת ההטיה והסטיית תקן של אומדן. האולר דומה לשיטת הבוטסראפ. בפרק זה נחקור את שיטת האולר. הגדרה: יהיה מדגם נגדיר את להיות כל המדגם מלבד התצפית הi כלומר עבור כל i=1…n. עבור סטטיסטי נגדיר עבור כל i . האומד להטייה מוגדר כ ולסטיית התקן דוגמה: עבור ניתן להראות ש לעומת אומד הפלאג-אין והם מאוד דומים מלבד הכפלה בפונקציה של n.

  20. Example: test score data ניישם את השיטה . על תוצאות מבחן שנבחנו בו 88 סטודנטים. ניזכר שהסטטיסטי שאנו מעוניינים בו הוא יחס ערך עצמי של המטריצת קוואריאנס בסכום הע"ע האחרים. ליישם את השיטה, אנו מוחקים כל שורה בכל פעם. ומחשבים את עבור כל סדרת נתונים בגודל 87. בשורה העליונה של באיור 11.1 מראה היסטוגרמה עבור 88 אומדי ג'קנייף של תטא. חישבנו גם את האומד עבור 88 מדגמי בוטסראפ. חישוב יניב .049 לעומת .047 בבוטסראפ שזה טיפה יותר גדול. האיור הבא משווה בין שיטת האולר לבין שיטת הבוטסראפ. כדי להשוות בין הגרפים נצטרך שהם יהיו על אותה הסקאלה, ועל כך הטרנספורמציה

  21. Pseudo-values דרך נוספת לחשוב שיטת האולר הוא תחת תנאים של ערכי פסאדו המוגדרים: במקרה המיוחד יוצא כמובן ש , הנתון הi בנתונים. נוסף על כן, עבור כל הנוסחה ל יכולה להיות מובעת כ ומה בדבר רווח סמך? דבר טבעי אחד לעשות הוא, מסתבר שזה לא עובד כ"כ טוב; למעשה, זה לא יותר טוב מרווח מהתפלגות נורמלית. נדון בהרחבות על נושא זה בפרקים 12-14. למרות שערכי-פסאדו מסקרנים, לא ברור אם ומתי הם עובדים טוב. (נדון על כך בפרקים הבאים)

  22. Relationship between the jackknife and bootsrap מה יותר טוב? מאחר וחישוב האומד עבור שיטת האולר דורש רק n פעמים, שיטה זו תהיה טובה יותר מבוטסראפ, עבור B למשל 100 או 200, עבור סטיית התקן. אולם, מהסתכלות על המדגמים של שיטת האולר אנו לא משתמשים בכל המידע ועלולים לחשוב שיש פה איבוד מידע ,ולכן נוכל לנחש שפחות אפקטיבי. למעשה, מסתבר ששיטת האולר הוא קירוב לבוטסראפ. (מרחיבים על כך בפרק 20 ). מהות הרעיון: נדבר קודם על סטיית התקן. סטטיסטי ייקרא לינארי אם הוא יוכל להכתב בצורה: כאשר קבוע ואלפא הם פונקציות. למשל, הממוצע הוא סטטיסטי לינארי. השונות היא לא.

  23. . בשביל סטטיסטים כאלה, מסתבר שאומדי האולר והבוטסראפ עבור סטיות התקן הם כמעט דומים ; חוץ מגורמים מינוריים, עבור הג'קנייף. זה בדיוק מה שמצאנו עבור , אומד האולר עבור סטיית התקן נותן בעוד שהבוטסראפ נותן אותו דבר , רק צריך להכפיל בגורם עבור סטטיסטים לינארים , שיטת האולר תעבוד יפה (מכיוון שהיא דומה מאוד לבוטסראפ). עבור סטטיסטים שאינם לינארים, אומד האולר יקרב את בוטסראפ (מלבד הכפלה בגורם קבוע ) ולכן יהיה איבוד מידע, ולא יעבוד טוב כמו הבוטסראפ. האיור הבא יביא זאת לידי ביטוי: אנו דוגמים 200 מדגמים של 10 תצפיות מכל אחד, מהתפלגות נורמלית דו משתנית עם תוחלת 0 ושונות אחידה, עם קורלציה.

  24. הקו הישר מסמל את הסטייה האמיתית הסבר: השמאלי עבור החציון שהוא סטטיסטי לינארי לכן האומד לסטיית התקן של 2 השיטות קרובים. ההשתנות של שיטת האולר גדולה קצת יותר משיטת הבוטסראפ. אבל עבור הקורלציה (סטטיסטי שאינו לינארי), ההשתנות של שיטת האולר גדולה בהרבה משיטת הבוטסראפ, עבור סטיית התקן. לכן במקרה זה שיטת בוטסראפ עדיפה.

  25. בדומה לאומד סטיית התקן, נדבר כעת על ההשוואה בין השיטות בנוגע להטיה. הפעם, שיטת האולר תעבוד עבור קירובים ריבועיים (יותר טוב מלינארים) מהצורה: כעת גם השונות נכללת. במקרה זה, שיטת האולר והבוטסראפ יעבדו באופן דומה. מתי תיכשל שיטת האולר?

  26. Failure of the jackknife נסכם עד כה: שיטת האולר מספקת קירוב לבוטסראפ עבור אמידת סטיית התקן וההטיה. אולם שיטת האולר יכולה להכשל כשהסטטיסטי אינו "חלק". סטטיסטי הוא "חלק", אם תזוזות קטנות בנתונים ייגרמו אך ורק לתזוזות קטנות בסטטיסטי. למשל ממוצע הוא חלק, כל שינוי בתצפית ייגרום שינוי עוד יותר קטן בסטטיסטי, אבל חציון לא כי יהי מדגם החציון הוא 46. כעת נגדיל את התצפית הרביעית הכי גדולה. החציון לא ישתנה בכלל עד שנעלה מעל 46, ואז הוא יקפוץ בבת אחת לאותו הערך. דוגמה: ונסתכל על החציון. סטיית התקן עבור האולר תהיה 6.68 , ועבור B=100 מדגמי בוטסראפ זה 9.58 , הרבה יותר גדול מ6.68. אם n ישאף לאינסוף ניתן יהיה להראות של לא עקיב ולכן לא יתכנס לסטיית תקן האמיתית. לעומת זאת הבוטסראפ מתחשב יותר בנתונים אשר פחות דומים למקוריים מאשר האולר ועל כן יותר מדוייק ממנו עבור החציון.

  27. The delete-d jackknife יש דרך לתקן את אי העקיבות עבור סטטיסטים שאינם חלקים. במקום להוציא כל פעם תצפית אחת אנו נוציא d תצפיות כך ש n=r*d עבור איזהשהו שלם r. ניתן להוכיח שאם אז שיטה זו עקיבה עבור החציון. לכן נבחר נסמן ב את האומד עבור ההוצאה של קבוצה s של תצפיות. הנוסחה לאמידת סטיית התקן תהיה כש למשל, עבור n=9 נוכל לבחור d=4>3 ולכן יהיה לנו 9 מעל 4 מדגמים כלומר 126 מדגמים.

More Related