1 / 24

מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים)

מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים). ד"ר חגית הוכנר ביה"ס לבריאות הציבור האוניברסיטה העברית והדסה. סוגי מודלים לפי סוגי המשתנים הנחקרים. רגרסיה לינארית פשוטה. קשר לינארי בין שני משתנים רציפים מקדם מתאם סימטרי -1≤ r ≤1 הגדרה של תפקידי X ו- Y דוגמאות:

Download Presentation

מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים) ד"ר חגית הוכנר ביה"ס לבריאות הציבור האוניברסיטה העברית והדסה

  2. סוגי מודלים לפי סוגי המשתנים הנחקרים

  3. רגרסיה לינארית פשוטה • קשר לינארי בין שני משתנים רציפים • מקדם מתאם סימטרי -1≤ r ≤1 • הגדרה של תפקידי X ו- Y • דוגמאות: קשר בין הכנסה (Y) להשכלה (X) קשר בין גובה הבן (Y) לגובה האב (X) קשר בין מרחק מתחנת כיבוי אש לנזקי שריפה

  4. רגרסיה לינארית פשוטה • תפקידי X ו- Y: • X משתנה מסביר, מנבא, בלתי תלוי, חשיפה, covariate • Y משתנה מוסבר, תלוי, תוצאה, outcome • אמידת הממוצע של Y בהינתן ערכי המשתנה X. (או באופן כללי: אמידת הפונקציה המתאימה ביותר לניבוי משתנה אחד לפי ערכי משתנים נוספים) • סוגי קשרים: • סיבתי, לא סיבתי • שימושים: • הבנת קשרים בין תופעות • תמצות הקשר (מידול) • ניבוי ערך Y באמצעות ערך X

  5. גובה ההורה וגובה הילד מהו הקו ה"מתאים ביותר"? (Y) (X) Galton 1886

  6. קו הרגרסיה • אמידת הקו המתאים ביותר לתיאור הקשר בין X ו- Y • עבור זוגות הנתונים מתקיים הקשר: כאשר a חותך, b שיפוע, e שגיאה מקרית (=רעש) y • משמעויות • חותך: תכונה מתמטית של הקו • שגיאה מקרית: המידה בה Y נמצא מעל או מתחת לקו, עבור ערך X נתון (=טיב התאמה). • שיפוע: מידת הקשר בין X ו- Y - השינוי ב- Y הכרוך בשינוי של יחידה אחת ב- X x

  7. קו הרגרסיה • שיטת הריבועים הפחותים: מחפשים a ו- b עבורם סכום ריבועי הסטיות מהקו (סכום ריבועי המרחקים בין Y בפועל לבין Y המנובא ע"י הקו) הוא המינימלי. דוגמא: • 2000 זוגות של אבות ובנים בריטים • משוואת הרגרסיה: Y predicted(son’s height)=a + b*X(father’s height) • ניבוי: אב 170 ס"מ בן 175.7 ס"מ 107.04 0.404

  8. דוגמא 1: מחקר הילודה הירושלמיThe Jerusalem Perinatal Family Follow-Up Study • The Jerusalem Perinatal Study (JPS) included all 17,003 births during 1974-1976. • Extensive archival data, e.g. maternal pre-pregnancy BMI, pregnancy weight gain, birth weight, demographics, life-style. • Medical examinations at age 17 (~70%). • Follow-up of 1400 offspring: Measurement of cardio-metabolic risk factors at age 32 (range 30-35) - BMI, waist circumference, glucose, insulin, blood pressure (BP), lipids. • Medical and family history, socio-demographic, lifestyle, nutrition. • Genotyping of ~180 candidate genes (~1400 tagSNPs) in mother-offspring pairs. • 900 fathers recently recruited.

  9. הקשר בין משקל בגיל 17 לבין BMI בגיל 32 • גרף הפיזור: מתאר את ההשתנות המשותפת בין שני משתנים כמותיים. • האם קיים קשר? כיצד ניתן לכמת אותו?

  10. תוצאות רגרסיה לינארית פשוטה • מהי משמעות ה- p-value? • מהי השערת האפס? מהי האלטרנטיבה? BMI 32 .24 units BMI 11.1 1 kg weight H0: B=0 H1: B≠0 Weight 17

  11. תוצאות רגרסיה לינארית פשוטה R squared 0.319 32% מהשונות ב- BMI בגיל 32 מוסברת ע"י המשקל בגיל 17 השונות המוסברת BMI 32 Weight 17

  12. רגרסיה לינארית מרובה • הרחבה של הרגרסיה הלינארית הפשוטה • מספר משתנים מסבירים: Y גובה הילד X1 גובה האב, X2 גובה האם, X3 השכלת האב • בדיקת הקשר בין Xi לבין Y כאשר המשתנים האחרים מקובעים (adjustment, פיקוח). • כך למשל, b1 מבטא את השינוי ב- Y עבור שינוי של יחידה אחת במשתנה X1, כאשר X2 ו- X3 מוחזקים כקבועים. • מדוע חשוב?

  13. מספר נקודות לציון • טיב התאמה או אחוז השונות (של המשתנה התלוי) המוסברת על ידי כלל המשתנים. • Adjusted R2: מדד מתוקן לשונות המוסברת המביא בחשבון את מספר המשתנים הבלתי תלויים. • מולטיקולינאריות: קשר ליניארי חזק מאד בין המשתנים המסבירים.מולטיקולינאריות פוגעת ביכולת האמידה של המודל.

  14. תוצאות רגרסיה לינארית מרובה Y b1 b2 X1 X2

  15. מן הספרות Lawlor et al. Circulation 2004; 110:2417-23

  16. רגרסיה לוגיסטית • המשתנה התלוי דיכוטומי: מקבל שני ערכים (0,1) • למשל, מקרה/ביקורת, השמנת יתר (כן/לא) • משתנה מסביר יחיד או רבים. • ניבוי במונחים של הסתברות (בין 0 ל-1): ההסתברות ש- Y=1 בהינתן X מסוים. • למשל, ההסתברות לפתח MI (Y) עבור פרט עם BMI (X) של 27 ק"ג/מ'2 • כיצד צפויה להיראות הצגה גרפית של הנתונים?

  17. הקשר (הלא לינארי) בין X לבין ההסתברות ל- Y=1 לפי משוואת הרגרסיה הלוגיסטית Plot of the probability of detecting metastasis in a lymph node by H&E versus the natural logarithm of maximum tumor focus diameter (in millimeters). (Y) Nodes with metastases detected by H&E S-shaped curve derived from a logistic regression model fit to the data Nodes with metastases not detected by H&E (X) Vollmer R T et al. Clin Cancer Res 2003;9:5630-5635

  18. מספר נקודות לציון • נראות (likelihood): ההסתברות לנתונים בהינתן אומדני הפרמטרים. • -2*log(likelihood) - מדד לטיב התאמה. נרצה שערך זה יהיה קטן ככל האפשר. • Odds ratio הוא אומדן טוב ליחס הסיכונים (relative risk) כאשר הימצאות המחלה נמוכה (<10%).

  19. רגרסיה לוגיסטית מרובה “Higher levels of long-chain n-3 polyunsaturated fatty acids in red blood cell membranes are associated with lower risk of sudden cardiac arrest. Whether membrane levels of alpha-linolenic acid, a medium-chain n-3 polyunsaturated fatty acid, show a similar association is unclear.”  • מהי המסקנה העולה מהתוצאות? Lemaitre et al. Metabolism. 2009;58:534-40

  20. Cox proportional hazards model • אנליזת הישרדות • משתנה תלוי: זמן עד אירוע (או עד סוף המעקב) • אירוע: מוות, מחלה, הישנות... (0,1) follow-up: start TIME event • משתנה מסביר יחיד או רבים. • מדד הקשר: Hazard Ratio (HR). ניתן לפרש כמו OR או RR

  21. משקל לידה ותמותת אימהות “we have shown a U-shaped relationship between birth weight of offspring and long-term overall mortality rates in their mothers…findings suggest that a genetic pathway may explain, at least in part, the association between fetal development and chronic diseases later in life. However, maternal obesity, smoking, socioeconomic status and maternal health characteristics during pregnancy may confound this association.”  • האם מאפיינים אימהיים אכן מבלבלים בקשר שבין משקל לידה ותמותת האם? Friedlander et al. Ann Epidemiol. 2009;19:112-7

  22. מנבאים של תמותה לאחר אבחון סרטן

  23. Kaplan-Meier survival curves Death rates per 10,000PY: p<0.001, log rank test

  24. Multivariate Cox proportional hazards models of all-cause and cause-specific mortality of mothers with and without stillbirths. HR (95% CI)

More Related