1 / 77

Sammenheng mellom flere variabler – Bivariat Analyse

Sammenheng mellom flere variabler – Bivariat Analyse. Kap 13. Type variabler – type analyser. Kategoriske variabler: Krysstabell 1 kat. og 1 kont. variabel: Gj.snittsverdi / median Kontinuerlige variabler: Korrelasjonsanalyse. Krysstabell.

guinevere
Download Presentation

Sammenheng mellom flere variabler – Bivariat Analyse

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sammenheng mellom flere variabler – Bivariat Analyse Kap 13 www.gjestad.biz

  2. Type variabler – type analyser • Kategoriske variabler: Krysstabell • 1 kat. og 1 kont. variabel: Gj.snittsverdi / median • Kontinuerlige variabler: Korrelasjonsanalyse www.gjestad.biz

  3. Krysstabell • Eks fra boka (s. 250): Sammenheng mellom medarbeidersamtale og størrelsen på bedriften? • Størrelsen på bedriften kategoriseres – TEIT ! • Mister informasjon / nyanser • Hvor sette grensene mellom kategoriene? • IKKE gjør det hvis du ikke må ! www.gjestad.biz

  4. Krysstabell • 2 frekvensfordelinger som sees i sammenheng • Marginalfordelinger • frekvensfordeling på hver variabel • Prosentfordelinger i hver celle, i begge retninger. • Avhengig av hva frekvensen sammenlignes mot • Se side 252 – tabell 13.4 www.gjestad.biz

  5. Krysstabell • Eget eks: 2 x 2 tabell: Alkohol og dødsfall over en 15-25 års periode www.gjestad.biz

  6. Avhengig og uavhengig variabel • Årsak – virkning • Logisk begrunnelse for retning: X Y • Eks: Resultat til eksamen – Hvor mye lese til eksamen • Verdien i den avhengige variabelen er avhengig av verdien i den uavhengige variabelen. www.gjestad.biz

  7. Avhengig og uavhengig variabel • Eks: Fattigdom – Psykisk Helse • Oppsett: • Avhengig variabel – rekke • Uavhengig variabel – kolonne • Mye diskusjon på hva som skal stå hvor og det å begrunne dette i presentasjonen av data – TULL ! • Slå sammen kategorier (celler) hvis få individer • Bruk av % vs. antall (N) www.gjestad.biz

  8. Avhengig og uavhengig variabel • Bruk av desimaler ? • Usikkerhet tilsier at vi ikke bruker desimaler. Men gjøres. • Usikkerhet ivaretas av test-statistikk. www.gjestad.biz

  9. Tabell-tolkning • Vanskelig beskrevet • Jo større antall i cellene, jo mindre trenger forskjellen å være • 10 % forskjell • Av 1000 • Av 30 • Hva er en stor forskjell? – Ja, si det ! • Teori og kunnskap påvirker ALLE tolkning av resultater www.gjestad.biz

  10. Sammenlikning av Statistiske mål • Kontinuerlige variabler vs. kategoriske variabler • Kategorisering? Beholde helst målenivået. • Beregne: • Sentraltendens: Aritmetisk gjennomsnitt / Median • Spredning (varians / standardavvik) • Tabell 13.6 • Viser at X middel = 36.89 og at de som har personansvar har lenger arbeidsuke enn de som ikke har personansvar – Men hva med standardavviket? www.gjestad.biz

  11. Mål for samvariasjon – Korrelasjon • Bytte ut det ene leddet i variansformelen: • Varians: individuell variasjon på en variabel • Kovarians: Hvordan individers skårer på en variabel er relatert til skårer på en annen variabel • Kovariansmatrise • Inneholder både varianser og kovarianser www.gjestad.biz

  12. Mål for samvariasjon - Korrelasjon • Korrealsjon (r) • Pearson Produkt Moment Korrelasjons Koeffisient. • Syx = Kovarians (av utvalget) • Sy, Sx = Standardavvik (av utvalget) • r = standardisert kovarians. www.gjestad.biz

  13. Andre formler for korrelasjon: www.gjestad.biz

  14. Mål for samvariasjon - Korrelasjon • Enhetene til måleinstrumentene påvirker ikke korrelasjonens styrke, men likevel problematisk å bruke måle-enhetene gitt en bestemt korrelasjon • r uavhengig av enhetene til måleinstrumentene. • Verdiområde for r • -1: perfekt negativ relasjon • 0: ingen lineær relasjon • +1: perfekt positiv relasjon www.gjestad.biz

  15. Mål for samvariasjon – Korrelasjon • Positiv korrelasjon: Økning i skåre på en variabel forbundet med økning i skåre på den andre variabelen • Negativ korrelasjon: Økning i skåre på en variabel forbundet med reduksjon i skåre på den andre variabelen • X-tra: r2 – forklart varians Y X r2 www.gjestad.biz

  16. Mål for samvariasjon - Korrelasjon • Side 257 • fig 13.2 • Obs. 2 ? • Obs. 1 også ? www.gjestad.biz

  17. Mål for samvariasjon - Korrelasjon • Side 258 www.gjestad.biz

  18. Mål for samvariasjon - Korrelasjon • Side 258 www.gjestad.biz

  19. Mål for samvariasjon – Korrelasjon • Hva er en høy korrelasjon? • Ikke et fasitsvar: avhengig av hva som studeres og forventninger • Så presenteres lav, middels og høy: 0 - .20, .30 - .40 og over .50 !!! • Bivariat analyse og målenivå • Tabell - Side 259 www.gjestad.biz

  20. Er sammenhenger kausale ? • Nei, som regel ikke. • Lovmessighet? Nei, sjelden. • Regel: • Sammenheng mellom X og Y • X må komme før Y (eller i det minste samtidig) • Kontroll for andre teoretisk relevante variabler www.gjestad.biz

  21. Kausale sammenhenger? • Underliggende variabler - 3.variabler • Spuriøse sammenhenger? Condfoundere • Medierende effekt? y x z www.gjestad.biz

  22. Kausale sammenhenger? • Sammenheng? • Bare en forutsetning, men sier ikke noe om kausalitet. • X før Y • Et designproblem: Eksperimentelle studier / flere tidspunkt / panel-studier • Et teoriproblem: Logisk rekkefølge. Eks.: SES hos foreldre – Barns utdanningsvalg. • Hva med underliggende forklaringer her? www.gjestad.biz

  23. Kausale sammenhenger? • Kontroll for andre relevante variabler? • Vanskelig / umulig å oppfylle • Bare exp. studier som kan? • Mekanisme: som kan belyses/diskuteres. TEORI • Konklusjon: Vanskelig å påvise kausalitet. Vil aldri kunne kontrollere for alle relevante variabler • Derfor: vær MODERAT når trekke slutninger. • TEORETISK FORTOLKNING. • Eksp. Studier: indre og ytre validitet www.gjestad.biz

  24. Kontroll for tredje variabel – Trivariat Analyse Kap 14 www.gjestad.biz

  25. To Bivariate Sammenhenger • Kontroll for tredje variabler • Trivariate (3) – et særtilfelle av multivariate • Eks.: prediksjon av inntekt • Prediktorer: Utdanning (H L), Yrkesstatus (H L), Kjønn, Ansinitet. • Prosentfordeling og Prosentdifferanse (=forskjell på 2 prosenttall) • Separate analyser www.gjestad.biz

  26. Y Y X2 X1 X2 X1 Trivariat analyse • 2 separate sammenhenger kan bli seende annerledes ut når disse studeres samtidig. www.gjestad.biz

  27. Trivariat analyse • Hva forklarer at barn blir flinkere til å lese? Føtter eller alder? Størrelse på føtter Lese-ferdigheter ? y x z ? Alder www.gjestad.biz

  28. Trivariat analyse • Finne ut ved å holde en variabel konstant • Se på et og et nivå av en variabel om gangen. • Eks.: se på en aldergruppe om gangen, eks. 10 år. • Se om leseferdighet varierer med forskjellig skostørrelse • Så holde skostørrelse konstant • Se om leseferdighet varierer med forskjellig alder • Sammenheng mellom skostørrelse og leseferdighet er falsk /spuriøs www.gjestad.biz

  29. Trivariat analyse • Sammenhengen skyldes at vi IKKE har tatt hensyn til aldersvariabelen – eller andre variabler • Nytt eksempel: • Yrkesstatus • Utdanning • Yrkesstatus en spuriøs sammenheng, dvs. den viktige variabelen er utdanning. Er det slik? • Fiktive data Inntekt www.gjestad.biz

  30. Trivariat analyse – Alternative modeller Yrkesstatus Inntekt Utdanning Yrkesstatus Inntekt ? Utdanning www.gjestad.biz

  31. Trivariat analyse • Hvis vi ikke kontrollerer for relevante variabler, vil det kunne se ut som om det er en sterkere sammenheng mellom 2 variabler enn det som det egentlig er. • MEN: Vi kan også få sterkere sammenhenger når kontrollerer for andre variabler. • Side 268-271: Holde nivåer konstante av en variabel når studere sammenhenger mellom 2 andre variabler www.gjestad.biz

  32. Trivariat analyse – Samspill • Sammenheng mellom 2 variabler er forskjellig på ulike nivåer av en tredje variabel. • Dette er definisjonen på en interaksjon • Eks fra 272: Utdanning har størst betydning på lønnsnivå for dem som har lav yrkesstatus. • Muligheter for multivariate analyser med flere hovedeffekter og interaksjonseffekter. www.gjestad.biz

  33. Del IV: Slutningsstatistikk– Å generalisere fra utvalg til populasjon www.gjestad.biz

  34. Fra utvalg til populasjon • Populasjon: alle tenkelige observasjoner • Et teoretisk begrep • Resultater fra utvalg (statistikk) som representative for populasjon? • Generaliserbare? • Trukket representativt? • Usikkerhet knyttet til generalisering av resultater • Slutninger om sentraltendens og fordeling • Fordeling i utvalg vs fordeling i populasjon www.gjestad.biz

  35. Beregning av sikkerhetsmargin for gjennomsnitt – estimering Kap 15 www.gjestad.biz

  36. Estimering • Utgangspunkt: Normalfordeling • Fordeling i populasjon er ukjent ! • For å vite snitt og spredning - kartlegg ALLE ! • Estimere fordelingen (parameter-verdier) i populasjonen basert på utvalg • Fra NOEN (estimat-verdi) til ALLE (parameter-verdi) • Tilfeldig utvalg: Sannsynlig at estimat av snittet ligger i nærheten av pop.snittet (boka: i området til???) • Trekke nye utvalg (re-sampling), få nye estimater www.gjestad.biz

  37. Estimering • Tabell 15.1: To valgdagsmålinger og valgresultatet. • Over/Under-representasjon? • Feilmargin – bruke normalfordelingskurven www.gjestad.biz

  38. Normalfordelingskurven • Høyde blant gutter • Fordeling av frekvenser • Flest i midten, så stadig færre jo lenger ut (avvik fra snittet) • Eks: Mange er rundt snittet, få er svært lave/høye • …estimere hva som er området for gj.sn.høyden i populasjonen gutter i vernepliktig alder. (Området?) • Skjevfordeling (skewness) • pos skjev (høyre hale)/neg skjev (venstre hale) • Fordelingens bredde (kurtosis) • Smal og høy vs. Vid og lav • Normalfordeling: snittet separerer 50% over og under. www.gjestad.biz

  39. Normalfordelingskurven • Fordelingsform og standardavvik: • jo bredere fordeling, jo større st.avvik • 1 st.avvik: 34% * 2 = 68% innen +/- 1 st.avvik • 1.96 st.avvik: 95% (13.5% ekstra * 2) • Standardskåre: z = x – x(middel) / s • Hvor mange standardavvik et individ avviker fra snittet. • Snittet = 0, 1 st.avvik = 1 www.gjestad.biz

  40. Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Uendelig mange utvalg fra populasjonen • Gir fordeling av estimat-verdien: flere verdier, mange nær pop.verdien, noen mer avvikende. • Utvalgs/Samplingsfordeling av verdier fra mange utvalg (sannsynlighetsfordeling) • Gjennomsnitt og Standardavvik • Hvis uendelig mange utvalg: samplingssnittet = pop.snittet • Sentralgrenseteoremet (Central limit theorem): Normalfordeling av utvalgsverdier, uavhengig av hvordan verdiene i populasjonen fordeler seg. www.gjestad.biz

  41. Egenskaper ved tilfeldige utvalg • Hvis trekke for eksempel 40 utvalg fra en populasjon med gitte parametere: • Utvalgsgj.snitt et estimat av populasjons-gj.snitt • Snittet av utvalg-gj.snittene  Populasjon-gj.snitt • Gjennomsnittsverdiene vil variere • Standard-feil = Standardavviket av utvalgenes gjennomsnittsverdier. Utvalgsfordeling (Sample distribution). Det gjennomsnittlige avviket av utvalgsgjennomsnittene • Estimert standardavvik: N-1 (df). Et estimat av populasjonsverdien www.gjestad.biz

  42. Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Mest sannsynlig med verdier nær samplingsgjennomsnittet • Minst sannsynlig at utvalgsgjennomsnitt ligger langt fra samplingsgjennomsnittet • 3 typer fordelinger: • Populasjonsfordeling • Samplingsfordeling • Utvalgsfordeling www.gjestad.biz

  43. Fra små til større utvalg: • Mindre spredning i utvalgsgjennomsnitt og • utvlagets gjennomsnitt mer likt populasjonens gjennomsnitt. • Fordelingskurven blir smalere • Konklusjon: Større utvalg produserer bedre estimater på gjennomsnittsverdien i populasjonen enn små utvalg. www.gjestad.biz

  44. Bruk av hele populasjonen • Hvis alle skårer ble målt: • En ren observasjon hvorvidt det var forskjell på en gitt variabel. • Slipper problemet m/ utvalgsfeil (sampling-error) • Andre mulige typer av feil som kan være årsaken til en gitt forskjell: måling, rekoding www.gjestad.biz

  45. Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Sannsynlig at beregnet snitt estimerer snittet i populasjonen. Det samme / i nærheten av • 2 forhold påvirker: • Utvalgsstørrelse – Jo større, jo bedre • Spredningen i utvalget – Jo større, jo mindre presist (større konfidensintervall) • Forutsetning: • Samplingssnittet settes lik utvalgsgj.snittet www.gjestad.biz

  46. Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Spredning / standardavviket til samplingsgjennomsnittene = standardfeil = Observert st.avvik / roten av antall enheter • Estimat på usikkerhet om hva som kan være populasjonens gjennomsnitt www.gjestad.biz

  47. Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Hvis vi trakk en uendelig mengde utvalg fra samme populasjon, ville 95% av disse utvalgsgjennomsnittene befinne seg innenfor +/- 1.96 standardfeil. • Konklusjon: 95% sannsynlig at vi har rett når vi sier at pop.snittet befinner seg i området innenfor +/- 1.96 st.feil (0.98 cm hver retning). • 5% sannsynlig at vi tar feil – når sier at pop.snittet ligger innen dette området. www.gjestad.biz

  48. Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Området til standardfeilen = Konfidensintervall: Området som populasjonssnittet ved en gitt sannsynlighet befinner seg innenfor • Vanligvis 95% - men og 99% (+/- 2.58 st.feil) • Estimering dreier seg om sannsynlighet for å gjøre et riktig estimat • 5% sannsynlighet for at vi sier at pop.snittet er innenfor konfidensintervallet. Men det kan være over (2.5% sannsynlig) og under (2.5% sanns.) www.gjestad.biz

  49. Beregning av forskjeller mellom grupper– hypotesetesting Kap 16 www.gjestad.biz

  50. Hypotesetesting • Statistisk signifikanstesting: å undersøke om eventuelle forskjeller mellom utvalg kan generaliseres til også å gjelde mellom populasjonene disse utvalgene er trukket fra. • Påvirket av: • Størrelsen på forskjellen. • Størrelsen på utvalget www.gjestad.biz

More Related