Kvantitatiivisen aineiston keruu ja analyysi kl 2011 harjoitukset p aineopiskelijoille
Sponsored Links
This presentation is the property of its rightful owner.
1 / 41

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille PowerPoint PPT Presentation


  • 114 Views
  • Uploaded on
  • Presentation posted in: General

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille. Mira Kalalahti Käyttäytymistieteiden laitos [email protected] Teollisuuskatu 23 (PL26) 00014 Helsingin yliopisto. Muuttujien luonne.

Download Presentation

Kvantitatiivisen aineiston keruu ja analyysi (kl.2011) - harjoitukset pääaineopiskelijoille

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Kvantitatiivisenaineistonkeruujaanalyysi (kl.2011)-harjoituksetpääaineopiskelijoille

Mira Kalalahti

Käyttäytymistieteiden laitos

[email protected]

Teollisuuskatu 23 (PL26)

00014 Helsingin yliopisto


Muuttujien luonne

Ei-numeeriset/laadulliset muuttujat vs. numeeriset/määrälliset

Esim. pituus, (numeerisia)

Esim. sukupuoli, (ei-numeerisia)


Muuttujien luonne

Jatkuvat vs. epäjatkuvat eli diskreetit muuttujat

Muuttuja on jatkuva, kun sen kahden arvon välissä on ääretön määrä arvoja.

Muuttuja on epäjatkuva eli diskreetti, kun sen mitta-asteikolla siirrytään hyppäyksittäin arvosta toiseen.


Muuttujien luonne

Muuttuja on dikotominen, jos se saa kaksi arvoa:

Ominaisuus joko on olemassa kyseisellä tilastoyksiköllä tai sitä ei ole olemassa (esim. tutkittava on naimisissa tai ei ole).

Dikotomiset muuttujat voidaan koodata 0-1-muuttujiksi 0 = ei,1 = kyllä) eli dummy-muuttujiksi


Mittaustaso: ”sanallinen mittaaminen”

Luokittelu- eli nominaaliasteikko:

Muuttujat voidaan luokitella (ryhmiin tai luokkiin), mutta luokkia ei voida asettaa mitattavan ominaisuuden mukaan järjestykseen eikä arvoilla voi suorittaa laskutoimituksia

Esim. pohjoismaat, kansalaisuus, sukupuoli jne.


Mittaustaso: ”sanallinen mittaaminen”

Järjestys- eli ordinaaliasteikko:

Muuttujien arvot voidaan laittaa mitattavan ominaisuuden mukaan luonnolliseen järjestykseen, mutta arvot eivät ole välttämättä tasavälisiä

Esim. viran hakijat kelpoisuuden mukaan

Esim. mielipidemittaukset (mm. likert): keskiarvojen laskeminen ”sallittua” yleiskuvan antajana)


Mittaustaso: ”määrällinen mittaaminen”

Välimatka- eli intervalliasteikko:

Mittausarvojen etäisyys tunnetaan (muuttujan arvot ovat säännöllisen välimatkan päässä toisistaan

Ei yksiselitteistä nollakohtaa

Esim. Celsius-asteikko, syntymävuosi (mittayksikkö on yksi vuosi)


Mittaustaso: ”määrällinen mittaaminen”

Suhdeasteikko eli absoluuttinen asteikko:

Välimatka-asteikollisen lisäksi muuttujilla on yksiselitteinen nollakohta, absoluuttinen nollapiste

Muuttujana arvojen suhde (eli toinen jaettuna toisella) pysyy samana, vaikka mittayksikköä muutetaan

Esim. jos rahaa on 0 euroa, sitä ei ole yhtään, lukumäärämuuttujat ovat suhdeasteikon muuttujia


Mittaustaso

Vaativammalla asteikolla on myös vähemmän vaativan asteikon ominaisuudet: muuttujan mitta-asteikko on ”vaativin” mitta-asteikko (se, jolla on eniten ominaisuuksia)

(esim. ikämuuttuja on suhdeasteikon muuttuja, koska sillä on absoluuttinen nollapiste kaikkien muiden mitta-asteikkojen ominaisuuksien lisäksi)


Kuvaileva (deskriptiivinen) tutkimus vs. selittävä(tilastolliseen päättelyyn perustuva) tutkimus

Kuvaileva tutkimus tiivistää informaatiota muuttujien ominaisuuksista ja niiden välisistä suhteista

Esim. jakaumien tarkastelu, keskiarvot, hajonnat

Tilastollisen päättelyn avulla voidaan tehdä johtopäätöksiä perusjoukosta

Kuinka hyvin otoksen avulla mitatut tulokset kuvaavat perusjoukkoa?

Miten hyvin tulokset otoksesta voidaan yleistää perusjoukkoa koskeviksi tuloksiksi?


Analyysimenetelmän valinta

Tutkimusasetelma/-ongelma

Analysoidaanko erillisiä muuttujia?

Analysoidaanko muuttujien välisiä suhteita?

Ryhmitelläänkö tapauksia?

Mitta-asteikko

Otoskoko ja oletusten voimassaolo (esim. jakaumat)


Kuvaileva l. deskriptiivinen (perus)tutkimus

Erillisten muuttujien analysoiminen

Frekvenssijakaumat (lukumäärät, prosentit)

Jakaumat kertovat vastaajajoukon ominaisuuksista ja jakautumisesta sekä mittarien toimivuudesta

Keskiluvut (jakauman sijainti x-akselilla)

mediaani (keskimmäinen arvo

moodi (yleisin arvo)

keskiarvo (mean)


Kuvaileva l. deskriptiivinen (perus)tutkimus

Hajontaluvut

keskihajonta (std.deviation)

varianssi (variance)

vaihteluväli (range)

Jakaumaa kuvaavat tunnusluvut:

vinous (skewness) (onko suuri osa havainnoista keskiarvoa suurempia / pienempiä?)

huipukkuus (kurtosis) (onko jakauma huipukas tai litteä?)

yhden muuttujan graafinen esittäminen


1. Harjoitus: aineiston kuvaaminen, sijainti- ja hajontalukuja

Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi)

Keskiluvut (keskiarvo, mediaani, moodi)

Keskiarvo, keskihajonta, minimi- ja maksimiarvot, muuttujien vinous (skewness) ja huipukkuus (kurtosis)


1. Harjoitus: Frekvenssit ja prosenttiosuudet (taulukko / pylväsdiagrammi)

Luokittelumuuttujat: frekvenssit ja prosenttiosuudet, moodi

Esim. Siviilisääty, tupakointihistoria

Välimatka-asteikolliset: histogrammi, moodi, mediaani, keskiarvo, keskihajonta

Esim. Tyytyväisyys elämänlaatuun (kysymys 13)


1. Harjoitus: Keskiluvut (keskiarvo, mediaani, moodi)

Luokittelumuuttujista vai moodi

Järjestyasteikollisista mediaani tai moodi

Välimatka-asteikollisista (ja soveltuvista järjestysasteikollisista): histogrammi, moodi, mediaani, keskiarvo


1. Keskiarvo, keskihajonta, minimi- ja maksimiarvot, muuttujien vinous (skewness) ja huipukkuus (kurtosis)


Jakauman normaalisuus

Parametriset testit edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää.

Tutkiminen havainnollisesti: histogrammin avulla (raportoi, ei tarvitse liittää raporttiin)

Tutkiminen vinous- ja huipukkuuslukujen avulla: kuvaavat, miten jakauma poikkeaa normaalijakaumasta. Suuremmilla aineistoilla (N>200) vinous ei enää helposti vaaranna testin tulosta. Arvot eivät saisi olla yli kaksi kertaa suuremmat kuin niiden keskivirhe (standard error).

Vinous (Skewness): mihin suuntaan jakauma laahaa esim. positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino, g₁ > 0, jakauma on oikealle vino ja g₁ < 0, jakauma on vasemmalle vino. Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5

Huipukkuus (Kurtosis): esim. kaksihuippuinen, huiputon, huipukas: g₂ > 0, jakauma on terävähuippuinen ja g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat jokseenkin tasaisesti kaikille arvoille).Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on lähellä lukua +3.00


Jakauman normaalisuus

Tutkiminen testaamalla: Analyze-Descriptive Statistic-Explore-Normality plots with tests

  • Suuret aineistot (yli 50): Kolmogorov-Smirnov, pienet aineistot (alle 50). Saphiro-Wilkn -testi: Testitulos luetaan sig.-kohdasta: jos testin tulos EI ole merkitsevä, muuttujan voidaan sanoa olevan normaalisti jakautunut ja voidaan käyttää parametrisia testejä.

  • Ongelma: testin tulos on yleensä merkitsevä (eli jakauma ei ole normaalisti jakautunut vaan testitulos on lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn.

  • Jos jakuma on huomattavan vino, kannattaa käyttää non-parametrisiä testejä. Muutoin kannattaa tehdä molemmat rinnakkain ja katsoa, eroaako johtopäätös.


Jakauman luonnehdinta:

Jakauman huipukkuus

esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas

JA

symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä laahaa’)

esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino

Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.


Vinous (skewness)

Vinouskerroin g₁ ilmoittaa, mihin suuntaan jakauma on vino

Jos g₁ > 0, jakauma on oikealle vino

Jos g₁ < 0, jakauma on vasemmalle vino

Likimäärin normaalijakaumaa noudattelevan muuttujan vinous vaihtelee välillä -0.5 ja +0.5

Nyrkkisääntö: jos vinousindeksi on yli kaksi kertaa suurempi kuin sen keskivirhe, jakauman katsotaan poikkeavan symmetriaoletuksesta


Huipukkuus (kurtosis)

Jakauman huipun muotoa tarkastellaan huipukkuuskertoimen g₂ avulla

Kuinka terävähuippuinen jakauma on

Normaalijakauman huipukkuus on 0

Likimain normaalijakaumaa noudattavan muuttujan huipukkuus on lähellä lukua +3.00

Jos g₂ > 0, jakauma on terävähuippuinen (havainnot ‘pakkautuvat’ muutamille arvoille)

Jos g₂ < 0, jakauma on litteähuippuinen (havainnot jakautuvat jokseenkin tasaisesti kaikille arvoille)


Jakauman luonnehdinta:

Jakauman huipukkuus

esim. kaksihuippuinen, huiputon (litteähuippuinen), huipukas

JA

symmetrisyys vs. vinous (ts. mihin suuntaan ‘häntä laahaa’)

esim. Positiivisesti (oikealle) tai negatiivisesti (vasemmalle) vino

Vinous- ja huipukkuus kuvaavat sitä, miten jakauma poikkeaa normaalijakaumasta.


Kotitehtävä: Tulkitse kysymyksen 10. muuttujasta tunnilla otetun tulosteen tunnusluvut. Tarkastele myös histogrammin avulla, onko muuttujan jakauma tasainen (vinous, huipukkuus, yksihuippuisuus). Käyttäisitkö keskiarvoa tämän muuttujan tulkinnassa?


Kuvaileva l.- deskriptiivinen (perus)tutkimus

Otoksesta laskettavien tunnuslukujen yleistettävyys??

Keskivirhe

Luottamusväli

Otoksesta laskettavien tulosten tilastollinen merkitsevyys? Eli millä todennäköisyydellä saatu tulos on totta myös perusjoukossa?

Hypoteesien testauksen tekniikka

Perusjoukon keskiarvoa (tai vastaavaa tunnuslukua) ei voida otoksen perusteella määrittää tarkasti.

Otoksen perusteella voidaan kuitenkin sanoa, millä TODENNÄKÖISYYDELLÄ keskiarvo sijoittuu tietylle välille.


Tilastolliset testit

auttavat päättelemään, johtuuko tarkasteltu ilmiö sattumasta vai ei (yleistys otoksesta perusjoukkoon)

aineisto kertoo, millä varmuudella teemme päätelmiä

jokaisessa tilastollisessa testissä otannasta saatavia tuloksia verrataan teoreettiseen malliin

teoreettisen mallin mukaan testissä testataan ns. nollahypoteesia, jonka mukaan vaikutusta tai eroa ei ole (vaihtoehtoinen hypoteesi olettaa, että eroa on)


Tilastolliset testit

yhteiskuntatieteissä yleisin merkitsevyystaso on 0,05eli sallitaan 5 %:n riski sille, että teemme virheellisen johtopäätöksen hylätessämme nollahypoteesin

Merkitsevyys ei merkitse merkittävyyttä (onko tulos sisällöllisesti merkittävä, relevantti, tärkeä)


Testauksen terminologia

Muuttuja

Luottamusväli

Luottamus- /merkitsevyystaso

Nollahypoteesi, vastahypoteesi ja vaihtoehtoinen hypoteesi (tutkimushypoteesi)

Testisuure

Vapausasteet

P-arvo


Tilastollinen päättely

Luottamusväli: kertoo, millä välillä todellinen perusjoukon tunnusluvun arvo on tietyllä todennäköisyydellä.

Luottamustaso: kertoo, millä todennäköisyydellä perusjoukkoa kuvaava tunnusluku on tietyllä luottamusvälillä.

Toisen tietäminen edellyttää toisen tietämistä.

Luottamustason kasvaessa laajenee myös luottamusväli.


Testauksen terminologia

P-arvo, merkitsevyystaso: valinta määrittää todennäköisyyden sille, että tutkija hylkää nollahypoteesin, vaikka se todellisuudessa on tosi (riskitaso, virheellisen valinnan riski)

Yleensä yhteiskuntatieteissä 0.05 (eli 5 %), myös 0.01 )eli 1 % ja 0.01 (eli 0,1 %) tasot.

Jos käytetään 5 %:n riskitaso, saavutetaan tällä 95%:n todennäköisyys sille, että tulos on tutkimuksen perusjoukossa pätevä. Samalla virheen todennäköisyys on 5 %.


Testauksen terminologia

P-arvo: tilastollisen testin tuloksena saadaan ns. p-arvo (probability), joka ilmoittaa virheellisen päätelmän todennäköisyyden

p < .05  tulos tilastollisesti ‘melkein merkitsevä’

p < .01  tulos tilastollisesti ‘merkitsevä’

p < .001  tulos tilastollisesti ‘erittäin merkitsevä’


Testauksen terminologia

Nollahypoteesi H0: useimmiten teoriasta johdetun oletuksen vastainen hypoteesi (eroa tai yhteyttä ei ole)

VastahypoteesiH1 : nollahypoteesin vastainen, hyväksytään, jos tilastollisen testauksen avulla nollahypoteesi pystytään kumoamaan


Testauksen vaiheet

Aseta nollahypoteesi ja vastahypoteesi

Valitse tilastollinen testi (useimmat menetelmät sisältävät testit automaattisesti) ja tutkijan tehtäväksi jää tulkita tulokset oikein

Valitse merkitsevyystaso

HUOM: tilastollisesti merkitsevä ei ole yhtä kuin tutkimuksellisesti merkittävä


Tilastolliset testit jaetaan parametrisiin ja parametrittomiin (ei-parametriset, epäparametriset) testeihin sen mukaan, minkälaisia jakaumia testit käyttävät.

Ei-parametrisillä testeillä ei ole jakaumaoletuksia.

Testit eivät ole kuitenkaan yhtä voimakkaita kuin parametriset testit, minkä vuoksi kannattaa käyttää parametrisiä testejä aina kun siihen on mahdollisuus.

Parametriset ja ei-parametriset testit


Parametriset ja ei-parametriset testit

Parametrisillä testeillä on jakaumaoletuksia

vähintään välimatka-asteikko

varianssien yhtä suuruus

jakaumien normaalisuus 5 %.


Parametrinen vs. parametriton

Parametrinen

Pearsonin tulomomentti-korrelaatio

Riippumattomien otosten testi T-testi

Yksisuuntainen varianssianalyysi (ANOVA)

Toistomittaus MANOVA/ Riippuvien otosten T-testi

Parametriton

Spearmanin järjestyskorrelaatio

Mann-Whitneyn U-testi

Kruskal-Wallisin –testi

Wilcoxonin testi


  • Login