1 / 66

Hoofdstuk 2

Hoofdstuk 2. Kijken naar gegevens : relaties. Hoofdstuk 1 : 1 variabele Hoofdstuk 2 : relaties tussen verschillende variabelen In gegevensverzameling : meerdere variabelen per geval Geval : individuele persoon individueel dier individueel ding waarvoor variabelen.

fran
Download Presentation

Hoofdstuk 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hoofdstuk 2 Kijken naar gegevens : relaties

  2. Hoofdstuk 1 : 1 variabele • Hoofdstuk 2 : relaties tussen verschillende variabelen • In gegevensverzameling : meerdere variabelen per geval • Geval : individuele persoon individueel dier individueel ding waarvoor variabelen

  3. Kwantitatieve of kwalitatieve variabelen • kwantitatief : numeriek (gemid. en stand.afw.) • kwalitatief : klasse, categorie • Bij meerdere variabelen vaak kwantitatief en kwalitatief samen aanwezig • Relatie tussen twee variabelen • gewoon relatie • ene heeft invloed op de andere

  4. Invloed van ene variabele = de verklarende variabele OF de onafhankelijke variabele op de andere variabele = de te verklaren variabele OF de afhankelijke variabele

  5. 2.1. Spreidingsdiagrammen • Doel : relatie tussen 2 kwantitatieve variabelen bij zelfde individu grafisch weergeven • Voorbeeld : punten van Tom 2de jaar3de jaar taal 7 7.5 rekenen 9 8.5 WO 8 8 LO 8.5 8 Tekenen 6.5 6 Muziek 7.5 7

  6. A. Spreidingsdiagrammen interpreteren • Zoeken naar een globaal patroon • Meest voorkomende : LINEAIRE relatie : = de vorm van een rechte lijn • RICHTING : Positieve samenhang : • boven gemidd voor A, ook boven gemidd voor B • onder gemidd voor A, ook onder gemidd voor B • OF : HOE MEER HOE MEER

  7. RICHTING : Negatieve samenhang : • boven gemidd voor A, onder gemidd voor B en omgekeerd • OF : HOE MEER HOE MINDER • VORM : Lineair of niet lineair • Relatie niet altijd lineair • STERKTE van verband : hoe meer op een rechte lijn hoe sterker

  8. B. Kwalitatieve verklarende variabelen • Kwalitatieve variabelen kunnen • ook grafisch in spreidingsdiagrammen • > de kwalitatieve variabele op de x-as • of met zij-aan-zij doosdiagramman • Voorbeeld : geslacht en score op een test

  9. Soms wel een ordening : opleiding & inkomen

  10. 2.2. Correlatie • Sterke lineaire relatie als de punten dicht bij een rechte lijn liggen • Zwakke relatie als de punten verspreidt liggen • Maar dit niet enkel op het zicht interpreteren : een numerieke maat nodig die de sterkte aanduidt

  11. A. De correlatie r • Correlatiecoëfficiënt : meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve variabelen • Correlatie : enkel betrekking op LINEAIRE relatie tussen KWANTITATIEVE variabelen

  12. Correlatiecoëfficiënt r • r = 1/ (n-1)  x – xy–y • s x s y • Samenhang tussen x en y : als zowel x als y onder gemiddelde of beide boven gemiddelde zal r hierboven groter worden

  13. Als x en y tegengestelde tekens hebben, zal de correlatie negatief zijn • In de formule wordt gebruik gemaakt van gestandaardiseerde afwijkingen • (x - gem x)/sx . DUS wijziging in meeteenheid heeft geen invloed op r. • Formule van r niet kennen wel computeroutput

  14. B. Eigenschappen van correlatie • Geen x en y bij correlatie, geen afhankelijke en onafhankelijke variabele • Moeten twee kwantitatieve variabelen zijn • r verandert niet als de meeteenheid van x, y of beide verandert • Een positieve r wijst op een positieve samenhang, een negatieve r op een negatieve samenhang • r ligt tussen -1 en +1, positieve en negatieve samenhang

  15. Naarmate r dichter naar -1 of +1 gaat liggen de punten dichter bij de rechte lijn, en is het verband sterker • Waarden van r die dichtbij 0 liggen geven een heel zwak lineair verband • r=1 of r=-1 betekenen dat de punten precies op de rechte lijn liggen, dan is er een perfect verband • Correlatie meet slechts de sterkte van een lineaire relatie, sterke kromlijnige relaties worden niet in correlatie weerspiegeld • R is niet resistent, wordt sterk beïnvloed door uitschieters

  16. 2.3. Kleinste-kwadratenregressie • Hoe kunnen we spreidingsdiagram op een korte manier weergeven • Meest eenvoudige relatie : afhankelijke variabele y hangt lineair (rechtlijnig) af van een onafhankelijke variabele x • REGRESSIELIJN = rechte lijn die afhankelijkheid van een variabele van een andere beschrijft

  17. Bij correlatie : 2 kwantitatieve variabelen zonder x en y • Bij regressie : duidelijke x = onafhankelijke variabele y = afhankelijke variabele • Regressielijn : voorspellen van y op basis van x

  18. A. Aanpassen van een lijn aan de data • Bij een lineair patroon in het spreidingsdiagram gaat een rechte lijn niet PRECIES door alle punten • DUS : aanpassen van een lijn = lijn tekenen die zo dicht mogelijk bij de punten komt • De VERGELIJKING van zo een lijn geeft een beknopte beschrijving van de afhankelijkheid van y van variabele x

  19. Voorbeeld : gemiddelde lengte naar leeftijd leeftijd in maanden lengte in cm 18 76.1 19 77.0 20 78.1 21 78.2 22 78.8 23 79.7 24 79.9 25 81.1 26 81.2 27 81.8 28 82.8 29 83.5

  20. Beschrijving van een rechte lijn y = a + b x y = te verklaren variabele of afhankelijke op verticale as x = de verklarende of onafhankelijke op horizontale as b = de helling, hoeveelheid waarmee y toeneemt als x één eenheid toeneemt a = constante (waarde van y bij x=0)

  21. Terug naar het voorbeeld : lengte = 64.93 + (0.635 . leeftijd) • helling b = 0.635 dus elke maand ongeveer 0.6 cm lengte toenemen • dus b = mate van verandering in y als x verandert • constante a = 64.93 zou lengte zijn bij leeftijd 0 (geboorte) indien ze zouden groeien met vaste verhouding, wat niet zo is, dus niet belangrijk

  22. B. Voorspelling • Op basis van regressielijn kan de afhankelijke variabele y VOORSPELD worden op basis van x bv. wat zou de lengte zijn bij leeftijd 32 ? Lengte = 64.93 + (0.635 X 32) = 85.25 cm of grafisch op basis van figuur (extrapolatie) • Als de gegevens zeer dicht bij de lijn liggen is de voorspelling betrouwbaar, bij grote spreiding rondom de lijn minder

  23. C. Kleinste-kwadratenregressie • Hoe vinden we nu deze lijn door de data ? • methode van de kleinste kwadraten • HOE ? • Eerst y voorspellen uit x • y op y-as • verticale afstanden van punten tot de lijn zijn fouten in de voorspelling van y • doel is zo weinig mogelijk fouten dus afwijkingen zo klein mogelijk maken

  24. Sommige punten boven (positief) en andere onder (negatief) dus kwadrateren zodat allen positief zijn • som van de kwadraten is de omvang van alle afwijkingen • DUS die lijn zoeken waarvoor de som van de kwadraten het kleinst is = de kleinste kwadraten regressielijn

  25. Afwijking = waargenomen y - voorspelde y = yi - yi = yi - a - bxi  (afwijkingen)2 =  (yi - a - bxi )2 = som van kwadraten van de afwijking zo klein mogelijk = hiervoor moeten a en b gevonden worden

  26.  (afwijkingen)2 =  (yi - a - bxi )2 in voorbeeld : (76.1 - a - 18b)2 + (77.0 - a - 19b) 2 + … • formule niet kennen • wel op basis van computeroutput

  27. D. Interpreteren van de regressielijn • Regression : Coefficients t Sig. Model B Std. Error Beta 1 (Constant) 64,928 ,508 127,709 ,000 LEEFTIJD ,635 ,021 ,994 29,665 ,000 a Dependent Variable: LENGTE

  28. E. Correlatie en regressie • Bij regressielijn afhankelijke variabele voorspellen uit onafhankelijke • y op x • Maar kan ook omgekeerd regressie van • x op y Beide regressielijnen zijn sterk verschillend • verticale minimaliseren • horizontale minimaliseren

  29. 1e verband tussen correlatie en regressie • Het kwadraat van de correlatiecoëfficiënt, r2 is de variatie in y waarden die verklaard worden door de kleinste-kwadratenregressie van y op x • bv. r = -0.64 dus r2 = 0.41 of 41% van de variatie van een van de variabelen wordt verklaard door de lineaire regressie op de andere variabele

  30. r2 wordt veel gebruikt omdat het een directe maat is voor het succes van een regressie 2e verband tussen correlatie en regressie • Helling van de regressielijn sy b = r sx of een verandering van 1 st.afw. in x komt overeen met een verandering van r st.afw. in y

  31. Als we weten dat de kleinste kwadraten regressielijn loopt door het punt ( x, y) van de grafiek en de helling is r sy / sx DAN kan de regressie volledig beschreven worden uit gem x, gem y, sx, sy, en r

  32. 2.4. Waarschuwingen over regressie en correlatie • Regressie en correlatie worden heel veel gebruikt • Ook zonder nadenken • Steeds zicht blijven houden op mogelijkheden en beperkingen

  33. A. Residuen • Residu = het verschil tussen een waargenomen waarde en de door het model voorspelde waarde = AFWIJKING residu = waargenomen y - voorspelde y = y - y • Bij kijken naar gegevens eerst globaal patroon en dan de afwijking WAARNEMING = AANPASSING+ RESIDU

  34. Voorbeeld : - bij 24 maand was de lengte 79.9 cm - regressielijn : y = 64.93 + (0.635 X 24) = 80.17 - het residu bedraagt 79.9 - 80.17 = -0.27 • residuen zijn de verticale afstanden tot de regressielijn • het zijn de afwijkingen die overblijven nadat de lijn is getrokken waarvan de som van de kwadraten van afwijkingen zo klein mogelijk is

  35. Door residuen te bekijken zien we hoe goed de lijn de gegevens beschrijft • Het gemiddelde van de residuen is steeds gelijk aan 0 indien de kleinste-kwadratenlijn werd berekend • Bekijken op basis van een residuendiagram

  36. Het residuendiagram moet een ongestructureerde band zijn om 0 • Indien er een patroon zit in de residuen • bv. curvilinear • bv. systematish groter wordende residuen => dan moet er verder gekeken worden of er niets over het hoofd is gezien • Op basis van residuen zou een verborgen variabele kunnen worden ontdekt

  37. B. Verborgen variabelen • Een verborgen variabele heeft een belangrijke invloed op de relaties maar is niet opgenomen bij de bestudeerde variabelen • Door een specifiek patroon in residuen diagram kan bv. opgespoord worden

  38. C. Uitschieters en invloedrijke waarnemingen • Naast globaal patroon zijn afzonderlijke punten die buiten dat patroon vallen soms nog belangrijker • Voorbeeld : leeftijd waarop een kind begint te spreken en latere score op test  regressielijn : later spreken, lagere score

  39. Uitschieters in regressie : in verticale richting ver van de regressielijn dus groot residu • kunnen we ontdekken op basis van residuendiagram • Invloedrijke waarnemingen in regressie : als verwijdering ervan een opvallende wijziging in de regressielijn teweegbrengt, vaak extreme x-waarden • kan niet op basis van residuen gevonden worden, wel spreidingsdiagram

  40. Bij invloedrijke waarnemen : • nagaan of ze correct zijn • behoort ze wel tot de populatie DOEN : eens regressielijn met en zonder invloedrijke waarnemingen bekijken

  41. D. Wees alert • Alleen maar voor lineaire samenhang • noch r, noch kleinste-kwadratenregressie is resistent : dus : - kijken naar invloedrijke waarneming - opletten voor intikfouten • Steeds opletten voor verborgen variabelen bv. positieve correlatie tussen leraren-salarissen en verkoop van sterke drank

  42. = nonsens correlaties = een sterke correlatie impliceert geen oorzaak-gevolg relatie • soms lage correlatie maar toch verband bv. twee clusters DUS : niet alleen naar correlatie kijken ook steeds naar de figuur • Pas y voorspellen uit x bij voldoende sterke r2, dus eerst correlatie kwadrateren en pas dan regressie

  43. Ook opletten met extrapolatie : dikwijls geldt de regressielijn enkel voor een beperkt gebied van x • Opletten met correlaties tussen gemiddelden -> door gemiddelden wordt reeds heel wat variatie gladgestreken -> deze correlaties zijn gewoonlijk overschattingen

More Related