Hoofdstuk 2

Hoofdstuk 2 Kijken naar gegevens : relaties

Hoofdstuk 1 : 1 variabele • Hoofdstuk 2 : relaties tussen verschillende variabelen • In gegevensverzameling : meerdere variabelen per geval • Geval : individuele persoon individueel dier individueel ding waarvoor variabelen

Kwantitatieve of kwalitatieve variabelen • kwantitatief : numeriek (gemid. en stand.afw.) • kwalitatief : klasse, categorie • Bij meerdere variabelen vaak kwantitatief en kwalitatief samen aanwezig • Relatie tussen twee variabelen • gewoon relatie • ene heeft invloed op de andere

Invloed van ene variabele = de verklarende variabele OF de onafhankelijke variabele op de andere variabele = de te verklaren variabele OF de afhankelijke variabele

2.1. Spreidingsdiagrammen • Doel : relatie tussen 2 kwantitatieve variabelen bij zelfde individu grafisch weergeven • Voorbeeld : punten van Tom 2de jaar3de jaar taal 7 7.5 rekenen 9 8.5 WO 8 8 LO 8.5 8 Tekenen 6.5 6 Muziek 7.5 7

A. Spreidingsdiagrammen interpreteren • Zoeken naar een globaal patroon • Meest voorkomende : LINEAIRE relatie : = de vorm van een rechte lijn • RICHTING : Positieve samenhang : • boven gemidd voor A, ook boven gemidd voor B • onder gemidd voor A, ook onder gemidd voor B • OF : HOE MEER HOE MEER

RICHTING : Negatieve samenhang : • boven gemidd voor A, onder gemidd voor B en omgekeerd • OF : HOE MEER HOE MINDER • VORM : Lineair of niet lineair • Relatie niet altijd lineair • STERKTE van verband : hoe meer op een rechte lijn hoe sterker

B. Kwalitatieve verklarende variabelen • Kwalitatieve variabelen kunnen • ook grafisch in spreidingsdiagrammen • > de kwalitatieve variabele op de x-as • of met zij-aan-zij doosdiagramman • Voorbeeld : geslacht en score op een test

Soms wel een ordening : opleiding & inkomen

2.2. Correlatie • Sterke lineaire relatie als de punten dicht bij een rechte lijn liggen • Zwakke relatie als de punten verspreidt liggen • Maar dit niet enkel op het zicht interpreteren : een numerieke maat nodig die de sterkte aanduidt

A. De correlatie r • Correlatiecoëfficiënt : meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve variabelen • Correlatie : enkel betrekking op LINEAIRE relatie tussen KWANTITATIEVE variabelen

Correlatiecoëfficiënt r • r = 1/ (n-1)  x – xy–y • s x s y • Samenhang tussen x en y : als zowel x als y onder gemiddelde of beide boven gemiddelde zal r hierboven groter worden

Als x en y tegengestelde tekens hebben, zal de correlatie negatief zijn • In de formule wordt gebruik gemaakt van gestandaardiseerde afwijkingen • (x - gem x)/sx . DUS wijziging in meeteenheid heeft geen invloed op r. • Formule van r niet kennen wel computeroutput

B. Eigenschappen van correlatie • Geen x en y bij correlatie, geen afhankelijke en onafhankelijke variabele • Moeten twee kwantitatieve variabelen zijn • r verandert niet als de meeteenheid van x, y of beide verandert • Een positieve r wijst op een positieve samenhang, een negatieve r op een negatieve samenhang • r ligt tussen -1 en +1, positieve en negatieve samenhang

Naarmate r dichter naar -1 of +1 gaat liggen de punten dichter bij de rechte lijn, en is het verband sterker • Waarden van r die dichtbij 0 liggen geven een heel zwak lineair verband • r=1 of r=-1 betekenen dat de punten precies op de rechte lijn liggen, dan is er een perfect verband • Correlatie meet slechts de sterkte van een lineaire relatie, sterke kromlijnige relaties worden niet in correlatie weerspiegeld • R is niet resistent, wordt sterk beïnvloed door uitschieters

2.3. Kleinste-kwadratenregressie • Hoe kunnen we spreidingsdiagram op een korte manier weergeven • Meest eenvoudige relatie : afhankelijke variabele y hangt lineair (rechtlijnig) af van een onafhankelijke variabele x • REGRESSIELIJN = rechte lijn die afhankelijkheid van een variabele van een andere beschrijft

Bij correlatie : 2 kwantitatieve variabelen zonder x en y • Bij regressie : duidelijke x = onafhankelijke variabele y = afhankelijke variabele • Regressielijn : voorspellen van y op basis van x

A. Aanpassen van een lijn aan de data • Bij een lineair patroon in het spreidingsdiagram gaat een rechte lijn niet PRECIES door alle punten • DUS : aanpassen van een lijn = lijn tekenen die zo dicht mogelijk bij de punten komt • De VERGELIJKING van zo een lijn geeft een beknopte beschrijving van de afhankelijkheid van y van variabele x

Voorbeeld : gemiddelde lengte naar leeftijd leeftijd in maanden lengte in cm 18 76.1 19 77.0 20 78.1 21 78.2 22 78.8 23 79.7 24 79.9 25 81.1 26 81.2 27 81.8 28 82.8 29 83.5

Beschrijving van een rechte lijn y = a + b x y = te verklaren variabele of afhankelijke op verticale as x = de verklarende of onafhankelijke op horizontale as b = de helling, hoeveelheid waarmee y toeneemt als x één eenheid toeneemt a = constante (waarde van y bij x=0)

Terug naar het voorbeeld : lengte = 64.93 + (0.635 . leeftijd) • helling b = 0.635 dus elke maand ongeveer 0.6 cm lengte toenemen • dus b = mate van verandering in y als x verandert • constante a = 64.93 zou lengte zijn bij leeftijd 0 (geboorte) indien ze zouden groeien met vaste verhouding, wat niet zo is, dus niet belangrijk

B. Voorspelling • Op basis van regressielijn kan de afhankelijke variabele y VOORSPELD worden op basis van x bv. wat zou de lengte zijn bij leeftijd 32 ? Lengte = 64.93 + (0.635 X 32) = 85.25 cm of grafisch op basis van figuur (extrapolatie) • Als de gegevens zeer dicht bij de lijn liggen is de voorspelling betrouwbaar, bij grote spreiding rondom de lijn minder

C. Kleinste-kwadratenregressie • Hoe vinden we nu deze lijn door de data ? • methode van de kleinste kwadraten • HOE ? • Eerst y voorspellen uit x • y op y-as • verticale afstanden van punten tot de lijn zijn fouten in de voorspelling van y • doel is zo weinig mogelijk fouten dus afwijkingen zo klein mogelijk maken

Sommige punten boven (positief) en andere onder (negatief) dus kwadrateren zodat allen positief zijn • som van de kwadraten is de omvang van alle afwijkingen • DUS die lijn zoeken waarvoor de som van de kwadraten het kleinst is = de kleinste kwadraten regressielijn

Afwijking = waargenomen y - voorspelde y = yi - yi = yi - a - bxi  (afwijkingen)2 =  (yi - a - bxi )2 = som van kwadraten van de afwijking zo klein mogelijk = hiervoor moeten a en b gevonden worden

 (afwijkingen)2 =  (yi - a - bxi )2 in voorbeeld : (76.1 - a - 18b)2 + (77.0 - a - 19b) 2 + … • formule niet kennen • wel op basis van computeroutput

D. Interpreteren van de regressielijn • Regression : Coefficients t Sig. Model B Std. Error Beta 1 (Constant) 64,928 ,508 127,709 ,000 LEEFTIJD ,635 ,021 ,994 29,665 ,000 a Dependent Variable: LENGTE

E. Correlatie en regressie • Bij regressielijn afhankelijke variabele voorspellen uit onafhankelijke • y op x • Maar kan ook omgekeerd regressie van • x op y Beide regressielijnen zijn sterk verschillend • verticale minimaliseren • horizontale minimaliseren

1e verband tussen correlatie en regressie • Het kwadraat van de correlatiecoëfficiënt, r2 is de variatie in y waarden die verklaard worden door de kleinste-kwadratenregressie van y op x • bv. r = -0.64 dus r2 = 0.41 of 41% van de variatie van een van de variabelen wordt verklaard door de lineaire regressie op de andere variabele

r2 wordt veel gebruikt omdat het een directe maat is voor het succes van een regressie 2e verband tussen correlatie en regressie • Helling van de regressielijn sy b = r sx of een verandering van 1 st.afw. in x komt overeen met een verandering van r st.afw. in y

Als we weten dat de kleinste kwadraten regressielijn loopt door het punt ( x, y) van de grafiek en de helling is r sy / sx DAN kan de regressie volledig beschreven worden uit gem x, gem y, sx, sy, en r

2.4. Waarschuwingen over regressie en correlatie • Regressie en correlatie worden heel veel gebruikt • Ook zonder nadenken • Steeds zicht blijven houden op mogelijkheden en beperkingen

A. Residuen • Residu = het verschil tussen een waargenomen waarde en de door het model voorspelde waarde = AFWIJKING residu = waargenomen y - voorspelde y = y - y • Bij kijken naar gegevens eerst globaal patroon en dan de afwijking WAARNEMING = AANPASSING+ RESIDU

Voorbeeld : - bij 24 maand was de lengte 79.9 cm - regressielijn : y = 64.93 + (0.635 X 24) = 80.17 - het residu bedraagt 79.9 - 80.17 = -0.27 • residuen zijn de verticale afstanden tot de regressielijn • het zijn de afwijkingen die overblijven nadat de lijn is getrokken waarvan de som van de kwadraten van afwijkingen zo klein mogelijk is

Door residuen te bekijken zien we hoe goed de lijn de gegevens beschrijft • Het gemiddelde van de residuen is steeds gelijk aan 0 indien de kleinste-kwadratenlijn werd berekend • Bekijken op basis van een residuendiagram

Het residuendiagram moet een ongestructureerde band zijn om 0 • Indien er een patroon zit in de residuen • bv. curvilinear • bv. systematish groter wordende residuen => dan moet er verder gekeken worden of er niets over het hoofd is gezien • Op basis van residuen zou een verborgen variabele kunnen worden ontdekt

B. Verborgen variabelen • Een verborgen variabele heeft een belangrijke invloed op de relaties maar is niet opgenomen bij de bestudeerde variabelen • Door een specifiek patroon in residuen diagram kan bv. opgespoord worden

C. Uitschieters en invloedrijke waarnemingen • Naast globaal patroon zijn afzonderlijke punten die buiten dat patroon vallen soms nog belangrijker • Voorbeeld : leeftijd waarop een kind begint te spreken en latere score op test  regressielijn : later spreken, lagere score

Uitschieters in regressie : in verticale richting ver van de regressielijn dus groot residu • kunnen we ontdekken op basis van residuendiagram • Invloedrijke waarnemingen in regressie : als verwijdering ervan een opvallende wijziging in de regressielijn teweegbrengt, vaak extreme x-waarden • kan niet op basis van residuen gevonden worden, wel spreidingsdiagram

Bij invloedrijke waarnemen : • nagaan of ze correct zijn • behoort ze wel tot de populatie DOEN : eens regressielijn met en zonder invloedrijke waarnemingen bekijken

D. Wees alert • Alleen maar voor lineaire samenhang • noch r, noch kleinste-kwadratenregressie is resistent : dus : - kijken naar invloedrijke waarneming - opletten voor intikfouten • Steeds opletten voor verborgen variabelen bv. positieve correlatie tussen leraren-salarissen en verkoop van sterke drank

= nonsens correlaties = een sterke correlatie impliceert geen oorzaak-gevolg relatie • soms lage correlatie maar toch verband bv. twee clusters DUS : niet alleen naar correlatie kijken ook steeds naar de figuur • Pas y voorspellen uit x bij voldoende sterke r2, dus eerst correlatie kwadrateren en pas dan regressie

Ook opletten met extrapolatie : dikwijls geldt de regressielijn enkel voor een beperkt gebied van x • Opletten met correlaties tussen gemiddelden -> door gemiddelden wordt reeds heel wat variatie gladgestreken -> deze correlaties zijn gewoonlijk overschattingen

Hoofdstuk 2

Hoofdstuk 2

Presentation Transcript

Hoofdstuk 2

Hoofdstuk 2: Frequentieverdelingen

Hoofdstuk 2 Vormgevingstechnieken

Hoofdstuk 2

Hoofdstuk 2.

Hoofdstuk 2.

Hoofdstuk 2

Hoofdstuk 2

Hoofdstuk 2.

Hoofdstuk 2

Hoofdstuk 2

Hoofdstuk 2

Hoofdstuk 2 Paragraaf 2

Hoofdstuk 2

Module 2 – Hoofdstuk 2

Hoofdstuk 2.

HOOFDSTUK 2

Hoofdstuk 2 Samenvatting

Hoofdstuk 2

Hoofdstuk 2

Hoofdstuk 2

HOOFDSTUK 2