Analisi di dati categoriali
Download
1 / 60

“Analisi di dati categoriali” - PowerPoint PPT Presentation


  • 101 Views
  • Uploaded on

“Analisi di dati categoriali”. Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti. Gli odds ratio. Le relazioni tra variabili possono essere analizzate in termini probabilistici.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' “Analisi di dati categoriali”' - leandra-winters


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Analisi di dati categoriali

“Analisi di dati categoriali”

Corso di Laurea in Sociologia

Facoltà di Sociologia

Università Milano-Bicocca

Ottobre 2009

Simone Sarti


Gli odds ratio
Gli odds ratio

  • Le relazioni tra variabili possono essere analizzate in termini probabilistici.

  • L’odds ratio è una misura dell’associazione tra due variabili.

  • L’odds è un rapporto di probabilità.

  • L’odds ratio è un rapporto di odds.


Odds

  • Un odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria.

Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”

Odd= 471/685 = 0,688 (in decimali)

Prob.= 471/1156 = 0,407 = 40,7%

Le probabilità variano da 0 a 1

Gli odds variano da 0 a +inf.


  • Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi

  • Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi

  • Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.




Odds marginali
Odds marginali

  • L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688

  • L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.


Odds condizionali
Odds condizionali

La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271.

Per le donne i corrispondenti odds si attestano a 0.565 =234/414


Odds ratio
Odds ratio

Il modo in cui i due odds condizionali differiscono l’uno dall’altro può essere espresso dal loro rapporto:

0.875/0.565=(237/271)/(234/414)=1.547

L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria.

L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.


Y

X

Relazione tra probabilità, odds ed odds ratio e in una tavola due X due:


Age sex education hagenaars model
Age -sex- educationHagenaars model


Odds ratio di secondo ordine
Odds ratio di secondo ordine

Calcoliamo gli odds ratio condizionali per ciascun gruppo di età

Per il gruppo più giovane è pari a 1.337 (100/83)/(91/101)

Per il gruppo di mezzo è 1.745

Per il gruppo più anziano è 1.287

Il modo in cui questi tre odds ratio condizionali differiscono uno dall’altro può essere espresso dal odds ratio di secondo ordine che è ottenuto dal rapporto di odds ratio di primo ordine.

L’odds ratio di secondo ordine esprime in che misura l’associazione tra due variabili varia in relazione alle categorie di una terza variabile.


Confrontiamo gli odds ratio condizionali dei giovani rispetto ai soggetti in età centrale e otteniamo

0.766=(1.337/1.745)

Compariamo i giovani con gli anziani

1.039=(1.337/.1287)

Ed infine l’età di mezzo con gli anziani

1.356=(1.745/1.287).

Gli odds ratio condizionali ci indicano che in tutti i tre gruppi le probabilità di conseguire un alto livello di istruzione sono più sfavorevoli per le donne rispetto agli uomini.

In più la discrepanza tra le opportunità di istruzione tra uomini e donne è massima nel gruppo di soggetti in età centrale


Odds parziali
ODDS PARZIALI

Gli odds parzialisono medie di odds condizionali, dove la media geometrica è usata come misura di tendenza centrale

Partial odds “high/low educ” tab.2.1 =

Tale valore non è identico a 0.688 ottenuto dagli odds marginali corrispondenti.


Odds ratios parziali
Odds ratios parziali

I Gli odds ratio parziali sono definiti come una media geometrica dei corrispondenti odds ratio condizionali.

Partial odds ratio “sex by educ” tab.2.2 =

Tale valore non è identico a 1.547 ottenuto dal corrispondente odds ratio marginale.


Il problema dell asimmetria
Il problema dell’asimmetria

Quando interpretiamo la forza degli odds e degli odds ratio dobbiamo ricordare che i valori degli odds sono asimmetricamente situati attorno ad 1, che è il valore dell’assenza di differenza.

Il limite massimo negativo è 0 mentre il limite massimo positivo è +infinito. L’asimmetria scompare quando lavoriamo con i logaritmi naturali degli odds e degli odds ratios. Il limite negativo diventa -infinito, quello positivo + infinito

Il logaritmo naturale dell’odds riceve la denominazione di logit.


Il problema dell asimmetria1
Il problema dell’asimmetria

y

y

Effetto positivo

Effetto positivo

1

Assenza

Effetto negativo

Assenza di effetto

π

0

logit(π)

0

0,5

1

Effetto negativo

logit (-∞,+∞)

odds (0,+∞)

y=logit(π) 0<π<1

y= π/(1- π) 0<π<1


Effetti assoluti ed effetti relativi
Effetti assoluti ed effetti relativi

Le differenze percentuali (o di probabilità) danno una misura assoluta della relazione tra modalità di due variabili, mentre gli odds ratio danno una misura relativa.

Ciò significa che anche in presenza di odds ratio elevati possiamo avere effetti, in termini assoluti, sostanzialmente deboli.


Effetti assoluti ed effetti relativi: esempio

% condizionate

Genere e

soddisfazione per la democrazia

dyx= + 0,025


LOGICA TRIVARIATA

CONTROLLO PER UNA TERZA VARIABILE


Logica trivariata
Logica trivariata

  • Quando ad una relazione bivariata aggiungiamo una terza variabile operiamo un’analisi trivariata.


Perch considerare una terza variabile
Perché considerare una terza variabile?

Quando consideriamo un’ipotesi causale tra due fenomeni ed empiricamente corroboriamo l’esistenza di una relazione, non possiamo tuttavia escludere che i due fenomeni non siano dovuti ad un terzo che non abbiamo preso in considerazione.


La causa di un fenomeno in senso generico può essere definita come la somma totale delle condizioni , la totalità delle contingenze alla cui realizzazione segue invariabilmente il conseguente. (Campelli 1999)

Tuttavia, “Nulla può meglio mostrare l’assenza di qualsiasi fondamento scientifico per la distinzione fra la causa d’un fenomeno e le sue condizioni della maniera capricciosa in cui scegliamo fra le condizioni quella che preferiamo chiamare causa “ (J.S.Mill)


Cause ed effetti
Cause ed effetti ? definita come la somma totale delle condizioni , la totalità delle contingenze alla cui realizzazione segue invariabilmente il conseguente. (Campelli 1999)

1.Il numero di pompieri impegnati nello spegnere un incendio è correlato con la stima finale dei danni provocati dall’incendio stesso.

2.I bambini nelle cui case vi sono più finestre mostrano migliori rendimenti scolastici.


Presenza di un effetto SPURIO, cioè di una terza variabile, antecedente alle due, che è la “vera” causa della relazione!

1. Considerando le dimensioni dell’incendio, la relazione tra numero di vigili del fuoco e stima dei danni sparisce.

2.Considerando la ricchezza patrimoniale dei genitori, la relazione tra numero di finestre e rendimento scolastico sparisce.


Posizione delle variabili
Posizione delle variabili antecedente alle due, che è la “vera” causa della relazione!

  • Una volta ipotizzata una relazione tra due variabili X “indipendente” e Y “dipendente”, l’altra o le altre variabili considerate possono assumere quattro posizioni:

    • variabili antecedenti,

    • variabili intervenienti,

    • variabili susseguenti,

    • variabili concomitanti.


Variabili antecedenti
Variabili antecedenti antecedente alle due, che è la “vera” causa della relazione!

Quelle variabili che nell’ordine causale precedono sia X che Y.

A

X

Y


Logica degli effetti
LOGICA degli effetti antecedente alle due, che è la “vera” causa della relazione!

EFFETTO SPURIO:

l’inserimento di una variabile di controllo Z, annulla la relazione tra X e Y.

X

Y

Z

X

Y


Logica degli effetti1
LOGICA degli effetti antecedente alle due, che è la “vera” causa della relazione!

EFFETTO SOPPRESSO:

l’inserimento di una variabile di controllo Z, rende palese la relazione tra X e Y.

X

Y

Z

X

Y


Scomposizione degli effetti
SCOMPOSIZIONE degli effetti antecedente alle due, che è la “vera” causa della relazione!

Variabili categoriali e

differenze di probabilità


Esempio 1 tra variabili dicotomiche incrocio tra titolo di studio e fiducia nel sistema giudiziario

Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

ESEMPIO 1. tra variabili dicotomiche.Incrocio tra titolo di studio e fiducia nel sistema giudiziario …

X

Y

X Titolo di studio (L – H)

Y Fiducia nel sistema giudiziario (S – N)


Controllato per la variabile antecedente z

Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

… controllato per la variabile antecedente Z

Z

X

Y

Z Coorte di nascita (G – A)


Effetto bivariato xy effetto causale netto effetto spurio

Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

Effetto bivariato XY= Effetto causale netto + Effetto spurio

dyx = dyx.z + d(yx)z

Z

d(yx)z

dyx

X

Y

X

Y

dyx.z


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

Fonte: EB 60.1 Italia (30 e più anni)


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

dyx Effetto bivariato: educaz. e fiducia giustizia

In un incrocio dicotomico l’effetto bivariato è misurabile attraverso una semplice differenza di probabilità (equivale al coefficiente di regressione quando le variabili sono 0 e 1) .

dyx equivale alla differenza di probabilità sull’avere fiducia nella giustizia dato l’avere un titolo di studio alto piuttosto che basso.


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

dyx Effetto bivariato: educaz. e fiducia giustizia

Pr (Y=1 | X=2) – Pr (Y=1 | X=1)

Equivale alla probabilità che la variabile Y assuma valore y, dato che la variabile X assume valore x: Pr (Y=y | X=x)

La categoria di riferimento è la “SI” (Y=1).

dyx = 0,581 - 0,436 = 0,145


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

dyx = 0,581 - 0,436 = 0,145

La relazione tra possesso della laurea (piuttosto che un titolo di studio inferiore) e fiducia nella giustizia (“si” piuttosto che “no”) è positiva.


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

GIOVANI Z=1

ANZIANI Z=2


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

Effetti condizionati di Z

Considerando Z, troviamo diversi effetti di X su Y.

dyx|z=1 = 0,593 -0,425 = 0,168

dyx|z=2 = 0,553 -0,448 = 0,105


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

Effetto condizionato complessivo di Z

Considerando che le numerosità in Z tra giovani ed anziani sono diverse, occorre ponderare gli effetti condizionati.

Giovani= 388/685 = 0,567 quota di giovani (qg)

Anziani= 297/685 = 0,433 quota di anziani (1 - qg)

dyx.z = (0,168*0,567) + (0,105*0,433) = 0,141


Effetto bivariato effetto causale effetto spurio

Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

Effetto bivariato = Effetto causale + Effetto spurio

dyx = dyx.z + d(yx)z

d(yx)z Effetto spurio

d(yx)z =dyx – dyx.z = 0,145 – (0,141) = 0,004


Esempio 1 antecedente alle due, che è la “vera” causa della relazione!

L’effetto della variabile Z è sostanzialmente nullo, ossia la relazione tra titolo di studio e fiducia nella giustizia permane immutata anche a parità di fascia d’età. Non c’è effetto SPURIO.

Z

~ 0

~ 0

X

Y

+


L effetto di interazione
L’effetto di interazione antecedente alle due, che è la “vera” causa della relazione!


L effetto di interazione1
L’effetto di interazione antecedente alle due, che è la “vera” causa della relazione!

Quando l’effetto causale esercitato dalla variabile indipendente X sulla variabile indipendente Y si manifesta in modi diversi a seconda del valore assunto dalla variabile di controllo Z.

Z

X

Y


Pr ( antecedente alle due, che è la “vera” causa della relazione!Y=0 | X=1) – Pr (Y=0 | X=0)

Y=0

Y=1

X=0

dyx= - 0,25

X=1

Z=0

Z=1

Y=0

Y=1

Y=0

Y=1

X=0

X=0

X=1

X=1

dyx|z=0= +0,54

dyx|z=1= -0,86


Y antecedente alle due, che è la “vera” causa della relazione!

Effetto di interazione di Z (dicotomica) su X e Y (cardinali)

β>0

X

Z=0

Z=1

Y

Y

X

X

βz=0>0

βz=1<0


Esempi di effetti di interazione (titolo*età) antecedente alle due, che è la “vera” causa della relazione!


Scomposizione degli effetti1
SCOMPOSIZIONE degli effetti antecedente alle due, che è la “vera” causa della relazione!

Se le variabili sono dicotomiche ed attribuiamo i valori 0 e 1 alle modalità di ciascuna, la relazione tra le due può essere misurata con il coefficiente di correlazione di Pearson (r), che in una tavola 2x2 è equivalente al V di Cramer.


Ipotizziamo che la variabile Z influenzi la relazione tra Y e X.

Come misurare l’effetto di X su Y al netto di Z ?

Z

X

Y

X

Y


Correlazioni tra le variabili: e X.

Matrice di correlazione, r.. osservati

Z

X

Y


E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo costante” Z:

NB: rxy.z non tiene conto degli effetti di interazione !


Coefficiente di correlazione parziale tra X e Y “tenendo costante” Z:

Correlazione bivariata

Correlazione di Z su X e Y

Misura quanto Z spiega di X eY

Più la Z spiega X eY, più grande è il denominatore

Residui di Z-X e Z-Y


E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo costante” Z:

Matrice di correlazione, r.. osservati

Z

X

Y


La correlazione tra X e Y tenendo sotto controllo Z diventa molto piccola.

C’è effetto spurio!

Z

X

Y

Effetto bivariato = Effetto causale + Effetto spurio

ryx = ryx.z + r(yx)z


Correlazioni fra tre variabili (dicotomizzate 0/1) molto piccola.

Calcolare la correlazione parziale tra anni di scolarità e reddito


ad