Counterfactuals and Causal Inference

Barbara Befani & Alessandra Decataldo presentano Counterfactuals and Causal Inference • by Stephen Morgan & Christopher Winship Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Introduzione • Logica della valutazione o metodo di attribuzione causale utile quando si devono gestire grandi numeri? • Concentrazione del valore dell’intervento su un’unica variabile risultato quantitativa • Logica di base dell’attribuzione causale • LOPC (Lista di cause possibili) • GEM (Metodo generale di eliminazione) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Introduzione (2) • Per attribuire la causalità ci sono almeno otto metodi tutti altrettanto validi che si applicano a seconda delle diverse situazioni: • (i) osservazione diretta (visiva, tattile) • (ii) osservazione riportata (studi di caso) • (iii) inferenza eliminativa (autopsia, guasto meccanico) • (iv) inferenza teorica, basata sull'uso di una teoria o di un'analogia, es. fisica, geologia, astronomia • (v) manipolazione diretta (es. in cucina o in laboratorio) • (vi) esperimenti naturali (metereologia, epidemiologia) • (vii) quasi-esperimenti (medicina, pedagogia) • (viii) RCTs randomizzazione, assegnazione casuale (farmacologia) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Introduzione (3) • Domande in merito ai rapporti di causa-effetto sono frequentemente all’origine di molti lavori empirici nelle scienze sociali. • Altrettanto frequentemente, però, non è possibile fornire una risposta a tali domande a causa delle difficoltà che gli scienziati sociali incontrano nel raccogliere dati. • Negli ultimi tre decenni è stato sviluppato un modello controfattuale della causalità che ha permesso di diffondere una cornice unificata per gli studi sui rapporti causa-effetto. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Il modello controfattuale per l’analisi dei dati osservativi • Il modello controfattuale suppone che in una popolazione ogni individuo possa essere esposto a due stati alternativi di una causa (detti trattamenti alternativi; se si considerano solo due stati, essi vengono definiti “trattamento” e “controllo”). • Ogni stato è caratterizzato da un distinto gruppo di condizioni; essere esposto a tali condizioni potenzialmente produce un risultato di interesse. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Il modello controfattuale per l’analisi dei dati osservativi (2) • Ogni individuo nella popolazione di interesse ha un risultato potenziale sotto ogni stato di trattamento, ma ogni individuo può essere osservato solo in uno specifico stato in un determinato momento. • I potenziali risultati di ogni individuo sono definiti come i veri valori del risultato di interesse che risulterebbe dall’esposizione agli stati causali alternativi. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Il modello controfattuale per l’analisi dei dati osservativi (3) • I potenziali risultati di un individuo i sono: • yi1nel caso di stato di trattamento • yi0 nel caso di stato di controllo • Poiché in teoria sia yi1 sia yi0 esistono per ogni individuo, l’effetto causale a livello individuale può essere definito come la semplice differenza • yi1 - yi0 • Ma gli effetti causali non possono essere calcolati a livello individuale poiché non è possibile osservare yi1 e yi0 per ogni individuo della popolazione di interesse. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Il modello controfattuale per l’analisi dei dati osservativi (4) • Necessariamente, un ricercatore deve analizzare una variabile Y (risultato osservato), che ha valori yi per ogni individuo i uguali a: • yi1per tutti gli individui del gruppo di trattamento • yi0 per tutti gli individui del gruppo di controllo • Concordemente: • yi0 è un risultato controfattuale non osservato per ogni individuo i del gruppo di trattamento • yi1è un risultato controfattuale non osservato per ogni individuo i del gruppo di controllo Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Il modello controfattuale per l’analisi dei dati osservativi (5) • Nella tradizione della modellizzazione controfattuale, l’attenzione è focalizzata sullo stimare gli effetti causali medi, analizzando i valori yi di gruppi di individui definiti da specifiche caratteristiche. • Per fare ciò, il processo attraverso il quale individui di differenti tipi sono esposti alla causa di interesse deve essere modellizzato. • Questo implica l’introduzione di assunzioni per la stima di valori controfattuali non osservabili medi per specifici gruppi di individui. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Tipi di esempio usati nel libro • Gli autori riportano, successivamente, tre esempi (gli effetti causali dell’esperienza familiare e dell’intelligenza sul risultato scolastico; gli effetti causali del risultato scolastico e dell’abilità mentale sui guadagni; gli effetti causali dell’esperienza familiare, del risultato scolastico e dei guadagni sulla partecipazione politica), che pongono alcune fondamentali sfide per l’analisi causale: • 1) le complicazioni della misurazione, ossia le variabili causali sono molto astratte e internamente eterogenee; • 2) le variabili individuali non sono facilmente manipolabili attraverso l’intervento esterno. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Tipi di esempio usati nel libro (2) • Gli autori riportano, inoltre, quattro esempi (gli effetti causali della scolarizzazione cattolica sull’apprendimento; gli effetti causali dei buoni scolastici sull’apprendimento; gli effetti causali della formazione alla manodopera sui guadagni; gli effetti causali della tecnologia alternativa di voto sul votare validamente), che mostrano una diretta relazione causale. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Dati osservativi e ricerche campionarie • Gli autori specificano che, nel corso del testo, si assume soventemente che il campione sia infinito (al fine di considerare come pari a 0 l’errore di campionamento e che la media campionaria di una variabile osservata sia uguale a quella della popolazione) e che le variabili siano state misurate senza errori. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

L’effetto netto medio E(δ) = E(Y1 - Y0) • 1^ problema: un’unica variabile quantitativa • 2^ problema: valore atteso di una variabile aleatoria, stimato per tutta la popolazione a partire da un campione • Metodi di inferenza statistica -> calcolo delle probabilità -> funzioni generalmente continue -> unità su cui ragioniamo sono infinitesimali, numeri reali • l’effetto individuale NON è osservabile e non solo perché è controfattuale • l’effetto non è osservabile non solo per un individuo della popolazione, ma neanche per qualsiasi insieme finito di individui; l’effetto può essere stimato solo per un insieme infinito di individui, quello della popolazione teorica Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Due ordini di inosservabilità • ricostruzione del dato controfattuale per il quale non c’è un chiaro referente empirico, ci sono elevati margini di discrezionalità • Per i dati cosiddetti “osservabili” – per i quali il campione è un chiaro referente empirico – dobbiamo però fare le ipotesi di rappresentatività del campione • Randomizzazione, lo estraiamo in maniera casuale e ci assicuriamo che sia di numerosità sufficientemente elevata • Lo stratifichiamo, introducendo ipotesi teoriche • Senza queste cautele, le unità su cui ragioniamo sono astratte: ovvero talmente piccole da essere infinitesimali, su ognuna di loro l’effetto è talmente piccolo da essere prossimo allo zero, e nessuna somma di un numero finito di infinitesimi è diversa da un infinitesimo… per fortuna è l’unico metodo EVIDENCE-BASED! Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Confronto tra metodi qualitativi e quantitativi • Metodi qualitativi sono imprecisi, inaffidabili, distorti, etc • Metodi quantitativi (continui, che usano numeri reali) ragionano su entità che non esistono nella realtà • Quando sono applicati male, se i metodi qualitativi sono un difetto della vista, i metodi quantitativi sono una forma di cecità Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

E(δ) = E(Y1) - E(Y0) • Y1 = valore della variabile sull’intera popolazione (umana, mondiale, infinita – v.a.) nel caso in cui sia sottoposta a trattamento. • Y0 = valore della variabile sull’intera popolazione (umana, mondiale, infinita – v.a.) nel caso in cui NON sia sottoposta a trattamento • Notazione: Y1 = Y se D = 1; Y0 = Y se D = 0 • D variabile discreta (0,1) indica la presenza / assenza del trattamento • δ = (Y1 - Y0); E(δ) = E(Y1 - Y0) = E(Y1) - E(Y0) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Lo stimatore ingenuo dell’effetto netto medio • δNAIVE = media (y | d = 1) - media (y | d = 0) • SE IL CAMPIONE E’ RAPPRESENTATIVO O CASUALE: • n -> inf., δNAIVE -> E(Y1|D=1) - E(Y0|D=0) diverso dall’effetto netto medio nell’intera popolazione E(δ) = E(Y1) - E(Y0) quindi δNAIVE È DISTORTO (dist. non campionaria) • L’effetto netto medio totale = • l’effetto netto medio sulla popolazione rappresentata dai trattati • + l’effetto netto medio sulla popolazione rappresentata dai NON trattati • E(δ) = π * E(δ|D=1) + (1-π) * E(δ|D=0) • π = proporzione di popolazione che tipicamente viene selezionata o si autoseleziona al trattamento • Se queste due quantità sono uguali no problem, coincidono con l’effetto medio netto; ma l’idea è che in realtà la popolazione sottoposta al trattamento sia sostanzialmente diversa da quella non sottoposta, in particolare rispetto a caratteristiche che influenzano autonomamente il valore di y Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Lo stimatore ingenuo (2) • Media campionaria di y1 -> E(Y1|D=1) • Media campionaria di y0 -> E(Y1|D=0) • Se il campione è casuale (randomizzazione) o rappresentativo (introdurre stratificazioni cioè ipotesi causali) • le quantità in giallo non sono osservabili NEANCHE a livello campionario; cioè non hanno un corrispondente campionario “diretto”; per stimarle non mi basta fare ipotesi statistico-probabilistiche; devo fare ipotesi di altro tipo (di social science theory) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Esempio: effetto dell’istruzione universitaria sul successo nel mercato del lavoro • Mi interessa conoscere la differenza tra il successo sul MdL dell’umanità nel caso in cui tutti frequentassero l’università e il successo sul MdL dell’umanità nel caso in cui nessuno frequenti l’università • Nella realtà io ho 2 gruppi, coloro che frequentano l’università e coloro che non la frequentano e osservo determinati risultati • E(Y1|D=1) = 10; E(Y0|D=0) = 5 • E(Y0|D=1) = 6; E(Y1|D=0) = 8 • δNAIVE = (10-5) = 5; diff. baseline = (6-5) = 1; effetto medio sui tendenti al tratt. = (10-6) = 4; effetto medio sui non tendenti al tratt. = (8-5) = 3; diff effetti medi tra i due gruppi = diff tra i tassi di acquisizione di capacità lavorative in seguito all’università = (4-3) = 1; supponiamo che π = 0,3 • E(δ) = 5 - 1 - (1-0,3)*1 = 5-1-0,7 = 3,3 Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Come eliminare la distorsione dello stimatore ingenuo • lo stimatore ingenuo è distorto e quindi va corretto • δNAIVE -> E(Y1|D=1) - E(Y0|D=0) • E(δ) - δNAIVE = distorsione dello stimatore ingenuo • Distorsione dello stimatore ingenuo = • E(Y0|D=1)- E(Y0|D=0) + • (π-1)*[E(δ|D=1) - E(δ|D=0)] • differenza baseline, differenza di partenza, prima o in assenza del trattamento, tra coloro che si selezionano per il trattamento e coloro che non si selezionano • differenza tra gli effetti medi dell’intervento sulle due popolazioni, indipendente dalle (differenze nelle) condizioni di partenza Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Come eliminare la distorsione dello stimatore ingenuo (2) • Devo riuscire a stimare la distorsione; una strategia tipica è cercare di azzerarla • Azzerare le differenze di partenza / baseline • Azzerare le differenze di effetto netto del trattamento, di acquisizione dei benefici del trattamento (se le diff di baseline sono nulle ciò equivale ad azzerare le diff di arrivo) • Ipotesi 1: E(Y0|D=1) = E(Y0|D=0) (diff di partenza / baseline NULLE) • il valore della variabile in ASSENZA di trattamento deve essere uguale tra coloro che tendono a essere trattati e coloro che tendono a non essere trattati • E(δ|D=1) = E(δ|D=0); • E[(Y1- Y0)|D=1] = E[(Y1- Y0)|D=0]; • E(Y1|D=1) - E(Y0|D=1) = E(Y1|D=0) - E(Y0|D=0); • E(Y1|D=1) = E(Y1|D=0) • Ipotesi 2: E(Y1|D=1) = E(Y1|D=0) (differenza tra effetti lordi a parità di baseline = differenza tra effetti netti) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Randomizzazione (RCTs) • Y e D sono indipendenti per costruzione, non c’è autoselezione / selezione spontanea dei trattati • Anche se, si fa presto a dire costruzione: campioni di numerosità elevata • e cmq devo sempre fare test di casualità • Conseguenza auspicata 1: E(Y0|D=1) = E(Y0|D=0) • Conseguenza auspicata 2: E(Y1|D=1) = E(Y1|D=0) • Dinamica durante l’esperimento • Il campione può non essere più casuale per: • Possono cambiare le caratteristiche dei gruppi durante l’esperimento • Uscita dal gruppo (diversa tra i due gruppi - differential attrition) (anche per il matching) • Cross-contamination (i non trattati imitano i trattati) • Hawthorne effect (la consapevolezza di appartenere a un certo gruppo modifica il comportamento) • Doppio cieco (ignoranza del partecipante e di chi somministra) (certo questo è molto più facile in farmacologia…) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Regressione • Stimare l’effetto di D per esclusione, calcolando l’effetto di TUTTE le altre variabili causali e sottraendolo all’effetto complessivo • In particolare stimo il valore della diff di partenza / baseline • E(Y0|D=1) - E(Y0|D=0) • e la diff tra gli effetti medi [E(δ|D=1) - E(δ|D=0)] • in questo modo, insieme a δNAIVE, riesco a stimare E(δ) • Il problema è che mi servono informazioni TEORICHE su cosa causa il fenomeno rappresentato dalla variabile di interesse; in particolare su TUTTE LE sue CAUSE: in altre parole, mi serve tutta la teoria del mondo • (vedi esempio di REGRESSIONE semplice di Trivellato: non si capisce bene la differenza tra gli effetti: quali sono le due popolazioni? Dove sono i due controfattuali?) Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Serie storiche • Interventi in cui tutta la popolazione è esposta al trattamento (dati PRE/POST) • Dinamica spontanea dei fenomeni (rilevanti: tonnellate di ipotesi teoriche…) • fa sì la che popolazione di arrivo non sia la stessa rispetto a quella di partenza; • conosco E(Y1|D=1) e E(Y0|D=0) • ma non conosco E(Y1|D=0) né E(Y0|D=1) • effetto della politica al tempo t0 sulla popolazione / contesto di partenza • ciò che si sarebbe avuto nel contesto / popolazione di arrivo al tempo t1 in assenza di intervento • le serie storiche stimano la seconda quantità ma non la prima; solo la prima parte della distorsione dallo stimatore ingenuo; in altre parole l’effetto relativo al contesto di arrivo E(δ|D=1) = E[(Y1-Y0)|D=1] = E(Y1|D=1) - E(Y0|D=1) • Limite perché quello che mi interessa è l’effetto netto di quella politica rispetto a qualsiasi contesto, non solo a quelli che somigliano a quello di arrivo Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Costruire un gruppo di controllo tramite matching • Per rendere comparabili i due gruppi si costruisce un gruppo di controllo in cui ogni componente ha un corrispondente nel gruppo sperimentale • Matching rispetto a cosa? Come faccio a sapere quali sono le variabili causalmente rilevanti? • Mi serve tanta teoria • Il gruppo di controllo somiglia ai trattati! • Mi serve per stimare E(Y0|D=1), quindi E(δ|D=1), ovvero l’effetto netto medio sulla popolazione di cui sono rappresentativi i trattati, non su tutta • Per stimare E(δ|D=0) (e quindi l’effetto complessivo) ma mi manca ancora “il secondo controfattuale”: E(Y1|D=0) • come per le serie storiche: è un limite importante nel caso in cui l’obiettivo sia indurre un effetto su una pluralità di gruppi e contesti spazio-temporali, non solo su (quelli che somigliano a) i trattati o su un contesto storico preciso • A volte non riesco a fare il matching neanche dei trattati perché non esistono individui comparabili con tutti i trattati… Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Il modello controfattuale per l’analisi dei dati osservativi (6) • Se le assunzioni sono sostenibili e il metodo adatto per costruire una differenza media dai dati è chiuso, allora può essere data un’interpretazione causale alla differenza media nel valori di yi. • Successivamente gli autori presentano una storia selezionata dell’uso del linguaggio sperimentale nelle scienze sociali. • In particolare, ricostruiscono l’uso dei termini: Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Analisi causale e scienze sociali osservative • 1) esperimento (Fisher, Cox e Reid, Stouffer, Chapin, Campbell) poiché il modello controfattuale della causalità aiuta il ricercatore a stipulare le assunzioni, valutare tecniche alternative di analisi dei dati e riflettere sul processo di esposizione causale. Il suo successo è dovuto al suo linguaggio di risultati potenziali, che permette all’analista di concettualizzare gli studi osservativi come se fossero disegni sperimentali. • 2) Regressione (Balock, Duncan) poiché essa può lavorare in modo abbastanza sensibile nel cercare risposte a domande causali. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

La rappresentazione grafica della relazione causale • Pearl (2000) ha sviluppato una serie di regole per rappresentare le relazioni causali con la teoria dei grafici. • Si consideri le relazioni causali rappresentate a p. 25 e si supponga che queste relazioni siano derivate da un gruppo di proposizioni teoriche. • In questo grafico: • 1) ogni nodo rappresenta una variabile casuale osservabile; Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

La rappresentazione grafica della relazione causale (2) • 2) ogni freccia unidirezionale significa che la variabile all’origine della freccia causa quella alla fine della freccia; • 3) ogni freccia curva e bidirezionale significa l’esistenza di un nodo comune non osservato che causa entrambe le variabili poste all’estremità. • Supponiamo che la variabile di primario interesse sia D e che l’effetto causale che desideriamo stimare sia l’effetto di D su Y. • Secondo Pearl, la variabile causale D ha una distribuzione di probabilità. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

La rappresentazione grafica della relazione causale (3) • Sulla variabile D agiscono causalmente le variabili A, B e C, anche se dal grafico non si evince la forza della relazione. • La variabile risultato Y è causata direttamente da F, G e D, ma anche da altre cause indirette (A, B e C) ed altre ancora implicite (rappresentate dalle frecce curvilinee) che determinano la distribuzione di probabilità di Y. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Le strategie per stimare gli effetti causali • Tre strategie per stimare gli effetti causali: • 1) si può condizionare (con procedure come la stratificazione, il confronto, la ponderazione o la regressione) le variabili che blocchino tutte le traiettorie back-door dalla variabile causale alla variabile risultato; • 2) si possono utilizzare variazioni esogene in una appropriata variabile strumento per isolare la covariazione fra le variabili causale e risultato; • 3) si può stabilire un meccanismo isolato ed esaustivo che relaziona la variabile causale alla variabile risultato e calcolare come l’effetto causale si sia propagato attraverso il meccanismo. Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009

Counterfactuals and Causal Inference

Counterfactuals and Causal Inference

Presentation Transcript

Causal Inference in Epidemiology

Causal Inference

CAUSAL INFERENCE IN STATISTICS

Data analysis and causal inference – 1

Counterfactuals and Causal Inference – II

Counterfactuals and Causal Inference

Synthesis: Causal Inference

Causal Inference and Ambiguous Manipulations

Clash of Causal Inference Techniques

Causal Inference

Causal inference

Data analysis and causal inference – 2

Causal inference in cue combination

Counterfactuals and Causal Inference – II

Causal Inference

Causal Inference and Adequate Yearly Progress

Causality and causal inference

Causal inference

Causal Inference and Graphical Models

Causal Inference

CAUSAL INFERENCE

Causal Inference