Counterfactuals and Causal Inference by Stephen Morgan & Christopher Winship Barbara Befani &...
-
Upload
luigino-baroni -
Category
Documents
-
view
218 -
download
1
Transcript of Counterfactuals and Causal Inference by Stephen Morgan & Christopher Winship Barbara Befani &...
Counterfactuals and Causal Inference
by Stephen Morgan & Christopher Winship
Barbara Befani & Alessandra Decataldopresentano
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Introduzione
Logica della valutazione o metodo di attribuzione causale utile quando si devono gestire grandi numeri?
Concentrazione del valore dell’intervento su un’unica variabile risultato quantitativa
Logica di base dell’attribuzione causale
LOPC (Lista di cause possibili)
GEM (Metodo generale di eliminazione)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Introduzione (2)
Per attribuire la causalità ci sono almeno otto metodi tutti altrettanto validi che si applicano a seconda delle diverse situazioni:
(i) osservazione diretta (visiva, tattile)
(ii) osservazione riportata (studi di caso)
(iii) inferenza eliminativa (autopsia, guasto meccanico)
(iv) inferenza teorica, basata sull'uso di una teoria o di un'analogia, es. fisica, geologia, astronomia
(v) manipolazione diretta (es. in cucina o in laboratorio)
(vi) esperimenti naturali (metereologia, epidemiologia)
(vii) quasi-esperimenti (medicina, pedagogia)
(viii) RCTs randomizzazione, assegnazione casuale (farmacologia)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Introduzione (3)
• Domande in merito ai rapporti di causa-effetto sono frequentemente all’origine di molti lavori empirici nelle scienze sociali.
• Altrettanto frequentemente, però, non è possibile fornire una risposta a tali domande a causa delle difficoltà che gli scienziati sociali incontrano nel raccogliere dati.
• Negli ultimi tre decenni è stato sviluppato un modello controfattuale della causalità che ha permesso di diffondere una cornice unificata per gli studi sui rapporti causa-effetto.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale per l’analisi dei dati
osservativi• Il modello controfattuale suppone che in una
popolazione ogni individuo possa essere esposto a due stati alternativi di una causa (detti trattamenti alternativi; se si considerano solo due stati, essi vengono definiti “trattamento” e “controllo”).
• Ogni stato è caratterizzato da un distinto gruppo di condizioni; essere esposto a tali condizioni potenzialmente produce un risultato di interesse.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale per l’analisi dei dati
osservativi (2)• Ogni individuo nella popolazione di interesse
ha un risultato potenziale sotto ogni stato di trattamento, ma ogni individuo può essere osservato solo in uno specifico stato in un determinato momento.
• I potenziali risultati di ogni individuo sono definiti come i veri valori del risultato di interesse che risulterebbe dall’esposizione agli stati causali alternativi.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale per l’analisi dei dati
osservativi (3)• I potenziali risultati di un individuo i sono:
• yi1
nel caso di stato di trattamento
• yi0 nel caso di stato di controllo
• Poiché in teoria sia yi1
sia yi0 esistono per ogni
individuo, l’effetto causale a livello individuale può essere definito come la semplice differenza
• yi1
- yi0
• Ma gli effetti causali non possono essere calcolati a livello individuale poiché non è possibile osservare yi
1 e yi
0 per ogni individuo della popolazione di interesse.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale per l’analisi dei dati
osservativi (4)• Necessariamente, un ricercatore deve analizzare
una variabile Y (risultato osservato), che ha valori yi per ogni individuo i uguali a:
• yi1 per tutti gli individui del gruppo di trattamento
• yi0 per tutti gli individui del gruppo di controllo
• Concordemente:
• yi0 è un risultato controfattuale non osservato per
ogni individuo i del gruppo di trattamento
• yi1 è un risultato controfattuale non osservato
per ogni individuo i del gruppo di controllo
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale per l’analisi dei dati
osservativi (5)• Nella tradizione della modellizzazione
controfattuale, l’attenzione è focalizzata sullo stimare gli effetti causali medi, analizzando i valori yi di gruppi di individui definiti da specifiche caratteristiche.
• Per fare ciò, il processo attraverso il quale individui di differenti tipi sono esposti alla causa di interesse deve essere modellizzato.
• Questo implica l’introduzione di assunzioni per la stima di valori controfattuali non osservabili medi per specifici gruppi di individui.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Tipi di esempio usati nel libro
• Gli autori riportano, successivamente, tre esempi (gli effetti causali dell’esperienza familiare e dell’intelligenza sul risultato scolastico; gli effetti causali del risultato scolastico e dell’abilità mentale sui guadagni; gli effetti causali dell’esperienza familiare, del risultato scolastico e dei guadagni sulla partecipazione politica), che pongono alcune fondamentali sfide per l’analisi causale:
• 1) le complicazioni della misurazione, ossia le variabili causali sono molto astratte e internamente eterogenee;
• 2) le variabili individuali non sono facilmente manipolabili attraverso l’intervento esterno.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Tipi di esempio usati nel libro (2)
• Gli autori riportano, inoltre, quattro esempi (gli effetti causali della scolarizzazione cattolica sull’apprendimento; gli effetti causali dei buoni scolastici sull’apprendimento; gli effetti causali della formazione alla manodopera sui guadagni; gli effetti causali della tecnologia alternativa di voto sul votare validamente), che mostrano una diretta relazione causale.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Dati osservativi e ricerche campionarie
• Gli autori specificano che, nel corso del testo, si assume soventemente che il campione sia infinito (al fine di considerare come pari a 0 l’errore di campionamento e che la media campionaria di una variabile osservata sia uguale a quella della popolazione) e che le variabili siano state misurate senza errori.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
L’effetto netto medio E(δ) = E(Y1 - Y0)
1^ problema: un’unica variabile quantitativa
2^ problema: valore atteso di una variabile aleatoria, stimato per tutta la popolazione a partire da un campione
Metodi di inferenza statistica -> calcolo delle probabilità -> funzioni generalmente continue -> unità su cui ragioniamo sono infinitesimali, numeri reali
l’effetto individuale NON è osservabile e non solo perché è controfattuale
l’effetto non è osservabile non solo per un individuo della popolazione, ma neanche per qualsiasi insieme finito di individui; l’effetto può essere stimato solo per un insieme infinito di individui, quello della popolazione teorica
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Due ordini di inosservabilità
ricostruzione del dato controfattuale per il quale non c’è un chiaro referente empirico, ci sono elevati margini di discrezionalità
Per i dati cosiddetti “osservabili” – per i quali il campione è un chiaro referente empirico – dobbiamo però fare le ipotesi di rappresentatività del campione
Randomizzazione, lo estraiamo in maniera casuale e ci assicuriamo che sia di numerosità sufficientemente elevata
Lo stratifichiamo, introducendo ipotesi teoriche
Senza queste cautele, le unità su cui ragioniamo sono astratte: ovvero talmente piccole da essere infinitesimali, su ognuna di loro l’effetto è talmente piccolo da essere prossimo allo zero, e nessuna somma di un numero finito di infinitesimi è diversa da un infinitesimo… per fortuna è l’unico metodo EVIDENCE-BASED!
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Confronto tra metodi qualitativi e quantitativi
Metodi qualitativi sono imprecisi, inaffidabili, distorti, etc
Metodi quantitativi (continui, che usano numeri reali) ragionano su entità che non esistono nella realtà
Quando sono applicati male, se i metodi qualitativi sono un difetto della vista, i metodi quantitativi sono una forma di cecità
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
E(δ) = E(Y1) - E(Y0)
Y1 = valore della variabile sull’intera popolazione (umana, mondiale, infinita – v.a.) nel caso in cui sia sottoposta a trattamento.
Y0 = valore della variabile sull’intera popolazione (umana, mondiale, infinita – v.a.) nel caso in cui NON sia sottoposta a trattamento
Notazione: Y1 = Y se D = 1; Y0 = Y se D = 0
D variabile discreta (0,1) indica la presenza / assenza del trattamento
δ = (Y1 - Y0); E(δ) = E(Y1 - Y0) = E(Y1) - E(Y0)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Lo stimatore ingenuo dell’effetto netto
medioδNAIVE = media (y | d = 1) - media (y | d = 0)
SE IL CAMPIONE E’ RAPPRESENTATIVO O CASUALE:
n -> inf., δNAIVE -> E(Y1|D=1) - E(Y0|D=0) diverso dall’effetto netto medio nell’intera popolazione E(δ) = E(Y1) - E(Y0) quindi δNAIVE È DISTORTO (dist. non campionaria)
L’effetto netto medio totale =
l’effetto netto medio sulla popolazione rappresentata dai trattati
+ l’effetto netto medio sulla popolazione rappresentata dai NON trattati
E(δ) = π * E(δ|D=1) + (1-π) * E(δ|D=0)
π = proporzione di popolazione che tipicamente viene selezionata o si autoseleziona al trattamento
Se queste due quantità sono uguali no problem, coincidono con l’effetto medio netto; ma l’idea è che in realtà la popolazione sottoposta al trattamento sia sostanzialmente diversa da quella non sottoposta, in particolare rispetto a caratteristiche che influenzano autonomamente il valore di y
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Non esiste IL controfattuale: esistono
DUE tipi di controfattualePer stimare l’effetto medio netto devo stimare
DUE diversi effetti medi netti (almeno quando sono interessata a tutta la popolazione e non solo quella rappresentata da uno dei due sottogruppi)
E(δ|D=1) = E[(Y1-Y0)|D=1] = E(Y1|D=1) - E(Y0|D=1)
E(δ|D=0) = E[(Y1-Y0)|D=0] = E(Y1|D=0) - E(Y0|D=0)
E(δ) = π*E(Y1|D=1) - π*E(Y0|D=1) + E(Y1|D=0) -π*E(Y1|D=0) - E(Y0|D=0) +π*E(Y0|D=0)
E(δ) = (π-1)*E(Y0|D=0) + π*E(Y1|D=1) + (1-π)*E(Y1|D=0) - π*E(Y0|D=1)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Lo stimatore ingenuo (2)
• Media campionaria di y1 -> E(Y1|D=1)
• Media campionaria di y0 -> E(Y1|D=0)
• Se il campione è casuale (randomizzazione) o rappresentativo (introdurre stratificazioni cioè ipotesi causali)
• le quantità in giallo non sono osservabili NEANCHE a livello campionario; cioè non hanno un corrispondente campionario “diretto”; per stimarle non mi basta fare ipotesi statistico-probabilistiche; devo fare ipotesi di altro tipo (di social science theory)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Esempio: effetto dell’istruzione universitaria sul successo nel
mercato del lavoro Mi interessa conoscere la differenza tra il successo sul MdL dell’umanità nel caso in cui tutti frequentassero l’università e il successo sul MdL dell’umanità nel caso in cui nessuno frequenti l’università
Nella realtà io ho 2 gruppi, coloro che frequentano l’università e coloro che non la frequentano e osservo determinati risultati
E(Y1|D=1) = 10; E(Y0|D=0) = 5
E(Y0|D=1) = 6; E(Y1|D=0) = 8
δNAIVE = (10-5) = 5; diff. baseline = (6-5) = 1; effetto medio sui tendenti al tratt. = (10-6) = 4; effetto medio sui non tendenti al tratt. = (8-5) = 3; diff effetti medi tra i due gruppi = diff tra i tassi di acquisizione di capacità lavorative in seguito all’università = (4-3) = 1; supponiamo che π = 0,3
E(δ) = 5 - 1 - (1-0,3)*1 = 5-1-0,7 = 3,3
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Come eliminare la distorsione dello stimatore
ingenuolo stimatore ingenuo è distorto e quindi va corretto
δNAIVE -> E(Y1|D=1) - E(Y0|D=0)
E(δ) - δNAIVE = distorsione dello stimatore ingenuo
Distorsione dello stimatore ingenuo =
E(Y0|D=1) - E(Y0|D=0) +
(π-1)*[E(δ|D=1) - E(δ|D=0)]
differenza baseline, differenza di partenza, prima o in assenza del trattamento, tra coloro che si selezionano per il trattamento e coloro che non si selezionano
differenza tra gli effetti medi dell’intervento sulle due popolazioni, indipendente dalle (differenze nelle) condizioni di partenza
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Come eliminare la distorsione dello stimatore ingenuo (2)
Devo riuscire a stimare la distorsione; una strategia tipica è cercare di azzerarla
Azzerare le differenze di partenza / baseline
Azzerare le differenze di effetto netto del trattamento, di acquisizione dei benefici del trattamento (se le diff di baseline sono nulle ciò equivale ad azzerare le diff di arrivo)
Ipotesi 1: E(Y0|D=1) = E(Y0|D=0) (diff di partenza / baseline NULLE)
il valore della variabile in ASSENZA di trattamento deve essere uguale tra coloro che tendono a essere trattati e coloro che tendono a non essere trattati
E(δ|D=1) = E(δ|D=0);
E[(Y1- Y0)|D=1] = E[(Y1- Y0)|D=0];
E(Y1|D=1) - E(Y0|D=1) = E(Y1|D=0) - E(Y0|D=0);
E(Y1|D=1) = E(Y1|D=0)
Ipotesi 2: E(Y1|D=1) = E(Y1|D=0) (differenza tra effetti lordi a parità di baseline = differenza tra effetti netti)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Randomizzazione (RCTs)Y e D sono indipendenti per costruzione, non c’è autoselezione /
selezione spontanea dei trattati
Anche se, si fa presto a dire costruzione: campioni di numerosità elevata
e cmq devo sempre fare test di casualità
Conseguenza auspicata 1: E(Y0|D=1) = E(Y0|D=0)
Conseguenza auspicata 2: E(Y1|D=1) = E(Y1|D=0)
Dinamica durante l’esperimento
Il campione può non essere più casuale per:
Possono cambiare le caratteristiche dei gruppi durante l’esperimento
Uscita dal gruppo (diversa tra i due gruppi - differential attrition) (anche per il matching)
Cross-contamination (i non trattati imitano i trattati)
Hawthorne effect (la consapevolezza di appartenere a un certo gruppo modifica il comportamento)
Doppio cieco (ignoranza del partecipante e di chi somministra) (certo questo è molto più facile in farmacologia…)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Regressione
Stimare l’effetto di D per esclusione, calcolando l’effetto di TUTTE le altre variabili causali e sottraendolo all’effetto complessivo
In particolare stimo il valore della diff di partenza / baseline
E(Y0|D=1) - E(Y0|D=0)
e la diff tra gli effetti medi [E(δ|D=1) - E(δ|D=0)]
in questo modo, insieme a δNAIVE, riesco a stimare E(δ)
Il problema è che mi servono informazioni TEORICHE su cosa causa il fenomeno rappresentato dalla variabile di interesse; in particolare su TUTTE LE sue CAUSE: in altre parole, mi serve tutta la teoria del mondo
(vedi esempio di REGRESSIONE semplice di Trivellato: non si capisce bene la differenza tra gli effetti: quali sono le due popolazioni? Dove sono i due controfattuali?)
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Serie storicheInterventi in cui tutta la popolazione è esposta al trattamento (dati PRE/POST)
Dinamica spontanea dei fenomeni (rilevanti: tonnellate di ipotesi teoriche…)
fa sì la che popolazione di arrivo non sia la stessa rispetto a quella di partenza;
conosco E(Y1|D=1) e E(Y0|D=0)
ma non conosco E(Y1|D=0) né E(Y0|D=1)
effetto della politica al tempo t0 sulla popolazione / contesto di partenza
ciò che si sarebbe avuto nel contesto / popolazione di arrivo al tempo t1 in assenza di intervento
le serie storiche stimano la seconda quantità ma non la prima; solo la prima parte della distorsione dallo stimatore ingenuo; in altre parole l’effetto relativo al contesto di arrivo E(δ|D=1) = E[(Y1-Y0)|D=1] = E(Y1|D=1) - E(Y0|D=1)
Limite perché quello che mi interessa è l’effetto netto di quella politica rispetto a qualsiasi contesto, non solo a quelli che somigliano a quello di arrivo
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Costruire un gruppo di controllo tramite
matchingPer rendere comparabili i due gruppi si costruisce un gruppo di controllo in cui ogni componente ha un corrispondente nel gruppo sperimentale
Matching rispetto a cosa? Come faccio a sapere quali sono le variabili causalmente rilevanti?
Mi serve tanta teoria
Il gruppo di controllo somiglia ai trattati!
Mi serve per stimare E(Y0|D=1), quindi E(δ|D=1), ovvero l’effetto netto medio sulla popolazione di cui sono rappresentativi i trattati, non su tutta
Per stimare E(δ|D=0) (e quindi l’effetto complessivo) ma mi manca ancora “il secondo controfattuale”: E(Y1|D=0)
come per le serie storiche: è un limite importante nel caso in cui l’obiettivo sia indurre un effetto su una pluralità di gruppi e contesti spazio-temporali, non solo su (quelli che somigliano a) i trattati o su un contesto storico preciso
A volte non riesco a fare il matching neanche dei trattati perché non esistono individui comparabili con tutti i trattati…
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Il modello controfattuale per l’analisi dei dati
osservativi (6)• Se le assunzioni sono sostenibili e il metodo
adatto per costruire una differenza media dai dati è chiuso, allora può essere data un’interpretazione causale alla differenza media nel valori di yi.
• Successivamente gli autori presentano una storia selezionata dell’uso del linguaggio sperimentale nelle scienze sociali.
• In particolare, ricostruiscono l’uso dei termini:
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Analisi causale e scienze sociali
osservative• 1) esperimento (Fisher, Cox e Reid, Stouffer,
Chapin, Campbell) poiché il modello controfattuale della causalità aiuta il ricercatore a stipulare le assunzioni, valutare tecniche alternative di analisi dei dati e riflettere sul processo di esposizione causale. Il suo successo è dovuto al suo linguaggio di risultati potenziali, che permette all’analista di concettualizzare gli studi osservativi come se fossero disegni sperimentali.
• 2) Regressione (Balock, Duncan) poiché essa può lavorare in modo abbastanza sensibile nel cercare risposte a domande causali.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
La rappresentazione grafica della relazione
causale• Pearl (2000) ha sviluppato una serie di
regole per rappresentare le relazioni causali con la teoria dei grafici.
• Si consideri le relazioni causali rappresentate a p. 25 e si supponga che queste relazioni siano derivate da un gruppo di proposizioni teoriche.
• In questo grafico:
• 1) ogni nodo rappresenta una variabile casuale osservabile;
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
La rappresentazione grafica della relazione
causale (2)• 2) ogni freccia unidirezionale significa che la
variabile all’origine della freccia causa quella alla fine della freccia;
• 3) ogni freccia curva e bidirezionale significa l’esistenza di un nodo comune non osservato che causa entrambe le variabili poste all’estremità.
• Supponiamo che la variabile di primario interesse sia D e che l’effetto causale che desideriamo stimare sia l’effetto di D su Y.
• Secondo Pearl, la variabile causale D ha una distribuzione di probabilità.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
La rappresentazione grafica della relazione
causale (3)• Sulla variabile D agiscono causalmente le
variabili A, B e C, anche se dal grafico non si evince la forza della relazione.
• La variabile risultato Y è causata direttamente da F, G e D, ma anche da altre cause indirette (A, B e C) ed altre ancora implicite (rappresentate dalle frecce curvilinee) che determinano la distribuzione di probabilità di Y.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009
Le strategie per stimare gli effetti causali
• Tre strategie per stimare gli effetti causali:
• 1) si può condizionare (con procedure come la stratificazione, il confronto, la ponderazione o la regressione) le variabili che blocchino tutte le traiettorie back-door dalla variabile causale alla variabile risultato;
• 2) si possono utilizzare variazioni esogene in una appropriata variabile strumento per isolare la covariazione fra le variabili causale e risultato;
• 3) si può stabilire un meccanismo isolato ed esaustivo che relaziona la variabile causale alla variabile risultato e calcolare come l’effetto causale si sia propagato attraverso il meccanismo.
Barbara Befani e Alessandra Decataldo, Ciclo di Seminari sui Classici della Valutazione, Roma 7 Aprile 2009