“Analisi di dati categoriali”

60
1 “Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti

description

“Analisi di dati categoriali”. Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti. Gli odds ratio. Le relazioni tra variabili possono essere analizzate in termini probabilistici. - PowerPoint PPT Presentation

Transcript of “Analisi di dati categoriali”

Page 1: “Analisi di dati categoriali”

1

“Analisi di dati categoriali”

Corso di Laurea in SociologiaFacoltà di Sociologia

Università Milano-Bicocca

Ottobre 2009Simone Sarti

Page 2: “Analisi di dati categoriali”

2

Gli odds ratio

Le relazioni tra variabili possono essere analizzate in termini probabilistici.L’odds ratio è una misura dell’associazione tra due variabili.

L’odds è un rapporto di probabilità.L’odds ratio è un rapporto di odds.

Page 3: “Analisi di dati categoriali”

3

OddsUn odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria.

Freq.

Laureati 471

Non laureati 685

Tot. 1156

Odd= 471/685 = 0,688 (in decimali)

Prob.= 471/1156 = 0,407 = 40,7%

Le probabilità variano da 0 a 1Gli odds variano da 0 a +inf.

Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”

Page 4: “Analisi di dati categoriali”

4

Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi

Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi

Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.

Page 5: “Analisi di dati categoriali”

5

La relazione tra odds e probabilità è la seguente:

i

ii p

pOdds

1

Page 6: “Analisi di dati categoriali”

6

Odds e Odds ratio

SEX * EDUC Crosstabulation

237 271 508

46.7% 53.3% 100.0%

234 414 648

36.1% 63.9% 100.0%

471 685 1156

40.7% 59.3% 100.0%

Count

% within SEX

Count

% within SEX

Count

% within SEX

male

female

SEX

Total

coll less

EDUC

Total

Page 7: “Analisi di dati categoriali”

7

Odds marginali

L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688

L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.

Page 8: “Analisi di dati categoriali”

8

Odds condizionali

La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271.

Per le donne i corrispondenti odds si attestano a 0.565 =234/414

Page 9: “Analisi di dati categoriali”

9

Odds ratioIl modo in cui i due odds condizionali

differiscono l’uno dall’altro può essere espresso dal loro rapporto:

0.875/0.565=(237/271)/(234/414)=1.547

L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria.

L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.

Page 10: “Analisi di dati categoriali”

10

Relazione tra probabilità, odds ed odds ratio e in una tavola due X due:

a

a

b

a

p

p

p

p

b

aOdds

111

cb

da

dc

ba

Oddsratio

2

1

21

21

a b

c d

X

Y

Page 11: “Analisi di dati categoriali”

11

Age -sex- educationHagenaars model

SEX * EDUC * AGE Crosstabulation

100 83 183

54.6% 45.4% 100.0%

91 101 192

47.4% 52.6% 100.0%

191 184 375

50.9% 49.1% 100.0%

92 96 188

48.9% 51.1% 100.0%

78 142 220

35.5% 64.5% 100.0%

170 238 408

41.7% 58.3% 100.0%

45 92 137

32.8% 67.2% 100.0%

65 171 236

27.5% 72.5% 100.0%

110 263 373

29.5% 70.5% 100.0%

Count

% within SEX

Count

% within SEX

Count

% within SEX

Count

% within SEX

Count

% within SEX

Count

% within SEX

Count

% within SEX

Count

% within SEX

Count

% within SEX

male

female

SEX

Total

male

female

SEX

Total

male

female

SEX

Total

AGE16-34

35-57

58-91

coll less

EDUC

Total

Page 12: “Analisi di dati categoriali”

12

Odds ratio di secondo ordine

Calcoliamo gli odds ratio condizionali per ciascun gruppo di età

Per il gruppo più giovane è pari a 1.337 (100/83)/(91/101)Per il gruppo di mezzo è 1.745Per il gruppo più anziano è 1.287Il modo in cui questi tre odds ratio condizionali

differiscono uno dall’altro può essere espresso dal odds ratio di secondo ordine che è ottenuto dal rapporto di odds ratio di primo ordine.

L’odds ratio di secondo ordine esprime in che misura l’associazione tra due variabili varia in relazione alle categorie di una terza variabile.

Page 13: “Analisi di dati categoriali”

13

Confrontiamo gli odds ratio condizionali dei giovani rispetto ai soggetti in età centrale e otteniamo

0.766=(1.337/1.745)Compariamo i giovani con gli anziani1.039=(1.337/.1287)Ed infine l’età di mezzo con gli anziani1.356=(1.745/1.287).Gli odds ratio condizionali ci indicano che in tutti i tre

gruppi le probabilità di conseguire un alto livello di istruzione sono più sfavorevoli per le donne rispetto agli uomini.

In più la discrepanza tra le opportunità di istruzione tra uomini e donne è massima nel gruppo di soggetti in età centrale

Page 14: “Analisi di dati categoriali”

14

ODDS PARZIALI Gli odds parziali odds parziali sono medie di odds condizionali, dove la media geometrica è usata come misura di tendenza centrale

Partial odds “high/low educ” tab.2.1 =

Tale valore non è identico a 0.688 ottenuto dagli odds marginali corrispondenti.

703,0565,0875,0

Page 15: “Analisi di dati categoriali”

15

Odds ratios parzialiI Gli odds ratio parziali sono definiti come una

media geometrica dei corrispondenti odds ratio condizionali.

Partial odds ratio “sex by educ” tab.2.2 =

Tale valore non è identico a 1.547 ottenuto dal corrispondente odds ratio marginale.

443,1287,1745,1337,13

Page 16: “Analisi di dati categoriali”

16

Il problema dell’asimmetria

Quando interpretiamo la forza degli odds e degli odds ratio dobbiamo ricordare che i valori degli odds sono asimmetricamente situati attorno ad 1, che è il valore dell’assenza di differenza.

Il limite massimo negativo è 0 mentre il limite massimo positivo è +infinito. L’asimmetria scompare quando lavoriamo con i logaritmi naturali degli odds e degli odds ratios. Il limite negativo diventa -infinito, quello positivo + infinito

Il logaritmo naturale dell’odds riceve la denominazione di logit.

Page 17: “Analisi di dati categoriali”

17

i

iLOGIT

1

ln

ODDSLOGIT ln

Page 18: “Analisi di dati categoriali”

18

logit (-∞,+∞) odds (0,+∞)

1

0logit(π)Assenza di effetto 0Effetto

negativo

Effetto positivo

Assenza

Effetto negativo

Effetto positivo

y=logit(π) 0<π <1 y= π /(1- π) 0<π<1

π

y y

10,5

Il problema dell’asimmetria

Page 19: “Analisi di dati categoriali”

19

Effetti assoluti ed effetti relativi

Le differenze percentuali (o di probabilità) danno una misura assoluta della relazione tra modalità di due variabili, mentre gli odds ratio danno una misura relativa.

Ciò significa che anche in presenza di odds ratio elevati possiamo avere effetti, in termini assoluti, sostanzialmente deboli.

Page 20: “Analisi di dati categoriali”

20

No Si tot

M 104 6 110

F 405 35 440

tot 509 41 550

Effetti assoluti ed effetti relativi: esempio

Genere e soddisfazione per la democrazia

5,16405

351042

1

cb

da

No Si tot

M 0,945 0,055 1

F 0,920 0,080 1

tot 0,925 0,075 1

dyx= + 0,025

% condizionate

Page 21: “Analisi di dati categoriali”

21

Page 22: “Analisi di dati categoriali”

22

LOGICA TRIVARIATA

CONTROLLO PER UNA TERZA VARIABILE

Page 23: “Analisi di dati categoriali”

23

Logica trivariata

Quando ad una relazione bivariata aggiungiamo una terza variabile operiamo un’analisi trivariata.

Page 24: “Analisi di dati categoriali”

24

Perché considerare una terza variabile?

Quando consideriamo un’ipotesi causale tra due fenomeni ed empiricamente corroboriamo l’esistenza di una relazione, non possiamo tuttavia escludere che i due fenomeni non siano dovuti ad un terzo che non abbiamo preso in considerazione.

Page 25: “Analisi di dati categoriali”

25

La causa di un fenomeno in senso generico può essere definita come la somma totale delle condizioni , la totalità delle contingenze alla cui realizzazione segue invariabilmente il conseguente. (Campelli 1999)

Tuttavia, “Nulla può meglio mostrare l’assenza di qualsiasi fondamento scientifico per la distinzione fra la causa d’un fenomeno e le sue condizioni della maniera capricciosa in cui scegliamo fra le condizioni quella che preferiamo chiamare causa “ (J.S.Mill)

Page 26: “Analisi di dati categoriali”

26

1.Il numero di pompieri impegnati nello spegnere un incendio è correlato con la stima finale dei danni provocati dall’incendio stesso.

2.I bambini nelle cui case vi sono più finestre mostrano migliori rendimenti scolastici.

Cause ed effetti ?

Page 27: “Analisi di dati categoriali”

27

1. Considerando le dimensioni dell’incendio, la relazione tra numero di vigili del fuoco e stima dei danni sparisce.

2.Considerando la ricchezza patrimoniale dei genitori, la relazione tra numero di finestre e rendimento scolastico sparisce.

Presenza di un effetto SPURIO, cioè di una terza variabile, antecedente alle due, che

è la “vera” causa della relazione!

Page 28: “Analisi di dati categoriali”

28

Posizione delle variabili

Una volta ipotizzata una relazione tra due variabili X “indipendente” e Y “dipendente”, l’altra o le altre variabili considerate possono assumere quattro posizioni:

variabili antecedenti, variabili intervenienti,variabili susseguenti,variabili concomitanti.

Page 29: “Analisi di dati categoriali”

29

Variabili antecedenti

Quelle variabili che nell’ordine causale precedono sia X che Y.

X Y

A

Page 30: “Analisi di dati categoriali”

30

LOGICA degli effetti

EFFETTO SPURIO:

l’inserimento di una variabile di controllo Z, annulla la relazione tra X e Y.

X Y

Z

X Y

Page 31: “Analisi di dati categoriali”

31

LOGICA degli effetti

EFFETTO SOPPRESSO:

l’inserimento di una variabile di controllo Z, rende palese la relazione tra X e Y.

X Y

Z

X Y

Page 32: “Analisi di dati categoriali”

32

SCOMPOSIZIONE degli effetti

Variabili categoriali e

differenze di probabilità

Page 33: “Analisi di dati categoriali”

33

ESEMPIO 1. tra variabili dicotomiche.

Incrocio tra titolo di studio e fiducia nel sistema giudiziario …

X Y

X Titolo di studio (L – H)

Y Fiducia nel sistema giudiziario (S – N)

Esempio 1

Page 34: “Analisi di dati categoriali”

34

… controllato per la variabile antecedente Z

X Y

Z

Z Coorte di nascita (G – A)

Esempio 1

Page 35: “Analisi di dati categoriali”

35

Effetto bivariato XY= Effetto causale netto + Effetto spurio

dyx = dyx.z + d(yx)z

Esempio 1

X Y

Z

X Y

dyx.z

dyx

d(yx)z

Page 36: “Analisi di dati categoriali”

36

Fonte: EB 60.1 Italia (30 e più anni)

Tavola di contingenza educ * fidu

231 299 530

43.6% 56.4% 100.0%

90 65 155

58.1% 41.9% 100.0%

321 364 685

46.9% 53.1% 100.0%

Conteggio

% entro educ

Conteggio

% entro educ

Conteggio

% entro educ

1 Medio-bassa

2 Alta

educ

Totale

1 Si 2 No

fidu

Totale

Esempio 1

Page 37: “Analisi di dati categoriali”

37

dyx Effetto bivariato: educaz. e fiducia giustizia

In un incrocio dicotomico l’effetto bivariato è misurabile attraverso una semplice differenza di probabilità (equivale al coefficiente di regressione quando le

variabili sono 0 e 1) .

dyx equivale alla differenza di probabilità sull’avere fiducia nella giustizia dato l’avere un titolo di studio alto piuttosto che basso.

Esempio 1

Page 38: “Analisi di dati categoriali”

38

dyx Effetto bivariato: educaz. e fiducia giustizia

Pr (Y=1 | X=2) – Pr (Y=1 | X=1)

Equivale alla probabilità che la variabile Y assuma valore y, dato che la variabile X assume valore x: Pr (Y=y | X=x)

La categoria di riferimento è la “SI” (Y=1).

dyx = 0,581 - 0,436 = 0,145

Esempio 1

Page 39: “Analisi di dati categoriali”

39

dyx = 0,581 - 0,436 = 0,145

La relazione tra possesso della laurea (piuttosto che un titolo di studio inferiore) e fiducia nella giustizia (“si” piuttosto che “no”) è positiva.

Esempio 1

Page 40: “Analisi di dati categoriali”

40

Tavola di contingenza educ * fidua

119 161 280

42.5% 57.5% 100.0%

64 44 108

59.3% 40.7% 100.0%

183 205 388

47.2% 52.8% 100.0%

Conteggio

% entro educ

Conteggio

% entro educ

Conteggio

% entro educ

1 Medio-bassa

2 Alta

educ

Totale

1 Si 2 No

fidu

Totale

eta = 1 Giovania.

GIOVANI Z=1

Tavola di contingenza educ * fidua

112 138 250

44.8% 55.2% 100.0%

26 21 47

55.3% 44.7% 100.0%

138 159 297

46.5% 53.5% 100.0%

Conteggio

% entro educ

Conteggio

% entro educ

Conteggio

% entro educ

1 Medio-bassa

2 Alta

educ

Totale

1 Si 2 No

fidu

Totale

eta = 2 Anziania.

ANZIANI Z=2

Esempio 1

Page 41: “Analisi di dati categoriali”

41

Effetti condizionati di Z

Considerando Z, troviamo diversi effetti di X su Y.

dyx|z=1 = 0,593 -0,425 = 0,168

dyx|z=2 = 0,553 -0,448 = 0,105

Esempio 1

Page 42: “Analisi di dati categoriali”

42

Effetto condizionato complessivo di Z

Considerando che le numerosità in Z tra giovani ed anziani sono diverse, occorre ponderare gli effetti condizionati.

Giovani= 388/685 = 0,567 quota di giovani (qg)

Anziani= 297/685 = 0,433 quota di anziani (1 - qg)

dyx.z = (0,168*0,567) + (0,105*0,433) = 0,141

Esempio 1

Page 43: “Analisi di dati categoriali”

43

Effetto bivariato = Effetto causale + Effetto spurio

dyx = dyx.z + d(yx)z

d(yx)z =dyx – dyx.z = 0,145 – (0,141) = 0,004

d(yx)z Effetto spurio

Esempio 1

Page 44: “Analisi di dati categoriali”

44

L’effetto della variabile Z è sostanzialmente nullo, ossia la relazione tra titolo di studio e fiducia nella giustizia permane immutata anche a parità di fascia d’età. Non c’è effetto SPURIO.

X Y

Z

+

~ 0 ~ 0

Esempio 1

Page 45: “Analisi di dati categoriali”

45

Page 46: “Analisi di dati categoriali”

46

L’effetto di interazione

Page 47: “Analisi di dati categoriali”

47

L’effetto di interazione

Quando l’effetto causale esercitato dalla variabile indipendente X sulla variabile indipendente Y si manifesta in modi diversi a seconda del valore assunto dalla variabile di controllo Z.

X Y

Z

Page 48: “Analisi di dati categoriali”

48

100 100

100 300

10 90

90 5090 10

10 250

Z=0 Z=1

X=0

X=0 X=0

X=1

X=1 X=1

Y=0 Y=1

Y=0 Y=1 Y=0 Y=1

dyx= - 0,25

Pr (Y=0 | X=1) – Pr (Y=0 | X=0)

dyx|z=0= +0,54 dyx|z=1= -0,86

Page 49: “Analisi di dati categoriali”

49

X

Y

X

Y

X

Y

Z=0 Z=1

Effetto di interazione di Z (dicotomica) su X e Y (cardinali)

β>0

βz=0>0 βz=1<0

Page 50: “Analisi di dati categoriali”

50

Esempi di effetti di interazione (titolo*età)

Page 51: “Analisi di dati categoriali”

51

Page 52: “Analisi di dati categoriali”

52

SCOMPOSIZIONE degli effetti

Se le variabili sono dicotomiche ed attribuiamo i valori 0 e 1 alle

modalità di ciascuna, la relazione tra le due può essere misurata con il

coefficiente di correlazione di Pearson (r), che in una tavola 2x2 è

equivalente al V di Cramer.

Page 53: “Analisi di dati categoriali”

53

Ipotizziamo che la variabile Z influenzi la relazione tra Y e X.

Come misurare l’effetto di X su Y al netto di Z ?

X Y

Z

X YZYXr .

YXr

Page 54: “Analisi di dati categoriali”

54

XY

YXYX SS

Sr

Correlazioni tra le variabili:

X Y

ZX Z Y

X 1.453

.322

Z .453

1.596

Y .322

.596

1

Matrice di correlazione, r.. osservati

ZYXr .

XZ

XZXZ SS

Sr

YZ

YZYZ SS

Sr

Page 55: “Analisi di dati categoriali”

55

22.11 YZXZ

YZXZYXZYX

RR

rrrr

E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo

costante” Z:

NB: rxy.z non tiene conto degli effetti di interazione !

Page 56: “Analisi di dati categoriali”

56

Coefficiente di correlazione parziale tra X e Y “tenendo costante” Z:

Correlazione bivariata Correlazione di Z su X e Y

Residui di Z-X e Z-Y

22.11 YZXZ

YZXZYXZYX

RR

rrrr

Più la Z spiega X eY, più grande è il denominatore

Misura quanto Z spiega di X eY

Page 57: “Analisi di dati categoriali”

57

X Y

Z

X Z Y

X 1.453

.322

Z .453

1.596

Y .322

.596

1

Matrice di correlazione, r.. osservati

E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo

costante” Z:

ZYXr .

073,011 22.

YZXZ

YZXZYXZYX

RR

rrrr

073,0. ZYXr322,0YXr

Page 58: “Analisi di dati categoriali”

58

X Y

Z

ZYXr .

073,0. ZYXr322,0YXr

La correlazione tra X e Y tenendo sotto controllo Z diventa molto piccola.

C’è effetto spurio!

Effetto bivariato = Effetto causale + Effetto spurio

ryx = ryx.z + r(yx)z

Page 59: “Analisi di dati categoriali”

59

Parziale effetto spurio

Parziale effetto soppresso

Effetto di Z quasi nullo

13,0YXr53,0YZr23,0XZr

12,0YXr19,0YZr82,0XZr

44,0YXr18,0YZr

15,0XZr

42,0. ZYXr

49,0. ZYXr

01,0. ZYXr

Page 60: “Analisi di dati categoriali”

60

Correlations

1 -.247** .168**

. .000 .000

1414 1414 1414

-.247** 1 .211**

.000 . .000

1414 1414 1414

.168** .211** 1

.000 .000 .

1414 1414 1414

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

eta

ascoli Anni di scolarità

reddito Redditomensile (euro)

etaascoli Annidi scolarità

reddito Redditomensile(euro)

Correlation is significant at the 0.01 level (2-tailed).**.

Correlazioni fra tre variabili (dicotomizzate 0/1)

Calcolare la correlazione parziale tra anni di scolarità e reddito