Post on 04-Feb-2021
Variabili esplicativecategoriali
Metodi Quantitativi per la Ricerca
2020/21
Agnese Vitali
Argomenti trattati
• Variabili esplicative categoriali−A due modalità
−A più modalità
3
Variabili esplicative categoriali
• Finora abbiamo visto solo modelli di regressionelineare con variabili continue (sia Y che X1, X2, …)
• Ma nelle indagini sociali molte variabili sonocategoriali (sesso, stato matrimoniale, classesociale, etnia, etc.)
• Come possiamo usare queste variabli come esplicative in un modello di regressionelineare?
4
• Il problema
• Codici numerici affiancano le etichette dellemodalità. Esempio: Preferenza politica:
1 Destra
2 Centro
3 Sinistra
• Ma questo non vuol dire che Sinistra vale tre volte Destra!
5
• Soluzione
• Usiamo variabili dicotomiche (binarie, dummy), che assumono valori 0 o 1
• Nota: La variabili dipendente, Y, DEVE esserecontinua
6
Esempio: voto in matematica
• Variabile dipendente: Y, voto in matematica
• Due variabili esplicative:
hisei: indice di occupazione dei genitori, variabile continua
femmina
= 1 se femmina
= 0 se maschio
7
• Modello di regressione lineare multipla:
Y = a + b1 hisei + b2 femmina
• Hisei variabile continua: sappiamo come interpretare b1 – l’effetto su Y di un cambiamentounitario in hisei, controllando per femmina
• Ma come interpretiamo b2, il coefficiente di femmina?
8
• Per le femmine (femmina = 1), l’equazionediventa:
Y = a + b1 hisei + b2 1
= (a + b2) + b1 hisei
= a* + b1 hisei [a* = a + b2]
9
• Per i maschi (femmina = 0), l’equazione diventa:
Y = a + b1 hisei + b2 0
= a + b1 hisei
10
• Quindi, otteniamo 2 equazioni (2 regressioni linearisemplici) – una per i maschi, una per le femmine
• Coefficienti della regressione multipla:
a + b2 = intercetta per le femmine
a = intercetta per i maschi
b1 = pendenza di hisei comune a entrambi igruppi (maschi e femmine)
11
Equazione di previsione:
Y = 447.01+ 1.24 hisei – 16. 82 femmina
Dai dati otteniamo…
12
• Per le femmine (femmina = 1):
Y = 447.01+ 1.24 hisei – 16. 82 1
= 399.64 + 1.24 hisei
• Per i maschi (femmina = 0):
Y = 447.01+ 1.24 hisei – 16. 82 0
= 447.01 + 1.24 hisei
• Il coefficiente di femmina nel modello rappresenta la differenza nel voto in matematica tra i due gruppi(condizionatamente a hisei)
Relazione tra hisei e voto in matematica
Y = 447.01+ 1.24 hisei – 16. 82 femmina
13
Associazione negativa: Le femmine tendono ad avere voti più bassi in matematica rispetto ai maschi
Controllando per l’occupazione dei genitori, in media, il voto in matematica per le femmine è di 16.82 puntipiù basso rispetto ai maschi
Interpretazione del coefficiente associato allavariabile dicotomica
14
femmina = 0
femmina = 0
Otteniamo quindi le equazionidi due rette che definiscono la relazione tra hisei e voto in matematica – una per imaschi, e una per le femmine
Le due rette sono parallele
→ Pendenza di hisei è la stessaper maschi e femmine
15
Variabili categoriali con più di due modalità
• Vogliamo stimare l’associazione tra istruzionedella madre e voto in matematica
• Questa variabile è basata sulla scala ISCED (International Standard Classification of Education)
17
• Come possiamo inserire questa variabilenel modello di regressione?
• NON usare mai come se fosse una variabilecontinua
• Crea un set di variabili dicotomiche per rappresentare variabili categoriali con più di due modalità
• Scegli una di queste come categoria di riferimento, e includi le altre come variabili esplicative
18
La categoria di riferimento
• In generale, se variabile ha k modalità, può entrare nelmodello di regressione attraverso k-1 variabilidicotomiche. Questo perchè una volta che k-1 variabilidicotomiche sono considerate, la kma è ridondante
• Ogni variabile dicotomica rappresenta una modalità
• La kma categoria è scelta come categoria di riferimento
19
• I coefficienti stimati dal modello di regressione per le k-1 variabili dicotomiche sono interpretati in confronto alla categoria di riferimento
• Ci sono varie opzioni per scegliere la categoria di riferimento
Varie opzioni• i.edu_mamma crea tante
variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento
• Quindi 7 modalità, di cui:−6 sono incluse come
variabili nella regressione
−1 usata come categoria di riferimento
Coefficienti tutti positivi: L’istruzione della mamma ha un effetto positivo sul voto in matematica
Varie opzioni• i.edu_mamma crea tante
variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento
• Anche qui 7 modalità, di cui:
−6 sono incluse come variabili nella regressione
−1 usata come categoria di riferimento
Rispetto alla categoria di riferimento (ISCED=0), quindi rispetto a una mamma con il più basso livellodi istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 85.27 punti, in media
0123456
Varie opzioni: usiamo ISCED 3A e 4 come categoria di riferimento
Varie opzioni
• b4.edu_mamma creatante variabilidicotomiche quantesono le modalità di edu_mamma e usa la modalità che assume valore numerico =4come categoria di riferimento
Rispetto alla categoria di riferimento (ISCED=4), quindi rispetto a una mamma con un medio livello di istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 4,83 punti, in media
• Creo 3 categorie per l’istruzione della madre: bassa, media e alta
• Scelgo una di queste come categoria di riferimento, ad es. Istruzione media
Varie opzioni
Varie opzioni
• 3 modalità, di cui:
−2 sono inclusecome variabilinella regressione
−1 usata come categoria di riferimento
Alternativamente
27
• Ora costruiamo una regressione lineare multipla per spiegare il voto in matematica usando le seguentivariabili esplicative:
hisei
femmina (= 1 se femmina, 0 se maschio)
edu_mamma_bassa (= 1 se bassa, 0 altrimenti)
edu_mamma_alta (= 1 se alta, 0 altrimenti)
Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina
–23.78 edu_mamma_bassa –16.13 edu_mamma_alta
29
Deriviamo l’equazione di previsione per i bambini la cui mamma ha istruzione:
Bassa: Y = 460.94 +1.20 hisei –17.83 femmina
Media: Y = 460.94 +1.20 hisei –17.83 femmina –23.78
Alta: Y = 460.94 +1.20 hisei –17.83 femmina –16.13
Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina
–23.78 edu_mamma_bassa –16.13 edu_mamma_alta
Letture
• Agresti – Finlay:
−Capitolo 13, paragrafi 13.1 e 13.2