Variabili esplicative categoriali · 2020. 11. 24. · 3 Variabili esplicative categoriali...

30
Variabili esplicative categoriali Metodi Quantitativi per la Ricerca 2020/21 Agnese Vitali

Transcript of Variabili esplicative categoriali · 2020. 11. 24. · 3 Variabili esplicative categoriali...

  • Variabili esplicativecategoriali

    Metodi Quantitativi per la Ricerca

    2020/21

    Agnese Vitali

  • Argomenti trattati

    • Variabili esplicative categoriali−A due modalità

    −A più modalità

  • 3

    Variabili esplicative categoriali

    • Finora abbiamo visto solo modelli di regressionelineare con variabili continue (sia Y che X1, X2, …)

    • Ma nelle indagini sociali molte variabili sonocategoriali (sesso, stato matrimoniale, classesociale, etnia, etc.)

    • Come possiamo usare queste variabli come esplicative in un modello di regressionelineare?

  • 4

    • Il problema

    • Codici numerici affiancano le etichette dellemodalità. Esempio: Preferenza politica:

    1 Destra

    2 Centro

    3 Sinistra

    • Ma questo non vuol dire che Sinistra vale tre volte Destra!

  • 5

    • Soluzione

    • Usiamo variabili dicotomiche (binarie, dummy), che assumono valori 0 o 1

    • Nota: La variabili dipendente, Y, DEVE esserecontinua

  • 6

    Esempio: voto in matematica

    • Variabile dipendente: Y, voto in matematica

    • Due variabili esplicative:

    hisei: indice di occupazione dei genitori, variabile continua

    femmina

    = 1 se femmina

    = 0 se maschio

  • 7

    • Modello di regressione lineare multipla:

    Y = a + b1 hisei + b2 femmina

    • Hisei variabile continua: sappiamo come interpretare b1 – l’effetto su Y di un cambiamentounitario in hisei, controllando per femmina

    • Ma come interpretiamo b2, il coefficiente di femmina?

  • 8

    • Per le femmine (femmina = 1), l’equazionediventa:

    Y = a + b1 hisei + b2 1

    = (a + b2) + b1 hisei

    = a* + b1 hisei [a* = a + b2]

  • 9

    • Per i maschi (femmina = 0), l’equazione diventa:

    Y = a + b1 hisei + b2 0

    = a + b1 hisei

  • 10

    • Quindi, otteniamo 2 equazioni (2 regressioni linearisemplici) – una per i maschi, una per le femmine

    • Coefficienti della regressione multipla:

    a + b2 = intercetta per le femmine

    a = intercetta per i maschi

    b1 = pendenza di hisei comune a entrambi igruppi (maschi e femmine)

  • 11

    Equazione di previsione:

    Y = 447.01+ 1.24 hisei – 16. 82 femmina

    Dai dati otteniamo…

  • 12

    • Per le femmine (femmina = 1):

    Y = 447.01+ 1.24 hisei – 16. 82 1

    = 399.64 + 1.24 hisei

    • Per i maschi (femmina = 0):

    Y = 447.01+ 1.24 hisei – 16. 82 0

    = 447.01 + 1.24 hisei

    • Il coefficiente di femmina nel modello rappresenta la differenza nel voto in matematica tra i due gruppi(condizionatamente a hisei)

    Relazione tra hisei e voto in matematica

    Y = 447.01+ 1.24 hisei – 16. 82 femmina

  • 13

    Associazione negativa: Le femmine tendono ad avere voti più bassi in matematica rispetto ai maschi

    Controllando per l’occupazione dei genitori, in media, il voto in matematica per le femmine è di 16.82 puntipiù basso rispetto ai maschi

    Interpretazione del coefficiente associato allavariabile dicotomica

  • 14

    femmina = 0

    femmina = 0

    Otteniamo quindi le equazionidi due rette che definiscono la relazione tra hisei e voto in matematica – una per imaschi, e una per le femmine

    Le due rette sono parallele

    → Pendenza di hisei è la stessaper maschi e femmine

  • 15

    Variabili categoriali con più di due modalità

    • Vogliamo stimare l’associazione tra istruzionedella madre e voto in matematica

    • Questa variabile è basata sulla scala ISCED (International Standard Classification of Education)

  • 17

    • Come possiamo inserire questa variabilenel modello di regressione?

    • NON usare mai come se fosse una variabilecontinua

    • Crea un set di variabili dicotomiche per rappresentare variabili categoriali con più di due modalità

    • Scegli una di queste come categoria di riferimento, e includi le altre come variabili esplicative

  • 18

    La categoria di riferimento

    • In generale, se variabile ha k modalità, può entrare nelmodello di regressione attraverso k-1 variabilidicotomiche. Questo perchè una volta che k-1 variabilidicotomiche sono considerate, la kma è ridondante

    • Ogni variabile dicotomica rappresenta una modalità

    • La kma categoria è scelta come categoria di riferimento

  • 19

    • I coefficienti stimati dal modello di regressione per le k-1 variabili dicotomiche sono interpretati in confronto alla categoria di riferimento

    • Ci sono varie opzioni per scegliere la categoria di riferimento

  • Varie opzioni• i.edu_mamma crea tante

    variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento

    • Quindi 7 modalità, di cui:−6 sono incluse come

    variabili nella regressione

    −1 usata come categoria di riferimento

    Coefficienti tutti positivi: L’istruzione della mamma ha un effetto positivo sul voto in matematica

  • Varie opzioni• i.edu_mamma crea tante

    variabili dicotomichequante sono le modalitàdi edu_mamma e usa la prima modalità come categoria di riferimento

    • Anche qui 7 modalità, di cui:

    −6 sono incluse come variabili nella regressione

    −1 usata come categoria di riferimento

    Rispetto alla categoria di riferimento (ISCED=0), quindi rispetto a una mamma con il più basso livellodi istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 85.27 punti, in media

  • 0123456

    Varie opzioni: usiamo ISCED 3A e 4 come categoria di riferimento

  • Varie opzioni

    • b4.edu_mamma creatante variabilidicotomiche quantesono le modalità di edu_mamma e usa la modalità che assume valore numerico =4come categoria di riferimento

    Rispetto alla categoria di riferimento (ISCED=4), quindi rispetto a una mamma con un medio livello di istruzione, avere una mamma con il più alto livello di istruzione aumenta il voto in matematica di 4,83 punti, in media

  • • Creo 3 categorie per l’istruzione della madre: bassa, media e alta

    • Scelgo una di queste come categoria di riferimento, ad es. Istruzione media

    Varie opzioni

  • Varie opzioni

    • 3 modalità, di cui:

    −2 sono inclusecome variabilinella regressione

    −1 usata come categoria di riferimento

  • Alternativamente

  • 27

    • Ora costruiamo una regressione lineare multipla per spiegare il voto in matematica usando le seguentivariabili esplicative:

    hisei

    femmina (= 1 se femmina, 0 se maschio)

    edu_mamma_bassa (= 1 se bassa, 0 altrimenti)

    edu_mamma_alta (= 1 se alta, 0 altrimenti)

  • Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina

    –23.78 edu_mamma_bassa –16.13 edu_mamma_alta

  • 29

    Deriviamo l’equazione di previsione per i bambini la cui mamma ha istruzione:

    Bassa: Y = 460.94 +1.20 hisei –17.83 femmina

    Media: Y = 460.94 +1.20 hisei –17.83 femmina –23.78

    Alta: Y = 460.94 +1.20 hisei –17.83 femmina –16.13

    Equazione di previsione:Y = 460.94 + 1.20 hisei – 17.83 femmina

    –23.78 edu_mamma_bassa –16.13 edu_mamma_alta

  • Letture

    • Agresti – Finlay:

    −Capitolo 13, paragrafi 13.1 e 13.2