Post on 01-May-2015
Scopo della lezione
• Regressione lineare multipla
– Cos’è
– Scopi dell’analisi della regressione
• Quando si applica?
– condizioni di applicabilità
– utilità
• Coefficienti della regressione: quali sono gli indicatori utili?
• Interpretazione dei risultati dell’analisi della regressione
Cosa è l’analisi della regressione multipla?
Tecnica che consente di analizzare il contributo di più variabili (predittori) su una variabile dipendente (criterio)
ovvero
Regressione multipla Regressione semplice
X1
X2
Xk
….
Y
X Y
Scopi dell’analisi della regressione
• Predittivo: sulla base delle correlazioni tra i predittori e tra i predittori e il criterio si cerca di prevedere la risposta dei soggetti alla variabile criterio
• Causale: individuazione delle variabili che spiegano la risposta dei soggetti alla variabile criterio
• Come nella ANOVA lo scopo dipende dalla pianificazione sperimentale:
– Variabili differenziali e variabili indipendenti
Analisi della regressione
• La regressione scompone la variabilità totale in variabilità spiegata dalla regressione e variabilità residua.
• La regressione generalmente non opera sui gruppi ma su variabili continue
Anova e Regressione
• Scopo predittivo: le persone che vivono in città sono più stressate delle persone che vivono in campagna.
G1 (cittadini) O1 (stress)G2 (contadini) O2 (stress)
H0: 1 = 2 ; H1 : 1 > 2 • Regressione: Lontananza dal centro urbano (in Km) Stress
• H0: = 0 ; H1 : < 0
• N.B. Nella regressione può essere utilizzato lo stesso disegno della ANOVA, trattando le variabili qualitative come variabili dummy. Anche in questo caso le ipotesi saranno formulate relativamente alla relazione
Anova e Regressione
• Scopo causale: le persone che vivono in città sono più stressate delle persone che vivono in campagna.
Anova:
G (cont.) O1 (stress) X(avvicinamento alla città per 6 m.) O2 (stress)
H0: 1 = 2 ; H1 : 1 < 2
Ovvero
H0: = 0 ; H1 : > 0
Passi fondamentali dell’analisi della regressione
• Selezione delle variabili
• Individuazione del modello di analisi della regressione
• Stima dei parametri
• Interpretazione dei risultati
Selezione delle variabili
• Decisione relativa al tipo di variabili
– Assunzioni di normalità della distribuzione delle Y per ogni X
– Assunzione di omeoschedasticità dei residui
– Assunzione di assenza di multicollinearità nella popolazione: le variabili predittori non devono essere correlate tra loro
La regressione multipla
• E’ la combinazione lineare dei predittori atta a massimizzare la correlazione con la variabile dipendente (criterio)
• La combinazione si ottiene mediante il metodo dei “minimi quadrati”, che consente di minimizzare la somma dei quadrati delle differenze tra Y e Y’ ovvero massimizzare la loro correlazione.
• I parametri stimati tramite questo metodo individuano un piano o un iperpiano a k - 1 dimensioni
La retta di regressione
Y
X
Y’ = a +b Xa = altezza del punto di incontro del piano con l’asse delle Yb = funzione dell’angolo della inclinazione del piano con la variabile X
a
Y1
Y’1
Y’2
Y’3
Y’4
Y4Y3
Y2
∑ (Yi -Y’i)2= minima
Il piano di regressione
Y
X2
X1
Y’ = a +b1 X1+b2X2 a = altezza del punto di incontro del piano con l’asse delle Yb1 = funzione dell’angolo della inclinazione del piano con la variabile X1b2 = funzione dell’angolo della inclinazione del piano con la variabile X2
∑ (Yi -Y’i)2= minima
Y1
Y’1
Y’2
Y’3
Y3
Y2
I coefficienti di regressione
• Equazione di regressione multipla Y’ = a + b1 X1+ b2X2 + ….. + bkXk
• a = intercetta o termine costante
• bi = coefficienti di regressione parziale tra le variabili prese a coppie, è il rapporto tra la covarianza (tra Y e Xi) e la varianza della variabile Xi.
E’ dunque un indice di dipendenza di Y da Xi. Differentemente dalla regressione semplice sono direzionali.
• Xi = variabili predittori
I coefficienti b parziali
• Possono essere considerati coefficienti di correlazione parziale. Rappresentano l’inclinazione dell’iperpiano di regressione nella dimensione della corrispondente variabile indipendente, mantenendo costanti tutte le altre.
bij.k = bij- (bik) (bkj) / 1- bjk bkj
• Rappresenta il mutamento ipotetico che si verificherebbe nella variabile Y se una delle variabili indipendenti fosse cambiata di una unità e le altre variabili indipendenti restassero costanti
Scomposizione della devianza
devianza totale
n-1
Devianza dovuta alla regressione Devianza residua
k n-k-1
∑ (Y’- Ymedio)2 ∑ (Y- Y’)2
• Si può controllare probabilisticamente tramite il test F la significatività della relazione. L’indicatore che si utilizza per misurare e quantificare la relazione è il coefficiente di correlazione multipla al quadrato (R2), ovvero il coefficiente di determinazione.
R2 = SQ spiegata / SQ totale
Il coefficiente di correlazione multipla
• E’ il rapporto tra la devianza dovuta alla regressione e la devianza totale, ovvero è la proporzione di variabilità totale spiegata dall’insieme dei predittori. Rappresenta la correlazione tra due distribuzioni, quella della variabile criterio Y e quella della variabile predetta Y’.
• E’ sempre superiore a quello tra le singole variabili
• Aumenta all’aumentare della correlazione tra le singole variabili indipendenti e la dipendente
• Aumenta al diminuire della correlazione tra le variabili indipendentiY
X X
Coefficienti di correlazione
• Coefficiente di correlazione parziale: indica la relazione tra due variabili avendo eliminato l’effetto delle altre. Non è unico, dipende da quali variabili vogliamo parzializzare.
• Correlazione parziale tra X1 e Y
Y
X1 X2
Altri coefficienti di correlazione
• Coefficiente di correlazione semiparziale: indica la relazione tra una variabile predittore e il criterio avendo eliminato l’effetto delle altre sul predittore, ma non elimina la relazione che le altre variabili predittori hanno con il criterio.
Y
X1 X2
Scomposizione della devianza
Devianza totale
Devianza dovuta alla regressione Devianza residua
Devianza X1 Devianza X2 Devianza Xk
Ogni variabile X ha il suo coefficiente , che si distribuisce come una t di student con n - k - 1 gdl
Procedure per selezionare i predittori
Forward• Calcola la correlazione tra ciascun predittore e il criterio: quello con la
più alta correlazione entra per primo nell’analisi. I predittori successivi vengono introdotti nell’analisi in base al quadrato della correlazione semiparziale con il criterio, ovvero sono i predittori che incrementano R2
• La procedura termina quando un predittore non fornisce un incremento significativo
• N.B. una variabile già entrata nell’equazione non viene più rimossa anche se il suo contributo diminuisce per effetto dell’entrata di un altro predittore
Procedure per selezionare i predittori
Backward
• Procede per eliminazione: calcola il coefficiente di correlazione multipla al quadrato considerando tutte la variabili predittore. Elimina una variabile alla volta tenendo presente la conseguente modificazione di R2.Se la modificazione è irrilevante il predittore viene eliminato definitivamente
• N.B. Il contributo di ogni predittore è valutato alla luce degli altri.
Procedure per selezionare i predittori
Stepwise
• Variazione della procedure forward: il contributo di ciascun predittore viene valutato nuovamente ad ogni passo, eliminando quelli che comportano una riduzione dell’ R2.
• N.B. Il contributo di ogni predittore è valutato alla luce degli altri.
Applicazione della analisi della regressione
Ipotesi di ricerca: le variabili potrebbero predire un disturbo OC
Predittori Criterio
Genitori Controllanti
Genitori severi Disturbo ossessivo-
complusivoResponsabilità
Depressione
H0: = 0 ; H1: 0
Estrazione dei predittori: quali predittori selezionare?
Metodo della regressione stepwise
Disturbo ossessivo-compulsivoDisturbo ossessivo-compulsivo
DepressioneDepressione
ResponsabilitàResponsabilitàSeveritàSeverità
ControlloControllo
??
?
Estrazione dei predittori: quali predittori estrarre?
Metodo stepwise
• Step1. Variabili entrate al primo passo
R multiplo 0.23
R2 0.05
Adjusted R2 0.04
Standard Error 15.01
F = 3.93 p= 0.02
• Variabili nell’equazione
Variabili B SE Beta Beta t p
Controllo 2.75 1.22 .34 1.920.02
Estrazione dei predittori: quali predittori estrarre?
Metodo stepwise• Step 2 Variabili entrate
R multiplo 0.49R2 0.24Adjusted R2 0.20Standard Error 13.7F = 4.81 p= 0.0001
• Variabili nell’equazioneVariabili B SE Beta Beta t pControllo 3.92 0.06 0.13 2.16 0.02Responsabilità 0.61 0.11 0.39 3.51 0.0005
Estrazione dei predittori: quali predittori estrarre?
Metodo della regressione stepwise: risultati
Disturbo ossessivo-compulsivoDisturbo ossessivo-compulsivo
DepressioneDepressione
ResponsabilitàResponsabilitàSeveritàSeverità
ControlloControllo
=0.13
=0.39
Estrazione dei predittori: quali predittori estrarre?
Metodo della regressione gerarchica
Controllo Severità
Responsabilità Depressione
Disturbo ossessivo-compulsivo
Estrazione dei predittori: quali predittori estrarre?
Metodo della regressione gerarchica
PredittoriPredittori
Step 1 Metodo enter: forzo le variabili ad entrare nella regressione
Controllo
Severità
Depressione
Step 2 Metodo enter:
Responsabilità
CriterioCriterio
Disturbo ossessivo-compulsivo
Predittori: criteri generali
Metodo enter: regressione gerarchica• Step1
• R multiplo 0.58
• R2 0.34
• Adjusted R2 0.31
• Analisi della varianza GDL Devianza Varianza
• Regressione 3 3687.42 1229.14
• Residuo 137 32382.7 236.37
• F = 5.20 p= 0.0001
• Variabili nell’equazione
• Variabili B SE Beta Beta t p
• Controllo 3.92 0.65 .13 1.98 0.02
• Severità 1.12 0.34 .44 1.3 0.09
• Depressione 2.56 0.17 .27 1.57 0.06
Predittori: criteri generali
Metodo enter: regressione gerarchica• Step2
• R multiplo 0.72
• R2 0.52
• Adjusted R2 0.50
• Analisi della varianza GDL Devianza Varianza
• Regressione 4 12088.2 3022.04
• Residuo 136 67377.1 495.42
• F = 6.10 p= 0.0001
• Variabili nell’equazione
Variabili B SE Beta Beta t p
Controllo 1.78 0.09 0.15 1.61 0.06
Severità 0.98 0.27 0 .38 1.4 0.09
Depressione 1.54 0.21 0 .32 1.52 0.06
Responsabilità 2.75 0.17 0.41 2.38 0.001
Estrazione dei predittori: quali predittori estrarre?
Metodo della regressione gerarchica: risultati
Controllo Severità
Responsabilità Depressione
Disturbo ossessivo-compulsivo
Riepilogando
• La regressione multipla è una tecnica di analisi multipla che predice i punteggi di una variabile criterio a partire da K variabili predittori
• Il coefficiente R2 indica la quantità di varianza spiegata o predetta dalla regressione
• Tramite il test F possiamo sottoporre a verifica l’ipotesi di regressione
• Tramite il test t possiamo sottoporre a verifica l’ipotesi di previsione di un predittore rispetto al criterio, all’interno della regressione multipla (H0: =0; H1: <>0)
• Più sarà dettagliato e pianificato il disegno di ricerca migliori saranno i modelli di analisi della regressione