1 Regressione lineare con un regressore (SW Cap 4) La regressione lineare è uno strumento che ci...

67
1 Regressione lineare con un regressore (SW Cap 4) La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti angolari di una popolazione. Il nostro scopo è di stimare l’effetto causale misurato come effetto che l’incremento una unità di X ha su Y. Per ora, restringiamo il problema e pensiamo a far passare una linea retta fra i dati di 2 variabili, Y e X.

Transcript of 1 Regressione lineare con un regressore (SW Cap 4) La regressione lineare è uno strumento che ci...

1

Regressione lineare con un regressore(SW Cap 4)

La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti angolari di una popolazione. Il nostro scopo è di stimare l’effetto causale misurato come effetto che l’incremento una unità di X ha su Y. Per ora, restringiamo il problema e pensiamo a far passare una linea retta fra i dati di 2 variabili, Y e X.

2

Stima: In che maniera dovremmo tracciare una linea attraverso i dati

per stimarne la pendenza? (risposta: minimi quadrati OLS). Quali sono gli svantaggi e i vantaggi dei OLS?

Test di ipotesi: Come testare se la pendenza è zero?

Intervallo di confidenza: Come costruire un intervallo di confidenza per tale pendenza?

Il problema di inferenza che ci poniamo è lo stesso di quello che ci siamo posti per le medie, differenze fra le medie etc. Inferenza sulla pendenza di una retta comprende:

3

La retta di regressione della popolazione:

Voti = 0 + 1STR

1 = pendenza della retta di regressione della popolazione

= STR

Voti

= di quanto cambia il voto quando STR cambia di una unità

Perchè 0 e 1 sono parametri della “popolazione”?

Ciò che vorremmo sapere è il vero valore della popolazione

di 1.

Non conosciamo 1, dobbiamo stimarlo usando i dati

4

Notazione generale

Yi = 0 + 1Xi + ui, i = 1,…, n

X è la variabile indipendente o regressore

Y è la variabile dependente

0 = intercetta

1 = pendenza

ui = l’errore di regressione

l’errore di regressione contiene i fattori omessi, o gli errori di

misurazione di Y. In genere, questi fattori omessi sono altri

fattori, oltre alla variabile X, che influenzano Y.

5

La retta di regressione e il termine di errore

6

Le stime “Ordinary Least Squares”

Come possiamo ottenere delle stime di 0 e 1 dai dati?

Ricordiamo che Y e lo stimatore dei minimi quadrati di Y: Y è

la soluzione di,

2

1

min ( )n

m ii

Y m

Analogamente, ci concentreremo sullo stimatore dei minimi

quadrati di (“ordinary least squares” o “OLS”) dei parametri

sconosciuti 0 e 1, che sono la soluzione di

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X

7

Retta di regressione della popolazione: Voti = 0 + 1STR

1 = STR

Voti

= ??

8

Lo stimatore OLS risolve : 0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X

Lo stimatore OLS minimizza la media delle differenze fra i

valori attuali Yi e valori predetti dalla retta di regressione, al

quadrato. Dimostrazione(App. 4.2).

I risultati di queste operazioni sono gli stimatori OLS di 0

e 1.

9

Applicazione: Voti – STR

Pendenza stimata = 1 = – 2.28

Intercetta stimata = 0 = 698.9

Linea di regressione stimata: otiV = 698.9 – 2.28STR

10

Intercetta e coefficiente angolare

otiV = 698.9 – 2.28STR

I distretti con uno studente in più per insegnante in media

ricevono voti di 2.28 punti più bassi.

Cioè, STR

Voti

= –2.28

L’intercetta (letteralmente) significa che, secondo le nostre

stime i distretti senza studenti avrebbero un voto predetto di

698.9.

Questa interpretazione non ha senso. È estrapolata fuori

dall’intervallo dei dati e in questo caso non ha senso

economicamente

11

Valori previsti e residui:

Un dei distretti nel campione è Antelope, CA, per cui STR =

19.33 e Voti = 657.8

Valore predetto: ˆAntelopeY = 698.9 – 2.2819.33 = 654.8

residui: ˆAntelopeu = 657.8 – 654.8 = 3.0

12

OLS : esempio di output - stataregress testscr str, robust

Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------- | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------- str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------

otiV = 698.9 – 2.28STR

(discuteremo dopo del resto)

13

Misure di “bontà”

Una domanda che sorge spontanea è: quanto è buona l’approssimazione della

retta di regressione o quanto riesce a spiegare i dati. Ci sono due statistiche di

riferimento complementari che forniscono misure di adeguatezza:

L’ R2 della regressione misura la frazione della varianza di Y che è

spiegata da X; è priva di unità di misura e può assumere valori che

vanno da 0 (non c’è approssimazione) a 1 (approssimazione perfetta)

Errore standard della regressione (SER) misura la grandezza dei residui

di regressione in termini delle unità di Y

14

L’ R2 è la frazione della varianza campionaria di Yi “spiegata” dalla regressione

Yi = iY + ˆiu = previsioni OLS + residui OLS

var (Y) campionaria = var( iY )campionaria + var( ˆiu )campionaria (???)

Somma totale dei quadrati = “spiegata” SS + “residua” SS

TSS = ESS + RSS

Definizione di R2: R2 = ESS

TSS =

2

1

2

1

ˆ ˆ( )

( )

n

iin

ii

Y Y

Y Y

R2 = 0 significa che ESS = 0

R2 = 1 significa che ESS = TSS

0 ≤ R2 ≤ 1

Nota: Per le regressioni con un solo X, R2 = il quadrato del coefficiente di correlazione X e Y

15

Lo Standard Error della Regressione (SER)

SER misura la distanza dalla media della distribuzione di u. SER

è (circa) la deviazione standard campionaria dei residui OLS:

SER = 2

1

1ˆ ˆ( )

2

n

ii

u un

= 2

1

2

n

ii

un

(dato che u = 1

n

ii

un = 0).

16

SER = 2

1

2

n

ii

un

Ha come unità di misura le stesse di u, e dunque di Y

Misura in media quanto sono “grandi” i residui OLS (l’errore

medio fatto imponendo una certa retta di regressione)

La radice della media degli errori al quadrato- root mean

squared error (RMSE) è simile al SER:

RMSE = 2

1

n

ii

un

Misura la stessa cosa del SER – l’unica differenza è la

divisione per 1/n invece che per 1/(n–2). Correzione gradi di

libertà 2 parametri stimati.

17

otiV = 698.9 – 2.28STR, R2 = .05, SER = 18.6

STR spiega solo una piccola parte della variazione nei voti. Ha

senso questa conclusione? Possiamo dunque concludere che STR

non è importante dal punto di vista della nostra domanda

politica?

18

Le Assunzioni

Quali sono le proprietà dello stomatore OLS? Deve essere

corretto e con una varianza piccola. Sotto quali condizioni ciò

accade?

Iniziamo facendo alcune assunzioni su come Y e X sono

correlate e come i dati sono stati raccolti (schema campionario)

Assunzioni dei Minimi Quadrati

19

Yi = 0 + 1Xi + ui, i = 1,…, n 1. La distribuzione di u condizionata a X ha media zero:

E(u|X = x) = 0. Ciò implica che 1 è corretto (lo vediamo successivamente)

2. (Xi,Yi), i =1,…,n, sono i.i.d. Questo è vero se X, Y sono raccolte con un campionamento

casuale semplice Questo ci conduce alla distribuzione campionaria di 0 e 1

3. “outliers” di X e/o Y sono rari. Tecnicamente, X e Y hanno un momento di 4° ordine finito Outliers possono dare origine ad un valore di 1 privo di

significato

20

Assunzione #1: E(u|X = x) = 0.

Es: Votii = 0 + 1STRi + ui, ui = altri fattori Cosa sono questi “altri fattori”? E(u|X=x) = 0 è plausibile?

Per ogni dato valore di X, la media di u è zero:

21

Consideriamo un esperimento ideale casuale e controllato:

X casualmente assegnata (studenti casualmente assegnati a classi di diversa grandezza; pazienti casualmente assegnati a trattamenti medici). Un computer assegna X casualmente senza informazioni sugli individui.

Poichè X è assegnata casualmente, tutte le altre caratteristiche inidividuali, u,sono indipendentemente distribuite rispetto a X

Dunque, un esperimento ideale casuale e controllato, E(u|X = x) = 0 (Assunzione #1 verificata)

Negli esperimenti reali, o nel caso di dati osservati dobbiamo stare più attenti.

22

Assunzione #2: (Xi,Yi), i = 1,…,n sono i.i.d.

Ciò si verifica automaticamente se le entità (individui,

distretti) sono campionate con un campionamento casuale

semplice: prima l’entità è selezionata poi, per quella entità, X e Y

sono osservate.

Un caso in cui il campionamento è tipicamente non-i.i.d. si

verifica con le “serie storiche”

23

Assunzione #3: E(X4) < and E(Y4) <

Un grande outlier è un valore estremo di X o Y

tecnicamente, se i valori di X e Y cadono all’interno di un

intervallo chiuso, allora hanno quarto momento finito.

Un outlier molto grande può fortemente influenzare i risultati

24

Un’altra ragione per cui è utile il diagramma a nuvola!

25

Distribuzione campionaria dello stimatore OLS Lo stimatore OLS è calcolato usando un campione di dati; un

campione diverso darà origine a valori diversi di 1 . Questa è la

ragione per cui si parla di “incertezza campionaria” di 1 . Dunque abbiamo bisogno di:

quantificare l’incertezza campionaria associata a 1

usare 1 per testare l’ipotesi che 1 = 0

costruire un intervallo di confidenza per 1

tutto ciò richiede la conoscenza della distribuzione campionaria

dello stimatore OLS. In 2 passi…

Nozioni di probabilità

Distribuzione dello stimatore OLS

26

Elementi di probabilitàQuello che concerne la probabilità può essere riassunto in 3 ipotesi. Popolazione

Il gruppo di interesse (es: tutti i possibili distretti scolastici)

Variabili casuali: Y, X (es: Voti, STR)

Distribuzione congiunta di (Y, X)

La funzione di regressione per la popolazione è lineare

E(u|X) = 0 (Assunzione #1)

X, Y hanno quarto momento finito (Assunzione #3)

Dati raccolti da campionamento casuale semplice:

{(Xi, Yi)}, i = 1,…, n, sono i.i.d. (Assunzione #2)

27

Come per Y , 1 ha una distribuzione campionaria.

Cos’è E( 1 )? (qual’è il centro della distribuzione?)

se E( 1 ) = 1, OLS è corretto

Cos’è var( 1 )? (misura della incertezza campionaria)

Qual’è la distribuzione campionaria di 1 nei piccoli campioni?

Può essere molto complicato

Qual’è la distribuzione campionaria di 1 nei grandi campioni?

Relativamente semplice, 1 nei grandi campioni è normalmente

distribuito.

28

Appendice 4.3

Algebra: Yi = 0 + 1Xi + ui Y = 0 + 1 X + u

sottraendo Yi – Y = 1(Xi – X ) + (ui – u ) Dalla minimizzazione,

1 = 1

2

1

( )( )

( )

n

i ii

n

ii

X X Y Y

X X

= 1

1

2

1

( )[ ( ) ( )]

( )

n

i i ii

n

ii

X X X X u u

X X

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X

29

1 = 1 11

2 2

1 1

( )( ) ( )( )

( ) ( )

n n

i i i ii i

n n

i ii i

X X X X X X u u

X X X X

dunque 1 – 1 = 1

2

1

( )( )

( )

n

i ii

n

ii

X X u u

X X

.

Ora 1

( )( )n

i ii

X X u u

= 1

( )n

i ii

X X u

– 1

( )n

ii

X X u

= 1

( )n

i ii

X X u

– 1

n

ii

X nX u

= 1

( )n

i ii

X X u

30

Sostituiamo 1

( )( )n

i ii

X X u u

= 1

( )n

i ii

X X u

nell’espressione per 1 – 1:

1 – 1 = 1

2

1

( )( )

( )

n

i ii

n

ii

X X u u

X X

dunque

1 – 1 = 1

2

1

( )

( )

n

i ii

n

ii

X X u

X X

31

E( 1 ) – 1 = 1

2

1

( )

( )

n

i ii

n

ii

X X uE

X X

= 11

2

1

( ),...,

( )

n

i ii

nn

ii

X X uE E X X

X X

= 0 poichè E(ui|Xi=x) = 0 da Ass.#1

L’Assunzione #1 implica che E( 1 ) = 1

Cioè, 1 è uno stimatore corretto di 1. Per dettagli App. 4.3

32

scriviamo

1 – 1= 1

2

1

( )

( )

n

i ii

n

ii

X X u

X X

= moltiplicando e dividendo per 1/n

abbiamo 1

2

1

1

n

ii

X

vnn

sn

dove vi = (Xi – X )ui.

Se n è grande, 2Xs 2

X e 1n

n

1, 1 – 1 1

2

1 n

ii

X

vn

,

(App. 4.3)

33

1 – 1 12

1 n

ii

X

vn

dunque var( 1 – 1) = var( 1 )

= 2 2

var( ) /

( )X

v n

dunque

var( 1 – 1) = 4

var[( ) ]1 i x i

X

X u

n

.

Riassumendo

1 è corretto: E( 1 ) = 1 , proprio come Y !

var( 1 ) è inversamente proportionale a n, proprio come Y !

34

L’esatta distribuzione campionaria è complicata – dipende

dalla distribuzione di (Y, X) – ma quando n è grande c’è una

buona approssimazione:

(1) Poiché var( 1 ) è proporzionale a 1/n e E( 1 ) = 1

1 p

1

(2) quando n è grande, la distribuzione campionaria di 1 si

approssima alla distribuzione normale (CLT)

Richiamando CLT: supponiamo che {vi}, i = 1,…, n è i.i.d. con

E(v) = 0 e var(v) = 2. Allora, quando n è grande, 1

1 n

ii

vn si

distribuisce approssimativamente come N(0, 2 /v n ).

35

Approssimazione a n-grande

1 – 1 = 1

2

1

1

n

ii

X

vnn

sn

1

2

1 n

ii

X

vn

, dove vi = (Xi – X )ui

Quando n è grande, vi = (Xi – X )ui (Xi – X)ui, che è i.i.d.

(???) e var(vi) < (???). Dunque, dal CLT, 1

1 n

ii

vn si

distribuisce approssimativamente come N(0, 2 /v n ).

così, per n grande, 1 si distribuisce approssimativamente

1 ~ 2

1 4, v

X

Nn

, dove vi = (Xi – X)ui

36

Matematicamente

var( 1 – 1) = 4

var[( ) ]1 i x i

X

X u

n

dove 2X = var(Xi). La varianza di X appare al quadrato al

denominatore – quanto più cresce la distanza della media di X più

diminuisce la varianza di 1.

Intuitivamente

Quanto più X varia, più c’è informazione nei dati e questa

informazione può essere utilizzata per approssimare meglio la

retta di regressione…

37

C’è lo stesso numero di punti blu e neri – quali punti forniscono una retta di regressione più accurata?

38

Riassunto sulla distribuzione di 1Se le Assunzioni sono verificate, allora

La distribuzione campionaria esatta (con piccolo n) di 1 ha:

E( 1 ) = 1 ( 1 corretto)

var( 1 ) = 4

var[( ) ]1 i x i

X

X u

n

(proporzionale) 1

n.

A parte media e varianza la distribuzione campionaria esatta di 1 è complicata e dipende dalla distribuzione di (X,u)

1 p

1 ( 1 consistente)

Quando n è grande, 1 1

1

ˆ ˆ( )

ˆvar( )

E

~ N(0,1) (CLT)

Tutto ciò richiama quanto già visto per Y .

Ora possiamo andare avanti con test e intervalli di confidenza…

39

Test d’ipotesi e intervalli di confidenza

Sommario

Ora che conosciamo la distribuzione campionaria dello

stimatore OLS, possiamo condurre dei test d’ipotesi su 1 e

costruire un intervalli di confidenza

Inoltre daremo uno sguardo ai seguenti argomenti:

Regressioni quando X è binaria (0/1)

eteroschedasticità e omoschedasticità

Efficienza dello stimatore OLS

Uso della statistica-t nel test di ipotesi

40

4 passi principali: 1. definire la popolazione oggetto di interesse

2. derivare la distribuzione campionaria dello stimatore 3. stimare la varianza della distribuzione campionaria (per il

TLC è l’unica cosa di cui abbiamo bisogno se n è grande) – cioè trovare gli standard error (SE) dello stimatore usando solo i dati a disposizione

4. Usare 1 per ottenere una stima puntuale e il suo SE per test di ipotesi e intervallo di confidenza.

STATISTICA II Prof. Campobasso

41

Oggetto di interesse: 1 in,

Yi = 0 + 1Xi + ui, i = 1,…, n

1 = Y/X, per un cambio in X (effetto causale)

42

Test d’ipotesi e SE

L’obiettivo è di testare un’ipotesi, come 1 = 0

test di significativita’

usando i dati per cercare di concludere se l’H0 è vera o no.

General setup

Ipotesi nulla e alternativa a due-code:

H0: 1 = 1,0 vs. H1: 1 1,0

1,0 il valore ipotizzato sotto la nulla.

Ipotesi nulla e alternativa a una-coda:

H0: 1 = 1,0 vs. H1: 1 < 1,0

1

43

Approccio generale: construiamo una statistica t, calcoliamo il p-valore (o confrontiamolo con il valore critico di N(0,1))

In generale: t =(stima-valore ipotizzato)/SE(stimatore)

dove SE(stimatore) è la radice quadrata di uno stimatore della

varianza dello stimatore.

Per testare la media di Y: t = ,0

/Y

Y

Y

s n

Per testare 1, t = 1 1,0

1

ˆ

ˆ( )SE

,

Dove SE( 1 ) = la radice quadrata di uno stimatore della

varianza della distribuzione campionaria di 1

44

Formula per SE( ) 1

Richiamando che l’espressione per la varianza di 1 (n grande):

var( 1 ) = 2 2

var[( ) ]

( )i x i

X

X u

n

= 2

4v

Xn

, dove vi = (Xi – X)ui.

stimando la varianza di 1 si sostituiscono i valori sconosciuti della popolazione di 2

e 4X con stimatori calcolati dai dati:

1

2ˆˆ

= 2

2 2

1 estimator of

(estimator of )v

Xn

=

2

12

2

1

1 2

1( )

n

ii

n

ii

vn

nX X

n

dove ˆiv = ˆ( )i iX X u .

45

1

2ˆˆ

=

2

12

2

1

1 2

1( )

n

ii

n

ii

vn

nX X

n

, dove ˆiv = ˆ( )i iX X u .

SE( 1 ) = 1

2ˆˆ

= standard error di 1

Al numeratore c’è la stima di var(v), al denominatore la stima

di var(X).

Aggiustamento di n – 2 gradi di libertà perchè due sono i

parametri che abbiamo stimato (0 e 1).

SE( 1 ) è calcolato dal sowftware

.

46

Riassunto: H0: 1 = 1,0 vs H1: 1 1,0,

t-statistica

t = 1 1,0

1

ˆ

ˆ( )SE

=

1

1 1,0

ˆ

ˆ

Rifiutiamo al 5% se |t| > 1.96

Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della

distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è <

5%.

Approssimazione valida per n grande.

47

Esempio:

Retta di regressione stimata: otiV = 698.9 – 2.28STR

standard errors forniti dal software:

SE( 0 ) = 10.4 SE( 1 ) = 0.52

statistica t per testare che1,0 = 0 = 1 1,0

1

ˆ

ˆ( )SE

=

2.28 0

0.52

= –4.38

All’ 1% il valore critico è di 2.58, perciò…

Alternativamente abbiamo il p-valore

48

The p-valore è di 0.00001 (10–5)

49

Intervalli di confidenza per 1

Poichè la statistica t per 1 è N(0,1) nei grandi campioni, costruire un intervallo di confidenza al 95% è la stessa cosa del caso della media campionaria:

intervallo di confidenza al 95% per 1 = { 1 1.96SE( 1 )}

50

Retta di regressione stimata: otiV = 698.9 – 2.28STR

SE( 0 ) = 10.4 SE( 1 ) = 0.52

95% intervallo di confidenza di 1 :

{ 1 1.96SE( 1 )} = {–2.28 1.960.52}

= (–3.30, –1.26)

Le seguenti conclusioni sono identiche:

L’intervallo di confidenza al 95% non include lo zero;

L’ipotesi 1 = 0 è rifiutata al livello di significatività del 5%

51

otiV = 698.9 – 2.28STR, R2 = .05, SER = 18.6

(10.4) (0.52)

Questa espressione ci da molte informazioni:

La retta stimata è

otiV = 698.9 – 2.28STR

Lo SE( 0 ) è 10.4

Lo SE( 1 ) è 0.52

L’ R2 è 0.05; lo standard error della regressione è 18.6

52

Come leggere un’outputregress testscr str, robust

Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------- | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------- str | -2.279808 .5194892 -4.38 0.000 -3.300945 -1.258671 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------

so:

otiV = 698.9 – 2.28STR, , R2 = .05, SER = 18.6

(10.4) (0.52)

t (1 = 0) = –4.38, p-valore = 0.000 (2-code)

95% 2-code intervallo conf. per 1 è (–3.30, –1.26)

53

Sommario di inferenza su 0 e 1:Stima:

Stime OLS di 0 e 1

0 e 1 hanno approssimativamente distribuzione campionaria normale in grandi campioni

Test:

H0: 1 = 1,0 v. 1 1,0 (1,0 è il valore di 1 sotto H0) t = ( 1 – 1,0)/SE( 1 ) p-valore = area sotto la normale standard fuori tatt (n grande)

Inervallo di confidenza:

intervallo di confidenza al 95% per 1 è { 1 1.96SE( 1 )} questo è l’insieme di valori di 1 per cui non si rifiuta l’ipotesi

nulla al 5%. Il 95% CI contiene il vero 1 nel 95% di tutti i campioni.

54

Regressione quando X è Binaria

A volte il regressore è binario:

X = 1 se le classi sono piccolo, = 0 se non lo sono X = 1 se donna, = 0 se uomo X = 1 se trattato, = 0 se non lo è

I regressori binari sono a volte chiamati variabili “dummy”.

Fino ad ora, abbiamo chiamato 1 “pendenza” ma questo non ha

senso se X è binaria

Come interpretare il coefficiente se il regressore è binario?

55

Interpretazione

Yi = 0 + 1Xi + ui, dove Xi = 0 o 1:

quando Xi = 0, Yi = 0 + ui

La media di Yi è 0

cioè, E(Yi|Xi=0) = 0

quando Xi = 1, Yi = 0 + 1 + ui

la media di Yi è 0 + 1

cioè, E(Yi|Xi=1) = 0 + 1

perciò

1 = E(Yi|Xi=1) – E(Yi|Xi=0)

= differenza della popolazione fra medie di gruppo

56

Es Di = 1 if 20

0 if 20i

i

STR

STR

Regressione OLS otiV = 650.0 + 7.4D

(1.3) (1.8)

Grandezza Classe Voto medio(Y ) Std. dev. (sY) N Piccola (STR > 20) 657.4 19.4 238 Grande(STR ≥ 20) 650.0 17.9 182

Differenza nelle medie: small largeY Y = 657.4 – 650.0 = 7.4

Standard error: SE =2 2s l

s l

s s

n n =

2 219.4 17.9

238 182 = 1.8

57

Sommario

Yi = 0 + 1Xi + ui

0 = media di Y quando X = 0

0 + 1 = media Y quando X = 1

1 = differenza nelle medie di gruppo, X =1 meno X = 0

SE( 1 ) ha la solita interpretazione

Statistica-t, intervallo di confidenza come al solito

È semplicemente un’altra maniera per fare un’analisi di

differenze fra medie

58

Eteroschedasticità e omoschedasticità

Cosa sono?

Conseguenze dell’omoschedasticità

Implicazioni per il calcolo degli standard errors

Se var(u|X=x) è costante – cioè, la varianza della

distribuzione di u condizionata a X non dipende da X – allora

u si dice omoschedastica. Altrimenti, u si dice

eteroschedastica.

59

Es: etero/omoschedasticità nel caso di regressore binario)

Standard error quando le varianze dei gruppi sono diverse:

SE =2 2s l

s l

s s

n n

Standard error quando le varianze dei gruppi sono uguali:

SE =1 1

ps l

sn n

dove 2ps =

2 2( 1) ( 1)

2s s l l

s l

n s n s

n n

(SW, Sez 3.6)

sp = “sima complessiva di 2” dove 2l = 2

s

varianze dei gruppi uguali = omoschedasticità

varianze dei gruppi diverse = eteroschedasticità

60

Omoschedasticità

E(u|X=x) = 0 (u soddisfa Assunzione #1)

La varianza di u NON dipende da x

61

Eteroschedasticità

E(u|X=x) = 0 (u soddisfa Assunzione #1)

La varianza di u DIPENDE da x: u è eteroschedastico.

62

Es: guadagno medio vs anni di istruzione

Eteroschedastico o omoschedastico?

63

Eteroschedastico o omoschedastico?

64

u eteroschedastico?.

Richiamiamo le 3 Assunzioni OLS:

1. E(u|X = x) = 0

2. (Xi,Yi), i =1,…,n, sono i.i.d.

3. grandi “outliers” sono rari

Eteroschedasticità e omoschedasticità hanno a che fare con la

var(u|X=x). Poiché non abbiamo fatto alcuna assunzione

esplicita sull’ omoschedasticità, abbiamo implicitamente assunto

la presenza di eteroschedasticità.

65

Possiamo provare che lo stimatore OLS ha la varianza minore

fra gli stimatori lineari in Y… ( teorema Gauss-Markov)

La formula per la varianza di 1 e degli standard error OLS è:

Se var(ui|Xi=x) = 2u , allora

var( 1 ) = 2 2

var[( ) ]

( )i x i

X

X u

n

= 2 2

2 2

[( ) ]

( )i x i

X

E X u

n

= 2

2u

Xn

Nota: var( 1 ) è inversamente proporzionale a var(X): più

variabilità in X significa più informazione su 1

66

Di conseguenza gli standard error omoschedastici sono

SE( 1 ) =

2

1

2

1

1 21

( )

n

ii

n

ii

un

nX X

n

.

67

gli standard error omoschedastici sono validi solo se gli

errori sono omoschedastici.

Di solito conviene usare gli standard error eteroschedastici-

standard error robusti perchè sono validi in tutti e due i casi.

Il principale vantaggio degli standard error omoschedastici è

la semplicità della formula. Il maggiore svantaggio è che sono

validi solo con errori omoschedastici

Dato che le due formule coincidono nel caso di

omoschedasticità conviene sempre usare standard error

robusti !