Cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene Il modello di...

44
Cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene Il modello di regressione

description

Cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene Il modello di regressione. n individui su cui è misurata una variabile Y ad esempio l’acquisto di pane e vogliamo una misura sintetica, (“piccola” misura  “ modulus ”  MODELLO), - PowerPoint PPT Presentation

Transcript of Cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene Il modello di...

Page 1: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Cominciamo a “scavare” dentro un modello

che (dovremmo) conoscere bene

Il modello di regressione

Page 2: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione
Page 3: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

n individui su cui è misurata una variabile Y ad esempio l’acquisto di pane e vogliamo una misura sintetica, (“piccola” misura “modulus” MODELLO), che descrive il fenomeno “acquisto di pane

Numerose possibilità di descrivere il collettivo, ad esempio la media Ma che modello è???? La misura individuale è data da:

iiy Come costruiamo il modello?

1. immaginiamo che “IN ASSENZA DI VARIABILITA’” tutti acquisterebbero, ad esempio, lo stessa quantità di pane…che ovviamente non conosciamo.

2. Però poi osserviamo quantità diverse negli individui e giustifichiamo questa diversità immaginando (ipotizzando) un MODELLO per la parte variabile

3. POI sulla base di questa ipotesi (MODELLO) attribuiamo un valore alla quantità di pane che tutti acquisterebbero.

Page 4: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Quali ipotesi?

Le sapete, però definiamole in un altro modo rispetto all’usuale:

1. Tutti “hanno bisogno” di una certa fissa quantità di pane

2. Ma… al momento di comprare (o anche prima) ognuno si discosta da quella fissa quantità secondo una qualche “legge”

3. Cioè la tendenza comune si “manifesta” in modo variabile, se vogliamo quantificare la tendenza comune NON OSSERVABILE dobbiamo immaginare qualcosa sulla sua manifestazione, cioè sulla sua variabilità

4. Se il MODELLO che immaginiamo per la variabilità è vero, allora abbiamo un modo per arrivare alla quantità comune incognita

Page 5: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Potremmo anche immaginarci la cosa in questo modo con riferimento alla vecchia TOMBOLA o alle estrazioni del LOTTO:

1. Ognuno “sa” quanto pane deve acquistare,

però data questa quantità

2. quando deve comprare si porta dietro un sacchettino di numeri

3. Il sacchettino contiene numeri positivi e negativi

4. Al momento dell’acquisto ognuno estrae un numero dal sacchetto e somma algebricamente il numero estratto alla quantità fissa

5. Compra la quantità data dal risultato della somma/sottrazione

ALLORA IL MODELLO DELLA VARIABILITA’ E’ L’INSIEME DI IPOTESI SULLA COMPOSIZIONE DEL SACCHETTO

POICHE’ SI PARLA DI ESTRAZIONE SARANNO IPOTESI SULLA DISTRIBUZIONE STOCASTICA CHE ORIGINA DAL SACCHETTO

Page 6: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Usualmente nel nostro linguaggio parliamo di “RESIDUI” come la differenza tra la quantità comune fissa e l’acquisto effettivo e ipotizziamo che:

1. Il parametro di popolazione sia “fisso” e comune”2. I residui abbiano media 0 3. Siano omoschedastici 4. Siano incorrelati

Vediamo cosa significa questo nei termini del “sacchetto”

D’ora in poi chiamerò “tombolino” ciascun numero contenuto nel sacchetto

Page 7: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Comincio dal 2: I residui hanno media 0

implica che la somma dei tombolini sia pari a 0 qualunque sia il numero degli stessi

Quindi questi sacchetti vanno bene:

Ma anche questo che, forse, ci piace meno…..

Questo NO!

- 1 - 2 -3 +3 +2 +1 0 0

- 15 +5 +4 +3 +3 0 0

- 15 +5 +20 -1 +3 0 0

- 4 -8 -12 +12 +8 +4 0 0

Page 8: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

1. I residui hanno media 0

Che vuol dire??? Ricordate l’esempio della legge dei grandi numeri)

• Vuol dire che se ti osservo “tante” volte quando acquisti il pane la media dei tuoi acquisti è il tuo “fabbisogno” di pane

Oppure SE è vera la ipotesi 1 (parametro fisso e comune):

• Se osservo tanti “come te” (stessa popolazione) che acquistano il pane la media degli acquisti di tutti è il fabbisogno di pane comune a quella popolazione

ABBIAMO GIA’ UN MODO PER CALCOLARE !

TUTTO FATTO? TUTTO RISOLTO? ….. MICA TANTO

Page 9: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Facciamo un esempio: 3 soggetti (A;B;C) tutti con lo stesso sacchetto con i seguenti “tombolini”

Se osserviamo un atto di acquisto, le combinazioni possibili sono e la somma delle deviazioni sarà:

Cioè la somma = 0che consente il calcolocorretto della mediaè la più frequente7 volte su 27 occasioni

- 1 +1 0

A 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1B 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1C 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1

TOT 0 1 -1 1 2 0 -1 0 -2 1 2 0 2 3 1 0 1 -1 -1 0 -2 0 1 -1 -2 -1 -3

-3 -2 -1 0 1 2 30

1

2

3

4

5

6

7

8

Somma

Num

ero

di c

asi

Page 10: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Ma se immaginiamo un signor C più “stravagante” …

Cioè A=B= e C=

le combinazioni possibili diventano:

Ora la somma = 0Non è più la sola più probabileAbbiamo la stessa prob.di calcolare la media “vera”O una media sbagliata di + o – 3 punti

- 1 +1 0 - 5 +5 0

A 0 0 0 0 0 0 0 0 0 5 5 5 5 5 5 5 5 5 -5 -5 -5 -5 -5B 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1C 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1

TOT 0 1 -1 1 2 0 -1 0 -2 5 6 4 6 7 5 4 5 3 -5 -4 -6 -4 -3

-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 70

1

2

3

4

Somma

Num

ero

di c

asi

Page 11: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Quindi il modello funziona se la “composizione del sacchetto, oltre ad avere media = 0

E’ anche “simile” cioè ha la stessa varianza o come si dice con una bella parola è OMOSCHEDASTICA

Cioè se è vera la terza ipotesi

E l’INCORRELAZIONE??

Nella nostra metafora significa che i tre signori estraggono indipendentemente, cioè non si fanno influenzare

Se ad esempio il Sig. B “copia” da A, cioè B non estrae, ma usa il tombolino di A succede quanto segue:

Page 12: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

a b c somma0 0 0 00 0 1 10 0 -1 -11 1 0 21 1 1 31 1 -1 1-1 -1 0 -2-1 -1 1 -1-1 -1 -1 -3

-3 -2 -1 0 1 2 30

1

2

3

somma

num

ero

di c

asiQui è ancora peggio:

I valori più probabili sono

“sbagliati”

Page 13: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

In sintesi OLS è un modello piuttosto particolare, spesso non abbiamo alternative ad accettare quelle ipotesi, tuttavia dobbiamo essere coscienti della loro particolarità.

Se consideriamo la prima “il parametro è fisso e comune” spesso ce la caviamo sostenendo che se così NON è allora la popolazione è eterogenea, cioè non è un collettivo, ci sono degli “infiltrati”

Peraltro, tutti o i test che verificano/falsificano questa ipotesi si basano proprio sulla assunzione che vorremmo verificare. (ci torneremo)

In pratica cerchiamo di attenuare questo problema scegliendo un algoritmo di stima che garantisce che i RESIDUI OSSERVATI (uno per ogni unità, non quelli di CIASCUNA UNITA’) abbiano somma 0

Page 14: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Per quanto riguarda l’ipotesi di omoschedasticità e incorrelazione la diagnosi è difficilissima, ma una volta riconosciuto il tipo di malattia, la terapia è facile

Ci occuperemo della terapia tra poco, ma la cosa da tenere a mente è che ci sono (molte) situazioni in cui sappiamo già da prima che la malattia c’è, cioè che il modo in cui le unità si comportano o si “fanno” osservare implica una diversa variabilità individuale e/o una correlazione tra le osservazioni

In questi casi la malattia non si può ignorare

MA RIPASSIAMO UN MOMENTO GLI OLS

Page 15: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione
Page 16: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Per trovare un “buon valore” dobbiamo porre delle condizioni ad esempio:

n individui su cui è misurata una variabile YNumerose possibilità di descrivere il collettivo, ad esempio la MEDIA Ma che modello è???? La misura individuale è data da:

iiy

ny

ny

a

nySderivando

ynyyySMin

cioè

ySMin

ii

i

iiii

ii

22

ˆ

022)(

2)2()(

)(

2222

22

Page 17: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

a è una stima che proprietà ha?:

22

222

1

111)(

01

nnn

nn

nnnny

naV

nn

En

EnyEaE

yn

nynyyay

ii

iii

iii

iii

iii

Il residuo è la “parte” stocastica della stime e quindi del modello.

Page 18: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Ma c’è un altro modo di vedere la stima: la misura individuale è data da una parte costante + parte stocastica. Se ricordiamo OLS, avremmo una esplicativa costante + residui

ixconxy iiii ,1

XY

Per il collettivo (con X,Y, vettori/matrici):

111'111

3

2

1

XX

yyy

Y

Page 19: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

331')'(

111'

31)'(3111

111

111'

')'(ˆ

3

13

1

1

3

13

2

1

1

1

ii

ii

ii

yyYXXXa

yyyy

YX

XXXX

YXXXa

Cerchiamo una stima a per : sappiamo che in forma matriciale la soluzione che abbiamo trovato prima diventa:

Page 20: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Ma si tratta di un caso particolare di una soluzione GENERALE posto lo stesso vincolo di minimizzazione Min(’ ), nel caso di eteroschedasticità si ottiene (torneremo sulla dimostrazione)

con = matrice di Var/Covar degli

YXXXa ''ˆ 1

YXXXa 111 ')'(ˆ

Page 21: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione
Page 22: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

È esattamente la rappresentazione dei nostri “tombolini” Rappresenta (misura) tutta la nostra incertezza (variabilità e covariabilità)sulle misurazioni singole

Ha dimensione nxn

Sulla diagonale principale ha l’incertezza sulla misura del singolo individuo(ad esempio l’imprecisione del metro con cui abbiamo misurato Tizio)

Fuori dalla diagonale ha la misura della correlazione tra gli errori delle misuretra diversi individui(Ad esempio abbiamo misurato Tizio e Caio con lo stesso metro “sbagliato”)

Di solito (ad esempio OLS) non si “vede”….perchè????

Ricordiamo che la soluzione OLS è YXXXb ''ˆ 1

Page 23: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Perché OLS, è un caso particolare:

Se è diagonale (tutti e soli valori uguali sulla diagonale), allora diventa uno scalare e si può “semplificare”:

E’ una “regola” dell’algebra matriciale, ma vediamola con un esempio:

3 individui su cui abbiamo misurato una variabile Y, con un errore S², senza lacuna relazione tra gli errori per individui diversi:

2

2

2

1

2

2

2

3

2

1

100

010

001

000000

111'111

s

s

s

ss

sXX

yyy

Y

Page 24: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

33')'(

111'

3)'(3'111'

')'(ˆ

3

12

3

12

111

2

3

1

3

2

1

2221

211

21

2221

111

ii

ii

ii

y

s

ysYXXXa

s

y

yyy

sssYX

sXXs

XXsss

X

YXXXa

OPLA’! Media aritmetica! , cioè la “raccolta” degli S², è svanito!

Page 25: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Va sempre tutto così liscio????? Mica tanto…

Immaginiamo che le 3 misure derivino da 3 campioni casuali semplici, come sappiamo l’errore è direttamente proporzionale alla variabilità (per ora supponiamo uguale per tutti) delle singole misure e inversamente proporzionale alla numerosità del campione:(naturalmente se i tre campioni hanno numerosità uguale, siamo nel caso di prima), ma se così non è……….

23

22

21

1

3

22

21

2

3

2

1

00

00

00

00

00

00

111'111

sn

sn

sn

ns

ns

ns

XXyyy

Y

Page 26: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

3

1

3

12

3

13

1

2111

2

3

1

3

2

1

23

22

211

3

1

211

2

3

1123

22

211

111

')'(

'

)'(''

')'(ˆ

ii

iii

iii

ii

iii

ii

ii

n

yn

s

yn

n

sYXXXa

s

yn

yyy

sn

sn

snYX

n

sXXs

nXX

sn

sn

snX

YXXXa

OPPPSS! Media “PONDERATA”! , non scompare del tutto

Page 27: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Adesso abbiamo imparato il trucco: Cosa succede se gli errori sono diversi?

23

22

21

1

23

22

21

100

010

001

000000

s

s

s

ss

s

Page 28: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

ii

i ijji

s

sy

sssssyssyssy

sssssssssa

sssssyssyssy

sy

sy

syYX

sssssssssXX

sssssssssXX

sssX

2

2

23

22

21

22

213

23

212

23

221

22

21

23

21

23

22

23

22

21

23

22

21

22

213

23

212

23

221

23

322

221

11

22

21

23

21

23

22

23

22

2111

23

22

21

22

21

23

21

23

221

23

22

21

1

'

)'(

'111'

UHMMM! Una Media “PONDERATA” Strana ! , non scompare proprio per niente!!!!!

Page 29: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

E se c’è correlazione? Dipende… a volte niente

3

3

1

23

22

21

iiy

asrrrsrrrs

34)2)(1(

10101

321

ryyyra

rrr

r

A volte molto (notate la semplificazione S=1)

Ogni y viene moltiplicato per il numero di correlazioni 0, 4 è il numero totale di r 0, 3 è il numero di individui…….

UHMM le cose si complicano.......

Page 30: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

XY

E del collettivo:

n individui su cui sono misurateY (nx1) = 1 variabile dipendente X (nxk)=K esplicative

Il modello che descrive il comportamento dell’individuo:

k

piippi xy

1

Cerchiamo una stima b per

Page 31: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione
Page 32: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Distinguiamo il modello “vero” dalla stima:

""

""

stimaeXbY

veroXY

Page 33: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Per stimare dobbiamo fissare un criterio:

YXXXb

XXXYSderivando

XXXYYYXYXYSMincioè

xySMin ippii

''ˆ

0'2'2)(

'''2'')(

)(

1

22

Questo implica una ipotesi sul rango della X che deve essere = k

Cioè le esplicative non possono essere tra loro dipendenti

Page 34: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Consideriamo un modello semplice: i=1,…,5 n=5 individui

iii xy

5

4

3

2

1

5

4

3

2

1

11111

yyyyy

Y

xxxxx

X

YXXX

xxx

xxXX

yxy

YXxxx

XX

i

ii

ii

ii

i

ii

i

''

5251'

'5

'

1

2

21

2

Page 35: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Alcune implicazioni:

!!0

0''')'('')(''

0'')(''ˆ

ˆ)(ˆ

''

''ˆ

1

1

1

inizialeipotesie

YXYXYXXXXXYXYPIXeX

anchemaPYYPYYYPIPYeY

ortogonalieY

MYYPIPYYYYe

alloraXXXXP

conPYYXXXXXY

i

Ma la prima colonna di X è una colonna di 1, moltiplicata per e diventa la somma dei residui, quindi:

Page 36: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

B è una stima che proprietà ha?:

121

11

1

1

111

'''

''''')/(

0)(

)(''/

''

'')(''''

XXXXE

XXXEXXXbbEXbV

ipotesiperEessendo

EXXXXbE

alloraXXXb

XXXXXXXYXXXb

Questo implica X non stocastiche e omoschedasticità

Page 37: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Riassumendo: ipotesi per OLS

1. Modello lineare

2. X e Y sono frutto di osservazioni indipendenti

3. X è di rango pieno

4. I residui hanno media = 0

5. I residui sono omoschedastici

6. X e non-stocastica

7. (non indispensabile) i residui hanno distribuzione normale

Page 38: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

331'

3

111

111'

111

2

22

1

2

3

2

1

321

3

2

1

3

2

1

i

ii

ii

ii

i

xxx

xxXX

xxx

xxx

xxxXX

yyy

Yxxx

X

Un esempio:

Page 39: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Attenzione al denominatore

331'

3933

93333

21

2222

222222

i

ii

x

xixi

iiii

xxx

XX

xxxx

ma

xxxxxx

Page 40: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

yxyxyxxxy

yxyxyxxyx

yxy

xxx

YXXXB

yxy

yyy

xxxYX

ii

iii

x

iiii

iiiii

x

ii

i

i

ii

x

ii

i

9333

31

331

331''

111'

2

2

21

3

2

1

321

Page 41: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

x

xy

xyii

iix

b

quindi

yxyx

ma

yxyxb

2

2

393

9331

Consideriamo la seconda riga:

Page 42: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

Sistemiamo la prima riga della matrice

21

22

2

2

1

)33

)3()3(

bxyxyb

yxxyxy

yxxxy

yxxxyb

x

xy

x

xyx

x

xyx

x

iii

Page 43: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

un modello molto(!) semplice (2 osservazioni)

mediay

b

yyy

YX

XX

OLSY

i

i

2

11'

212

11

11'

2

1

11

1

Page 44: Cominciamo a “scavare” dentro un modello  che (dovremmo) conoscere bene Il modello di regressione

YXXXb 11* ')'(

OLS Caso particolare di un algoritmo più generale (vedremo in seguito)

Matrice Varianza/covarianza degli

ESEMPIO DI CALCOLO