ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta...

43
Marco Riani - Analisi delle statistiche di vendita 1 ANALISI DELLE ANALISI DELLE STATISTICHE DI VENDITA STATISTICHE DI VENDITA Marco Riani Marco Riani [email protected] [email protected] http://www.riani.it http://www.riani.it ORARIO LEZIONI ORARIO LEZIONI • Mercoledì 11 – 13 (aula Lauree) • Mercoledì 14 – 16 (aula Lauree) • Giovedì 11 – 13 (Esercitazione) • Seminari? LIBRI DI TESTO LIBRI DI TESTO Teoria Riani M., Laurini F. (2008), (seconda edizione) Modelli statistici per l’economia con applicazioni aziendali Pitagora con applicazioni aziendali, Pitagora, Bologna. MODALITÀ DI ESAME MODALITÀ DI ESAME Prova pratica al computer (computer portatile) + interpretazione dei risultati P l Prova orale LA REGRESSIONE LA REGRESSIONE LINEARE LINEARE (semplice o multipla) (semplice o multipla) Perché si adatta una funzione? Perché si adatta una funzione? Riassumere l’andamento dei punti con una formula che esprima il legame tra y e le esplicative verificare una legge scientifica (ad es verificare una legge scientifica (ad es. prezzi e vendite) effettuare previsioni

Transcript of ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta...

Page 1: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 1

ANALISI DELLE ANALISI DELLE STATISTICHE DI VENDITASTATISTICHE DI VENDITA

Marco RianiMarco [email protected]@unipr.it

http://www.riani.ithttp://www.riani.it

ORARIO LEZIONI ORARIO LEZIONI

• Mercoledì 11 – 13 (aula Lauree)• Mercoledì 14 – 16 (aula Lauree)• Giovedì 11 – 13 (Esercitazione)

• Seminari?

LIBRI DI TESTOLIBRI DI TESTO

• Teoria• Riani M., Laurini F. (2008), (seconda

edizione) Modelli statistici per l’economia con applicazioni aziendali Pitagoracon applicazioni aziendali, Pitagora, Bologna.

MODALITÀ DI ESAMEMODALITÀ DI ESAME

• Prova pratica al computer (computer portatile)

• + interpretazione dei risultatiP l• Prova orale

LA REGRESSIONE LA REGRESSIONE LINEARELINEARE

(semplice o multipla)(semplice o multipla)

Perché si adatta una funzione?Perché si adatta una funzione?

• Riassumere l’andamento dei punti con una formula che esprima il legame tra y e le esplicative

• verificare una legge scientifica (ad es• verificare una legge scientifica (ad es. prezzi e vendite)

• effettuare previsioni

Page 2: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 2

LA REGRESSIONE LINEARELA REGRESSIONE LINEARE

• Esiste una relazione (lineare) tra X e Y?• In caso affermativo:• Come varia una variabile (dipendente)

i f i d ll’ lt ( li ti )?in funzione dell’altra (esplicativa)?• Per convenzione:Y = variabile dipendenteX = variabile esplicativa

EsempiEsempi

• Relazione tra comportamenti di acquisto e caratteristiche dei consumatori

• Relazione tra numero di esami• Relazione tra numero di esami sostenuti nei primi due anni di corso e voto alla maturità

• Relazione tra prezzo di vendita e quantità venduta di un bene

Relazioni di tipo lineareRelazioni di tipo lineare

Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare

• Semplicità facilità di interpretazione dei parametri

• yi = a + bxi + ei i = 1, …, ndove:dove:• a + bxi rappresenta una retta:• a = ordinata all’origine → intercetta• b = coeff. angolare → coeff. di

regressione• ei è un termine di errore (accidentale)

Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare

• Effettiva linearità molte relazioni sono molto vicine alla linearità

• Trasformazioni la relazione è lineare dopo aver trasformato opportunamente la p ppdipendente e/o l’esplicativa

• Es. y = a bx

• log y = log a + (log b) x• y’ = a’ + b’ x

Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare

• Limitatezza dell’intervallo

Page 3: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 3

Motivi che spingono ad adottare Motivi che spingono ad adottare modelli di regressione linearemodelli di regressione lineare

• Ragioni di teoria statistica: lo studio delle funzioni lineari nei parametri ha una trattazione più agevole

Diagramma di dispersioneDiagramma di dispersione

4

5

6

7

8

= ve

ndite

• Come variano le vendite in funzione del numero di dipendenti?

0

1

2

3

0 10 20 30 40

X = N. dipendenti

Y =

MODELLO DI REGRESSIONEMODELLO DI REGRESSIONE

• yi = a + bxi + ei i = 1, …, ndove:• a + bxi rappresenta una retta:• a = ordinata all’origine → intercetta• b = coeff. angolare → coeff. di

regressione• ei è un termine di errore (accidentale)

RETTA DI REGRESSIONERETTA DI REGRESSIONE

• i = 1, …, nii bxay +=ˆ

= valore teorico (valore stimato)iy = valore teorico (valore stimato)

di yi → funzione lineare dii = 1, …, n

Residui

iii yye ˆ−=

Come si calcolano i parametri Come si calcolano i parametri aa e e bb??

• METODO DEI MINIMI QUADRATI

∑ ∑ =−=n n

iii yye 22 min )ˆ(∑ ∑= =i i

iii1 1

Le incognite sono i parametri della retta

ii bxay +=ˆ

Visualizzazione grafica dei residuiVisualizzazione grafica dei residui

Page 4: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 4

Sistema di equazioni normaliSistema di equazioni normali

∑=

=n

iie

1

0

∑=

=n

iiiex

1

0

Formule per il calcolo di a e b (p. 33)Formule per il calcolo di a e b (p. 33)

xbyxxn

yxxxya

ii

iiiii −=−−

=∑ ∑

∑ ∑ ∑ ∑22

2

)(

∑∑

∑ ∑∑ ∑ ∑

−=

−= 222 )(

)()( xx

xxyxxnyxyxn

bi

ii

ii

iiii

aa e e bb sono funzioni lineari delle sono funzioni lineari delle osservazioni yosservazioni yii

ESEMPIO (7 supermercati) ESEMPIO (7 supermercati) rrxyxy=0,96=0,96N. dipendenti

(X)Fatturato

in milioni di € (Y)A 10 1,9B 18 3,1C 20 3 2C 20 3,2D 8 1,5E 30 6,2F 12 2,8G 14 2,3

Scatter con retta di regressioneScatter con retta di regressione

4

5

6

7

8

vend

ite

0

1

2

3

0 10 20 30 40X = N. dipendenti

Y =

v

• Come variano le vendite in funzione del numero di dipendenti?

Calcolo di a e bCalcolo di a e bxi yi xi

2 yi2 xiyi

A 10 1,9 100 3,61 19B 18 3,1 324 9,61 55,8C 20 3,2 400 10,24 64D 8 1,5 … … …

E 30 6,2 … … …

F 12 2,8 … … …

G 14 2,3 … … …

Tot. 112 21 2128 77,28 402,6

17,0352.2

2,403112128.27

6,402112128.2212 −=−=

−⋅⋅−⋅

=a

∑ ∑−∑ ∑ ∑ ∑−

= 22

2

)( ii

iiiii

xxnyxxxya

Calcolo di a e bCalcolo di a e bxi yi xi

2 yi2 xiyi

A 10 1,9 100 3,61 19B 18 3,1 324 9,61 55,8C 20 3,2 400 10,24 64D 8 1,5 … … …

E 30 6,2 … … …

F 12 2,8 … … …

G 14 2,3 … … …

Tot. 112 21 2128 77,28 402,6

198,0352.2

2,466112128.27

211126,40272 ==

−⋅⋅−⋅

=b

∑ ∑−∑ ∑ ∑−

= 22 )( ii

iiii

xxnyxyxnb

Page 5: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 5

BONTA’ DI ADATTAMENTOBONTA’ DI ADATTAMENTO• Retta di regressione: ii bxay +=ˆ

DEVIANZA TOTALE

∑n

MyYDEV 2)()( DEVIANZA DI∑=

−=i

yi MyYDEV1

)()( DEVIANZA DI REGRESSIONE

∑=

−=n

iyi MyYDEV

1

2)ˆ()ˆ(DEVIANZA RESIDUA

∑ ∑= =

=−=n

i

n

iiii eyyEDEV

1 1

22)ˆ()(

Scomposizione della devianza di Scomposizione della devianza di YY

• L’adattamento è buono quando DEV(E) è “piccola”

)()ˆ()( EDEVYDEVYDEV +=

piccola

• Problemi:• DEV(E) cresce all’aumentare del numero di

osservazioni (n)• DEV(E) dipende dall’unità di misura e

dall’ordine di grandezza di Y

EsercizioEsercizio

• Dimostrare la relazione

)()ˆ()( EDEVYDEVYDEV += )()()( EDEVYDEVYDEV +

Indice di determinazione lineareIndice di determinazione lineare(R(R22) )

)()(1

)()ˆ(

YDEVEDEV

YDEVYDEV

−==δ

∑ 0)ˆ( 2δ 1 ∑ =− 0)ˆ( 2ii yy•δ =1 se

•δ =0 se ∑ =− 0)ˆ( 2yi My

Calcolo di RCalcolo di R2 2 ((δδ))xi yi

A 10 1,9 1,81 0,008 1,416B 18 3,1 3,394 0,086 0,155C 20 3,2 3,79 0,348 0,624D 8 1,5 1,414 … …E 30 6 2 5 77

iy 2)ˆ( yi My −2ie

10*0,198 0,17- ˆ1 +=y

E 30 6,2 5,77 … …F 12 2,8 2,206 … …G 14 2,3 2,602 … …Tot. 112 21 21 1,079 13,201

DevTOT=DevREGR+DevRES

14,28 = 13,20 + 1,08924,0

28,1408,11

28,1420,13

=−==δ

oppureδ = (0,9615)2 = 0,924

Grafico dei residuiGrafico dei residui

0 5

0

0.5

1

0 10 20 30 40Res

idui

• Modello soddisfacente: distribuzione casuale dei residui → componente erratica

-1

-0.5 0 10 20 30 40

N. dipendenti

R

Page 6: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 6

ESTRAPOLAZIONEESTRAPOLAZIONE

• Si tenta di valutare in maniera attendibile il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile esplicativa.

• CONDIZIONI– Validità della retta di regressione (δ prossimo ad

1)– valore noto della variabile esplicativa non lontano

dai valori utilizzati nel calcolo della retta

(Vendite, nr. di dip.) scomposizione di y(Vendite, nr. di dip.) scomposizione di yii

iyie

yy − y

ix

y

x

yyi −

xxi −

iy )( xxb i −

Stimare i parametri della retta Stimare i parametri della retta di regressione, trovare i valori di regressione, trovare i valori stimati, verificare i vincoli del stimati, verificare i vincoli del sistema di equazioni normali sistema di equazioni normali

e la bontà di adattamentoe la bontà di adattamentoe la bontà di adattamento e la bontà di adattamento con Excelcon Excel

Funzione regr.linFunzione regr.lin

• Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN

Interpretazione di bInterpretazione di b

• b= indica l’entità della variazione

teorica della variabile

dipendente in corrispondenza di

un incremento unitario della

variabile esplicativa

Componente aggiuntivo Componente aggiuntivo analisi dei datianalisi dei dati

Page 7: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 7

Introduzione agli elementi Introduzione agli elementi aleatorialeatori

Teoria campionaria e legame con Teoria campionaria e legame con l’universol’universo

Schema logico con cui si affrontano Schema logico con cui si affrontano i problemi di inferenza statisticai problemi di inferenza statistica

• Si immagina di conoscere l’universo• Si costruiscono gli strumenti statistici

adatti a risolvere i problemi in esameSi t t l’ ffid bilità di t li t ti• Si testa l’affidabilità di tali strumenti statistici

Esempio: universo composto da 1000 Esempio: universo composto da 1000 az. di distribuzione di prodotti az. di distribuzione di prodotti

enogastronomicienogastronomici

• X = utile di esercizio

Grafico ad istogrammi dell’utile di Grafico ad istogrammi dell’utile di esercizio esercizio

Estrazione campioniEstrazione campioni

• Funzione CASUALE.TRA• Funzione INDICE

• v. a. Media campionaria

Distribuzione media campionaria (100 Distribuzione media campionaria (100 campioni di numerosità n=100)campioni di numerosità n=100)

253035404550

nze

asso

lu

05

101520

18.5 --19

19 --19.5

19.5 --20

20 --20.5

20.5 --21

21 --21.5

oltre 21.5

classi

frequ

e

Page 8: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 8

v.a. Media campionariav.a. Media campionaria Distribuzione media campionaria Distribuzione media campionaria standardizzatastandardizzata

Confronto con la v.a. N(0,1)Confronto con la v.a. N(0,1) Distribuzione media campionariaDistribuzione media campionaria

Introduzione agli elementi aleatoriIntroduzione agli elementi aleatori

N. dipendent

i(X)

Venditein milioni di € (Y)

A 10 1 9

Prezzi in Euro (x)

Vendite (Y)

A 1.55 410B 1.60 380A 10 1,9

B 18 3,1C 20 3,2D 8 1,5E 30 6,2F 12 2,8G 14 2,3

C 1.65 350D 1.60 400E 1.50 440F 1.65 380G 1.45 450H 1.50 420

Introduzione agli elementi aleatoriIntroduzione agli elementi aleatori

• Le vendite sono dovute in parte ai prezzi e in parte a fattori di natura aleatoria e perciò sono esse stesse delle v.c.

• Al contrario I dipendenti e/o i prezzi non sono v.c. poiché sono del tutto prevedibili dalla compagnia che li stabilisce

Page 9: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 9

Introduzione agli elementi aleatoriIntroduzione agli elementi aleatori

• Una successione di valori fissi• x1, x2, … xn

• a cui sono associate n v c indipendenti• a cui sono associate n v.c. indipendenti• Y1, Y2, … Yn

• Il punto cruciale consiste nel descrivere in modo appropriato tali v.c.

• E(Yi)? var(Yi)? Distribuzione di Yi?

Assunzioni su YAssunzioni su Yii

• Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza

• var(Yi) = σ2 i=1 2 nvar(Yi) σ i 1, 2, …, n

• σ2 è un parametro incognito da stimare

• cov(Yi, Yj)=0 i≠j

Assunzioni su YAssunzioni su Yii

• E(Yi) = µi i=1, 2, …, n• i valori osservati della variabili dipendente

provengono da n distribuzioni di probabilità con medie incogniteprobabilità con medie incognite

• Ip. le medie delle distribuzioni variano linearmente con la variabili indipendente

• µi = E(Yi) = α+β xi

Assunzioni su YAssunzioni su Yi i (continua)(continua)

• Ip: µi = E(Yi) = α+β xi• Questa ipotesi equivale ad affermare che i

punti(x1 µ1) (x2 µ2) (x µ )(x1, µ1), (x2, µ2), …, (xn, µn)stiano tutti su una retta con parametri α, β

• Oss: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta ma che i valori medi delle distribuzioni da cui i punti provengono verificano l’equazione della retta

Interpretazione di Interpretazione di αα e e ββ

• I parametri α e β rappresentano l’intercetta ed il coeff. angolare della retta sulla quale giacciono le medie incognite dellegiacciono le medie incognite delle distribuzioni Y1, …, Yn

Interpretazione di Interpretazione di αα e e ββ

Page 10: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 10

OsservazioneOsservazione

• Dato il modello di regressione• Yi = α +β xi +εi

• L’ip: µi = E(Yi) = α+β xi

• equivale ad affermare che

• E(εi)=0

Stima dei parametriStima dei parametri

• I parametri da stimare sono• α, β, µ1, µ2, …, µn, σ2

• La conoscenza di α β consente di• La conoscenza di α, β consente di ricostruire tutte le medie incognite µ1, µ2,…, µn

Stime di Stime di αα e e ββ

• Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn, per valori fissi di x1,

x si ottiene una distribuzione…, xn si ottiene una distribuzione campionaria di valori

xY βα ˆˆ −= ∑∑

−= 2)(

)(ˆxxYxx

i

iiβ

Stime di Stime di µµii

Coeff. di regressione campionari e Coeff. di regressione campionari e nella popolazionenella popolazione

iii xy εβα ++=

iii exy ++= βα ˆˆ

Coeff. di regressione campionari e Coeff. di regressione campionari e nella popolazione nella popolazione

iii xy εβα ++=iii exy ++= βα ˆˆ

7

8 xy βα +=ε

0

1

2

3

4

5

6

0 10 20 30 40X = N. dipendenti

Y =

vend

ite

xy βα ˆˆˆ +=iε

ii xyE βα+=)(

ie

ii xyE βα ˆˆ)( +=

Stima di Stima di σσ22

• σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni

• Dato che σ2=E(εi2)

D t h è ti di b• Dato che ei è una stima di εi sembra naturale utilizzare come stimatore di σ2 la seguente espressione

22)ˆ( 22

2

−=

−−

= ∑∑ne

ny

s iii μ

Page 11: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 11

Stima di Stima di σσ22

• Utilizziamo gli scostamenti dalle medie delle popolazioni

ˆ 22 ∑∑22

)ˆ( 222

−=

−−

= ∑∑ne

ny

s iii μ

Stima di Stima di σσ22

• Excel definisce s come “errore standard nella stima di Y”

2

2

−= ∑

ne

s i

Funzione regr.linFunzione regr.lin

• Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN

Ip. aggiuntivaIp. aggiuntiva

• Le distribuzioni Yi sono normali• y1 è una realizzazione di Y1 ~ N(µ1, σ2)• y2 è una realizzazione di Y2 ~ N(µ2, σ2)• …• yn è una realizzazione di Yn ~ N(µn, σ2)

• Y1, Y2, …, Yn sono indipendenti

Richiami sulla v.c. normaleRichiami sulla v.c. normale

• se Y ~N(µ, σ2)• Z=(Y- µ)/ σ ~ N(0,1)

• Pr(-1.96 < Z <1.96) =0.95

• aY+b ~ N(b+ µ, a2σ2)

Richiami sulla costruzione degli int. Richiami sulla costruzione degli int. di confidenzadi confidenza

95.096.1)(96.1Pr =⎟⎟⎞

⎜⎜⎛

<−

<−XEX)var( ⎟

⎠⎜⎝ X

95.096.1)var(

96.1Pr =⎟⎟⎠

⎞⎜⎜⎝

⎛<

−<−

XX μ

( ) 95.0)var(96.1)var(96.1Pr =+<<− XXXX μ

Page 12: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 12

ObiettivoObiettivo

Costruire intervalli di confidenza e Costruire intervalli di confidenza e test di verifica d’ipotesi sul coeff. test di verifica d’ipotesi sul coeff.

angolare angolare

β

Studio della distribuzione di Studio della distribuzione di β

∑∑

−−

= 2)()(ˆxxYxx

i

iiβ

iii xy εβα ++=

iii exy ++= βα ˆˆ

Studio della distribuzione di Studio della distribuzione di β

∑∑

−−

= 2)()(ˆxxYxx

i

iiβ

?)ˆ( =βE ββ =)ˆ(E

?)ˆvar( =β ∑ −= 2

2

)()ˆvar(

xxi

σβ

Varianza di beta cappelloVarianza di beta cappello

⎟⎟⎟⎟

⎜⎜⎜⎜

−=

=

=n

ii

i

n

ii

xx

Yxx

1

2

1

)(

)(var)ˆvar(β

⎞⎛⎟⎠

⎞⎜⎝

⎛−

⎥⎦

⎤⎢⎣

⎡−

= ∑∑ =

=

i

n

iin

ii

Yxxxx

12

1

2

)(var)(

1)ˆvar(β

⎟⎠

⎞⎜⎝

⎛−

⎥⎦

⎤⎢⎣

⎡−

= ∑∑ =

=

i

n

iin

ii

Yxxxx

12

1

2

)var()(

1)ˆvar(β

Varianza di beta cappelloVarianza di beta cappello

⎟⎠

⎞⎜⎝

⎛−

⎥⎦

⎤⎢⎣

⎡−

= ∑∑ =

=

i

n

iin

ii

Yxxxx

12

1

2

)var()(

1)ˆvar(β

⎟⎞

⎜⎛∑n

2)(1)ˆ(β ⎟⎠

⎞⎜⎝

⎛−

⎥⎦

⎤⎢⎣

⎡−

= ∑∑ =

=

ii

in

ii

Yxxxx 1

22

1

2

var)()(

1)var(β

⎟⎠

⎞⎜⎝

⎛−

⎥⎦

⎤⎢⎣

⎡−

= ∑∑ =

=

n

iin

ii

xxxx

1

222

1

2

)()(

1)ˆvar( σβ

∑=

−= n

ii xx

1

2

2

)()ˆvar( σβ

Al posto di Al posto di σσ22 sostituiamo il suo sostituiamo il suo stimatorestimatore

∑ −== 2

22

)()ˆ())ˆ(var(

xxssStimai

ββ

• La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore

∑ −==

2ˆ)(

)ˆ(xx

sSEsi

ββ

Page 13: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 13

Interpretazione dello standard error Interpretazione dello standard error di beta cappellodi beta cappello

• Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadratiquadrati

Studio della distribuzione di Studio della distribuzione di αxY βα ˆˆ −=

?)ˆ( =αE αα =)ˆ(E

?)ˆvar( =α ⎥⎥⎦

⎢⎢⎣

−+=∑ 2

22

)(1)ˆvar(

xxx

n i

σα

Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati calcolare lo supermercati calcolare lo

standard error di beta standard error di beta cappello e alpha cappellocappello e alpha cappellocappello e alpha cappellocappello e alpha cappello

Sol. Sol. 0.025

)()ˆ(

2ˆ =−

==∑ xx

sSEsi

ββ

44.0)(

1)ˆ( 2

2

ˆ =−

+==∑ xx

xn

sSEsi

αα

Costruzione di intervalli di Costruzione di intervalli di confidenza dei parametriconfidenza dei parametri

Punto di partenza: lo scostamento Punto di partenza: lo scostamento standardizzato di beta capello ha standardizzato di beta capello ha

una distribuzione N(0,1)una distribuzione N(0,1)

γβ

ββγγ −=⎟⎟

⎜⎜

⎛<

−<− 1

)ˆvar(

)ˆ(ˆPr ZEZ

• Se 1-γ=0.95

β ⎠⎝ )var(

95.0)96.1)ˆvar(

)ˆ(ˆ96.1Pr( =<

−<−

β

ββ E

95.0)96.1)ˆvar(

)ˆ(ˆ96.1Pr( =<

−<−

β

ββ E

ˆ ⎟⎟⎞

⎜⎜⎛

ββ

Problema: Problema: σσ22 è ignoto (occorre è ignoto (occorre sostituire il suo stimatore ssostituire il suo stimatore s22))

95.096.1

)(

96.1Pr

2

2=

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

<

−<−

∑ xxiσββ

Page 14: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 14

Studio della distribuzione di sStudio della distribuzione di s22

• Si può dimostrare che

Sostituendo al posto di Sostituendo al posto di σσ22 il suo il suo stimatorestimatore

95.096.1

)(

ˆ96.1Pr

2

2=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

<

−<−

∑ xxiσββ

Costruzione di un intervallo di Costruzione di un intervallo di confidenza per il coeff. angolareconfidenza per il coeff. angolare

• Dove tγ è il quantile (percentile) associato alla distribuzione T di Student con (n-2) gradi di libertà tale che (v. p. 44)

Costruzione di intervalli di Costruzione di intervalli di confidenza dei parametriconfidenza dei parametri

Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati costruire un supermercati costruire un intervallo di confidenza al intervallo di confidenza al

95%95% ββ dd i t t ii t t i95% per 95% per ββ eded interpretare i interpretare i risultati ottenutirisultati ottenuti

Costruzione di un intervallo di Costruzione di un intervallo di confidenza al 95% per il coeff. angolareconfidenza al 95% per il coeff. angolare

• t0.05(5)=+2.5706 (=INV.T(0.05;5)• (Oss: Pr.(T(5)>2.5706)=0.025)

• Pr(0.198-2.5706×0.0253<β<0.198+2.5706×0.0253)=0.95

• Pr(0.133<β< 0.263)=0.95

Page 15: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 15

InterpretazioneInterpretazione

• L'intervallo di confidenza del coefficiente di regressione, con probabilità uguale a 0.95, va da 0,133 a 0,263.

• Questo significa che nell'universo di riferimento, all'aumento di un dipendente può corrispondereall aumento di un dipendente può corrispondere un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%).

• Oss: l'intervallo è piuttosto ampio e questo dipende dalla ridotta numerosità campionaria (solo 7 supermercati).

Intervallo di confidenza Intervallo di confidenza per l’intercettaper l’intercetta

Costruzione di un intervallo di Costruzione di un intervallo di confidenza al 95% per l’intercettaconfidenza al 95% per l’intercetta

• t0.05(5)=+2.5706 (=INV.T(0.05;5)• (Oss: Pr.(T(5)>2.5706)=0.025)

• Pr(1.31<α< 0.96)=0.95

Costruzione di un intervallo di Costruzione di un intervallo di confidenza al 95% per confidenza al 95% per σσ22

Punto di partenza

• per trovare χ20.975 utilizzo

=INV.CHI(0.025;5)=0.83• per trovare χ2

0.025 utilizzo• =INV.CHI(0.975;5)=12.83

• Pr(0.08< σ2< 1.30)=0.95

Costruzione di test di Costruzione di test di ipotesi peripotesi perαα ββ σσ22

Page 16: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 16

Dato cheDato che

2~)ˆ(

ˆ−

−ntSE β

ββ

Sotto HSotto H00: : ββ =0=0

2~)ˆ(

ˆ−ntSE β

β

Funzione regr.linFunzione regr.lin

• Ordine in cui vengono restituite le statistiche aggiuntive di regressione dalla funzione di Excel REGR.LIN

Calcolo delle statistiche t con Excel Calcolo delle statistiche t con Excel e del relativo pe del relativo p--valuevalue

• p value Funzione distrib.T

Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati testare supermercati testare HH00::ββ=0, =0, trovare il relativo ptrovare il relativo p--value ed value ed

interpretare il risultato del testinterpretare il risultato del test

ttββ=7.82=7.82 pp--value = value = 0.000548

Interpretazione : rifiuto decisamente Interpretazione : rifiuto decisamente l’ipotesi nullal’ipotesi nulla

Esercizio: nell’esempio dei 7 Esercizio: nell’esempio dei 7 supermercati testare supermercati testare HH00::αα=0, =0, trovare il relativo ptrovare il relativo p--value ed value ed

interpretare il risultato del testinterpretare il risultato del test

ttαα=0.39=0.39 pp--value = value = 0.714

Interpretazione : non posso rifiutare Interpretazione : non posso rifiutare l’ipotesi nullal’ipotesi nulla

Intervallo di confidenza delle Intervallo di confidenza delle previsioni con il metodo dei previsioni con il metodo dei

minimi quadratiminimi quadrati

Page 17: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 17

Strumenti necessari (p. 189)Strumenti necessari (p. 189) Calcolo della var. dell’errore di Calcolo della var. dell’errore di previsioneprevisione

Calcolo della var. dell’errore di Calcolo della var. dell’errore di previsioneprevisione

Bande di confidenza dell’errore di Bande di confidenza dell’errore di previsione (p. 55)previsione (p. 55)

Costruzione di un intervallo di Costruzione di un intervallo di confidenza per yconfidenza per y00

• Tenendo presente che

)1,0(~)var()(

0

00 NeeEe −

)2(~)r(av)(

0

00 −− nTeeEe

)2(~)r(av 0

0 −nTe

e

)2(~)r(av

ˆ

0

00 −− nTeyy

Costruzione di un intervallo di Costruzione di un intervallo di confidenza per yconfidenza per y00

⎟⎞

⎜⎛ ˆ

)2(~)r(av

ˆ

0

00 −− nTeyy

γγγ −=⎟⎟⎠

⎞⎜⎜⎝

⎛<

−<− 1

)r(avPr

0

00 teyyt

vedi p. 56 vedi p. 56

Page 18: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 18

Esercizio: per un numero di dipendenti Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di pari a 16 costruire un intervallo di previsione delle vendite al 95%previsione delle vendite al 95%

95.0)4966.057.234966.057.23Pr( 0 =×+<<×− y

95.0)28.472.1Pr( 0 =<< y

Regressione multiplaRegressione multipla

Forma generale del modello di Forma generale del modello di regressioneregressione

• Il modello è ancora lineare nei coefficientiβ ma la sostanziale differenza rispetto alβj ma la sostanziale differenza rispetto al modello lineare semplice risiede nella presenza d'un maggior numero di variabili indipendenti Xj

In forma matricialeIn forma matriciale ObiettivoObiettivo:: adattare un piano adattare un piano “iperpiano” di regressione“iperpiano” di regressione

Page 19: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 19

Generalizzazione delle assunzioni Generalizzazione delle assunzioni per la regr. lineare sempliceper la regr. lineare semplice

• che implica

Assunzione sulla varianza dei Assunzione sulla varianza dei termini di disturbotermini di disturbo

Richiami sulla matr. var. cov. di un Richiami sulla matr. var. cov. di un vettore aleatorio (p. 188)vettore aleatorio (p. 188) Assunzione sulla matrice XAssunzione sulla matrice X

• X = fissa non stocastica, non dipende in alcun modo da ε

X h i• X ha rango pieno

Ripasso sulle matriciRipasso sulle matrici

• Addizione tra matrici• Moltiplicazione• Matrice diagonale• Matrice identità• Matrice trasposta (trasposta del prodotto)• Matrice inversa• Traccia• Traccia• Matrice idempotente• Somma di quadrati (ponderata) in forma

matriciale• Forme quadratiche (positive, negative definite)• Forme quadratiche idempotenti• Scomposizione spettrale

Page 20: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 20

Valore atteso e var di comb. di v.c.Valore atteso e var di comb. di v.c.

• x vettore casuale• A = matrice non stocastica• E(A x) = A E(x)• var(A x) = A var(x) A’ (v. p. 189)

Derivate di vettori e matrici Derivate di vettori e matrici (pp. 182(pp. 182--183)183)

• x vettore casuale

⎟⎟⎞

⎜⎜⎛xx1

⎟⎟⎟⎞

⎜⎜⎜⎛

∂∂∂

fxf

1

⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜

=

px

x

...

...2

x

⎟⎟⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜⎜⎜

⎝ ∂∂

∂∂

=∂∂

pxf

xf

xf

...

...2

Derivate di vettori e matriciDerivate di vettori e matrici

• Se a’=(a1, …, ap)

⎟⎟⎞

⎜⎜⎛xx1

⎟⎞

⎜⎛⎟

⎟⎞

⎜⎜⎛∂∂

axf

11

⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜

=

px

x

...

...2

x axx

xa=

⎟⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜⎜⎜⎜

⎝ ∂∂

∂∂

=∂

+++=

∂∂

p

p

pp

a

a

xf

xf

xaxaxa

...

...

...

......'

222211

Derivate di vettori e matriciDerivate di vettori e matrici

Derivate di vettori e matriciDerivate di vettori e matrici Stima di Stima di ββ

• Occorre trova il β che minimizza la seguente espressione

Page 21: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 21

Stima di Stima di ββ

• Occorre trova il β che minimizza laOccorre trova il β che minimizza la seguente espressione

Stima di Stima di ββ

• Se la matrice X’X quadrata di ordine k tt i ll l l i èammette inversa, allora la soluzione è

File di input svFile di input sv--regrregr--multipla.xlsmultipla.xls

Ripasso: vincoli del sistema di Ripasso: vincoli del sistema di equazioni normali nella regressione equazioni normali nella regressione

semplicesemplice

∑=

=n

iie

1

0

∑=

=n

iiiex

1

0

vincoli del sistema di equazioni vincoli del sistema di equazioni normali nella regressione multiplanormali nella regressione multipla

• L’equazione

• implica X’e=0

Interpretazione dei parametri Interpretazione dei parametri nella regressione lineare nella regressione lineare

multiplamultipla

Page 22: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 22

Modello di regressione multiploModello di regressione multiplo Interpretazione dei parametri nella Interpretazione dei parametri nella regressione lineare multiplaregressione lineare multipla

Criterio alternativo per trovare I coefficienti Criterio alternativo per trovare I coefficienti di regr. lineare multipla (p. 70)di regr. lineare multipla (p. 70)

• Es. trovare il coeff. di regressione parziale del PIL

• 1) Regressione Investimenti su tutte le variabili tranne il PILvariabili tranne il PIL

• 2) Regressione del PIL su tutte le altre variabili esplicative

• 3) Regressione tra i residui di 1) e i residui di 2)

In generale In generale

• Dato y = 1 β0 +X1 β1 + X2 β2+…+ Xi βi +…+Xk-1 βk-1+ε• Per trovare beta cappello_i

– Si regredisce y su tutte le variabili tranne Xi e siSi regredisce y su tutte le variabili tranne Xi e si prendono i residui (di INPUT)

– Si regredisce Xi su tutte le altre variabili esplicative e si prendono i residui (di OUTPUT)

– Il coefficiente di regressione semplice calcolato sulle due serie dei residui produce beta cappello_i

Modello di regressione nellModello di regressione nell--universo e nel campioneuniverso e nel campione

εβ += Xy

• Qual è la relazione tra e ed ε?

eXy += β

Analisi dei valori previstiAnalisi dei valori previsti

βˆ Xy =

yXXXXy ')'(ˆ 1−= yXXXXy )(

Hyy =ˆ

')'( 1XXXXH −=

Page 23: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 23

Analisi della matrice HAnalisi della matrice H

• Simmetrica e idempotente

Analisi degli elementi sulla Analisi degli elementi sulla diagonale principale della matrice diagonale principale della matrice

HH

• Gli elementi sulla diagonale principale sono compresi tra 0 e 1

Nel modello di regressione Nel modello di regressione semplice (p. 77)semplice (p. 77)

• Di conseguenza hii è elevato se xi è distante dalla nuvola dei punti

• In letteratura le osservazioni a cui corrisponde

• vengono detti punti di leverage

Analisi dei residuiAnalisi dei residui

εβ += Xy

eXy += β

εMe =

HIXXXXIM −=−= − ')'( 1

Analisi dei residuiAnalisi dei residui

Page 24: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 24

Caratteristiche della matrice MCaratteristiche della matrice M

• Simmetrica • Idempotente

• La somma dei quadrati dei residui si può scrivere come

εε Meeen

ii ''2 ==∑

=

• Forma quadratica idempotente

Ulteriore interpretazione dei punti di Ulteriore interpretazione dei punti di leverageleverage

• I punti in cui hii è grande sono i valori influenti nella regressione, ossia quelli che attirano a sé l’iperpiano di regressione

Analisi della bontà di adattamentoAnalisi della bontà di adattamento

• R2 nei modelli di regressione lineare multipla

Analisi della varianza e coeff. di Analisi della varianza e coeff. di correlazione lineare multipla correlazione lineare multipla

(modelli senza intercetta)(modelli senza intercetta)

• Indice di bontà di adattamento

Modelli con intercettaModelli con intercetta Coeff. correlazione lineare multiplaCoeff. correlazione lineare multipla

Page 25: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 25

Studio della distribuzione di Studio della distribuzione di β

ββ =)ˆ(E

12 )'()ˆvar( −= XXσβ

Teorema di Gauss Markov Teorema di Gauss Markov (efficienza degli stimatori OLS)(efficienza degli stimatori OLS)

Stima di Stima di σσ22

• E(s2)?

• Qual è la distribuzione di s2 (somma dei quadrati dei residui diviso i gradi di libertà)

Caratteristiche delle devianzeCaratteristiche delle devianze

• Dev residua

• Dev totaleDev totale

• Dev regressione

Come si distribuiscono le Come si distribuiscono le forme quadratiche forme quadratiche

idempotenti?idempotenti?

Come si distribuiscono le forme Come si distribuiscono le forme quadratiche idempotenti?quadratiche idempotenti?

• Premessa: numero di autovalori diversi da zero di una matrice = rango della matrice (p. 176)

• Gli autovalori di una matrice idempotente sono 0 o 1(p. 177)(p )

• La somma degli autovalori è uguale alla traccia (p.182)

• rango e traccia della matrice idempotente coincidono

Page 26: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 26

Distribuzione delle forme Distribuzione delle forme quadratiche nella regressionequadratiche nella regressione

• Devianza residua

Distribuzione delle forme Distribuzione delle forme quadratiche nella regressionequadratiche nella regressione

• Devianza residua

Distribuzione della devianza Distribuzione della devianza residua e’eresidua e’e

• e’e=ε’ M ε• Scomposizione spettrale di M• M= PΛP’M PΛP• e’e = ε’ P ΛP’ ε Ponendo P’ ε=v• e’e= v’ Λ v v~N(0, σ2In)

Distribuzione della devianza Distribuzione della devianza residua e’eresidua e’e

• e’e = v’ Λ v v~N(0, σ2In)

Distribuzione della devianza Distribuzione della devianza residua e’eresidua e’e Distribuzione della devianza totaleDistribuzione della devianza totale

• Scomposizione spettrale di A• A= PΛP’• y’Ay=ε’ P ΛP’ ε Ponendo P’ ε=v• y’Ay= v’ Λ v v~N(0, σ2In)

Page 27: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 27

Distribuzione della devianza totaleDistribuzione della devianza totale

• y’Ay= v’ Λ v v~N(0 σ2I )y Ay v Λ v v N(0, σ In)

Affermazioni equivalenti (p. 86)Affermazioni equivalenti (p. 86)

Distribuzione delle forme Distribuzione delle forme quadratiche nella regressionequadratiche nella regressione

• Devianza di regressione

Riassunto finaleRiassunto finale

• Le forme quadratiche idempotenti hanno una distribuzione chi quadrato (dato che gli autovalori sono 0 e 1)

• Il numero di gradi di libertà è dato dal• Il numero di gradi di libertà è dato dal numero di autovalori uguali ad 1 (traccia ossia rango della matrice idempotente)

Scomposizione della devianza Scomposizione della devianza totale e distribuzione delle forme totale e distribuzione delle forme

quadratiche (p. 86)quadratiche (p. 86)

Inferenza su un generico coeff. di Inferenza su un generico coeff. di regressione parziale (p. 87)regressione parziale (p. 87)

Page 28: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 28

Inferenza su un generico coeff. di Inferenza su un generico coeff. di regressione parzialeregressione parziale H0: H0: ββjj=0=0

• Analisi della distribuzione del test tj

tj presenta una distribuzione T di Student con n-k gradi di libertà

Intervallo di conf. di un generico Intervallo di conf. di un generico coeff. di regressione parzialecoeff. di regressione parziale Criteri per confrontare i modelliCriteri per confrontare i modelli

• In assenza di relazione lineare tra X e y qual è il valore attesto di R2

Criteri per confrontare i modelliCriteri per confrontare i modelli Criteri per confrontare i modelliCriteri per confrontare i modelli

• tende a 0 in assenza di dipendenza lineare e tende a 1 in presenza di dipendenza lineare perfetta.

Page 29: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 29

Criteri per confrontare i modelliCriteri per confrontare i modelli

• Dopo semplici passaggi

Ripasso sullle v.cRipasso sullle v.c

• Normale (standadizzata)• chi^2 (forme quadratiche idempotenti)• T di Student• F (rapporto tra forme quadratiche

idempotenti indipendenti)

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienti combinazioni lineari dei coefficienti • Esempi

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienti combinazioni lineari dei coefficienti • Se vogliano testare simultaneamente q

ipotesi la forma generale è• Rβ=r

d R ( k) di t ti t• dove R (q × k) di costanti note• r= vettore noto di q elementi

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti

Page 30: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 30

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti EsercizioEsercizio

• Supponiamo che k=5. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi

• β +3β =1• β2+3β4=1• β1-5β2=0• β3=0• β3+β4+β5=2

EsercizioEsercizio

• β2+3β4=1• β1-5β5=0• β3=0• β3+β4+β5=2

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎛−

=

111000010050001

03010

R

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

5

4

3

2

1

βββββ

β

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

2001

r

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti

Test di verifica di ipotesi su Test di verifica di ipotesi su combinazioni lineari dei coefficienticombinazioni lineari dei coefficienti EsercizioEsercizio

• Supponiamo che k=6. Determinare la matrice R ed il vettore r per testare simultaneamente le seguenti ipotesi

• β =β =β = β =0• β3=β4=β5= β6=0

Page 31: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 31

EsercizioEsercizio

• β3=β4=β5= β6=0

⎟⎟⎞

⎜⎜⎛

001000000100

⎟⎟⎟⎟⎞

⎜⎜⎜⎜⎛

2

1

βββ

⎟⎟⎞

⎜⎜⎛00

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

=

100000010000001000

R

⎟⎟⎟⎟⎟

⎠⎜⎜⎜⎜⎜

=

6

5

4

3

ββββ

β

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

=

000

r

Statistica testStatistica test

DimostrazioneDimostrazione

• Il numeratore si può scrivere ε’Q ε

Devo dimostrare che QQ=QDevo dimostrare che QQ=Q

• ε’Q ε = forma quadratica idempotente

εε’Q ’Q εε ~ ~ σσ2 2 chi^2chi^2

• chi^2(q) dove q è il numero di righe della matrice R (numero di vincoli)

Distribuzione del test FDistribuzione del test F

Numeratore ε’Q ε/q

Denominatore ε’M ε/(n-k)HIXXXXIM −=−= − ')'( 1

Page 32: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 32

Esempio con ExcelEsempio con Excel

• File regr-test.xlsCasi particolariCasi particolari

R=(0 , …, 0, 1, 0. …0) e r=0R=(0 , …, 0, 1, 0. …0) e r=0

Relazione con il test t per testare Relazione con il test t per testare ββii=0=0

• L’equazione

• non è altro che il quadrato del test t

Relazione con il test precedenteRelazione con il test precedente

Set di variabili esplicative non Set di variabili esplicative non rilevantirilevanti ProceduraProcedura

Page 33: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 33

• In questo esempio cos’è e’rer ? cos’è e’e?

• e’rer= Devianza totale• e’e = Devianza residua

Output della funzione REGR.LINOutput della funzione REGR.LIN

• Test F

Output del componente aggiuntivo Output del componente aggiuntivo analisi datianalisi dati

ANALISI VARIANZA

gdl SQ MQ F Significatività FRegressione 2 5841.06918 2920.53 107.86051 2.14126E-08R id 12 324 923484 27 0769Residuo 12 324.923484 27.0769Totale 14 6165.99266

Sessione al computerSessione al computer:: verificareverificare

• VerificareIntervallo di confidenza del Intervallo di confidenza del valore y0 associato ad uno valore y0 associato ad uno specifico insieme di valori specifico insieme di valori delle variabili esplicativedelle variabili esplicativedelle variabili esplicativedelle variabili esplicative

Page 34: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 34

Es. investimenti PIL e trendEs. investimenti PIL e trend StrategiaStrategia

• Passiamo attraverso e0 e poi esplicitiamo y0

Troviamo ETroviamo E(e(e00) e var(e) e var(e00)) Var(eVar(e00))

Ob. trovare intervallo di conf. per yOb. trovare intervallo di conf. per y00 Ob. trovare intervallo di conf. per yOb. trovare intervallo di conf. per y00

Page 35: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 35

Es. investimenti PIL e trendEs. investimenti PIL e trend Es. investimenti PIL e trendEs. investimenti PIL e trend

Intervallo di confidenza per yIntervallo di confidenza per y00

Regressione con variabili Regressione con variabili categorichecategoriche

Es. consumo e redditoEs. consumo e reddito

Reddito

Con

sum

o

Aggiunta di una variabile dummyAggiunta di una variabile dummy

Page 36: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 36

Risultati del modello di regr. linere Risultati del modello di regr. linere multiplomultiplo

Rappresentazione grafica dell’effetto della variabilie Rappresentazione grafica dell’effetto della variabilie dummy = diminuire la stima teorica dell’ammontare dummy = diminuire la stima teorica dell’ammontare

dei consumi di un ammontare pari a dei consumi di un ammontare pari a --55.4655.46

Reddito

Con

sum

o

Confronto Confronto (con e senza dummy)(con e senza dummy)

Verifica della bontà di Verifica della bontà di adattamento del modelloadattamento del modello

Analisi dei residuiAnalisi dei residui

Grafico preliminare (esempio investimenti, PIL trend) Diverse tipologie di residui (p.99)Diverse tipologie di residui (p.99)

Page 37: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 37

Come si trova sCome si trova s(i)(i)Analisi dei residui di Analisi dei residui di

cancellazione cancellazione studentizzatistudentizzati

Destagionalizzazione, Destagionalizzazione, detrendizzazione delle serie detrendizzazione delle serie

storichestoriche

Serie storica della vendita di un beneSerie storica della vendita di un bene

Modello trend + stagionalità + Modello trend + stagionalità + componente erraticacomponente erratica

Primo modo per X (p. 117)Primo modo per X (p. 117)

Page 38: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 38

Secondo modo per X (p. 118)Secondo modo per X (p. 118) Espressioni formali per le due Espressioni formali per le due parametrizzazioni (eq. p. 117)parametrizzazioni (eq. p. 117)

Stima dei parametriStima dei parametri Interpretazione delle stime dei Interpretazione delle stime dei parametriparametri

• Il coefficiente del trend rimane immutato• Nella seconda parametrizzazione i coeff.

stagionali devono essere interpretati come effetto della stagione considerata relativoeffetto della stagione considerata relativo alla stagione esclusa

Confronto valori effettivi e valori Confronto valori effettivi e valori stimatistimati DestagionalizzazioneDestagionalizzazione

Page 39: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 39

Serie originaria e serie destagionalizzataSerie originaria e serie destagionalizzata DetrendizzazioneDetrendizzazione

Serie originaria e serie detrendizzataSerie originaria e serie detrendizzata Detrendizzazione e Detrendizzazione e destagionalizzazionedestagionalizzazione

Serie originaria e serie detr.Serie originaria e serie detr.--dest.dest. Testare la presenza della comp. Testare la presenza della comp. stagionale (n=20)stagionale (n=20)

Page 40: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 40

Testare la presenza della comp. Testare la presenza della comp. stagionale (implementare entrambe stagionale (implementare entrambe

le formule)le formule)r, R, q, n-k?

Destagionalizzazione

• Vincolo: la somma dei valori originari deve essere uguale alla somma dei valori destagionalizzati in ogni anno (all’interno del periodo s)del periodo s)

• la somma degli effetti stagionali nel corso dell’anno deve essere zero

• Come si può imporre questo vincolo?

Come si può imporre questo vincolo?

• Nella parametrizzazione che non considera si prendono gli scarti dalla media degli effetti stagionali

• Intercetta = media degli effetti stagionali• Intercetta = media degli effetti stagionali

In simboli p. 141Serie storica orginale e stima del trend

350.0

400.0

450.0

dite

200.0

250.0

300.0

trim 1 2

001

trim 2 2

001

trim 3 2

001

trim 4 2

001

trim 1 2

002

trim 2 2

002

trim 3 2

002

trim 4 2

002

trim 1 2

003

trim 2 2

003

trim 3 2

003

trim 4 2

003

trim 1 2

004

trim 2 2

004

trim 3 2

004

trim 4 2

004

trim 1 2

005

trim 2 2

005

trim 3 2

005

trim 4 2

005

Trimestri

Vend

Page 41: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 41

Serie storica originale e serie destagionalizzata

300.0

350.0

400.0

450.0

Vend

ite

200.0

250.0

trim 1 2

001

trim 2 2

001

trim 3 2

001

trim 4 2

001

trim 1 2

002

trim 2 2

002

trim 3 2

002

trim 4 2

002

trim 1 2

003

trim 2 2

003

trim 3 2

003

trim 4 2

003

trim 1 2

004

trim 2 2

004

trim 3 2

004

trim 4 2

004

trim 1 2

005

trim 2 2

005

trim 3 2

005

trim 4 2

005

Trimestri

V

Limiti del modello lineare tipoLimiti del modello lineare tipo

• Errori di osservazioni ( X stocastica?)• Valori sfasati della variabile dipendente• Sistemi di equazioni simultanee• Il ricercatore conosce tutte le variabili

esplicative rilevanti?• Disturbi eteroschedastici• Perturbazioni correlate

Verifica dellVerifica dell’ipotesi di ’ipotesi di omoschedasticitàomoschedasticità

Ipotesi di omoschedasticità

Es. reddito e spesaEs. reddito e spesa

Diagramma di dispersione sui valori originari

350

400450

-50

0

50

100

150

200

250

300

0.000 50.000 100.000 150.000 200.000 250.000 300.000 350.000

X (reddito)

y (s

pesa

Es. reddito e spesaEs. reddito e spesa

Residui basati sulla regressione che utilizza tutte le osservazioni

150

200

-200

-150

-100

-50

0

50

100

0 50 100 150 200 250 300 350

Valori previsti

Res

idu

Page 42: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 42

Test di omoschedasticitàTest di omoschedasticità Si può utilizzare il rapporto che Si può utilizzare il rapporto che segue?segue?

Test di omoschedasticitàTest di omoschedasticità

• Il suddetto criterio per l'omoschedasticità può anche essere applicato quando l'ipotesi alternativa stabilisca che la varianza delle perturbazioni è unavarianza delle perturbazioni è una funzione crescente di una delle variabili esplicative del modello. La procedura consiste quindi nel riordinare le osservazioni secondo i valori crescenti di quella particolare variabile.

Riordinare le osservazioni Riordinare le osservazioni secondo i valori crescenti di secondo i valori crescenti di quella particolare variabile.quella particolare variabile.

• Funzione di EXCEL cerca.vert

Test per l’ipotesi di Test per l’ipotesi di autocorrelazione nei residuiautocorrelazione nei residui

Page 43: ANALISI DELLE STATISTICHE DI VENDITA - riani.it · dai valori utilizzati nel calcolo della retta ... i problemi di inferenza statistica • Si immagina di conoscere l’universo ...

Marco Riani - Analisi delle statistiche di vendita 43

Coefficiente di autocorrelazioneCoefficiente di autocorrelazione Punto di partenzaPunto di partenza

• Se le perturbazioni sono incorrelate con la stessa varianza otteniamo 2σ2

• Se le perturbazioni sono correlate positivamente otteniamo 2σ2 - termine positivo

Test di Durbin e WatsonTest di Durbin e Watson Test di Durbin e WatsonTest di Durbin e Watson

Selezione delle variabiliSelezione delle variabili

Procedure backward e forwardProcedure backward e forward

Evoluzione del coefficiente di determinazione nei diversi passi della procedura backward

0.69

0.695

0.7

rmin

azio

ne

)

0.67

0.675

0.68

0.685

10 9 8 7 6

Numero di variabili inserite nel modello

Indi

ce d

i det

er(R

2