STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di...

41
Regressione-2 STATISTICA

Transcript of STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di...

Page 1: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Regressione-2

STATISTICA

Page 2: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Fare sempre il grafico!

Fig. 5.12 pg 178, “Statistica” di S. Iacus

Page 3: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

0 2 4 6 8 10

02

46

810

x

y

Fare sempre il grafico!

�=+0.79

�=-1

outliero

dato influente

Page 4: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

� � � � ��

Il modello dellaregressione lineare

semplice:

� � � � ��⟺ �~���, ��� �������������

�� � � � ��� � �

��~��� � ���, ���

Page 5: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

��� � �

� � ���

Il valore medio di �� in corrispondenza a tutte le unità statistiche per cui � � � è

� � ���

InferenzaIl modello della

regressione linearesemplice:

�� � � � ��� � �

��~��� � ���, ���! �� � � � ���

� � � � ��⟺ �~���, ��� �������������

Page 6: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

� � � � ��

Il modello dellaregressione lineare

semplice:

� � � � ��⟺ �~���, ��� �������������

�� � � � ��� � �Il modello ha tre parametri incogniti: ", #, $%

1. Stimare ", #e$%

2. Verificare se il vero valore della pendenza nella popolazione è davvero diverso da zero (⇔ previsione) oppure no:

() ∶ # � 0, (, ∶ # - 0

Page 7: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

� � � � ��

� � � � ��⟺ �~���, ��� �������������

�� � � � ��� � �

.� � /� 0 /1�/1� � "1 � #2 �

3.� � 04

�5,

�6 � ��7���

�89∑ ��� 0 �;��7� 0 7;�9�58

89∑ ��� 0 �;��9�58

�< � 7; 0 �6�;

7�

7<�

Page 8: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

� � � � ��

� � � � ��⟺ �~���, ��� �������������

�� � � � ��� � �

=% � 1? 0 23.�%

4

�5,.� � /� 0 /1�stima di $%

7�

/1� � "1 � #2 �

7<�

3.� � 04

�5,

varianza deglierrori

errori residui

Page 9: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%

C4 � �B4 0 A4 ;

D�~E�0, $%�

��~E�" � # � , $%�

C4 e A4 v.c. gaussiane

dalle stime agli stimatori:

() ∶ # � 0 (, ∶ # - 0

=% � 1? 0 23.�%

4

�5,

#2=%

∑ � � 0 ;�%4�5,

> G�9 0 ��H%

rifiutiamo () se:

Page 10: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%

C4 � �B4 0 A4 ;

D�~E�0, $%�

��~E�" � # � , $%�

C4 e A4 v.c. gaussiane

dalle stime agli stimatori:

I� ∶ � � �� I8 ∶ � - ��

=% � 1? 0 23.�%

4

�5,

#2 0 #)=%

∑ � � 0 ;�%4�5,

> G�9 0 ��H%

rifiutiamo () se:

Page 11: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%

C4 � �B4 0 A4 ;

D�~E�0, $%�

��~E�" � # � , $%�

C4 e A4 v.c. gaussiane

dalle stime agli stimatori:

=% � 1? 0 23.�%

4

�5,

#2 0 G�9 0 ��H%× =%

∑ � � 0 ;�%4�5,, #2 � G�9 0 ��H

%× =%

∑ � � 0 ;�%4�5,

Intervallo di confidenza di livello 1 0 K per # :

Page 12: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza

A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%

C4 � �B4 0 A4 ;

D�~E�0, $%�

��~E�" � # � , $%�

C4 e A4 v.c. gaussiane

dalle stime agli stimatori:

=% � 1? 0 23.�%

4

�5,

#2 0 G�9 0 ��H%× =%

∑ � � 0 ;�%4�5,, #2 � G�9 0 ��H

%× =%

∑ � � 0 ;�%4�5,

Intervallo di confidenza di livello 1 0 K per # :

E SE CONTIENE LO 0?

Tipo:(-1.23, 2.17)

Page 13: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza() ∶ " � ") (, ∶ " - ")"1 0")

=% 1? � %

∑ � � 0 ;�%4�5,

> G�? 0 2�H%

"1 0 G�9 0 ��H%× 1

? � %∑ � � 0 ;�%4�5,

, "1 � G�9 0 ��H%× 1

? � %∑ � � 0 ;�%4�5,

Intervallo di confidenza di livello 1 0 K per " :

Page 14: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Inferenza per la previsione

7<�

��

7�/1) ∓ G�? 0 2�H%× =% 1 � ?N, � ��� 0 �;�%

∑ � � 0 �%4�5,

�;

Page 15: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

y

� anno, � consumo medio annuo procapite di pane

Page 16: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

y

� 1957.78/B � 277.65

$U% � 1089.51$V% � 13193.36

XYZ , / � 03344.877

�UV � 03344.877 1089.51 × 13193.36 � 0�. \\

]% � �00.88�%� �. ^^

� anno, � consumo medio annuo procapite di pane

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

Page 17: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

y

$U% � 1089.51XYZ , / � 03344.877

#2 � 03344.8771089.51 � 0_. �^

"1 � 277.65 � 3.07 × 1957.78 � `�\\. �

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

� 1957.78/B � 277.65

Page 18: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

�1900, 455.0�

��;, 7;�

$U% � 1089.51XYZ , / � 03344.877

� 1957.78/B � 277.65

#2 � 03344.8771089.51 � 0_. �^

"1 � 277.65 � 3.07 × 1957.78 � `�\\. �

Page 19: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

7< 455 408.95 347.55 286.15 255.45 224.75 209.4 178.7 132.65

� anno, � consumo medio annuo procapite di pane

$U% � 1089.51XYZ , / � 03344.877

� 1957.78/B � 277.65

#2 � 0_. �^() ∶ # � 0 (, ∶ # - 0

#2=%

∑ � � 0 ;�%4�5,

� 3.073759.85

9 × 1089.51�

� 4.958?>?G�7�).)b%

� 2.3646"1 � 6288.0

=% � 173 /� 0 /1� % � 3759.85

c

�5,⇒ = � 61.318

rifiutiamo l’ipotesiche # � 0!

Page 20: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

previsione per � 1920/1 � 6288.0 0 3.07 × 1920 � 393.6 kg

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

in media

CONSUMO MEDIO SU TUTTE LE

PERSONE DEL 1920

Page 21: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

previsione per � 1920/1 � 6288.0 0 3.07 × 1920 � 393.6 kg

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

/1) ∓ G�? 0 2�H%× =% 1 � ?N, � � ) 0 �%

∑ � � 0 �%4�5,

=% � 3759.833 � � 0 �%

4

�5,� ?$U% � 7626.57

K � 0.05; G�? 0 2�H%� 2.3646

393.6 ± 8`g. � ∶ �228.4, 558.8�

PER UNA PERSONA QUALUNQUE

Page 22: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

previsione per � 2020/1 � 6288.0 0 3.07 × 2020 � 86.6 kg

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

86.6 ∓ 8\h. g

/1) ∓ G�? 0 2�H%× =% 1 � ?N, � � ) 0 �%

∑ � � 0 �%4�5,

=% � 3759.833 � � 0 �%

4

�5,� ?$U% � 7626.57

K � 0.05; G�? 0 2�H%� 2.3646

Page 23: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

#2 � 03344.8771089.51 � 03.07

"1 � 277.65 � 3.07 × 1957.78 � 6288.0

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

previsione per � 2050/ � 6288.0 0 3.07 × 2050 � 0g. g kg

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

Page 24: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

1900 1920 1940 1960 1980 2000

150

200

250

300

350

400

450

500

previsione per � 2050/ � 6288.0 0 3.07 × 2050 � 0g. g kg

“previsioni di lungo periodo”

sono fuori dal range dei dati!

Meglio non farle! Ma se proprio…

attenzione al senso!

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

Page 25: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 2

previsione per � 2050/ � 6288.0 0 3.07 × 2050 � 0g. g kg

6288.0 0 3.07 × �� � 0 ⟺

) �6288.03.07 � 2048.21

previsione a lungo terminesolo fino al 2048…

1900 1950 2000 2050

010

020

030

040

050

0

��

X 1900 1915 1935 1955 1965 1975 1980 1990 2005

Y (kg) 500 350 325 400 180 218 180 205 140

� anno, � consumo medio annuo procapite di pane

Page 26: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

66 68 70 72

140

150

160

170

180

w

Il modello di regressione lineare

Y

X

7<�

X

�� � � � ��� � � , �~���, ���

��

7�In questo modello, mi aspetto

di osservare il valore 7<�(sulla retta),

ma l’incertezza del fenomeno può produrre un’osservazione7� che non sta sulla retta. Questo errore, i� � 7� 0 7<�, è

supposto gaussiano, quindi non può essere troppo grande

(" 0 3$, 3$"�, e deve essere simmetrico.

Page 27: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Il modello di regressione lineare

�� � " � # � � D� , �~���, ���

/� 0 /1� =% � 1? 0 23.�%

4

�5,

5 10 15

-20

-10

010

20

i�

- non sono «troppo grandi»: (03=%, �3=%);

- sono in parte positivi e in parte negativi;

- il loro grafico è “sparpagliato”.

nell’ordine dei dati

GRAFICO DEI RESIDUI

Page 28: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

0 10 20 30 40

-20

-10

010

20

res1

Verifica della Gaussianità

i�

Page 29: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

0 10 20 30 40

-20

-10

010

20

res1

Verifica della Gaussianità

i�

-2 0 2 4 6 8-2

0-1

00

1020

/1�

i�

Page 30: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Verifica della Gaussianità

0 20 40 60 80 100

-60

-40

-20

020

4060

80

La varianza non è costante

i�

Page 31: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Verifica della Gaussianità

-2 -1 0 1 2

-2-1

01

2 Q-Q plot

Quantili di una E�0,1�

Quantili

deire

sid

uista

ndard

izzati

Page 32: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Verifica della Gaussianità

-2 -1 0 1 2

-2-1

01

2 Q-Q plot

Quantili di una E�0,1�

Quantili

deire

sid

uista

ndard

izzati

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

k, � 00.57

k%

kl

m).c)

m).,)m).c) � 1.38k,

Page 33: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Verifica della Gaussianità

Q-Q plot

Quantili di una E�0,1�

Quantili

deire

sid

uista

ndard

izzati

dato anomalo/ outlier

Ci sono tecniche di diagnostica ad hoc

Page 34: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Verifica della Gaussianità

http://condor.depaul.edu/sjost/it223/documents/normal-plot.htm

Page 35: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value

Intercetta 3.8199 9.0891 0.420 0.677

X 2.0642 0.3029 6.816 0

�� = 0.624

0 10 20 30 40

020

4060

8010

012

0

X

Y

X0 10 20 30 40

020

4060

8010

012

0

Y

Page 36: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value

Intercetta 3.8199 9.0891 0.420 0.677

X 2.0642 0.3029 6.816 0

�� = 0.624

= 3.8199 + 2.0642� + �

Page 37: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 3

valori della statistica per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0 :

��

��

∑ (� − � � )�� !

�"

�� 1#

+��

∑ (� − � � )�� !

e

Variabile Coeff. Dev. std. Statistica t p-value

Intercetta 3.8199 9.0891 0.420 0.677

X 2.0642 0.3029 6.816 0

�� = 0.624

= 3.8199 + 2.0642� + �

Page 38: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value

Intercetta 3.8199 9.0891 0.420 0.677

X 2.0642 0.3029 6.816 0

�� = 0.624

valori del denominatore nella statistica per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0 :

��

%&

∑ ('( − ' � )&)( *

�"

%& *)

+'�&

∑ ('( − ' � )&)( *

e

= 3.8199 + 2.0642� + �

Page 39: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value

Intercetta 3.8199 9.0891 0.420 0.677

X 2.0642 0.3029 6.816 0

�� = 0.624

valori del denominatore nella statistica per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0 :

��

%&

∑ ('( − ' � )&)( *

�"

%& *)

+'�&

∑ ('( − ' � )&)( *

e

= 3.8199 + 2.0642� + �

+,-..

/-0. 123= 1242562574 8

Page 40: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

Esercizio 3

p-value per i due test d’ipotesi �� ∶ � = 0 e �� ∶ � = 0

non sappiamo #, però

Variabile Coeff. Dev. std. Statistica t p-value

Intercetta 3.8199 9.0891 0.420 0.677

X 2.0642 0.3029 6.816 0

�� = 0.624

Page 41: STATISTICA · 2017-01-10 · Intervallo di confidenza di livello 10Kper #: ... Il modello di regressione lineare Y X 7< , ~ , 7 ... Quantili di una E 0,1

-20 -10 0 10 20

0.0

0.1

0.2

0.3

0.4

Statistica t p-value

0.420 0.677

6.816 0

Esercizio 3

:(# − 2)

non sappiamo #, però:1. Non rifiutiamo �� ∶ � = 0

2. Rifiutiamo �� ∶ � = 0 a qualunque livello di significatività

p-value per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0

0.677

2