Download - 04 test ipotesi

Transcript

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Si è interessati all’età media di una certa popolazione, nello specifico si vuol rispondere alla domanda: L’età media della popolazione è 30 anni?

Evidenza campionaria

10n

27x

Cosa si sa (o si assume che sia)

5.4;~ NX

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Formulazione ipotesi

00 : H Ipotesi NULLA

01 : H Ipotesi ALTERNATIVA

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Calcolo p-value

pveraHevidenzaP )|( 0

Se p è “piccola” allora si rifiuta l’ipotesi nulla e si dice che il test è

STATISTICAMENTE SIGNIFICATIVO

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Livello di significatività di un test

Valore di probabilità sotto il quale si rifiuta l’ipotesi nulla (di solito è fissato a 0.05) Si indica con

05.0p

05.0p

Si rifiuta l’ipotesi nulla

Non si rifiuta l’ipotesi nulla

ad un livello di significatività 05.0

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Come calcolare il p-value

Statistica Test =

Statistica di interesse – Valore ipotizzato

Errore Standard Statistica di interesse

Distribuzione di probabilità della Statistica Test

+

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Come calcolare il p-value

nella distribuzione di probabilità della statistica test vengono individuate due regioni: la regione di rifiuto e la regione di non rifiuto

0HSpecificata (e quindi ) e fissato il livello di significatività 1H

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Come calcolare il p-value

Il valore della statistica test cade nella regione di rifiuto

p

Il valore della statistica test cade nella regione di non rifiuto

p

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

10n

27x

5.4;~ NX

30:0 H

30:1 H

1;0~0 Nn

X

Fissiamo il livello di significatività 05.0

Test Z su singolo campione

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

30:0 H

30:1 H 1;0~0 N

n

X

05.0

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

30:0 H

30:1 H 1;0~0 N

n

X

05.0

11.2105.4

30270

n

X

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la popolazione

abbia età media 30 anni

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

10n

27x

?

30:0 H

30:1 H

910 ~ tt

ns

Xn

Fissiamo il livello di significatività 05.0

Test t su singolo campione 1.4s

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

30:0 H

30:1 H1

0 ~

nt

ns

X 05.0

31.2101.4

30270

ns

X

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la popolazione

abbia età media 30 anni

Per un t9 la regione di non rifiuto è compresa tra i valori -2.26 e 2.26

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Si è interessati all’età media di una certa popolazione, nello specifico si vuol rispondere alla domanda: L’età media della popolazione è minore di 30 anni?

Evidenza campionaria

10n

27x

? 1.4s

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

10n

27x

?

30:0 H

30:1 H

910 ~ tt

ns

Xn

Fissiamo il livello di significatività 05.0

1.4s

In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va da al percentile

Test t su singolo campione (a una coda)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

30:0 H

30:1 H1

0 ~

nt

ns

X 05.0

31.2101.4

30270

ns

X

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la popolazione

abbia età maggiore o uguale di 30 anni

Per un t9 la regione di rifiuto rappresentata dai valori inferiori a -1.83

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Si è interessati all’età media di una certa popolazione, nello specifico si vuol rispondere alla domanda: L’età media della popolazione è maggiore di 30 anni?

Evidenza campionaria

10n

27x

? 1.4s

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

10n

27x

?

30:0 H

30:1 H

910 ~ tt

ns

Xn

Fissiamo il livello di significatività 05.0

Test t su singolo campione (a due code) 1.4s

In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a 1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

30:0 H

30:1 H1

0 ~

nt

ns

X 05.0

31.2101.4

30270

ns

X

Il valore della statistica test cade nella regione di non rifiuto

05.0p Il test non è statisticamente significativo

Non si rifiuta 0H Ovvero non si rifiuta l’ipotesi che la popolazione

abbia età minore o uguale di 30 anni

Per un t9 la regione di rifiuto rappresentata dai valori maggiori di 1.83

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

In un campione di 16 fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 17.5

In un campione di 9 non fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 12.4

Domanda:

Il fumo influisce sul danno polmonare?

ovvero

Le medie delle due popolazioni da cui i campioni sono stati estratti sono significativamente diverse?

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se

• I due campioni sono indipendenti • Le due popolazioni sono normali • C’è omoscedasticità

2

21

2

02121

21~

11

nn

p

t

nns

xx

Test t per due campioni indipendenti

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

Fissiamo il livello di significatività 05.0

5.41 s

92 n

4.122 x

8.42 s

2

21

2

21

21~

11

nn

p

t

nns

xx

210 : H

211 : H

0: 210 H

0: 210 H

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

5.41 s

92 n

4.122 x

8.42 s

0: 210 H

0: 211 H

05.0

2.21

2916

8.4195.4116

2

11 22

21

2

22

2

112

nn

snsnsp

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

5.41 s

92 n

4.122 x

8.42 s

65.2

9

1

16

12.21

4.125.17

11

21

2

21

nns

xx

p

0: 210 H

0: 211 H

05.0

Per un t23 la regione di non rifiuto è compresa tra i valori -2.07 e 2.07

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H Ovvero si rifiuta l’ipotesi che le medie delle due

popolazioni siano tra loro uguali

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

In un campione di 16 fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 17.5

In un campione di 9 non fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 12.4

Domanda:

Il fumo incrementa il danno polmonare?

ovvero

La media della popolazione dei fumatori è maggiore della media della popolazione dei non fumatori?

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se

• I due campioni sono indipendenti • Le due popolazioni sono normali • C’è omoscedasticità

2

21

2

02121

21~

11

nn

p

t

nns

xx

Test t per due campioni indipendenti (test a due code)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

5.41 s

92 n

4.122 x

8.42 s

210 : H

211 : H

0: 210 H

0: 210 H

Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a 1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

5.41 s

92 n

4.122 x

8.42 s

65.2

9

1

16

12.21

4.125.17

11

21

2

21

nns

xx

p

0: 210 H

0: 211 H

05.0

Per un t23 la regione di rifiuto è rappresentata dai valori maggiori di 1.71

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H

Ovvero si rifiuta l’ipotesi che la media della popolazione dei fumatori sia minore o uguale della media della popolazione dei non fumatori

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

In un campione di 16 fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 17.5

In un campione di 9 non fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 12.4

Domanda:

Il fumo è protettivo per il danno polmonare?

ovvero

La media della popolazione dei fumatori è minore della media della popolazione dei non fumatori?

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se

• I due campioni sono indipendenti • Le due popolazioni sono normali • C’è omoscedasticità

2

21

2

02121

21~

11

nn

p

t

nns

xx

Test t per due campioni indipendenti (test a due code)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

5.41 s

92 n

4.122 x

8.42 s

210 : H

211 : H

0: 210 H

0: 210 H

Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va da al percentile

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: 161 n

5.171 x

5.41 s

92 n

4.122 x

8.42 s

65.2

9

1

16

12.21

4.125.17

11

21

2

21

nns

xx

p

0: 210 H

0: 211 H

05.0

Per un t23 la regione di rifiuto è rappresentata dai valori minori di -1.71

Il valore della statistica test cade nella regione di non rifiuto

05.0p Il test non è statisticamente significativo

Non si rifiuta 0H

Ovvero non si rifiuta l’ipotesi che la media della popolazione dei fumatori sia maggiore o uguale della media della popolazione dei non fumatori

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale

Domanda:

La dieta ha avuto effetto?

Prima Dopo

117.3 83.3

111.4 85.9

98.6 75.8

104.3 82.9

105.4 82.3

100.4 77.7

81.7 62.7

89.5 69.0

78.2 63.9

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale

Dal confronto delle evidenze rilevate su due campioni indipendenti, all’analisi della differenza tra coppie di osservazioni

Prima Dopo

117.3 83.3

111.4 85.9

98.6 75.8

104.3 82.9

105.4 82.3

100.4 77.7

81.7 62.7

89.5 69.0

78.2 63.9

Test per dati APPAIATI

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

i=1, …, n id i-esima differenza per l’i-esima coppia di osservazioni

d differenza media campionaria

0d differenza media ipotizzata nella popolazione

n

ss d

d deviazione standard delle differenze campionarie

n numero di differenze

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se le n differenze campionarie rappresentano un campione estratto da una popolazione normale di differenze

1~0

n

d

dt

s

d

Test t per dati appaiati (test a due code)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: Prima Dopo di di2

117.3 83.3 34.0 1156

111.4 85.9 25.5 650.25

98.6 75.8 22.8 519.84

104.3 82.9 21.4 457.96

105.4 82.3 23.1 533.61

100.4 77.7 22.7 515.29

81.7 62.7 19.0 361

89.5 69.0 20.5 420.25

78.2 63.9 14.3 204.49

9n

6.229

3.203

9

3.1434

n

dd

i

3.28

72

3.20369.48189

11

2222

2

nn

ddn

n

dds

iii

d

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: Prima Dopo di di2

117.3 83.3 34.0 1156

111.4 85.9 25.5 650.25

98.6 75.8 22.8 519.84

104.3 82.9 21.4 457.96

105.4 82.3 23.1 533.61

100.4 77.7 22.7 515.29

81.7 62.7 19.0 361

89.5 69.0 20.5 420.25

78.2 63.9 14.3 204.49

0:0 dH

0:1 dH 1~0

n

d

dt

s

d

Fissiamo il livello di significatività 05.0

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio: Prima Dopo di di2

117.3 83.3 34.0 1156

111.4 85.9 25.5 650.25

98.6 75.8 22.8 519.84

104.3 82.9 21.4 457.96

105.4 82.3 23.1 533.61

100.4 77.7 22.7 515.29

81.7 62.7 19.0 361

89.5 69.0 20.5 420.25

78.2 63.9 14.3 204.49

0:0 dH

0:1 dH

74.1293.28

6.220

d

d

s

d

05.06.22d

3.282 ds

Per un t8 la regione di non rifiuto è compresa tra i valori -2.31 e 2.31

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la media delle differenze

sia zero ovvero che la dieta non abbia effetto

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale

Domanda:

La dieta ha avuto effetto nella riduzione del peso?

Prima Dopo

117.3 83.3

111.4 85.9

98.6 75.8

104.3 82.9

105.4 82.3

100.4 77.7

81.7 62.7

89.5 69.0

78.2 63.9

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se le n differenze campionarie rappresentano un campione estratto da una popolazione normale di differenze

1~0

n

d

dt

s

d

Test t per dati appaiati (test a una coda)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

9n

6.229

3.203

9

)3.14(34

n

dd

i

3.28

72

3.20369.48189

11

2222

2

nn

ddn

n

dds

iii

d

Prima Dopo di di2

117.3 83.3 -34.0 1156

111.4 85.9 -25.5 650.25

98.6 75.8 -22.8 519.84

104.3 82.9 -21.4 457.96

105.4 82.3 -23.1 533.61

100.4 77.7 -22.7 515.29

81.7 62.7 -19.0 361

89.5 69.0 -20.5 420.25

78.2 63.9 -14.3 204.49

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

0:0 dH

0:1 dH 1~0

n

d

dt

s

d

Prima Dopo di di2

117.3 83.3 -34.0 1156

111.4 85.9 -25.5 650.25

98.6 75.8 -22.8 519.84

104.3 82.9 -21.4 457.96

105.4 82.3 -23.1 533.61

100.4 77.7 -22.7 515.29

81.7 62.7 -19.0 361

89.5 69.0 -20.5 420.25

78.2 63.9 -14.3 204.49

Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va da al percentile

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

0:0 dH

0:1 dH

74.1293.28

6.220

d

d

s

d

05.06.22d

3.282 ds

Per un t8 la regione di rifiuto è rappresentata dai valori minori di -1.86

Il valore della statistica test cade nella regione di rifiuto

05.0p Il test è statisticamente significativo

Si rifiuta 0H

Ovvero si rifiuta l’ipotesi che la media delle differenze sia maggiore o uguale a zero ovvero che la dieta abbia incrementato o lasciato invariato il peso

Prima Dopo di di2

117.3 83.3 -34.0 1156

111.4 85.9 -25.5 650.25

98.6 75.8 -22.8 519.84

104.3 82.9 -21.4 457.96

105.4 82.3 -23.1 533.61

100.4 77.7 -22.7 515.29

81.7 62.7 -19.0 361

89.5 69.0 -20.5 420.25

78.2 63.9 -14.3 204.49

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale

Domanda:

La dieta ha avuto effetto nell’incremento del peso?

Prima Dopo

117.3 83.3

111.4 85.9

98.6 75.8

104.3 82.9

105.4 82.3

100.4 77.7

81.7 62.7

89.5 69.0

78.2 63.9

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se le n differenze campionarie rappresentano un campione estratto da una popolazione normale di differenze

1~0

n

d

dt

s

d

Test t per dati appaiati (test a una coda)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

9n

6.229

3.203

9

)3.14(34

n

dd

i

3.28

72

3.20369.48189

11

2222

2

nn

ddn

n

dds

iii

d

Prima Dopo di di2

117.3 83.3 -34.0 1156

111.4 85.9 -25.5 650.25

98.6 75.8 -22.8 519.84

104.3 82.9 -21.4 457.96

105.4 82.3 -23.1 533.61

100.4 77.7 -22.7 515.29

81.7 62.7 -19.0 361

89.5 69.0 -20.5 420.25

78.2 63.9 -14.3 204.49

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

0:0 dH

0:1 dH 1~0

n

d

dt

s

d

Prima Dopo di di2

117.3 83.3 -34.0 1156

111.4 85.9 -25.5 650.25

98.6 75.8 -22.8 519.84

104.3 82.9 -21.4 457.96

105.4 82.3 -23.1 533.61

100.4 77.7 -22.7 515.29

81.7 62.7 -19.0 361

89.5 69.0 -20.5 420.25

78.2 63.9 -14.3 204.49

Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a 1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

0:0 dH

0:1 dH

74.1293.28

6.220

d

d

s

d

05.06.22d

3.282 ds

Per un t8 la regione di rifiuto è rappresentata dai valori maggiori di 1.86

Il valore della statistica test cade nella regione di non rifiuto

05.0p Il test non è statisticamente significativo

Non si rifiuta 0H

Ovvero non si rifiuta l’ipotesi che la media delle differenze sia minore o uguale a zero ovvero che la dieta abbia ridotto o lasciato invariato il peso

Prima Dopo di di2

117.3 83.3 -34.0 1156

111.4 85.9 -25.5 650.25

98.6 75.8 -22.8 519.84

104.3 82.9 -21.4 457.96

105.4 82.3 -23.1 533.61

100.4 77.7 -22.7 515.29

81.7 62.7 -19.0 361

89.5 69.0 -20.5 420.25

78.2 63.9 -14.3 204.49

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

In un ospedale, per 90 giorni, è stato rilevato il numero di ricoveri di pronto soccorso. È plausibile pensare che i ricoveri di pronto soccorso seguano una distribuzione di Poisson con λ=3?

Numero

ricoveri

Giorni con

numero di

ricoveri

0 5

1 14

2 15

3 23

4 16

5 9

6 3

7 3

8 1

9 1

10 0

Totale 90

Stefano Salvadori, IFC-CNR

Definizioni

Bontà di adattamento: confronto tra una distribuzione campionaria e una distribuzione teorica che si assume possa descrivere la popolazione dalla quale proviene il campione

Frequenze attese: numero di unità del campione che ci aspetteremmo di osservare per i diversi valori (modalità) della variabile di interesse se una qualche ipotesi nulla sulla variabile di interesse fosse vera

Statistica inferenziale

Frequenze osservate: numero di unità del campione che assume i diversi valori (modalità) della variabile di interesse

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

i=1, …, k iO Frequenza osservata per il “gruppo” i-esimo

i=1, …, k iE Frequenza attesa per il “gruppo” i-esimo

2

1

2

~ rk

k

i i

ii

E

EO

Test chi-quadrato per la bontà di adattamento

r Numero di vincoli imposti per il confronto tra le frequenze

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

i

ii

E

EO2

Numero

ricoveri

Giorni con

numero di

ricoveri

Frequenze

relative

attese

Frequenze

attese

0 5 0.050 4.48 0.060

1 14 0.149 13.44 0.023

2 15 0.224 20.16 1.322

3 23 0.224 20.16 0.399

4 16 0.168 15.12 0.051

5 9 0.101 9.07 0.001

6 3 0.050 4.54 0.521

7 3 0.022 1.94 0.573

8 1 0.008 0.73

9 1 2 0.003 0.24 1.05 0.872

10 0 0.001 0.07

Totale 90 90.0 3.822

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

:0H

:1H

La distribuzione teorica è quella ipotizzata

La distribuzione teorica non è quella ipotizzata

Fissiamo il livello di significatività 05.0

2

8

1

2

~

k

i i

ii

E

EO

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

0 5 10 15 20 25

0.0

00

.02

0.0

40

.06

0.0

80

.10

Chi-Squared Distribution: df = 8

2

De

nsity

Come calcolare il p-value

Nella distribuzione la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a

2

rk1

Il percentile che separa le due regioni è detto anche valore critico

1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Come calcolare il p-value

Il valore della statistica test cade nella regione di rifiuto ovvero il valore della statistica test è maggiore o uguale del valore critico

p

Il valore della statistica test cade nella regione di non rifiuto ovvero il valore della statistica test è minore del valore critico

p

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

05.0

Per un il valore critico è 15.507

Il valore della statistica test è minore del valore critico

05.0p Il test non è statisticamente significativo

Non si rifiuta 0H Ovvero non si rifiuta l’ipotesi che la distribuzione

teorica sia quella ipotizzata (Poisson con λ=3)

:0H

:1H

La distribuzione teorica è quella ipotizzata

La distribuzione teorica non è quella ipotizzata

Numero

ricoveri

Giorni con

numero di

ricoveri

Frequenze

relative

attese

Frequenze

attese

0 5 0.050 4.48 0.060

1 14 0.149 13.44 0.023

2 15 0.224 20.16 1.322

3 23 0.224 20.16 0.399

4 16 0.168 15.12 0.051

5 9 0.101 9.07 0.001

6 3 0.050 4.54 0.521

7 3 0.022 1.94 0.573

8 1 0.008 0.73

9 1 2 0.003 0.24 1.05 0.872

10 0 0.001 0.07

Totale 90 90.0 3.822

i

ii

E

EO2

822.3

9

1

2

i i

ii

E

EO2

8

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

C’è associazione tra HIV ed HPV?

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 23 4 10 37

Negativo 10 14 35 59

Totale 33 18 45 96

HPV

HIV

I livelli di una variabile si distribuiscono in maniera diversa nei livelli dell’altra variabile?

ovvero

Stefano Salvadori, IFC-CNR

Statistica inferenziale

Livelli del criterio di classificazione A

1 2 3 … c Totale 1 n11 n12 n13 … n1c n1.

2 n21 n22 n23 … n2c n2.

. . . . … . .

. . . . … . .

. . . . … . . r nr1 nr2 nr3 … nrc nr.

Totale n.1 n.2 n.3 … n.c n

Tabella di contingenza

Livelli del criterio di classificazione B

Definizioni

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Se i due criteri di classificazione (variabili) sono indipendenti allora la probabilità che una delle n unità appartenga alla generica cella i,j è data da

n

n

n

n ji ..

Se i due criteri di classificazione (variabili) sono indipendenti allora la frequenza attesa nella generica cella i,j è data da

n

nnn

n

n

n

n jiji ....

Livelli del criterio di classificazione A

1 2 3 … c Totale

1 n11 n12 n13 … n1c n1.

2 n21 n22 n23 … n2c n2.

. . . . … . .

. . . . … . .

. . . . … . .r nr1 nr2 nr3 … nrc nr.

Totale n.1 n.2 n.3 … n.c n

Livelli del criterio di classificazione B

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

i=1, …, r j=1, …, c jiO , Frequenza osservata nella generica cella i,j

jiE ,

2

11

1 ,

2

,,

1

~

cr

c

j ji

jijir

i E

EO

Test chi-quadrato per l’indipendenza

r Numero di righe della tabella di contingenza

i=1, …, r j=1, …, c

Frequenza attesa nella generica cella i,j

c Numero di colonne della tabella di contingenza

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 12.7 6.9 17.3 37

Negativo 20.3 11.1 27.7 59

Totale 33 18 45 96

HIV

HPV

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 23 4 10 37

Negativo 10 14 35 59

Totale 33 18 45 96

HPV

HIVFrequenze osservate

Frequenze attese

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 12.7 6.9 17.3 37

Negativo 20.3 11.1 27.7 59

Totale 33 18 45 96

HIV

HPV

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 23 4 10 37

Negativo 10 14 35 59

Totale 33 18 45 96

HPV

HIV

Frequenze osservate Frequenze attese

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 8.3 1.2 3.1

Negativo 5.2 0.8 2.0

Totale 20.6

HPV

ji

jiji

E

EO

,

2

,,

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

:0H

:1H

Le due variabili sono indipendenti (non c’è associazione)

Le due variabili non sono indipendenti (c’è associazione)

Fissiamo il livello di significatività 05.0

2

2

2

1312

3

1 ,

2

,,2

1

~

j ji

jiji

i E

EO

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

:0H

:1H

Non c’è associazione

C’è associazione

05.0

6.20

3

1 ,

2

,,2

1

j ji

jiji

i E

EO

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 12.7 6.9 17.3 37

Negativo 20.3 11.1 27.7 59

Totale 33 18 45 96

HIV

HPV

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 23 4 10 37

Negativo 10 14 35 59

Totale 33 18 45 96

HPV

HIV

Frequenze osservate Frequenze attese

Positivo

sintomatico

Positivo

asintomaticoNegativo Totale

Positivo 8.3 1.2 3.1

Negativo 5.2 0.8 2.0

Totale 20.6

HPV

ji

jiji

E

EO

,

2

,,

Per un il valore critico è 5.991

Il valore della statistica test è maggiore del valore critico

05.0p Il test è statisticamente significativo

Si rifiuta 0H

2

2

Ovvero si rifiuta l’ipotesi di assenza di associazione (indipendenza)

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

C’è associazione tra Facoltà e conoscenza delle malattie?

I livelli di una variabile si distribuiscono in maniera diversa nei livelli dell’altra variabile?

ovvero

Buona Scarsa Totale

Medicina 3 4 7

Altra 1 15 16

Totale 4 19 23

Conoscenza malattie

Facoltà

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Frequenze osservate Frequenze attese

ji

jiji

E

EO

,

2

,,

Buona Scarsa Totale

Medicina 3 4 7

Altra 1 15 16

Totale 4 19 23

Conoscenza malattie

Facoltà

Buona Scarsa Totale

Medicina 1.2 5.8 7

Altra 2.8 13.2 16

Totale 4 19 23

Conoscenza malattie

Facoltà

Buona Scarsa Totale

Medicina 2.6 0.5

Altra 1.1 0.2

Totale 4.5

Conoscenza malattie

Facoltà

05.0

Valore critico = 3.841

2

1

05.0p

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Esempio:

C’è associazione tra Facoltà e conoscenza delle malattie?

I livelli di una variabile si distribuiscono in maniera diversa nei livelli dell’altra variabile?

ovvero

Buona Scarsa Totale

Medicina 3 4 7

Altra 2 15 17

Totale 5 19 24

Conoscenza malattie

Facoltà

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Frequenze osservate Frequenze attese

ji

jiji

E

EO

,

2

,, 05.0

Valore critico = 3.841

2

1

05.0p

Buona Scarsa Totale

Medicina 3 4 7

Altra 2 15 17

Totale 5 19 24

Conoscenza malattie

Facoltà

Buona Scarsa Totale

Medicina 1.5 5.5 7

Altra 3.5 13.5 17

Totale 5 19 24

Conoscenza malattie

Facoltà

Buona Scarsa Totale

Medicina 1.6 0.4

Altra 0.7 0.2

Totale 2.9

Conoscenza malattie

Facoltà

Stefano Salvadori PhD, IFC-CNR

Caso delle frequenze attese piccole

• in tabelle di contingenza con più di 1 gdl una frequenza attesa minima di 1 è accettabile se non più del 20% delle celle hanno frequenze attese non inferiori a 5. • in tabelle di contingenza 2x2 (1 gdl) il test non dovrebbe essere usato se n<20 • in tabelle di contingenza 2x2 il test non dovrebbe essere usato se 20<n<40 e c’è almeno una frequenza attesa inferiore a 5 • se n≥40 una sola frequenza attesa con numerosità non più piccola di 1 può essere tollerata

W.G. Cochran “Some methods for strengthening the common tests”, Biometrics, 15(1959), 440-468

2

2

Test di ipotesi Statistica inferenziale

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

2

11

1 ,

2

,,

1

~5.0

cr

c

j ji

jijir

i E

EO

Correzione di Yates (per la continuità)

Possibile svantaggio: Maggiore conservatività del test e quindi minor potenza

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Frequenze osservate Frequenze attese

ji

jiji

E

EO

,

2

,, 5.0

Buona Scarsa Totale

Medicina 3 4 7

Altra 1 15 16

Totale 4 19 23

Conoscenza malattie

Facoltà

Buona Scarsa Totale

Medicina 1.2 5.8 7

Altra 2.8 13.2 16

Totale 4 19 23

Conoscenza malattie

Facoltà

05.0

Valore critico = 3.841

2

1

05.0p

Buona Scarsa Totale

Medicina 1.4 0.3

Altra 0.6 0.1

Totale 2.4

Conoscenza malattie

Facoltà

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Test

Rifiuto H0

Non rifiuto H0

Realtà

H0 Vera H0 Falsa

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Test

Realtà

Rifiuto H0

Non rifiuto H0

H0 Vera H0 Falsa

Errore I tipo

Probabilità di rifiutare quando è vera 0H

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Test

Realtà

Rifiuto H0

Non rifiuto H0

H0 Vera H0 Falsa

Errore I tipo

Probabilità NON di rifiutare quando è falsa 0H

Errore II tipo

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

Test

Realtà

Rifiuto H0

Non rifiuto H0

H0 Vera H0 Falsa

Errore I tipo

1 POTENZA del test = Probabilità di rifiutare quando è falsa 0H

Errore II tipo

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

n

xZ

0

Poniamo: 830 871 8 50n 05.0

Media della distribuzione di Z per H0

050

8

838300

n

Media della distribuzione di Z per H1

54.350

8

838701

n

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

1.96

057.0

n

xZ

0

3.54

050.0

0 1

2.57

167.0

3.54

010.0

0 1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

n

xZ

0

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

n

xZ

0

Poniamo:

Media della distribuzione di Z per H0

050

8

838300

n

Media della distribuzione di Z per H1

830 851 8 50n 05.0

77.150

8

838501

n

1.96

575.0

1.77

050.0

0 1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

n

xZ

0

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

n

xZ

0

Poniamo:

Media della distribuzione di Z per H0

050

8

838300

n

Media della distribuzione di Z per H1

830 851 7 50n 05.0

02.250

7

838501

n

1.96

476.0

2.02

050.0

0 1

Stefano Salvadori, IFC-CNR

Test di ipotesi Statistica inferenziale

n

xZ

0