7 inferenza statisticae-statisticadescrittiva

71
Inferenza statistica e statistica descrittiva Lucio Fontana - Expectations (MoMA), 1959 Riccardo Rigon Tuesday, March 6, 12

description

Introduzione ai concetti statistici elementari, media, varianza, campione, popolazione, momenti, correlazione

Transcript of 7 inferenza statisticae-statisticadescrittiva

Page 1: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Luci

o F

on

tan

a -

Exp

ecta

tion

s (M

oM

A), 1

95

9

Riccardo Rigon

Tuesday, March 6, 12

Page 2: 7 inferenza statisticae-statisticadescrittiva

“`E ’na cosa

che serve pe’ fa’ un conto in generale

de la gente che nasce, che sta male,

che more, che va in carcere e che

sposa.”

Trilussa

Tuesday, March 6, 12

Page 3: 7 inferenza statisticae-statisticadescrittiva

“There are three kinds of lies:•lies, •damn lies, and•statistics”

(Benjamin Disraeli/Mark Twain)

Tuesday, March 6, 12

Page 4: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Misura e Rappresentazione delle Grandezze Idrologiche

Obbiettivi:

4

•In queste pagine si ricordano gli elementi fondanti dell’analisi statistica.

•Si definiscono, popolazione, campione e varie statistiche elementari, media, varianza, covarianza.

•Si discute dell’esistenza delle statistiche e del loro valore.

•Si introduce il concetto di campione casuale (random sampling).

Tuesday, March 6, 12

Page 5: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Popolazione e Campione

5

L’inferenza statistica assume che un insieme di dati rappresenti un

sottoinsieme di casi tra tutti i possibili, normalmente detto

campione.

Tutti i casi possibili rappresentano la

popolazione

da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione,

in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi.

Tuesday, March 6, 12

Page 6: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

1860 1880 1900 1920 1940 1960 1980 20008

9

10

11

12

13

14

15a) Bergen:Sep temperature

time

Tem

pera

ture

(oC

)

5 6 7 8 9 10 11 12 13 14 150

5

10

15

20

25

30b) Bergen:Sep temperature distribution (1861−1997)

Fre

quency

Temperature (oC)

Analisi Esplorativa dei datirappresentazione temporale - istogramma

6

Un insieme di n dati costituisce dunque un campione di dati.

Tali dati possono essere rappresentati in vari modi. Ogni forma di

rappresentazione ne mette in rilievo alcune caratteristiche.

Tuesday, March 6, 12

Page 7: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

1860 1880 1900 1920 1940 1960 1980 20008

9

10

11

12

13

14

15a) Bergen:Sep temperature

time

Tem

pera

ture

(oC

)

5 6 7 8 9 10 11 12 13 14 150

5

10

15

20

25

30b) Bergen:Sep temperature distribution (1861−1997)

Fre

quency

Temperature (oC)

Analisi Esplorativa dei datirappresentazione temporale - istogramma

6

Un insieme di n dati costituisce dunque un campione di dati.

Tali dati possono essere rappresentati in vari modi. Ogni forma di

rappresentazione ne mette in rilievo alcune caratteristiche.

Serietemporale

Tuesday, March 6, 12

Page 8: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

1860 1880 1900 1920 1940 1960 1980 20008

9

10

11

12

13

14

15a) Bergen:Sep temperature

time

Tem

pera

ture

(oC

)

5 6 7 8 9 10 11 12 13 14 150

5

10

15

20

25

30b) Bergen:Sep temperature distribution (1861−1997)

Fre

quency

Temperature (oC)

Analisi Esplorativa dei datirappresentazione temporale - istogramma

6

Un insieme di n dati costituisce dunque un campione di dati.

Tali dati possono essere rappresentati in vari modi. Ogni forma di

rappresentazione ne mette in rilievo alcune caratteristiche.

Serietemporale

Istogramma

Tuesday, March 6, 12

Page 9: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Medie campionarie

7

x :=1n

n�

t=1

x,t

< x >:=1n

n�

i=1

xi

Media temporale

Media spaziale

La media è un indicatore di posizione

Assegnato il campione, possono essere calcolati varie statistiche. Per esempio:

Tuesday, March 6, 12

Page 10: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

8

Corr

ado C

aud

ek

Inferenza statistica

Tuesday, March 6, 12

Page 11: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

8

Corr

ado C

aud

ek

Inferenza statistica

•L’inferenza statistica è il processo che consente di formulare delle

conclusioni relative ad una popolazione sulla base di un campione di

osservazioni estratte a caso dalla popolazione

Tuesday, March 6, 12

Page 12: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

8

Corr

ado C

aud

ek

Inferenza statistica

•L’inferenza statistica è il processo che consente di formulare delle

conclusioni relative ad una popolazione sulla base di un campione di

osservazioni estratte a caso dalla popolazione

•Centrale all’inferenza statistica classica è la nozione di distribuzione

campionaria, ovvero come variano le statistiche dei campioni, se i campioni

casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla

popolazione

Tuesday, March 6, 12

Page 13: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

8

Corr

ado C

aud

ek

Inferenza statistica

•L’inferenza statistica è il processo che consente di formulare delle

conclusioni relative ad una popolazione sulla base di un campione di

osservazioni estratte a caso dalla popolazione

•Centrale all’inferenza statistica classica è la nozione di distribuzione

campionaria, ovvero come variano le statistiche dei campioni, se i campioni

casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla

popolazione

•Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il

ricercatore dispone solamente di un unico campione casuale di grandezza n,

la possibilità che il campionamento venga ripetuto fornisce la fondazione

concettuale per decidere quanto il campione osservato sia informativo della

popolazione nel suo complesso

Tuesday, March 6, 12

Page 14: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Analisi Esplorativa dei dati

9

La media non è l’unico indicatore di posizione

Mode

Tuesday, March 6, 12

Page 15: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Mediana e Moda

10

La moda rappresenta il valore più frequente.

Tuesday, March 6, 12

Page 16: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Mediana e Moda

10

La moda rappresenta il valore più frequente.

Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali.

Tuesday, March 6, 12

Page 17: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Mediana e Moda

10

La moda rappresenta il valore più frequente.

La mediana rappresenta il valore dei dati tale per cui il 50% dei dati ha valore inferiore ad esso e (ovviamente!) l’altro 50% ha un valore ad esso superiore.

Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali.

Tuesday, March 6, 12

Page 18: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

La distribuzione empirica dei dati

11

Assegnato l’insieme di dati

hi = {h1, · · ·, hn}

La distribuzione cumulata dei dati è definita da

e prodotto da esso l’insieme ordinato in modo crescente

hj = (h1, · · ·, hn) h1 ⇥ h2 ⇥ · ⇥ hn

ECDFi(h) :=1n

i�

j=1

j

Tuesday, March 6, 12

Page 19: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

ECDF

1220 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Frequenza di non superamento

h[mm]

P[H<h]

●●●●●

●●●●●

●●●●●

●●●●●●●

●●●●●●

●●●●●●●

●●●●

●●

●●

La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il

valore in ordinate individuato dalla curva si dice anche frequenza di non

superamento o quantile

Tuesday, March 6, 12

Page 20: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

ECDF

1320 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Frequenza di non superamento

h[mm]

P[H<h]

●●●●●

●●●●●

●●●●●

●●●●●●●

●●●●●●

●●●●●●●

●●●●

●●

●●

0.5 quantile

Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.

Tuesday, March 6, 12

Page 21: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

ECDF

1420 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Frequenza di non superamento

h[mm]

P[H<h]

●●●●●

●●●●●

●●●●●

●●●●●●●

●●●●●●

●●●●●●●

●●●●

●●

●●

0.5 quantile

Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.

Tuesday, March 6, 12

Page 22: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

ECDF

1520 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Frequenza di non superamento

h[mm]

P[H<h]

●●●●●

●●●●●

●●●●●

●●●●●●●

●●●●●●

●●●●●●●

●●●●

●●

●●

0.5 quantile

mediana

Ecco dunque individuata la mediana

Tuesday, March 6, 12

Page 23: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Diagrammi a scatola

16

20 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Frequenza di non superamento

h[mm]

P[H<h]

●●●●●

●●●●●

●●●●●

●●●●●●●

●●●●●●

●●●●●●●

●●●●

●●

●●

0.5 quantile

La procedura puo’ essere generalizzata e rappresentata da un diagramma a scatola

0.75 quantile

0.25 quantile

“baffo”

Il diagramma a scatola è un’altra forma di rappresentazione della distribuzione dei dati

Tuesday, March 6, 12

Page 24: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Parametri e statistiche

Un parametro è un numero che descrive un qualche aspetto della

popolazione.

• Per esempio, la precipitazione media annuale (vera) in una stazione di

misura è un parametro. Supponiamo che tale media sia

• In qualsiasi situazione concreta, i parametri sono sconosciuti

17

Corr

ado C

aud

ek

µh = 980 mm

Tuesday, March 6, 12

Page 25: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Parametri e statistiche

Una statistica è un numero che può essere calcolato utilizzando i dati

forniti da un campione, senza alcuna conoscenza dei parametri della

popolazione.

• Supponiamo, per esempio che il campione casuale di precipitazioni

copra 30 anni di misura e la precipitazione media risultante sia

• Tale media, è una statistica.

18

Corr

ado C

aud

ek

h = 1002 mm

Tuesday, March 6, 12

Page 26: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Altre statistiche: il Range

19

Rx := max(x)�min(x)

Il range è il più semplice indicatore della distribuzione dei dati. E’ un indicatore della scala dei dati. Tuttavia dipende da soli due dati e non tiene conto degli altri n-2 che compongono il campione.

Tuesday, March 6, 12

Page 27: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Altre statistiche: Varianza e Deviazione Standard

20

V ar(x) :=1n

n�

i=1

(xi � x)

�x :=

⌅⇤⇤⇥ 1n

n�

i=1

(xi � x)

La varianza è un indicatore di “scala” che usa tutti i dati del campione

Tuesday, March 6, 12

Page 28: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Altre statistiche: Varianza e Deviazione Standard:

versione “corretta” (unbiased)

21

V ar(x) :=1

n� 1

n�

i=2

(xi � x)

�x :=

⌅⇤⇤⇥ 1n� 1

n�

i=1

(xi � x)

La versione unbiased della varianza, tiene conto del fatto che solo n-1 dei valori sono indipendenti, essendo fissata la loro media.

Tuesday, March 6, 12

Page 29: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Coefficiente di variazione

• Il coefficiente di variazione di un campione di dati è il rapporto tra la

deviazione standard e la media:

• Tanto più alta è il cofficiente di variazione, tanto meno la media è

informativa e indicatrice dell’andamento futuro di una certa

popolazione.

22

CVx :=�x

x

Tuesday, March 6, 12

Page 30: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Altre statistiche: Coefficiente di forma o skewness:

23

Misura l’assimetria della distribuzione di dati

skx :=n⇤

i=1

1n

�xi � x

�x

⇥3

Coefficiente di appiattimento o kurtosis:

kx := 3 +n⇤

i=1

1n

�xi � x

�x

⇥4

Tuesday, March 6, 12

Page 31: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Stima e test di ipotesi

Solitamente, non si è interessati alle statistiche in se, ma a quello che

le statistiche dicono della popolazione.

• Potremmo, as esempio, usare la media delle precipitazioni annuali

misurate in tutte le stazioni idrometeorologiche per stimare la

precipitazione media annuale su tutta la penisola italiana.

• Oppure potremmo usare la media del campione per stabilire se la

precipitazione media annuale sia mutata lungo la durata del campione.

24

Tuesday, March 6, 12

Page 32: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Stima e test di ipotesi

Questi due tipi di domande sono propri dei due principali approcci

all’inferenza statistica classica

• La stima dei parametri

• Il test di ipotesi statistiche

25

Tuesday, March 6, 12

Page 33: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Variabilità campionaria

Un aspetto fondamentale delle statistiche campionarie riguarda il

fatto che variano da campione a campione. Nel caso delle

precipitazioni annuali, sarebbe molto improbabile che la media del

campione coincidesse con il valore di 1002 mm della media della

popolazione.

26

Tuesday, March 6, 12

Page 34: 7 inferenza statisticae-statisticadescrittiva

Riccardo Rigon

Statistiche

Variabilità campionaria

• La variabilità di una statistica campionaria da campione a campione è

detta variabilità campionaria.

– Quando la variabilità campionaria è molto grande, il campione è

poco informativo, a proposito del parametro della popolazione.

– Quando la variabilità campionaria è piccola, invece la statistica e

informativa, anche se è praticamente impossibile che la statistica

di un qualsiasi campione sia esattamente uguale al parametro della

popolazione.

27

Tuesday, March 6, 12

Page 35: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

28

2 Simulazione 1

2 Simulazione 1

La variabilita campionaria verra illustrata nel modo seguente:

1. verra considerata una variabile discreta che puo assumere soltanto

un piccolo numero di valori possibili (N = 4);

2. verra fornito l’elenco di tutti i possibili campioni di grandezza n = 2;

3. verra calcolata la media di ciascuno dei possibili campioni di

grandezza n = 2;

4. verra esaminata la distribuzione delle medie di tutti i possibili

campioni di grandezza n = 2.

La media µ e la varianza � della popolazione verranno calcolate.

• µ e � sono dei parametri, mentre la media xi e la varianza s2i di

ciascun campione sono delle statistiche.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 8

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 36: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

29

2 Simulazione 1

• L’esperimento di questo esempio consiste in n = 2 estrazioni con

rimessa di una pallina xi da un’urna che contiene N = 4 palline.

• Le palline sono numerate nel modo seguente:

{2, 3, 5, 9}

• L’estrazione con rimessa corrisponde ad una popolazione di

grandezza infinita (e sempre possibile infatti estrarre una nuova

pallina dall’urna).

Tecniche di Ricerca Psicologica e di Analisi dei Dati 9

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 37: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

30

2 Simulazione 1

Per ciascun campione di grandezza n = 2 viene calcolata la media dei

valori delle palline estratte x =�2

i=1 xi/2.

• Per esempio, se le palline estratte sono x1 = 2 e x2 = 3, allora

x = (2 + 3)/2 = 5/2 = 2.5

Tecniche di Ricerca Psicologica e di Analisi dei Dati 10

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 38: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

31

Corr

ado C

aud

ek

2.1 Tre distribuzioni 2 Simulazione 1

2.1 Tre distribuzioni

Dobbiamo distinguere tre distribuzioni:

1. la distribuzione della popolazione,

2. la distribuzione di un particolare campione,

3. la distribuzione campionaria delle medie di tutti i possibili campioni.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 11

Tuesday, March 6, 12

Page 39: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

32

2.1 Tre distribuzioni 2 Simulazione 1

2.1.1 Distribuzione della popolazione

Distribuzione della popolazione: la distribuzione di X (il valore della

pallina estratta) nella popolazione. In questo caso la popolazione e

infinita e ha la seguente distribuzione di probabilita:

xi pi

2 14

3 14

5 14

9 14

somma 1.0

Tecniche di Ricerca Psicologica e di Analisi dei Dati 12Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 40: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

33

2.1 Tre distribuzioni 2 Simulazione 1

• La media della popolazione e

µ =�

xipi = 4.75

• La varianza della popolazione e

�2 =�

(xi � µ)2pi = 7.1875

Tecniche di Ricerca Psicologica e di Analisi dei Dati 13Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 41: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

34

2.1 Tre distribuzioni 2 Simulazione 1

2.1.2 Distribuzione di un campione

Distribuzione di un campione: la distribuzione di X in un particolare

campione.

• Per esempio, se x1 = 2 e x2 = 3, allora la media di questo campione

sara x = 2.5 e la varianza sara s2 = 0.5.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 14

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 42: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

35

2.1 Tre distribuzioni 2 Simulazione 1

2.1.3 Distribuzione campionaria della media

Distribuzione campionaria della media: la distribuzione delle medie di

tutti i possibili campioni.

• Se n = 2, ci sono 4� 4 = 16 possibili campioni. Possiamo dunque

elencarli, insieme alle loro medie.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 15Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 43: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

36

2.1 Tre distribuzioni 2 Simulazione 1

campione media xi campione media xi

{2, 3} 2.5 {3, 2} 2.5

{5, 2} 3.5 {2, 5} 3.5

{9, 2} 5.5 {2, 9} 5.5

{5, 3} 4.0 {3, 5} 4.0

{9, 3} 6.0 {3, 9} 6.0

{9, 5} 7.0 {5, 9} 7.0

{2, 2} 2 {3, 3} 3

{5, 5} 5 {9, 9} 9

Tecniche di Ricerca Psicologica e di Analisi dei Dati 16Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 44: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

37

2.1 Tre distribuzioni 2 Simulazione 1

La distribuzione campionaria della media ha la seguente distribuzione di

probabilita:

xi pi

2.0 1/16

2.5 2/16

3.0 1/16

3.5 2/16

4.0 2/16

5.0 1/16

5.5 2/16

6.0 2/16

7.0 2/16

9.0 1/16

somma 1.0

Tecniche di Ricerca Psicologica e di Analisi dei Dati 17Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 45: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

38

2.1 Tre distribuzioni 2 Simulazione 1

• La media della distribuzione campionaria della media e

µx =�

xipi = 4.75

• La varianza della distribuzione campionaria della media e

�2x =

�(xi � µx)2pi = 3.59375

Tecniche di Ricerca Psicologica e di Analisi dei Dati 18Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 46: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

39

2.1 Tre distribuzioni 2 Simulazione 1

• L’esercizio presente ha a che fare con una situazione particolare,

quella in cui la distribuzione della popolazione e conosciuta.

• In pratica, la distribuzione della popolazione non e mai conosciuta.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 19Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 47: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

40

2.1 Tre distribuzioni 2 Simulazione 1

Con questo esercizio possiamo pero di notare come la distribuzione

campionaria della media possieda due importanti proprieta.

• La media µx della distribuzione campionaria della media e uguale

alla media della popolazione µ.

• La varianza �2x della distribuzione campionaria della media e uguale

al rapporto tra la varianza della popolazione �2 e la numerosita n

del campione:

�2x =

�2

n=

7.18752

= 3.59375

Tecniche di Ricerca Psicologica e di Analisi dei Dati 20

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 48: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

41

2.1 Tre distribuzioni 2 Simulazione 1

Si noti che:

1. la media e la varianza della distribuzione campionaria sono

determinate dalla media e varianza della popolazione:

µx = µ �2x =

�2

n

2. la varianza della distribuzione campionaria della media e piu piccola

della varianza della popolazione.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 21Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 49: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

42

2.1 Tre distribuzioni 2 Simulazione 1

In seguito utilizzeremo le proprieta della distribuzione campionaria per

fare delle inferenze a proposito dei parametri della popolazione anche

quando la distribuzione della popolazione non e conosciuta.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 22Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 50: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

43

2.1 Tre distribuzioni 2 Simulazione 1

Tre distribuzioni

Si noti inoltre che abbiamo distinto tra tre diverse distribuzioni.

1. Distribuzione della popolazione:

� = {2, 3, 5, 9}, µ = 4.75, �2 = 7.1875

2. Distribuzione di un particolare campione:

�i = {2, 3}, x = 2.5, s2 = 0.5

3. Distribuzione campionaria della media:

�x = {2.5, 3.5, 5.5, 4, 6, 7, 2.5, 3.5, 4, 6, 7, 2, 5, 3, 9},µx = 4.75, �2

x = 3.59375

Tecniche di Ricerca Psicologica e di Analisi dei Dati 23

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 51: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

44

2.1 Tre distribuzioni 2 Simulazione 1

Distribuzione della popolazione La distribuzione che contiene

tutte le osservazioni. Media e varianza di questa distribuzione si

indicano con µ e �2.

Distribuzione del campione La distribuzione dei valori della

popolazione che fanno parte di un particolare campione casuale di

grandezza n. Le singole osservazioni si indicano con x1, . . . , xn, e

hanno media x e varianza s2.

Distribuzione campionaria delle medie dei campioni La

distribuzione di xi per tutti i possibili campioni di grandezza n che si

possono estrarre dalla popolazione considerata. Media e varianza

della distribuzione campionaria della media si indicano con µx e �2x.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 24

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 52: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

45

2.1 Tre distribuzioni 2 Simulazione 1

La distribuzione che sta alla base dell’inferenza statistica e la

distribuzione campionaria.

Definizione: la distribuzione campionaria di una statistica e la

distribuzione dei valori che quella statistica assume in tutti i

campioni di numerosita n che possono essere estratti dalla

popolazione.

• Si noti che, se in una simulazione consideriamo un numero di

campioni minore di quello che teoricamente e possibile, la

distribuzione risultante ci fornira soltanto un’approssimazione alla

vera distribuzione campionaria.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 25Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 53: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

46

Stima e test di ipotesi

Avendo creato statistiche differenti, possiamo fare alcune ipotesi. Per

esempio:

• I campioni hanno tutti la medesima media e la medesima varianza ?

• La media dipende dalla numerosità del campione ?

• La varianza dipende dalla numerosità del campione ?

Tuesday, March 6, 12

Page 54: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

47

Stima e test di ipotesi

Se i campioni non hanno la medesima media, può essere presente una

tendenza.

Tuesday, March 6, 12

Page 55: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

48

Stima e test di ipotesiLa varianza può variare con la numerosità del campione !

Se non si stabilizza all’aumentare dei dati del campione, si dice che i dati

presentano la “sindrome della varianza infinita”.

Tuesday, March 6, 12

Page 56: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

49

Ipotesi Zero (Nulla)

Sui test di ipotesi avremo la possibilità di entrare nel dettaglio in

lezioni successive.

• In genere si ricordi, che è non è possibile provare con certezza

alcunchè. Una ipotesi si può tentare di provare che non sia vera. Sia

H0 l’ipotesi zero da provare.

• Se non si riesce a scartare H0 , allora si può affermare che “sia vera”

con un certo grado di confidenza

Tuesday, March 6, 12

Page 57: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

50

Assegnate due serie di dati, per esempio

ed

Altre statisticheCovarianza

hi = {h1, · · ·, hn} li = {l1, · · ·, ln}

La covarianza tra queste de serie di dati è definita da:

Cov(hi, li) :=1

N � 1

n�

1

(li � li)(hi � hi)

Tuesday, March 6, 12

Page 58: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

51

Assegnate due serie di dati, per esempio

ed

Altre statisticheCorrelazione

hi = {h1, · · ·, hn} li = {l1, · · ·, ln}

La correlazione tra queste de serie di dati è definita da:

�lh :=Cov(l, h)�

⇥h ⇥l

Tuesday, March 6, 12

Page 59: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

52

Altre statisticheCorrelazione

Si osservi che, si potrebbe considerare la correlazione tra le due serie campionarie di ugual lunghezza:

hi = {h1, · · ·, hn�1} hi+1 = {h2, · · ·, hn�1}e

Cov(hi, hi+1) :=1

N � 1

n�1�

j=1

(hi � hi)(hi+1 � hi+1)

Ottenendo

Tuesday, March 6, 12

Page 60: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

53

Altre statisticheCorrelazione

Ripetendo l’operazione per le serie via via ridotte di lunghezza e separate da r istanti, si ottiene:

e

Ottenendo

hi+r = {hr, · · ·, hn}hri = {h1, · · ·, hn�r}

Cov(hri , hi+r) :=

1N � 1

n�r�

j=1

(hri � hr

i )(hi+r � hi+r)

�(hri , hi+r) :=

Cov(hri , hi+r)

⇥ri ⇥i + r

Tuesday, March 6, 12

Page 61: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

54

Altre statisticheAutocorrelazione

Tuesday, March 6, 12

Page 62: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

Campioni Casuali Random Sample

Nella strategia di creare ed analizzare i campioni di dati, ha un ruolo importante la

selezione (o, talvolta, la generazione) di campioni casuali.

Un campione casuale di n eventi scelto da una popolazione è tale se la probabilità di

tale campione di essere prescelto è la stessa di ogni altro campione della medesima

numerosità.

Se i dati sono generati, si sta effettuando un esperimento casuale. Esempi ne sono:

•il lancio di una moneta

•il conteggio dei giorni piovosi in un anno

•il conteggio dei giorni in cui si sia misurata a Ponte S. Lorenzo di Trento una

portata superiore ad un valore prefissato.

Tuesday, March 6, 12

Page 63: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

56

3 Simulazione 2

3 Simulazione 2

Consideriamo ora un’altro esempio in cui la variabilita campionaria verra

illustrata nel modo seguente:

1. la stessa popolazione dell’esempio precedente verra usata;

2. utilizzando R, verranno estratti con rimessa da questa popolazione

50000 campioni causali di grandezza n = 2;

3. verra calcolata la media di ciascuno di questi campioni di grandezza

n = 2;

4. verranno calcolate la media e la varianza della distribuzione delle

medie dei 50000 campioni di grandezza n = 2.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 26

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 64: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

57

3 Simulazione 2

N <- 4

n <- 2

nSamples <- 50000

X <- c(2, 3, 5, 9)

Mean <- mean(X)

Var <- var(X)*(N-1)/N

SampDistr <- rep(0, nSamples)

for (i in 1:nSamples){

samp <- sample(X, n, replace=T)

SampDistr[i] <- mean(samp)

}

MeanSampDistr <- mean(SampDistr)

VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples

Tecniche di Ricerca Psicologica e di Analisi dei Dati 27

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 65: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

57

3 Simulazione 2

N <- 4

n <- 2

nSamples <- 50000

X <- c(2, 3, 5, 9)

Mean <- mean(X)

Var <- var(X)*(N-1)/N

SampDistr <- rep(0, nSamples)

for (i in 1:nSamples){

samp <- sample(X, n, replace=T)

SampDistr[i] <- mean(samp)

}

MeanSampDistr <- mean(SampDistr)

VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples

Tecniche di Ricerca Psicologica e di Analisi dei Dati 27

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 66: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

57

3 Simulazione 2

N <- 4

n <- 2

nSamples <- 50000

X <- c(2, 3, 5, 9)

Mean <- mean(X)

Var <- var(X)*(N-1)/N

SampDistr <- rep(0, nSamples)

for (i in 1:nSamples){

samp <- sample(X, n, replace=T)

SampDistr[i] <- mean(samp)

}

MeanSampDistr <- mean(SampDistr)

VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples

Tecniche di Ricerca Psicologica e di Analisi dei Dati 27

Media e Varianza del Campione

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 67: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

57

3 Simulazione 2

N <- 4

n <- 2

nSamples <- 50000

X <- c(2, 3, 5, 9)

Mean <- mean(X)

Var <- var(X)*(N-1)/N

SampDistr <- rep(0, nSamples)

for (i in 1:nSamples){

samp <- sample(X, n, replace=T)

SampDistr[i] <- mean(samp)

}

MeanSampDistr <- mean(SampDistr)

VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples

Tecniche di Ricerca Psicologica e di Analisi dei Dati 27

Media e Varianza del Campione

Sono fatti 50000 campioni

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 68: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

58

3 Simulazione 2

Risultati della simulazione

> Mean

[1] 4.75

> Var

[1] 7.1875

> MeanSampDistr

[1] 4.73943

> VarSampDistr

[1] 3.578548

> Var/n

[1] 3.59375

Tecniche di Ricerca Psicologica e di Analisi dei Dati 28

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 69: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

59

3 Simulazione 2

• Popolazione: µ = 4.75, �2 = 7.1875.

• Distribuzione campionaria della media: µx = 4.75, �2x = 3.59375.

• Risultati della simulazione: µx = 4.73943, �2x = 3.578548.

Tecniche di Ricerca Psicologica e di Analisi dei Dati 29

Corr

ado C

aud

ek

Tuesday, March 6, 12

Page 70: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

60

Grazie per l’attenzione!

G.U

lric

i -

Uom

o d

op

e av

er l

avora

to a

lle

slid

es ,

20

00

?

Tuesday, March 6, 12

Page 71: 7 inferenza statisticae-statisticadescrittiva

Inferenza statistica e statistica descrittiva

Riccardo Rigon

61

http://www.treccani.it/scuola/dossier/2010/statistica/d_agostini.html

Tuesday, March 6, 12