Inferenza statistica e statistica descrittiva
Luci
o F
on
tan
a -
Exp
ecta
tion
s (M
oM
A), 1
95
9
Riccardo Rigon
Tuesday, March 6, 12
“`E ’na cosa
che serve pe’ fa’ un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che
sposa.”
Trilussa
Tuesday, March 6, 12
“There are three kinds of lies:•lies, •damn lies, and•statistics”
(Benjamin Disraeli/Mark Twain)
Tuesday, March 6, 12
Riccardo Rigon
Misura e Rappresentazione delle Grandezze Idrologiche
Obbiettivi:
4
•In queste pagine si ricordano gli elementi fondanti dell’analisi statistica.
•Si definiscono, popolazione, campione e varie statistiche elementari, media, varianza, covarianza.
•Si discute dell’esistenza delle statistiche e del loro valore.
•Si introduce il concetto di campione casuale (random sampling).
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Popolazione e Campione
5
L’inferenza statistica assume che un insieme di dati rappresenti un
sottoinsieme di casi tra tutti i possibili, normalmente detto
campione.
Tutti i casi possibili rappresentano la
popolazione
da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione,
in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
1860 1880 1900 1920 1940 1960 1980 20008
9
10
11
12
13
14
15a) Bergen:Sep temperature
time
Tem
pera
ture
(oC
)
5 6 7 8 9 10 11 12 13 14 150
5
10
15
20
25
30b) Bergen:Sep temperature distribution (1861−1997)
Fre
quency
Temperature (oC)
Analisi Esplorativa dei datirappresentazione temporale - istogramma
6
Un insieme di n dati costituisce dunque un campione di dati.
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
1860 1880 1900 1920 1940 1960 1980 20008
9
10
11
12
13
14
15a) Bergen:Sep temperature
time
Tem
pera
ture
(oC
)
5 6 7 8 9 10 11 12 13 14 150
5
10
15
20
25
30b) Bergen:Sep temperature distribution (1861−1997)
Fre
quency
Temperature (oC)
Analisi Esplorativa dei datirappresentazione temporale - istogramma
6
Un insieme di n dati costituisce dunque un campione di dati.
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche.
Serietemporale
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
1860 1880 1900 1920 1940 1960 1980 20008
9
10
11
12
13
14
15a) Bergen:Sep temperature
time
Tem
pera
ture
(oC
)
5 6 7 8 9 10 11 12 13 14 150
5
10
15
20
25
30b) Bergen:Sep temperature distribution (1861−1997)
Fre
quency
Temperature (oC)
Analisi Esplorativa dei datirappresentazione temporale - istogramma
6
Un insieme di n dati costituisce dunque un campione di dati.
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche.
Serietemporale
Istogramma
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Medie campionarie
7
x :=1n
n�
t=1
x,t
< x >:=1n
n�
i=1
xi
Media temporale
Media spaziale
La media è un indicatore di posizione
Assegnato il campione, possono essere calcolati varie statistiche. Per esempio:
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
8
Corr
ado C
aud
ek
Inferenza statistica
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
8
Corr
ado C
aud
ek
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
8
Corr
ado C
aud
ek
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
•Centrale all’inferenza statistica classica è la nozione di distribuzione
campionaria, ovvero come variano le statistiche dei campioni, se i campioni
casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
popolazione
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
8
Corr
ado C
aud
ek
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
•Centrale all’inferenza statistica classica è la nozione di distribuzione
campionaria, ovvero come variano le statistiche dei campioni, se i campioni
casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
popolazione
•Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il
ricercatore dispone solamente di un unico campione casuale di grandezza n,
la possibilità che il campionamento venga ripetuto fornisce la fondazione
concettuale per decidere quanto il campione osservato sia informativo della
popolazione nel suo complesso
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Analisi Esplorativa dei dati
9
La media non è l’unico indicatore di posizione
Mode
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Mediana e Moda
10
La moda rappresenta il valore più frequente.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Mediana e Moda
10
La moda rappresenta il valore più frequente.
Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Mediana e Moda
10
La moda rappresenta il valore più frequente.
La mediana rappresenta il valore dei dati tale per cui il 50% dei dati ha valore inferiore ad esso e (ovviamente!) l’altro 50% ha un valore ad esso superiore.
Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
La distribuzione empirica dei dati
11
Assegnato l’insieme di dati
hi = {h1, · · ·, hn}
La distribuzione cumulata dei dati è definita da
e prodotto da esso l’insieme ordinato in modo crescente
hj = (h1, · · ·, hn) h1 ⇥ h2 ⇥ · ⇥ hn
ECDFi(h) :=1n
i�
j=1
j
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
ECDF
1220 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●●●●●
●●●●●
●●●●●
●●●●●●●
●●●●●●
●●●●●●●
●●●●
●●
●●
La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il
valore in ordinate individuato dalla curva si dice anche frequenza di non
superamento o quantile
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
ECDF
1320 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●●●●●
●●●●●
●●●●●
●●●●●●●
●●●●●●
●●●●●●●
●●●●
●●
●●
0.5 quantile
Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
ECDF
1420 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●●●●●
●●●●●
●●●●●
●●●●●●●
●●●●●●
●●●●●●●
●●●●
●●
●●
0.5 quantile
Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
ECDF
1520 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●●●●●
●●●●●
●●●●●
●●●●●●●
●●●●●●
●●●●●●●
●●●●
●●
●●
0.5 quantile
mediana
Ecco dunque individuata la mediana
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Diagrammi a scatola
16
20 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Frequenza di non superamento
h[mm]
P[H<h]
●
●
●●●●●
●●●●●
●●●●●
●●●●●●●
●●●●●●
●●●●●●●
●●●●
●●
●●
0.5 quantile
La procedura puo’ essere generalizzata e rappresentata da un diagramma a scatola
0.75 quantile
0.25 quantile
“baffo”
Il diagramma a scatola è un’altra forma di rappresentazione della distribuzione dei dati
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Parametri e statistiche
Un parametro è un numero che descrive un qualche aspetto della
popolazione.
• Per esempio, la precipitazione media annuale (vera) in una stazione di
misura è un parametro. Supponiamo che tale media sia
• In qualsiasi situazione concreta, i parametri sono sconosciuti
17
Corr
ado C
aud
ek
µh = 980 mm
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Parametri e statistiche
Una statistica è un numero che può essere calcolato utilizzando i dati
forniti da un campione, senza alcuna conoscenza dei parametri della
popolazione.
• Supponiamo, per esempio che il campione casuale di precipitazioni
copra 30 anni di misura e la precipitazione media risultante sia
• Tale media, è una statistica.
18
Corr
ado C
aud
ek
h = 1002 mm
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Altre statistiche: il Range
19
Rx := max(x)�min(x)
Il range è il più semplice indicatore della distribuzione dei dati. E’ un indicatore della scala dei dati. Tuttavia dipende da soli due dati e non tiene conto degli altri n-2 che compongono il campione.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Altre statistiche: Varianza e Deviazione Standard
20
V ar(x) :=1n
n�
i=1
(xi � x)
�x :=
⌅⇤⇤⇥ 1n
n�
i=1
(xi � x)
La varianza è un indicatore di “scala” che usa tutti i dati del campione
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Altre statistiche: Varianza e Deviazione Standard:
versione “corretta” (unbiased)
21
V ar(x) :=1
n� 1
n�
i=2
(xi � x)
�x :=
⌅⇤⇤⇥ 1n� 1
n�
i=1
(xi � x)
La versione unbiased della varianza, tiene conto del fatto che solo n-1 dei valori sono indipendenti, essendo fissata la loro media.
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Coefficiente di variazione
• Il coefficiente di variazione di un campione di dati è il rapporto tra la
deviazione standard e la media:
• Tanto più alta è il cofficiente di variazione, tanto meno la media è
informativa e indicatrice dell’andamento futuro di una certa
popolazione.
22
CVx :=�x
x
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Altre statistiche: Coefficiente di forma o skewness:
23
Misura l’assimetria della distribuzione di dati
skx :=n⇤
i=1
1n
�xi � x
�x
⇥3
Coefficiente di appiattimento o kurtosis:
kx := 3 +n⇤
i=1
1n
�xi � x
�x
⇥4
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Stima e test di ipotesi
Solitamente, non si è interessati alle statistiche in se, ma a quello che
le statistiche dicono della popolazione.
• Potremmo, as esempio, usare la media delle precipitazioni annuali
misurate in tutte le stazioni idrometeorologiche per stimare la
precipitazione media annuale su tutta la penisola italiana.
• Oppure potremmo usare la media del campione per stabilire se la
precipitazione media annuale sia mutata lungo la durata del campione.
24
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Stima e test di ipotesi
Questi due tipi di domande sono propri dei due principali approcci
all’inferenza statistica classica
• La stima dei parametri
• Il test di ipotesi statistiche
25
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Variabilità campionaria
Un aspetto fondamentale delle statistiche campionarie riguarda il
fatto che variano da campione a campione. Nel caso delle
precipitazioni annuali, sarebbe molto improbabile che la media del
campione coincidesse con il valore di 1002 mm della media della
popolazione.
26
Tuesday, March 6, 12
Riccardo Rigon
Statistiche
Variabilità campionaria
• La variabilità di una statistica campionaria da campione a campione è
detta variabilità campionaria.
– Quando la variabilità campionaria è molto grande, il campione è
poco informativo, a proposito del parametro della popolazione.
– Quando la variabilità campionaria è piccola, invece la statistica e
informativa, anche se è praticamente impossibile che la statistica
di un qualsiasi campione sia esattamente uguale al parametro della
popolazione.
27
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
28
2 Simulazione 1
2 Simulazione 1
La variabilita campionaria verra illustrata nel modo seguente:
1. verra considerata una variabile discreta che puo assumere soltanto
un piccolo numero di valori possibili (N = 4);
2. verra fornito l’elenco di tutti i possibili campioni di grandezza n = 2;
3. verra calcolata la media di ciascuno dei possibili campioni di
grandezza n = 2;
4. verra esaminata la distribuzione delle medie di tutti i possibili
campioni di grandezza n = 2.
La media µ e la varianza � della popolazione verranno calcolate.
• µ e � sono dei parametri, mentre la media xi e la varianza s2i di
ciascun campione sono delle statistiche.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 8
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
29
2 Simulazione 1
• L’esperimento di questo esempio consiste in n = 2 estrazioni con
rimessa di una pallina xi da un’urna che contiene N = 4 palline.
• Le palline sono numerate nel modo seguente:
{2, 3, 5, 9}
• L’estrazione con rimessa corrisponde ad una popolazione di
grandezza infinita (e sempre possibile infatti estrarre una nuova
pallina dall’urna).
Tecniche di Ricerca Psicologica e di Analisi dei Dati 9
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
30
2 Simulazione 1
Per ciascun campione di grandezza n = 2 viene calcolata la media dei
valori delle palline estratte x =�2
i=1 xi/2.
• Per esempio, se le palline estratte sono x1 = 2 e x2 = 3, allora
x = (2 + 3)/2 = 5/2 = 2.5
Tecniche di Ricerca Psicologica e di Analisi dei Dati 10
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
31
Corr
ado C
aud
ek
2.1 Tre distribuzioni 2 Simulazione 1
2.1 Tre distribuzioni
Dobbiamo distinguere tre distribuzioni:
1. la distribuzione della popolazione,
2. la distribuzione di un particolare campione,
3. la distribuzione campionaria delle medie di tutti i possibili campioni.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 11
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
32
2.1 Tre distribuzioni 2 Simulazione 1
2.1.1 Distribuzione della popolazione
Distribuzione della popolazione: la distribuzione di X (il valore della
pallina estratta) nella popolazione. In questo caso la popolazione e
infinita e ha la seguente distribuzione di probabilita:
xi pi
2 14
3 14
5 14
9 14
somma 1.0
Tecniche di Ricerca Psicologica e di Analisi dei Dati 12Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
33
2.1 Tre distribuzioni 2 Simulazione 1
• La media della popolazione e
µ =�
xipi = 4.75
• La varianza della popolazione e
�2 =�
(xi � µ)2pi = 7.1875
Tecniche di Ricerca Psicologica e di Analisi dei Dati 13Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
34
2.1 Tre distribuzioni 2 Simulazione 1
2.1.2 Distribuzione di un campione
Distribuzione di un campione: la distribuzione di X in un particolare
campione.
• Per esempio, se x1 = 2 e x2 = 3, allora la media di questo campione
sara x = 2.5 e la varianza sara s2 = 0.5.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 14
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
35
2.1 Tre distribuzioni 2 Simulazione 1
2.1.3 Distribuzione campionaria della media
Distribuzione campionaria della media: la distribuzione delle medie di
tutti i possibili campioni.
• Se n = 2, ci sono 4� 4 = 16 possibili campioni. Possiamo dunque
elencarli, insieme alle loro medie.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 15Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
36
2.1 Tre distribuzioni 2 Simulazione 1
campione media xi campione media xi
{2, 3} 2.5 {3, 2} 2.5
{5, 2} 3.5 {2, 5} 3.5
{9, 2} 5.5 {2, 9} 5.5
{5, 3} 4.0 {3, 5} 4.0
{9, 3} 6.0 {3, 9} 6.0
{9, 5} 7.0 {5, 9} 7.0
{2, 2} 2 {3, 3} 3
{5, 5} 5 {9, 9} 9
Tecniche di Ricerca Psicologica e di Analisi dei Dati 16Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
37
2.1 Tre distribuzioni 2 Simulazione 1
La distribuzione campionaria della media ha la seguente distribuzione di
probabilita:
xi pi
2.0 1/16
2.5 2/16
3.0 1/16
3.5 2/16
4.0 2/16
5.0 1/16
5.5 2/16
6.0 2/16
7.0 2/16
9.0 1/16
somma 1.0
Tecniche di Ricerca Psicologica e di Analisi dei Dati 17Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
38
2.1 Tre distribuzioni 2 Simulazione 1
• La media della distribuzione campionaria della media e
µx =�
xipi = 4.75
• La varianza della distribuzione campionaria della media e
�2x =
�(xi � µx)2pi = 3.59375
Tecniche di Ricerca Psicologica e di Analisi dei Dati 18Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
39
2.1 Tre distribuzioni 2 Simulazione 1
• L’esercizio presente ha a che fare con una situazione particolare,
quella in cui la distribuzione della popolazione e conosciuta.
• In pratica, la distribuzione della popolazione non e mai conosciuta.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 19Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
40
2.1 Tre distribuzioni 2 Simulazione 1
Con questo esercizio possiamo pero di notare come la distribuzione
campionaria della media possieda due importanti proprieta.
• La media µx della distribuzione campionaria della media e uguale
alla media della popolazione µ.
• La varianza �2x della distribuzione campionaria della media e uguale
al rapporto tra la varianza della popolazione �2 e la numerosita n
del campione:
�2x =
�2
n=
7.18752
= 3.59375
Tecniche di Ricerca Psicologica e di Analisi dei Dati 20
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
41
2.1 Tre distribuzioni 2 Simulazione 1
Si noti che:
1. la media e la varianza della distribuzione campionaria sono
determinate dalla media e varianza della popolazione:
µx = µ �2x =
�2
n
2. la varianza della distribuzione campionaria della media e piu piccola
della varianza della popolazione.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 21Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
42
2.1 Tre distribuzioni 2 Simulazione 1
In seguito utilizzeremo le proprieta della distribuzione campionaria per
fare delle inferenze a proposito dei parametri della popolazione anche
quando la distribuzione della popolazione non e conosciuta.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 22Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
43
2.1 Tre distribuzioni 2 Simulazione 1
Tre distribuzioni
Si noti inoltre che abbiamo distinto tra tre diverse distribuzioni.
1. Distribuzione della popolazione:
� = {2, 3, 5, 9}, µ = 4.75, �2 = 7.1875
2. Distribuzione di un particolare campione:
�i = {2, 3}, x = 2.5, s2 = 0.5
3. Distribuzione campionaria della media:
�x = {2.5, 3.5, 5.5, 4, 6, 7, 2.5, 3.5, 4, 6, 7, 2, 5, 3, 9},µx = 4.75, �2
x = 3.59375
Tecniche di Ricerca Psicologica e di Analisi dei Dati 23
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
44
2.1 Tre distribuzioni 2 Simulazione 1
Distribuzione della popolazione La distribuzione che contiene
tutte le osservazioni. Media e varianza di questa distribuzione si
indicano con µ e �2.
Distribuzione del campione La distribuzione dei valori della
popolazione che fanno parte di un particolare campione casuale di
grandezza n. Le singole osservazioni si indicano con x1, . . . , xn, e
hanno media x e varianza s2.
Distribuzione campionaria delle medie dei campioni La
distribuzione di xi per tutti i possibili campioni di grandezza n che si
possono estrarre dalla popolazione considerata. Media e varianza
della distribuzione campionaria della media si indicano con µx e �2x.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 24
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
45
2.1 Tre distribuzioni 2 Simulazione 1
La distribuzione che sta alla base dell’inferenza statistica e la
distribuzione campionaria.
Definizione: la distribuzione campionaria di una statistica e la
distribuzione dei valori che quella statistica assume in tutti i
campioni di numerosita n che possono essere estratti dalla
popolazione.
• Si noti che, se in una simulazione consideriamo un numero di
campioni minore di quello che teoricamente e possibile, la
distribuzione risultante ci fornira soltanto un’approssimazione alla
vera distribuzione campionaria.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 25Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
46
Stima e test di ipotesi
Avendo creato statistiche differenti, possiamo fare alcune ipotesi. Per
esempio:
• I campioni hanno tutti la medesima media e la medesima varianza ?
• La media dipende dalla numerosità del campione ?
• La varianza dipende dalla numerosità del campione ?
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
47
Stima e test di ipotesi
Se i campioni non hanno la medesima media, può essere presente una
tendenza.
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
48
Stima e test di ipotesiLa varianza può variare con la numerosità del campione !
Se non si stabilizza all’aumentare dei dati del campione, si dice che i dati
presentano la “sindrome della varianza infinita”.
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
49
Ipotesi Zero (Nulla)
Sui test di ipotesi avremo la possibilità di entrare nel dettaglio in
lezioni successive.
• In genere si ricordi, che è non è possibile provare con certezza
alcunchè. Una ipotesi si può tentare di provare che non sia vera. Sia
H0 l’ipotesi zero da provare.
• Se non si riesce a scartare H0 , allora si può affermare che “sia vera”
con un certo grado di confidenza
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
50
Assegnate due serie di dati, per esempio
ed
Altre statisticheCovarianza
hi = {h1, · · ·, hn} li = {l1, · · ·, ln}
La covarianza tra queste de serie di dati è definita da:
Cov(hi, li) :=1
N � 1
n�
1
(li � li)(hi � hi)
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
51
Assegnate due serie di dati, per esempio
ed
Altre statisticheCorrelazione
hi = {h1, · · ·, hn} li = {l1, · · ·, ln}
La correlazione tra queste de serie di dati è definita da:
�lh :=Cov(l, h)�
⇥h ⇥l
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
52
Altre statisticheCorrelazione
Si osservi che, si potrebbe considerare la correlazione tra le due serie campionarie di ugual lunghezza:
hi = {h1, · · ·, hn�1} hi+1 = {h2, · · ·, hn�1}e
Cov(hi, hi+1) :=1
N � 1
n�1�
j=1
(hi � hi)(hi+1 � hi+1)
Ottenendo
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
53
Altre statisticheCorrelazione
Ripetendo l’operazione per le serie via via ridotte di lunghezza e separate da r istanti, si ottiene:
e
Ottenendo
hi+r = {hr, · · ·, hn}hri = {h1, · · ·, hn�r}
Cov(hri , hi+r) :=
1N � 1
n�r�
j=1
(hri � hr
i )(hi+r � hi+r)
�(hri , hi+r) :=
Cov(hri , hi+r)
⇥ri ⇥i + r
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
54
Altre statisticheAutocorrelazione
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
Campioni Casuali Random Sample
Nella strategia di creare ed analizzare i campioni di dati, ha un ruolo importante la
selezione (o, talvolta, la generazione) di campioni casuali.
Un campione casuale di n eventi scelto da una popolazione è tale se la probabilità di
tale campione di essere prescelto è la stessa di ogni altro campione della medesima
numerosità.
Se i dati sono generati, si sta effettuando un esperimento casuale. Esempi ne sono:
•il lancio di una moneta
•il conteggio dei giorni piovosi in un anno
•il conteggio dei giorni in cui si sia misurata a Ponte S. Lorenzo di Trento una
portata superiore ad un valore prefissato.
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
56
3 Simulazione 2
3 Simulazione 2
Consideriamo ora un’altro esempio in cui la variabilita campionaria verra
illustrata nel modo seguente:
1. la stessa popolazione dell’esempio precedente verra usata;
2. utilizzando R, verranno estratti con rimessa da questa popolazione
50000 campioni causali di grandezza n = 2;
3. verra calcolata la media di ciascuno di questi campioni di grandezza
n = 2;
4. verranno calcolate la media e la varianza della distribuzione delle
medie dei 50000 campioni di grandezza n = 2.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 26
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
57
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
57
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
57
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
Media e Varianza del Campione
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
57
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
Media e Varianza del Campione
Sono fatti 50000 campioni
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
58
3 Simulazione 2
Risultati della simulazione
> Mean
[1] 4.75
> Var
[1] 7.1875
> MeanSampDistr
[1] 4.73943
> VarSampDistr
[1] 3.578548
> Var/n
[1] 3.59375
Tecniche di Ricerca Psicologica e di Analisi dei Dati 28
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
59
3 Simulazione 2
• Popolazione: µ = 4.75, �2 = 7.1875.
• Distribuzione campionaria della media: µx = 4.75, �2x = 3.59375.
• Risultati della simulazione: µx = 4.73943, �2x = 3.578548.
Tecniche di Ricerca Psicologica e di Analisi dei Dati 29
Corr
ado C
aud
ek
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
60
Grazie per l’attenzione!
G.U
lric
i -
Uom
o d
op
e av
er l
avora
to a
lle
slid
es ,
20
00
?
Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
Riccardo Rigon
61
http://www.treccani.it/scuola/dossier/2010/statistica/d_agostini.html
Tuesday, March 6, 12
Top Related