Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI...
-
Upload
fina-piccolo -
Category
Documents
-
view
233 -
download
6
Transcript of Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI...
Dipartimento di Economia
Università degli Studi di Cagliari
___________________________ CORSO DI ECONOMETRIA___________________________
Prof. Paolo Mattana
Lez. 3 – Il processo di inferenza statistica
Differenza fondamentale tra popolazione e campione
Popolazione (o spazio campionario):
In termini tecnici è costituita da tutte le possibili realizzazioni di una variabile casuale
Nel caso di dati economici è costituita da tutte le osservazioni possibili su una variabile (passate, presenti e future). Raramente si arriva a conoscere la popolazione (con variabili di natura economica)
Ciò che si fà, è estrarre un campione da una popolazione (che resta sconosciuta).
NOZIONI DI BASE
Campione:
Un campione può essere definito come un’estrazione di n “oggetti” da una popolazione
E’ detto casuale, o stocastico, se ogni possibile combinazione di n oggetti ha la stessa probabilità di essere selezionata.
Poiché le popolazioni sono spesso inaccessibili (o perché materialmente impossibili da raggiungere o per via dei costi elevati implicati), i campioni restano l’unica fonte di informazione a disposizione dell’econometrico
NOZIONI DI BASE
media campionaria
Quesito cruciale:
Che relazione esiste tra media campionaria e media della popolazione?
Si ricordi che
PRINCIPALI MOMENTI CAMPIONARI
NB:
La media campionaria può essere ben diversa in campione ripetuti (Variabilità campionaria).
E(X)μ
ixn
X 1
PRINCIPALI MOMENTI CAMPIONARI
La media campionaria
La varianza campionaria
ix
nX
1
n
)X(Xv
2
2
PRINCIPALI MOMENTI CAMPIONARI
La covarianza campionaria
La correlazione campionaria
In contesti bivariati
n
)Y)(YX(Xs XY
22 )Y(Y)X(X
Y))(YX(X
sss
rYx
XYXY
Problema dell’inferenza:
cosa sappiamo dire sulla popolazione partendo dal campione? NB:
Se il campione riproducesse esattamente i singoli momenti della popolazione di appartenenza la soluzione al problema dell’inferenza sarebbe facile da risolvere. Poiché, invece, ciò non accade sono necessari accorgimenti "tecnici" per capire e utilizzare le informazioni derivabili dai campioni.In particolare, sappiamo “molto” su come si comportano i momenti principali dei campioni rispetto ai corrispondenti valori delle popolazioni
L’INFERENZA STATISTICA
Il nostro problema sarà quello di “fare inferenza” sui parametri della popolazione (a noi sconosciuti) sulla base delle osservazioni campionarie. Come possiamo operare?
Abbiamo tre diverse livelli di intervento. Possiamo richiedere:
• una stima puntuale dei parametri della popolazione (point estimation);
• una prob. che tali parametri si collochino entro due valori limite (interval estimation);
• un’indicazione prob. sul fatto che un particolare parametro della popolazione esibisca determinate caratteristiche (hypothesys testing).
L’INFERENZA STATISTICA
)X...,,X,(Xθ n21ˆ
Costruiamo una funzione
delle osservazioni chiamata stimatore.
Stimatore: variabile casuale che rappresenta il nostro ”miglior” tentativo di catturare il valore vero appartenente alla popolazione.
Come costruiamo stime puntuali?
Esempi di inferenza univariata: come faccio a inferire il valore della media o della varianza di una popolazione generica?
L’INFERENZA STATISTICA
Point estimation
Abbiamo già visto che
Possiamo quindi immaginare di utilizzare la media campionaria come (stimatore non distorto della media (vera) della popolazione).
Stiamo, cioè, costruendo una funzione delle osservazioni (stimatore) per “catturare” il valore vero .
La funzione dei parametri (stimatore), in questo caso, è
μ )XE(
L’INFERENZA STATISTICA
Esempi di stime puntuali
μ)X...XE(Xn
XEn
)XE( ni 21
11
E’ molto interessante studiare le proprietà della media campionaria.
Già sappiamo che:
μXE
L’INFERENZA STATISTICA
Se infiniti campioni casuali di dimensione n sono tratti da unapopolazione generica , allora:),(~ 2σμ
22 1σ
nσ
X
Dimostrazione:
L’INFERENZA STATISTICA
NB:
è indicato come standard error della mediaσn
1
(Che fine fanno le covarianze?)
)X...XVar(Xn
)Var(Xn
)XVar(σ niX 21222 11
nσ
)(nσn
)σσσ(σn
22
22222
2
11
Standard deviation Standard error
Popolazione Medie campionarie
L’INFERENZA STATISTICA
L’INFERENZA STATISTICA
Possiamo ora produrre ulteriori indicazioni sulla media campionaria
Si supponga che la popolazione parentale sia
Allora,
2σμ,N~
/nσμ, N~X 2
Dimostrazione:
Essendo la media campionaria una sommatoria di variabili casuali per assunzione
Allora, essa conserverà le proprietà statistico/distributive della popolazione originaria
/nσμ, N~ 2
Cosa succede se non abbiamo informazioni sulla distribuzione
della popolazione originaria?
Teorema del limite centrale
In grandi campioni, la media campionaria si distribuisce secondo una normale centrata sulla media vera e con varianza pari aindipendentemente dalla forma della distribuzione dellapopolazione originariaSito divertente:
http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html
2(1/n)σ
L’INFERENZA STATISTICA
Popolazione Campione
X6.18
6.186.18
6.18
X X
X
L’INFERENZA STATISTICA
Inferenza sulla varianza della popolazione
Posso usare:
L’INFERENZA STATISTICA
Per la dimostrazione useremo il sito:
http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html
1
22
n
)X(Xs
Né accurato, né preciso Preciso e accurato
L’INFERENZA STATISTICA
Preciso, non accurato Accurato, non preciso
L’INFERENZA STATISTICA
Preciso e accurato
Accurato, non preciso
L’INFERENZA STATISTICA
Bias
Né accurato, né precisoPreciso, non accurato
L’INFERENZA STATISTICA
e diciamo che il valore vero θ giace fra i due estremi θ1 e θ2 con una certa probabilità. Gli intervalli di confidenza al 95% e 99% sono quelli più usati
( )nX...,X,Xθ ,ˆ211
( )nX...,X,Xθ ,ˆ212
Possiamo, alternativamente, immaginare di essere interessati a
Conoscere la probabilità che la media della popolazione si trovi fra due intervalli. Costruiamo ora due funzioni delle osservazioni:
Interval estimation
L’INFERENZA STATISTICA
Intervalli di confidenza nel caso della media campionaria
Sappiamo che:
• La media campionaria si distribuisce secondo una normale (teorema del limite centrale);
• Per ogni distribuzione normale: il 95% delle osservazioni è compreso all’interno dell’intervallo:
X
_
σX 1.96
dovenσ/σ X
Quindi, il 95% delle medie sarà compreso nell’intervallo:
nσX 1.96_
L’INFERENZA STATISTICA
Ovviamente, gli intervalli di confidenza possono essere costruitiper ogni parametro stimato, non solo per μ.
Media (σ noto)Media (σ stimato)Differenza tra medie (σ noto)Differenza tra medie (σ stimato)Differenza tra correlazioni
Interval estimation
L’INFERENZA STATISTICA
Se fosse conosciuto potremmo "fare inferenza" sulla popolazione utilizzando le proprietà della distribuzione normale.
Tuttavia, anche quando è sconosciuto possiamo sostituirlo con la DS del campione s, a patto che si abbia a che fare con un campione "grande” .
Cosa possiamo fare per campioni piccoli?
L’INFERENZA STATISTICA
Problema quando il campione è piccolo e non si conosce
• Non possiamo utilizzare la distribuzione normale per formare IC • Possiamo stimare il valore di dal campione
• Dobbiamo però usare la distribuzione t
L’INFERENZA STATISTICA
La t è una FDP che presenta una forma schiacciata rispetto alla Z
E’ stata calcolata dal matematico inglese Gosset (1908), che la pubblicò sotto lo pseudonimo di Student
La sua forma esatta dipende dai gradi di libertà:
GdL = n – parametri da stimare
dove n è la dimensione del campione
I valori della t sono tabulati (oppure si può usare la rete…)
L’INFERENZA STATISTICA
.
Per campioni molto grandi, il valore di s oscilla poco intorno al suovalore medio .
Quindi per valori molto grandi la distribuzione t si avvicina molto a quella di Z ed arriva a coincidere per infiniti gradi di libertà.
Per piccoli campioni le differenze sono notevoli, data l’oscillazione casuale di s intorno a
NB: In generale, la distribuzione t è rilevante ogniqualvolta si abbia:
DISTRIBUZIONE t
n
i
i
nz
/Zt1
2
0
etc15
3.02.151.7.6914
3.02.21.8.6913
……………
9.94.32.9.812
63.712.76.31.01
0.010.050.10.5
Parte della distribuzioneche cade all’esterno dei valori tabulati
Valore critico di t perdf=14 (con valore critico al 5%)
Gra
di
di
lib
ertà
DISTRIBUZIONE t
Usiamo 2.15 al posto di 1.96.
NB:
i valori tabulati della distribuzione t sono più grandi di quelli della distribuzione normale
Quindi, per n = 15, l’intervallo di confidenza del 95% sarà pari a:
ns/mediaIC 2.15
DISTRIBUZIONE t
Esercizio 3.6
135$X 38n 22s
Intervallo al 99%
1) Campione grande
2) 2.58 -1 θ
2.582 θ
Tavole normale standardizzata
Affitto medio
L’INFERENZA STATISTICA
9.2113538
222.58135
38
222.58135 μ
Trovare ora la dimensione del campione che comporta un
Intervallo di confidenza di 2$
222
2.58 n 805X
L’INFERENZA STATISTICA
Esercizio 3.5
Gli onorari orari in un campione di 40 studi risultano in media pari a 25$ con s = 3,7.
Si ottenga un intervallo di confidenza al 95% per tutti i professionisti.
i) Suppongo che il campione sia "grande" posso trovare una Z ~N(0,1) tale che:
0.9521 )θZP(θ
L’INFERENZA STATISTICA
ii) Controllo le tavole (già sappiamo che 1 = - 1,96 ; 2 = 1,96)
iii) Se il campione è piccolo, cosa succede?
L’INFERENZA STATISTICA
ns/μns/ 1.96251.9625
0.95
1.961.96-
ns
μXP i
1.146625
Cosa sappiamo sulla distribuzione della popolazione?
Normale Non normale
Conosciamo σ? Dimensione del campioneGrande?
Piccola?
No Si
Dimensionedel campione
StopPiccola
Grande
ns
μ-Xt
_
=
nsμ-X
Z
_
=
RIEPILOGANDO….
DISTRIBUZIONE CHI-QUADRATO
22
2 =)(=∑ χσμ-X
Zi
i∑
URL utile: http://www.statlets.com/free/pdist.htm-
Se Z1, Z2,…., Zn sono N(0, 1), allora:
Es: sotto H0 si distribuisce secondo un( )
2
21
σ
s-n
Infatti:( ) ( )
∑∑∑ 22
2
2
2
2
=)(==1
Nσ
X-X
σ
X-X
σ
s-n ii
Useremo spesso per fare RSSR - RSSUUR
2χ
DISTRIBUZIONE CHI-QUADRATO
(v = 1 o 2)
0
0
(v = 3 o 5)NB: la distribuzione
approssima una normale
man mano che v sale
vχ
uχ vu
22
DISTRIBUZIONE “ F “ di Fischer
URL utile: http://www.statlets.com/free/pdist.htm-
Se u e v sono due variabili casuali distribuite indipendentemente
secondo un , allora:
Es: sotto H0
si distribuisce secondo una F con u GL al numeratore e v GL al denominatore
2
22
2
21=
σ
s
σ
sF
DISTRIBUZIONE “ F “ di Fischer
0 1 2 3 4 50.00.10.20.30.40.50.60.70.8
d.f.N = 8d.f.D = 20
In questo caso si suggeriscono alcune ipotesi su θ e si accetta o si rifiuta questa ipotesi sulla base dei dati
Teoria
Ipotesi
Deduzione
La teoria è collegata all’ipotesi attraverso la deduzione logica.Deduciamo le ipotesi a partire dalla teoriaSe la teoria è vera, l’ipotesi sarà vera
L’INFERENZA STATISTICA
Hypothesis testing
Nei modelli statistici distinguiamo due tipi di ipotesi
Quelle riguardanti la struttura del modello:
Forma della distribuzione;Modelli di campionamento.
Quelle riguardanti i valori assunti dai parametri delmodello data la sua struttura.
TEST DELLE IPOTESI
I test sull’adeguatezza della struttura del modello sono detti
Test diagnostici
O
Test di cattiva specificazione
I test sui parametri sono detti
Test di specificazione
TEST DELLE IPOTESI
Definizioni
Ipotesi nulla: (H0) ipotesi (tentativo) intorno a un parametro della popolazione
Ipotesi alternativa: (H1) solitamente il complemento rispetto all’universo
Statistica: Una statistica è una quantità numerica calcolata in un campione.
Livello di significatività: il livello di significatività è il criterio usato per rigettare l’ipotesi nulla
TEST DELLE IPOTESI
Approccio di Neyman – Pearson (1933)
Specificare un ipotesi nulla (H0) e un ipotesi alternativa (H1)
Scegliere un livello di significatività α
Calcolare una statistica
Calcolare il p value della distribuzione appropriata sotto H0
Confrontare il p value con α
se p value ≤ α rifiutiamo l’ipotesi nulla;se p value > α non rifiutiamo l’ipotesi nulla.
TEST DELLE IPOTESI
I test di significatività statistica si conducono per stabilire se una ipotesi nulla può essere accettata
Se H0 è rifiutata significatività statistica
Se H0 è non rifiutata assenza di significatività statistica
La scelta di α determina la probabilità di errore di Iª specie
NB:
La significatività statistica di un coefficiente non implica la sua significatività pratica.
TEST DELLE IPOTESI
Errore di Iª specie (α):
Probabilità di rigettare l’ipotesi nulla quando è vera
Errore di IIª specie (β)
Probabilità di non rigettare l’ipotesi nulla quando è falsa
TEST DELLE IPOTESI