ANALISI STATISTICA DI DATI CAMPIONARI

37
ANALISI STATISTICA DI DATI CAMPIONARI Docente: Elisa Bianchini Docente: Elisa Bianchini Centro di Coordinamento Sperimentazioni Cliniche Centro di Coordinamento Sperimentazioni Cliniche U.O. Biostatistica U.O. Biostatistica Presidio Villa delle Rose Presidio Villa delle Rose Via Cosimo il Vecchio, 2 Firenze Via Cosimo il Vecchio, 2 Firenze Tel:055/32 69 79 47 Tel:055/32 69 79 47 [email protected] [email protected]

description

ANALISI STATISTICA DI DATI CAMPIONARI. Docente: Elisa Bianchini Centro di Coordinamento Sperimentazioni Cliniche U.O. Biostatistica Presidio Villa delle Rose Via Cosimo il Vecchio, 2 Firenze Tel:055/32 69 79 47 [email protected]. DALLA LEZIONE PRECEDENTE…. - PowerPoint PPT Presentation

Transcript of ANALISI STATISTICA DI DATI CAMPIONARI

Page 1: ANALISI STATISTICA DI DATI CAMPIONARI

ANALISI STATISTICA DI DATI

CAMPIONARI

Docente: Elisa BianchiniDocente: Elisa BianchiniCentro di Coordinamento Sperimentazioni ClinicheCentro di Coordinamento Sperimentazioni Cliniche

U.O. BiostatisticaU.O. BiostatisticaPresidio Villa delle RosePresidio Villa delle Rose

Via Cosimo il Vecchio, 2 FirenzeVia Cosimo il Vecchio, 2 FirenzeTel:055/32 69 79 47Tel:055/32 69 79 47

[email protected]@cspo.it

Page 2: ANALISI STATISTICA DI DATI CAMPIONARI

DALLA LEZIONE PRECEDENTE…

.. Lo scopo di una indagine è quello di produrre statistiche, ovvero descrizioni riassuntive di carattere quantitativo, riguardanti il collettivo di interesse

…Nel caso di indagini campionarie l’obiettivo è quello di fare “inferenza” dal campione alla popolazione

… Nella fase di astrazione dopo aver fissato le caratteristiche dell’indagine, in base agli obiettivi che questa si pone, è necessario fissare anche le modalità di analisi dei dati che verranno raccolti durante la fase di rilevazione

…. Ai fini della pianificazione delle analisi è necessario conoscere il tipo di variabili che si intendono studiare, la loro classificazione e la loro distribuzione teorica

…. L’obiettivo (o gli obiettivi) dell’indagine determina inoltre quali sono le metodologie di analisi adatte al suo raggiungimento

…. La variabilità casuale insita in molti fenomeni fa si che quando si conducono delle indagini campionarie le statistiche campionarie ottenute siano affette da imprecisione

Page 3: ANALISI STATISTICA DI DATI CAMPIONARI

IL PROCEDIMENTO INFERENZIALE

Page 4: ANALISI STATISTICA DI DATI CAMPIONARI

…UN PO’ DI TERMINOLOGIA

STATISTICA DESCRITTIVA: Insieme di dati statistici di sintesi di osservazioni ottenuti con l’intento di descrivere un determinato fenomeno (Tabelle, grafici e indici numerici)

STATISTICA INFERENZIALE: Insieme delle operazioni e dei ragionamenti compiuti dal ricercatore per predire alcune caratteristiche(parametri) di una popolazione, non interamente esplorabile, attraverso la selezione da questa di un sotto insieme casuale di unità (campione)

PARAMETRO: Valore assunto (θ) da una caratteristica misurata a livello di popolazione (totale, media, varianza, proporzione, correlazione,…)

STIMATORE: si dice stimatore qualunque statistica T(X1,X2,…,Xn) , funzione degli elementi campionari, le cui determinazioni vengono utilizzate per ottenere una misura (stima puntuale) del parametro incognito θ . Quindi uno stimatore è una variabile casuale e possiede pertanto una distribuzione, valore atteso, varianza e così via

Page 5: ANALISI STATISTICA DI DATI CAMPIONARI

…UN PO’ DI TERMINOLOGIA

STIMA (STATISTICA): In senso stretto, è particolare valore ottenuto dall’applicazione di uno stimatore in una indagine o in un esperimento statistico.

Il termine è usato per indicare anche l’insieme delle regole attraverso le quali è stato ottenuto quel particolare valore, ovvero lo stimatore stesso. La stima può riguardare un parametro, e in tal caso si parla di "stima puntuale", o un intervallo, e allora si parla di "stima intervallare".

VERIFICA D’IPOTESI: Processo decisionale, basato sulla verifica di ipotesi statistiche con la realtà osservata, che porta ad accettare o rifiutare un’ipotesi (statistica) fissata sul valore dei parametri o sulla forma di una legge di distribuzione di una popolazione.

ERRORE CAMPIONARIO: Differenza tra la stima e il corrispondente valore che si sarebbe ottenuto esaminando la totalità delle unità statistiche della popolazione. Si verifica giacché si osserva solo una parte delle unità della popolazione. L’errore diminuisce in valore all’aumentare della numerosità campionaria

Page 6: ANALISI STATISTICA DI DATI CAMPIONARI

LA STIMA DEI PARAMENTRI

LO SCOPO DELL’INFERENZA E’ QUELLO DI OTTENERE INFORMAZIONI SU UNA POPOLAZIONE DA CUI UN CAMPIONE E’ STATO ESTRATTO.

L’INFERNZA SUI PARAMETRI PUO’ ESSERE FATTA ATTRAVERSO:

- STIMA PUNTUALE

- STIMA PER INTERVALLI

- LA VERIFICA D’ IPOTESI Si formula una ipotesi riguardo al valore del parametro incognito e si verifica se l’ipotesi è supportata o meno dai dati. L’obiettivo è arrivare ad una decisione sottoforma di si/no riguardo a certe caratteristiche della popolazione)

Page 7: ANALISI STATISTICA DI DATI CAMPIONARI

STIMA PUNTUALEDetermina un valore numerico per il parametro a partire dal campione

Quando si esegue l'esperimento e si osservano i dati, il valore osservato dello stimatore (che è un numero) è la stima puntuale del parametro

Solitamente si usa

• la media campionaria per stimare la media della popolazione• la varianza campionaria per stimare la varianza della popolazione• la frequenza relativa di successo (proporzione) per stimare la probabilità di successo• la differenza tra due medie campionarie per stimare la differenza tra due valori medi a livello di popolazione• rapporti tra probabilità osservate per la stima dell’associazioni tra caratteri legati da una relazione causa effetto

Page 8: ANALISI STATISTICA DI DATI CAMPIONARI

Tale procedura di stima determina un set di valori a partire dal campione che con una certa probabilità “(1-α)%” contiene il parametro incognito. “(1-α)%” indica il livello di confidenza, l’intervallo è detto intervallo di confidenza

Gli estremi dell’intervallo dipendono dal campione estratto, quindi sono casuali

Un intervallo di confidenza è quindi un insieme di valori plausibili per il parametro incognito sulla base dell’evidenza empirica.

Attenzione: il livello di confidenza rappresenta il grado di affidabilità della procedura, non il grado di affidabilità del risultato corrispondente al singolo campione estratto.

Generalmente si usa come livello di confidenza il 95% (α =5%)

STIMA PER INTERVALLO

Page 9: ANALISI STATISTICA DI DATI CAMPIONARI

Ripetendo l’operazione di stima su più campioni, potrebbe capitare la cosa seguente

Valoredel parametro

SIGNIFICATO DELLA STIMA PER INTERVALLO

Page 10: ANALISI STATISTICA DI DATI CAMPIONARI

AMPIEZZA DELL’INTERVALLO

L’ampiezza dell’intervallo è molto rilevante. Quanto più l’intervalloè stretto, tanto maggiore è il grado di precisione che caratterizza lo strumento statistico utilizzato.

L’ampiezza dell’intervallo dipende quindi da

• α : al diminuire di α (al crescere del livello di confidenza (1- α) l’ampiezza dell’intervallo aumenta

• dalla variabilità del fenomeno studiato: al crescere della variabilità , cresce anche l’incertezza e quindi l’ampiezza dell’intervallo aumenta

• n: al crescere di n aumenta la quantità di informazione disponibile e quindi l’ampiezza dell’intervallo diminuisce

Page 11: ANALISI STATISTICA DI DATI CAMPIONARI

L’INTERVALLO DI CONFIDENZA PER LA MEDIA

L’intervallo di confidenza per la stima della media di una distribuzioneNormale a varianza incognita a livello di confidenza 1 − α ha la forma seguente:

ossia gli estremi dell’intervallo sono dati da

S = l’errore standard, rappresenta l’unità di misura dell’errore casuale di stima commesso utilizzando la media campionaria come stimatore della media della popolazione campionata

VALORE DELLA DISTRIBUZIONE T DI STUDENT con n-1 gradi di libertà

Page 12: ANALISI STATISTICA DI DATI CAMPIONARI

GRADI DI LIBERTA’: numero di informazioni indipendenti, relative al paramentro che si intende stimare, contenute nel campione.

Mentre per la media abbiamo n osservazioni indipendenti, per stimare la varianza il numero di tali informazioni si riduce a n-1.

La media campionaria è quel valore che annulla la somma degli scarti dei singoli dati campionari da se stessa. Quindi usati gli n valori per stimare la media, una volta che sono noti gli (n-1) scarti dalla media, l’ultimo non è informativo in quanto è vincolato a valere

)(1

1

yyyyn

iin

Page 13: ANALISI STATISTICA DI DATI CAMPIONARI

Supponiamo di voler fare inferenza sul peso medio di neonati di 39 settimane di gestazione e di sesso maschile . Sapendo che il peso alla nascita è una v.c. Gaussiana, con media incognita (µ) e d.s. (σ) nota pari a 440 gr, si calcoli l’intervallo al 95% per µ a partire da un c.c.s estratto dalla popolazione, di numerosità 16.

n = 16 Media Campionaria = 3434 gr s = 535 gr

Limite superiore dell’ I.C. 95% = 3434 +2.12 *(535/√16) = 3719Limite inferiore dell’ I.C. 95% = 3434 – 2.12 *(535/√16) = 3149

Intervallo di confidenza al 95%: [3149 - 3719]

Il peso medio alla nascita dei neonati maschi alla 39° settimana di gestazione è un valore compreso tra 3149 e 3719. La probabilità che tale affermazione sia vera è pari a al 95%

ESEMPIO

Page 14: ANALISI STATISTICA DI DATI CAMPIONARI

SIGNIFICATO DI UN I.C. AL 95%

Dire che siamo confidenti al 95% che l’I.C. calcolato comprenda µ significa che:

•SE SELEZIONIAMO 100 Campioni casuali dalla popolazione ed utilizziamo questi campioni per calcolare 100 diversi intervalli di confidenza per µ, circa 95 comprenderanno la media reale della popolazione, 5 no.

•Si ricordi che lo stimatore Xmed è una variabile casuale, mentre µ è una costante, per cui l’I.C. è casuale ed ha una probabilità del 95% di contenere µ PRIMA che il campione sia selezionato.

•Una volta estratto il campione, µ può essere compresa o meno nell’intervallo e dicendo che lo è, fissando il livello di confidenza al 95%, potremmo sbagliarci 5 volte su 100

Page 15: ANALISI STATISTICA DI DATI CAMPIONARI

Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0 e δ=1. Le barre rappresentano gli intervalli di confidenza al 95% per tutte le 50 medie campionarie calcolate. Dati i 50 campioni dell’esempio seguente, osserviamo che soltanto in tre casi (6% dei campioni) l’intervallo di confidenza non comprende la vera media di popolazione.

Page 16: ANALISI STATISTICA DI DATI CAMPIONARI
Page 17: ANALISI STATISTICA DI DATI CAMPIONARI

In modo analogo a quanto visto per la media, otteniamo il seguente intervallo per la probabilità p (proporzione)

Z α/2 è il valore che delimita un’area di α/2 nella coda superore della distribuzione normale standardizzata

I.C. PER UNA PROPORZIONE

n

ppZp

n

ppZp

)1(,)1(

2/2/

Page 18: ANALISI STATISTICA DI DATI CAMPIONARI

ESEMPIO

Si consideri di voler fare inferenza sulla distribuzione della sopravvivenza di a 5 anni dei pazienti al disotto dei 40 anni ai quali è stato diagnisticato un cancro al polmone. Questa distribuzione ha una media della popolazione p non nota.

In un campione casuale di 52 pazienti, solo 6 sopravvivono a 5 anni, pertanto

=6/52 =0.115 STIMA PUNTUALE

Dato che la dimensione del campione è sufficientemente grande per giustificare l’uso dell’approssimazione alla normale l’I.C. al 95% per p è ottenuto nel seguente modo

(0.115-1.96√0.115((1-0.115))/52, 0.115-1.96√0.115((1-0.115))/52) =

(0.028,0.202) STIMA INTERVALLARE

p

Page 19: ANALISI STATISTICA DI DATI CAMPIONARI

…UN ESEMPIO DIVERTENTE!

Page 20: ANALISI STATISTICA DI DATI CAMPIONARI

LA VERIFICA DELLE IPOTESIIl test delle ipotesi consente di verificare se, e quanto, una determinataipotesi (di carattere biologico, medico, economico,...) è supportata dall’evidenza empirica.

Il fenomeno studiato deve essere rappresentato mediante unadistribuzione di probabilità e l’ipotesi sulle caratteristiche delfenomeno studiato è tradotta in ipotesi su uno o più parametridella distribuzione (test parametrico)

Esempi di ipotesi:

- La media ottenuta dal campione d’indaginè può essere uguale ad un certo valore fissato?- La differenza di peso in due gruppi trattati con media diversa è diversa da zero?- La proporzione di malati di tumore al polmone fumatori è diversa da quella di non fumatori?

Page 21: ANALISI STATISTICA DI DATI CAMPIONARI

LE IPOTESI:

Vengono definite due ipotesi

H0 IPOTESI NULLAH1 IPOTESI ALTERNATIVA

Le ipotesi sul valore del parametro possono essere

semplici: è specificato un solo valore (per es. μ = μ0)

composte: sono specificati più valori

unidirezionali (per es. μ > μ0)

bidirezionali (per es. μ ≠μ0)

L’ipotesi nulla è solitamente semplice, mentre l’ipotesi alternativa

composta.

IL TEST D’IPOTESI

Page 22: ANALISI STATISTICA DI DATI CAMPIONARI

LA REGOLA DI RIFIUTO:

Prima di conoscere i dati del campione, viene definita una regola per il rifiuto o meno dell’ipotesi nulla. In genere, la regola consiste nel calcolare sui dati del campione una statistica test. Se la statistica test è inferiore ad una soglia stabilita, non si rifiuta H0. Se la statistica test calcolata supera la soglia, si rifiuta H0.La regola di decisione consiste quindi nel suddividere lo spazio campionario C in due regioni, C0 regione di accettazione, C1 regione di rifiuto sulla base dei possibili valori della statistica.

LE CONCLUSIONI:

Quando si verifichi che dati provenienti da un certo contesto, e rilevati in accordo con un sistema definitorio dato, sono conformi ad n’ipotesi formulata, non significa che l’ipotesi è provata, bensì che ha superato una prova. Si dice che la teoria da cui l’ipotesi discende è stata corroborata.

IL TEST D’IPOTESI (2)

Page 23: ANALISI STATISTICA DI DATI CAMPIONARI

COME AGISCE L’ERRORE DI CAMPIONAMENTO(1)

Si possono commettere due tipi di errore utilizzando un test di ipotesi:

Stato di Natura

Azioni

H0 è vera H0 è falsa

Si accetta H0 DECISIONE CORRETTA

Si commette

Errore di II tipo

Si rifiuta H0

Si commette

Errore di I tipo DECISIONE CORRETTA

Page 24: ANALISI STATISTICA DI DATI CAMPIONARI

Errore di I tipo: rifiuto un’ipotesi quando essa è veraErrore di II tipo: accettare un’ipotesi quando è falsa

Probabilità di errore di I tipo:α = P(rifiutare H0|è vera H0)

Probabilità di errore di II tipo:β = P(accetto H0|è falsa H0)

La “regola” di rifiuto deve essere costruita in modo tale che α e β siano piccole.

Dato che la minimizzazione contemporanea di α e β non è possibile, solitamente si fissa un α accettabile (1%, 5%,10%) e si minimizza β (max 20-30%).

α viene anche chiamato livello di significatività

COME AGISCE L’ERRORE DI CAMPIONAMENTO(2)

Page 25: ANALISI STATISTICA DI DATI CAMPIONARI

LA POTENZA DEL TEST

La potenza del test è data da 1 − ß = P(RIFIUTARE H0|è falsa H0)

Indica la capacità del test di individuare l’ipotesi alternativa quando è vera.

ß minimo (1- ß) massimo

Quando si costruisce il sistema di ipotesi si ricerca quella suddivisione dello spazio campionario che rende massima la potenza del test.

Page 26: ANALISI STATISTICA DI DATI CAMPIONARI

ESEMPIO DI TEST SU UNA MEDIA (1)Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita per corrispondenza affermano di riuscire ad evadere, mediamente un ordine di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità, misurata in termini di varianza corretta, di 100 minuti.Cosa si può concludere riguardo alle richieste degli impiegati se si fissa unaprobabilità di errore di I tipo (livello di significatività) del 5%?Si deve sostanzialmente verificare se la media rilevata nel campione differisce, al livello di significatività del 5%, da quella dichiarata dagli impiegati.

Il problema di verifica d'ipotesi è formalizzato nei termini seguenti

Page 27: ANALISI STATISTICA DI DATI CAMPIONARI

La regola di decisione è quella di rifiutare l'ipotesi H0 se il valore assunto (valore empirico) dalla v.c. test nello specificocampione è ≥ 1,65, di accettare se il valore empirico è < 1,65.

La variabile casuale test di riferimento ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà

Poiché

ESEMPIO DI TEST SU UNA MEDIA (2)

si rifiuta l'ipotesi H0 concludendo che tempo medio richiesto per evadere un ordine è superiore ai 13 minuti dichiarati dagli impiegati.

Page 28: ANALISI STATISTICA DI DATI CAMPIONARI

ESEMPIO DI TEST SUL CONFRONTO TRA PROPORZIONI (1)

Page 29: ANALISI STATISTICA DI DATI CAMPIONARI

ESEMPIO DI TEST SUL CONFRONTO TRA PROPORZIONI (2)

Page 30: ANALISI STATISTICA DI DATI CAMPIONARI

IL LIVELLO DI SIGNIFICATIVITA’ E P-VALUE

Test a livello di significatività del 5%

Supponiamo che sia vera l’ipotesi nulla. Se si estraggono più campioni, il 5% di questi mi porterà all’erroneo rifiuto dell’ipotesi nulla.

La probabilità di rifiutare l’ipotesi nulla quando essa è vera per puro effetto del

caso (variabilità campionaria) è pari a 0.05.

P-value del test.

si dice P-value la probabilità, supponendo vera H0, che la statistica test assuma valori “più estremi” di quello calcolato sullo specifico campione di cui disponiamo. osservato.

Minore è il p-value, meno l’ipotesi nulla è supportata dai dati.In genere, se il p-value è minore di 0.05 rifiuto l’ipotesi nulla.

Page 31: ANALISI STATISTICA DI DATI CAMPIONARI

INTERVALLO DI CONFIDENZA E TEST

Esiste una stretta corrispondenza tra intervallo di confidenza al 95% e test di ipotesi a livello di significatività del 5%.

Esempio: test sulla media

Se decido di rifiutare l’ipotesi nulla quando il valore del parametro da essa specificato non è interno all’intervallo di confidenza al 95% per la media campionaria, sto rifiutando l’ipotesi nulla al livello di significatività del 5%.

Page 32: ANALISI STATISTICA DI DATI CAMPIONARI

ESEMPIO

Nell’esempio del peso medio dei neonati di 39 settimane di gestazione abbiamo trovato che l’IC al 95% per la media era [3218.5 - 3649.5]

Qualsiasi valore di μ che giace in questo intervallo porterebbe ad un risultato non significativo del test, ovvero l’ipotesi nulla non sarebbe rifiutata.

H0: μ=3230

H1: μ≠3230

NON RIFIUTO H0

Al contrario, per qualsiasi valore di μ che si trovi al di fuori dell’intervallo l’ipotesi nulla sarebbe rifiutata ad un livello α = 0.05

H0: μ=3200

H1: μ≠3200

RIFIUTO H0

Page 33: ANALISI STATISTICA DI DATI CAMPIONARI

LA DIMENSIONE DEL CAMPIONEQuanto deve essere grande un campione, per potere fornire

risultati utili e significativi?

Le tipologie più importanti di informazioni che più spesso si vogliono ottenere da un'indagine possono essere principalmente di due tipi:

-la stima di una media, ovvero dell'ordine di grandezza del fenomeno che stiamo studiando: per esempio, il numero medio di volte in cui gli utenti ricorrono a un determinato servizio. La domanda da porre sarà più o meno questa: "Quante volte, nell’ultima settimana, lei o qualcun altro della sua famiglia ha utilizzato il servizio xy?".

-la stima di una proporzione, ossia una percentuale: per esempio, la quota di famiglie che in un certo periodo hanno utilizzato un certo servizio. La domanda da fare potrebbe essere questa: "Lei o qualcun'altro della sua famiglia ha utilizzato il servizio xy negli ultimi sei mesi?".

La distinzione tra i due parametri (media e proporzione) é importante, perché alcune fasi di calcolo della dimensione del campione sono differenti nelle due situazioni.

Page 34: ANALISI STATISTICA DI DATI CAMPIONARI

I FATTORI DA CONSIDERARE

Su cosa ci si deve basare per la scelta della dimensione campionaria?

• Dipende dallo scopo dell’analisi statistica:

Stima Voglio stime con precisione “accettabile”, la determinazione della dimensione campionaria si baserà sugli intervalli di confidenzarelativi al parametro da stimareTest d’ipotesi Voglio test con errori di primo e secondo tipo “accettabili” la determinazione della dimensione campionaria si baserà sulla funzione di potenza del test relativo al paramentro di interesse.

• Dalla varianza del carattre nella popolazione

Page 35: ANALISI STATISTICA DI DATI CAMPIONARI

IL PROCEDIMENTO DA SEGUIRE

Nella realtà operativa, la scelta dell'ampiezza di un campione scaturisce da un compromesso tra le esigenze di precisione e di sicurezza dei risultati da un lato, le necessità di contenere i costi e i tempi di svolgimento dell'indagine dall'altro.

Il procedimento corretto da seguire per dimensionare un campione parte dalla individuazione della dimensione dell'universo di interesse, e dalla scelta del livello fiduciario e dell'errore di campionamento che si intendono accettare.

Page 36: ANALISI STATISTICA DI DATI CAMPIONARI

CALCOLO DELLA DIMENSIONE DEL CAMPIONE PER LA STIMA DI UNA MEDIA

Quando l’obiettivo dell’indagine è quello di fare inferenza su una media di un carattere, attraverso l’utilizzo di un test d’ipotesi, la dimensione adeguata campionaria si ottiene applicando la seguente formula

2

01

2/

zzn

Page 37: ANALISI STATISTICA DI DATI CAMPIONARI

CALCOLO DELLA DIMENSIONE DEL CAMPIONE PER LA STIMA DI UNA PROPORZIONE

Quando l’obiettivo dell’indagine è quello di fare inferenza su una proporzione, attraverso l’utilizzo di un test d’ipotesi, la dimensione adeguata campionaria si ottiene applicando la seguente formula

Dove p0 è la proporzione sotto H0 e p1 è la proporzione sotto H1

2

01

11002/ )1()1(

pp

ppzppzn