ANALISI STATISTICA DI DATI CAMPIONARI

ANALISI STATISTICA DI DATI

CAMPIONARI

Docente: Elisa BianchiniDocente: Elisa BianchiniCentro di Coordinamento Sperimentazioni ClinicheCentro di Coordinamento Sperimentazioni Cliniche

U.O. BiostatisticaU.O. BiostatisticaPresidio Villa delle RosePresidio Villa delle Rose

Via Cosimo il Vecchio, 2 FirenzeVia Cosimo il Vecchio, 2 FirenzeTel:055/32 69 79 47Tel:055/32 69 79 47

[email protected]@cspo.it

DALLA LEZIONE PRECEDENTE…

.. Lo scopo di una indagine è quello di produrre statistiche, ovvero descrizioni riassuntive di carattere quantitativo, riguardanti il collettivo di interesse

…Nel caso di indagini campionarie l’obiettivo è quello di fare “inferenza” dal campione alla popolazione

… Nella fase di astrazione dopo aver fissato le caratteristiche dell’indagine, in base agli obiettivi che questa si pone, è necessario fissare anche le modalità di analisi dei dati che verranno raccolti durante la fase di rilevazione

…. Ai fini della pianificazione delle analisi è necessario conoscere il tipo di variabili che si intendono studiare, la loro classificazione e la loro distribuzione teorica

…. L’obiettivo (o gli obiettivi) dell’indagine determina inoltre quali sono le metodologie di analisi adatte al suo raggiungimento

…. La variabilità casuale insita in molti fenomeni fa si che quando si conducono delle indagini campionarie le statistiche campionarie ottenute siano affette da imprecisione

IL PROCEDIMENTO INFERENZIALE

…UN PO’ DI TERMINOLOGIA

STATISTICA DESCRITTIVA: Insieme di dati statistici di sintesi di osservazioni ottenuti con l’intento di descrivere un determinato fenomeno (Tabelle, grafici e indici numerici)

STATISTICA INFERENZIALE: Insieme delle operazioni e dei ragionamenti compiuti dal ricercatore per predire alcune caratteristiche(parametri) di una popolazione, non interamente esplorabile, attraverso la selezione da questa di un sotto insieme casuale di unità (campione)

PARAMETRO: Valore assunto (θ) da una caratteristica misurata a livello di popolazione (totale, media, varianza, proporzione, correlazione,…)

STIMATORE: si dice stimatore qualunque statistica T(X1,X2,…,Xn) , funzione degli elementi campionari, le cui determinazioni vengono utilizzate per ottenere una misura (stima puntuale) del parametro incognito θ . Quindi uno stimatore è una variabile casuale e possiede pertanto una distribuzione, valore atteso, varianza e così via

…UN PO’ DI TERMINOLOGIA

STIMA (STATISTICA): In senso stretto, è particolare valore ottenuto dall’applicazione di uno stimatore in una indagine o in un esperimento statistico.

Il termine è usato per indicare anche l’insieme delle regole attraverso le quali è stato ottenuto quel particolare valore, ovvero lo stimatore stesso. La stima può riguardare un parametro, e in tal caso si parla di "stima puntuale", o un intervallo, e allora si parla di "stima intervallare".

VERIFICA D’IPOTESI: Processo decisionale, basato sulla verifica di ipotesi statistiche con la realtà osservata, che porta ad accettare o rifiutare un’ipotesi (statistica) fissata sul valore dei parametri o sulla forma di una legge di distribuzione di una popolazione.

ERRORE CAMPIONARIO: Differenza tra la stima e il corrispondente valore che si sarebbe ottenuto esaminando la totalità delle unità statistiche della popolazione. Si verifica giacché si osserva solo una parte delle unità della popolazione. L’errore diminuisce in valore all’aumentare della numerosità campionaria

LA STIMA DEI PARAMENTRI

LO SCOPO DELL’INFERENZA E’ QUELLO DI OTTENERE INFORMAZIONI SU UNA POPOLAZIONE DA CUI UN CAMPIONE E’ STATO ESTRATTO.

L’INFERNZA SUI PARAMETRI PUO’ ESSERE FATTA ATTRAVERSO:

- STIMA PUNTUALE

- STIMA PER INTERVALLI

- LA VERIFICA D’ IPOTESI Si formula una ipotesi riguardo al valore del parametro incognito e si verifica se l’ipotesi è supportata o meno dai dati. L’obiettivo è arrivare ad una decisione sottoforma di si/no riguardo a certe caratteristiche della popolazione)

STIMA PUNTUALEDetermina un valore numerico per il parametro a partire dal campione

Quando si esegue l'esperimento e si osservano i dati, il valore osservato dello stimatore (che è un numero) è la stima puntuale del parametro

Solitamente si usa

• la media campionaria per stimare la media della popolazione• la varianza campionaria per stimare la varianza della popolazione• la frequenza relativa di successo (proporzione) per stimare la probabilità di successo• la differenza tra due medie campionarie per stimare la differenza tra due valori medi a livello di popolazione• rapporti tra probabilità osservate per la stima dell’associazioni tra caratteri legati da una relazione causa effetto

Tale procedura di stima determina un set di valori a partire dal campione che con una certa probabilità “(1-α)%” contiene il parametro incognito. “(1-α)%” indica il livello di confidenza, l’intervallo è detto intervallo di confidenza

Gli estremi dell’intervallo dipendono dal campione estratto, quindi sono casuali

Un intervallo di confidenza è quindi un insieme di valori plausibili per il parametro incognito sulla base dell’evidenza empirica.

Attenzione: il livello di confidenza rappresenta il grado di affidabilità della procedura, non il grado di affidabilità del risultato corrispondente al singolo campione estratto.

Generalmente si usa come livello di confidenza il 95% (α =5%)

STIMA PER INTERVALLO

Ripetendo l’operazione di stima su più campioni, potrebbe capitare la cosa seguente

Valoredel parametro

SIGNIFICATO DELLA STIMA PER INTERVALLO

AMPIEZZA DELL’INTERVALLO

L’ampiezza dell’intervallo è molto rilevante. Quanto più l’intervalloè stretto, tanto maggiore è il grado di precisione che caratterizza lo strumento statistico utilizzato.

L’ampiezza dell’intervallo dipende quindi da

• α : al diminuire di α (al crescere del livello di confidenza (1- α) l’ampiezza dell’intervallo aumenta

• dalla variabilità del fenomeno studiato: al crescere della variabilità , cresce anche l’incertezza e quindi l’ampiezza dell’intervallo aumenta

• n: al crescere di n aumenta la quantità di informazione disponibile e quindi l’ampiezza dell’intervallo diminuisce

L’INTERVALLO DI CONFIDENZA PER LA MEDIA

L’intervallo di confidenza per la stima della media di una distribuzioneNormale a varianza incognita a livello di confidenza 1 − α ha la forma seguente:

ossia gli estremi dell’intervallo sono dati da

S = l’errore standard, rappresenta l’unità di misura dell’errore casuale di stima commesso utilizzando la media campionaria come stimatore della media della popolazione campionata

VALORE DELLA DISTRIBUZIONE T DI STUDENT con n-1 gradi di libertà

GRADI DI LIBERTA’: numero di informazioni indipendenti, relative al paramentro che si intende stimare, contenute nel campione.

Mentre per la media abbiamo n osservazioni indipendenti, per stimare la varianza il numero di tali informazioni si riduce a n-1.

La media campionaria è quel valore che annulla la somma degli scarti dei singoli dati campionari da se stessa. Quindi usati gli n valori per stimare la media, una volta che sono noti gli (n-1) scarti dalla media, l’ultimo non è informativo in quanto è vincolato a valere

)(1

1

yyyyn

iin

Supponiamo di voler fare inferenza sul peso medio di neonati di 39 settimane di gestazione e di sesso maschile . Sapendo che il peso alla nascita è una v.c. Gaussiana, con media incognita (µ) e d.s. (σ) nota pari a 440 gr, si calcoli l’intervallo al 95% per µ a partire da un c.c.s estratto dalla popolazione, di numerosità 16.

n = 16 Media Campionaria = 3434 gr s = 535 gr

Limite superiore dell’ I.C. 95% = 3434 +2.12 *(535/√16) = 3719Limite inferiore dell’ I.C. 95% = 3434 – 2.12 *(535/√16) = 3149

Intervallo di confidenza al 95%: [3149 - 3719]

Il peso medio alla nascita dei neonati maschi alla 39° settimana di gestazione è un valore compreso tra 3149 e 3719. La probabilità che tale affermazione sia vera è pari a al 95%

ESEMPIO

SIGNIFICATO DI UN I.C. AL 95%

Dire che siamo confidenti al 95% che l’I.C. calcolato comprenda µ significa che:

•SE SELEZIONIAMO 100 Campioni casuali dalla popolazione ed utilizziamo questi campioni per calcolare 100 diversi intervalli di confidenza per µ, circa 95 comprenderanno la media reale della popolazione, 5 no.

•Si ricordi che lo stimatore Xmed è una variabile casuale, mentre µ è una costante, per cui l’I.C. è casuale ed ha una probabilità del 95% di contenere µ PRIMA che il campione sia selezionato.

•Una volta estratto il campione, µ può essere compresa o meno nell’intervallo e dicendo che lo è, fissando il livello di confidenza al 95%, potremmo sbagliarci 5 volte su 100

Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0 e δ=1. Le barre rappresentano gli intervalli di confidenza al 95% per tutte le 50 medie campionarie calcolate. Dati i 50 campioni dell’esempio seguente, osserviamo che soltanto in tre casi (6% dei campioni) l’intervallo di confidenza non comprende la vera media di popolazione.

In modo analogo a quanto visto per la media, otteniamo il seguente intervallo per la probabilità p (proporzione)

Z α/2 è il valore che delimita un’area di α/2 nella coda superore della distribuzione normale standardizzata

I.C. PER UNA PROPORZIONE

n

ppZp

n

ppZp

)1(,)1(

2/2/

ESEMPIO

Si consideri di voler fare inferenza sulla distribuzione della sopravvivenza di a 5 anni dei pazienti al disotto dei 40 anni ai quali è stato diagnisticato un cancro al polmone. Questa distribuzione ha una media della popolazione p non nota.

In un campione casuale di 52 pazienti, solo 6 sopravvivono a 5 anni, pertanto

=6/52 =0.115 STIMA PUNTUALE

Dato che la dimensione del campione è sufficientemente grande per giustificare l’uso dell’approssimazione alla normale l’I.C. al 95% per p è ottenuto nel seguente modo

(0.115-1.96√0.115((1-0.115))/52, 0.115-1.96√0.115((1-0.115))/52) =

(0.028,0.202) STIMA INTERVALLARE

p

…UN ESEMPIO DIVERTENTE!

LA VERIFICA DELLE IPOTESIIl test delle ipotesi consente di verificare se, e quanto, una determinataipotesi (di carattere biologico, medico, economico,...) è supportata dall’evidenza empirica.

Il fenomeno studiato deve essere rappresentato mediante unadistribuzione di probabilità e l’ipotesi sulle caratteristiche delfenomeno studiato è tradotta in ipotesi su uno o più parametridella distribuzione (test parametrico)

Esempi di ipotesi:

- La media ottenuta dal campione d’indaginè può essere uguale ad un certo valore fissato?- La differenza di peso in due gruppi trattati con media diversa è diversa da zero?- La proporzione di malati di tumore al polmone fumatori è diversa da quella di non fumatori?

LE IPOTESI:

Vengono definite due ipotesi

H0 IPOTESI NULLAH1 IPOTESI ALTERNATIVA

Le ipotesi sul valore del parametro possono essere

semplici: è specificato un solo valore (per es. μ = μ0)

composte: sono specificati più valori

unidirezionali (per es. μ > μ0)

bidirezionali (per es. μ ≠μ0)

L’ipotesi nulla è solitamente semplice, mentre l’ipotesi alternativa

composta.

IL TEST D’IPOTESI

LA REGOLA DI RIFIUTO:

Prima di conoscere i dati del campione, viene definita una regola per il rifiuto o meno dell’ipotesi nulla. In genere, la regola consiste nel calcolare sui dati del campione una statistica test. Se la statistica test è inferiore ad una soglia stabilita, non si rifiuta H0. Se la statistica test calcolata supera la soglia, si rifiuta H0.La regola di decisione consiste quindi nel suddividere lo spazio campionario C in due regioni, C0 regione di accettazione, C1 regione di rifiuto sulla base dei possibili valori della statistica.

LE CONCLUSIONI:

Quando si verifichi che dati provenienti da un certo contesto, e rilevati in accordo con un sistema definitorio dato, sono conformi ad n’ipotesi formulata, non significa che l’ipotesi è provata, bensì che ha superato una prova. Si dice che la teoria da cui l’ipotesi discende è stata corroborata.

IL TEST D’IPOTESI (2)

COME AGISCE L’ERRORE DI CAMPIONAMENTO(1)

Si possono commettere due tipi di errore utilizzando un test di ipotesi:

Stato di Natura

Azioni

H0 è vera H0 è falsa

Si accetta H0 DECISIONE CORRETTA

Si commette

Errore di II tipo

Si rifiuta H0

Si commette

Errore di I tipo DECISIONE CORRETTA

Errore di I tipo: rifiuto un’ipotesi quando essa è veraErrore di II tipo: accettare un’ipotesi quando è falsa

Probabilità di errore di I tipo:α = P(rifiutare H0|è vera H0)

Probabilità di errore di II tipo:β = P(accetto H0|è falsa H0)

La “regola” di rifiuto deve essere costruita in modo tale che α e β siano piccole.

Dato che la minimizzazione contemporanea di α e β non è possibile, solitamente si fissa un α accettabile (1%, 5%,10%) e si minimizza β (max 20-30%).

α viene anche chiamato livello di significatività

COME AGISCE L’ERRORE DI CAMPIONAMENTO(2)

LA POTENZA DEL TEST

La potenza del test è data da 1 − ß = P(RIFIUTARE H0|è falsa H0)

Indica la capacità del test di individuare l’ipotesi alternativa quando è vera.

ß minimo (1- ß) massimo

Quando si costruisce il sistema di ipotesi si ricerca quella suddivisione dello spazio campionario che rende massima la potenza del test.

ESEMPIO DI TEST SU UNA MEDIA (1)Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita per corrispondenza affermano di riuscire ad evadere, mediamente un ordine di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità, misurata in termini di varianza corretta, di 100 minuti.Cosa si può concludere riguardo alle richieste degli impiegati se si fissa unaprobabilità di errore di I tipo (livello di significatività) del 5%?Si deve sostanzialmente verificare se la media rilevata nel campione differisce, al livello di significatività del 5%, da quella dichiarata dagli impiegati.

Il problema di verifica d'ipotesi è formalizzato nei termini seguenti

La regola di decisione è quella di rifiutare l'ipotesi H0 se il valore assunto (valore empirico) dalla v.c. test nello specificocampione è ≥ 1,65, di accettare se il valore empirico è < 1,65.

La variabile casuale test di riferimento ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà

Poiché

ESEMPIO DI TEST SU UNA MEDIA (2)

si rifiuta l'ipotesi H0 concludendo che tempo medio richiesto per evadere un ordine è superiore ai 13 minuti dichiarati dagli impiegati.

ESEMPIO DI TEST SUL CONFRONTO TRA PROPORZIONI (1)

ESEMPIO DI TEST SUL CONFRONTO TRA PROPORZIONI (2)

IL LIVELLO DI SIGNIFICATIVITA’ E P-VALUE

Test a livello di significatività del 5%

Supponiamo che sia vera l’ipotesi nulla. Se si estraggono più campioni, il 5% di questi mi porterà all’erroneo rifiuto dell’ipotesi nulla.

La probabilità di rifiutare l’ipotesi nulla quando essa è vera per puro effetto del

caso (variabilità campionaria) è pari a 0.05.

P-value del test.

si dice P-value la probabilità, supponendo vera H0, che la statistica test assuma valori “più estremi” di quello calcolato sullo specifico campione di cui disponiamo. osservato.

Minore è il p-value, meno l’ipotesi nulla è supportata dai dati.In genere, se il p-value è minore di 0.05 rifiuto l’ipotesi nulla.

INTERVALLO DI CONFIDENZA E TEST

Esiste una stretta corrispondenza tra intervallo di confidenza al 95% e test di ipotesi a livello di significatività del 5%.

Esempio: test sulla media

Se decido di rifiutare l’ipotesi nulla quando il valore del parametro da essa specificato non è interno all’intervallo di confidenza al 95% per la media campionaria, sto rifiutando l’ipotesi nulla al livello di significatività del 5%.

ESEMPIO

Nell’esempio del peso medio dei neonati di 39 settimane di gestazione abbiamo trovato che l’IC al 95% per la media era [3218.5 - 3649.5]

Qualsiasi valore di μ che giace in questo intervallo porterebbe ad un risultato non significativo del test, ovvero l’ipotesi nulla non sarebbe rifiutata.

H0: μ=3230

H1: μ≠3230

NON RIFIUTO H0

Al contrario, per qualsiasi valore di μ che si trovi al di fuori dell’intervallo l’ipotesi nulla sarebbe rifiutata ad un livello α = 0.05

H0: μ=3200

H1: μ≠3200

RIFIUTO H0

LA DIMENSIONE DEL CAMPIONEQuanto deve essere grande un campione, per potere fornire

risultati utili e significativi?

Le tipologie più importanti di informazioni che più spesso si vogliono ottenere da un'indagine possono essere principalmente di due tipi:

-la stima di una media, ovvero dell'ordine di grandezza del fenomeno che stiamo studiando: per esempio, il numero medio di volte in cui gli utenti ricorrono a un determinato servizio. La domanda da porre sarà più o meno questa: "Quante volte, nell’ultima settimana, lei o qualcun altro della sua famiglia ha utilizzato il servizio xy?".

-la stima di una proporzione, ossia una percentuale: per esempio, la quota di famiglie che in un certo periodo hanno utilizzato un certo servizio. La domanda da fare potrebbe essere questa: "Lei o qualcun'altro della sua famiglia ha utilizzato il servizio xy negli ultimi sei mesi?".

La distinzione tra i due parametri (media e proporzione) é importante, perché alcune fasi di calcolo della dimensione del campione sono differenti nelle due situazioni.

I FATTORI DA CONSIDERARE

Su cosa ci si deve basare per la scelta della dimensione campionaria?

• Dipende dallo scopo dell’analisi statistica:

Stima Voglio stime con precisione “accettabile”, la determinazione della dimensione campionaria si baserà sugli intervalli di confidenzarelativi al parametro da stimareTest d’ipotesi Voglio test con errori di primo e secondo tipo “accettabili” la determinazione della dimensione campionaria si baserà sulla funzione di potenza del test relativo al paramentro di interesse.

• Dalla varianza del carattre nella popolazione

IL PROCEDIMENTO DA SEGUIRE

Nella realtà operativa, la scelta dell'ampiezza di un campione scaturisce da un compromesso tra le esigenze di precisione e di sicurezza dei risultati da un lato, le necessità di contenere i costi e i tempi di svolgimento dell'indagine dall'altro.

Il procedimento corretto da seguire per dimensionare un campione parte dalla individuazione della dimensione dell'universo di interesse, e dalla scelta del livello fiduciario e dell'errore di campionamento che si intendono accettare.

CALCOLO DELLA DIMENSIONE DEL CAMPIONE PER LA STIMA DI UNA MEDIA

Quando l’obiettivo dell’indagine è quello di fare inferenza su una media di un carattere, attraverso l’utilizzo di un test d’ipotesi, la dimensione adeguata campionaria si ottiene applicando la seguente formula

2

01

2/

zzn

CALCOLO DELLA DIMENSIONE DEL CAMPIONE PER LA STIMA DI UNA PROPORZIONE

Quando l’obiettivo dell’indagine è quello di fare inferenza su una proporzione, attraverso l’utilizzo di un test d’ipotesi, la dimensione adeguata campionaria si ottiene applicando la seguente formula

Dove p0 è la proporzione sotto H0 e p1 è la proporzione sotto H1

2

01

11002/ )1()1(

pp

ppzppzn

ANALISI STATISTICA DI DATI CAMPIONARI

Documents

Transcript of ANALISI STATISTICA DI DATI CAMPIONARI