7/29/2019 Analisi_statistica
1/100
Un ramo della matematica applicata che si occupa della raccolta edellinterpretazione dei dati quantitativi e delluso della teoria delleprobabilit per la stima di parametri di una popolazione.
Lo studio scientifico dei dati numerici basato sui fenomeni naturali.La procedura matematica per descrivere le probabilit e la distribuzionecasuale o non-casuale della materia o del verificarsi degli eventi.
Una serie di teoremi matematici che aiuta ad analizzare i dati attribuendosignificativit ai risultati.
Una raccolta di metodi per raccogliere, organizzare, riassumere,analizzare e interpretare i dati, e per trarre conclusioni basate su di essi.
La scienza e larte di raccogliere, riassumere ed analizzare dati soggetti avariazione casuale (Biology Online)
Alcune definizioni della statistica
7/29/2019 Analisi_statistica
2/100
Tipi di statistica
Statistica descrittiva: procedure per riassumere e
presentare i dati e per descriverli attraverso
strumenti matematici
Statistica inferenziale: procedure per derivare
dai dati gi noti, con laiuto di modellimatematici, affermazioni pi generali.
7/29/2019 Analisi_statistica
3/100
Statistica descrittiva: riassunto e
presentazione dei dati
Riassume i dati per mezzo di tabelle e grafici:
Tabelle di frequenza (numero assoluto di casi
per categoria)
Tabelle percentuali (% di casi per categoria)
Tabelle crociate (matrici 2 x 2, 2 x 3, ecc.) Grafici (a barre, lineari, a torta, ecc.)
7/29/2019 Analisi_statistica
4/100
Tipi di variabili
I dati della statistica riguardano variabili, cio grandezze che possono
assumere valori differenti. Le variabili possono essere di tipo diverso:
Quantitative (i valori sono numeri)
continue: altezza, peso, ecc (i valori sono numeri reali).
discrete: risultati del lancio di un dado (possono
assumere solo certi valori)
Qualitative o categoriche(i valori sono rappresentati dallappartenenzaa categorie)
nominali: maschio/femmina; remissione/recidiva/morte
(le categorie non sono ordinate)NB: se le categorie sono solo due, mutuamenteesclusive, si parla di variabili binarie odicotomiche
ordinali: 50 anni (lecategorie hanno un ordine)
7/29/2019 Analisi_statistica
5/100
Tipi di variabili
In una ricerca, si definisce variabile indipendente quella cheviene manipolata direttamente dallo sperimentatore, o inalternativa selezionata attraverso il metodo di campionamento.Per esempio, il fatto che i pazienti siano trattati con un farmaco ocon placebo un esempio di variabile indipendente manipolatadirettamente dallo sperimentatore. In alternativa, se vieneselezionato un campione di maschi da confrontare con uncampione di femmine, il sesso una variabile indipendentecontrollata indirettamente attraverso il sistema dicampionamento.
Al contrario, la variabile dipendente quella che misuriamo perverificare la sua correlazione con la variabile indipendente. Neidue esempi precedenti, la variabile dipendente potrebbe essere larisposta alla terapia nel primo caso, e lincidenza di una certapatologia nei due sessi nel secondo caso.
7/29/2019 Analisi_statistica
6/100
Statistica descrittiva: descrizione
matematica dei dati
Fornisce una descrizione sintetica dei dati
utilizzando (per i dati quantitativi) metodi
numerici:
Valutazione del punto centrale dei dati
Valutazione della distribuzione dei dati
7/29/2019 Analisi_statistica
7/100
Valutazione del punto centrale dei dati
Mediana:il punto centrale calcolato sulla base dellordinamentocrescente dei dati, e rappresenta la posizione centrale in questo
ordinamento.
Dati: 2, 5, 6, 13, 14, 45, 47 Mediana = 13
Media aritmetica: il rapporto fra la somma dei valori e il numero
dei valori
Dati: 2, 5, 6, 13, 14, 45, 47 Media = 132/7 = 18,85
7/29/2019 Analisi_statistica
8/100
Valutazione della distribuzione dei dati
Attorno alla mediana: utilizzando lo stesso principiodellordinamento crescente dei dati e della loro posizione, possibile definire vari quantili (per esempio, dividendo in 4intervalli si ottengono i quartili, e cos via).
Se si divide in 100 intervalli, si ottengono ipercentili. Peresempio, il 75 percentile il valore del dato che,nellordinamento crescente, ha un posizione tale che:
il 75% dei dati ha un valore inferiore (cio rimane a
sinistra nellordinamento) il 25% dei dati ha un valore superiore (cio rimane adestra nellordinamento)
NB: la mediana il 50 percentile
7/29/2019 Analisi_statistica
9/100
2, 5, 6, 9, .. 46, .. 157, 542, 3450, 6213, 6578, 12500
Numero di dati = 121 Ordinamento crescente
Mediana: dato n 61: 60 dati (50%) a sinistra, 60 dati (50%) a destra
25 percentile: dato n 31: 30 dati (25%) a sinistra, 90 dati (75%) a destra
25 percentile = 46
Mediana (50 percentile) = 157
75 percentile = 542
La media invece la somma aritmetica dei 121
valori divisa per 121. Pu essere molto diversa
dalla mediana. Per esempio, in questo caso
potrebbe essere molto pi alta, perch influenzata
dai valori molto alti allestremo destro dei dati.
7/29/2019 Analisi_statistica
10/100
Valutazione della distribuzione dei dati
Attorno alla media: la deviazione standard () laradice quadrata della varianza, un indicatore di
dispersione che si ottiene sommando tutti i singoli
scarti dalla media, elevando al quadrato e dividendoper il numero di dati.
2 = VAR
7/29/2019 Analisi_statistica
11/100
7/29/2019 Analisi_statistica
12/100
La distribuzione normale
Una distribuzione normale in una variabile
Xcon media e varianza unadistribuzione statistica con funzione di
probabilit:
Sul dominio . Mentre statistici e
matematici usano uniformemente il termine
distribuzione normale, i fisici talvolta la chiamanodistribuzione Gaussiana e gli studiosi di scienzesociali si riferiscono ad essa come curva a
campana.
7/29/2019 Analisi_statistica
13/100
Lascissa rappresenta i valori. Lordinata rappresenta la densit di
probabilit dei valori.
Tutta larea sotto la curva rappresenta linsieme di tutti i casi possibili,
cio la probabilit totale (1,0).
Le probabilit non sono mai riferite a un punto, ma a un intervallo, e
rappresentano il rapporto fra tutti i casi che rientrano in quellintervallo
e il totale dei casi
7/29/2019 Analisi_statistica
14/100
In una distribuzione normale perfetta:
68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media
99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media
7/29/2019 Analisi_statistica
15/100
Z score
Lo z-score (chiamato anche standard score, o normal score) un
modo di trasformare un singolo valore di una distribuzionenormale nel suo equivalente standardizzato.In altre parole, lo z-score ci dice di quante DS il valore dista dallamedia della popolazione.
7/29/2019 Analisi_statistica
16/100
7/29/2019 Analisi_statistica
17/100
Statistica descrittiva per variabili categoriche
I dati riguardanti variabili categoriche vengono spessoriportati in forma di tabella (2x2, 2x3, ecc.). La
maniera pi semplice di descrivere matematicamente i
dati di calcolare le proporzioni.
Remissione Malattia Morte Totale
Popolazione 28 12 10 50
% 56 24 20 100
7/29/2019 Analisi_statistica
18/100
7/29/2019 Analisi_statistica
19/100
Statistica inferenzialeIl concetto di verit delle affermazioni della statistica inferenziale deve essere bencompreso.
Le affermazioni della statistica inferenziale sono matematicamente vere e
rigorose(nellambito della validit del modello matematico che si adotta, epurch, naturalmente, i calcoli vengano condotti correttamente), ma riguardanoesclusivamente laprobabilit della verit di altre affermazioni.
In altre parole, la statistica inferenziale non ci fornisce certezze sullargomentodella nostra ricerca, ma solo certezze sulla probabilit che le nostre asserzioni sutale argomento siano vere.
Il gruppo A diverso dal gruppo B
relativamente al parametro x
Laffermazione N 2, sulla base dei dati noti, ha il
95% di probabilit di essere vera.
Affermazione N 1
(calcolata dalla
statistica inferenziale)
Affermazione N 2
(oggetto della ricerca)
Affermazione vera (se il modello valido e i calcoli sono corretti)
Affermazione probabile
7/29/2019 Analisi_statistica
20/100
Statistica inferenziale
I problemi che la statistica inferenziale cerca di risolvere sonoessenzialmente di due tipi:
1) Problema della stima (per esempio stima di una media):
fornisce informazioni sulla media di una popolazione quandosono note media e deviazione standard di un campione della
stessa.
2)Problema della verifica di ipotesi (per esempio confronto fra
due o pi campioni):
calcola la probabilit che due campioni, di cui siano note mediae deviazione standard, siano campioni derivati da una stessa
popolazione oppure da due popolazioni diverse.
7/29/2019 Analisi_statistica
21/100
Campionamento statistico
Nellambito della statistica descrittiva abbiamo finora consideratostrumenti per descrivere unintera popolazione quando siano notitutti i dati ad essa relativi. Ma nella ricerca, in genere, non siconoscono i dati dellintera popolazione, ma solo quelli di uncampione.
Il campionamento si usa quando si vuole conoscere uno o piparametri di una popolazione, senza doverli misurare in ogni suoelemento. Il campionamento consiste nel selezionare un numero pipiccolo di elementi fra tutti quelli che formano una popolazione. Puessere fatto in vari modi, ma deve sempre essere di tipoprobabilistico (cio garantire la casualit della selezione).
Parleremo allora di numerosit, media e deviazione standard delcampione, e dobbiamo porci il problema di che rapporto esista fraquesti valori e la numerosit, la media e la deviazione standarddellintera popolazione.
7/29/2019 Analisi_statistica
22/100
Media del campione e media della
popolazione
Immaginiamo di avere una popolazione
rappresentata da mille persone (per esempio la
popolazione degli abitanti maschi di un paese), edi volere conoscere la loro statura.
Se conoscessimo la statura di ciascuno dei mille
abitanti, potremmo descrivere la popolazione conassoluta precisione in termini di media e
deviazione standard.
7/29/2019 Analisi_statistica
23/100
7/29/2019 Analisi_statistica
24/100
Media del campione e media della
popolazione
Immaginiamo di ripetere loperazione di campionamento20 volte, ogni volta con un diverso campione casuale di30 abitanti. Otterremo 20 medie diverse, e 20 DS diverse.
Un concetto importante che linsieme di queste mediedei campioni tende ad assumere una distribuzionenormale, anche se la popolazione di origine non distribuita normalmente.
In altre parole, il processo di campionamento casuale diper s un fenomeno che si distribuisce normalmente.
7/29/2019 Analisi_statistica
25/100
Teorema del limite centrale
Il teorema del limite centrale afferma appunto che, data unacerta popolazione con media e DS , da cui si estrae unnumero infinito di campioni random e di numerosit N, manmano che N aumenta la distribuzione delle medie dei campionitende a una distribuzione normale, con media (uguale a
quella della popolazione di origine) e DS = /N.Laspetto sorprendente e non intuitivo di questo teorema che,qualunque sia la forma della distribuzione della popolazioneoriginale, la distribuzione delle medie dei campioni tende alladistribuzione normale.
Spesso la distribuzione normale viene raggiunta rapidamente,anche per valori non molto grandi di N.
Ricordate che N la numerosit del singolo campione, e non ilnumero di campioni (questultimo si assume essere infinito).
7/29/2019 Analisi_statistica
26/100
Teorema del limite centrale
Qui sono mostrati i risultati di una simulazione al computer. Il computer ha
eseguito un campionamento di numerosit N a partire da una popolazione con
distribuzione uniforme (quindi assolutamente diversa da quella normale), e
ha calcolato la media. Questa procedura stata ripetuta 500 volte per ciascuna
di quattro numerosit del singolo campione: 1, 4, 7, e 10.
http://davidmlane.com/hyperstat/A12237.htmlhttp://davidmlane.com/hyperstat/A14461.htmlhttp://davidmlane.com/hyperstat/A12237.html7/29/2019 Analisi_statistica
27/100
Campioni diversi di
una popolazione.
Le medie dei vari
campioni
tendono a distribuirsinormalmente.
Distribution of Sample Means
7/29/2019 Analisi_statistica
28/100
Errore standard della media (SEM)
Lo Standard Error of the Mean (SEM)
una valutazione della deviazionestandard di un insieme di medie dicampioni. Idealmente si dovrebbecalcolare dividendo la deviazionestandard dellintera popolazione () perla radice quadrata della numerosit delcampione:
________
n
SEM =
Poich in genere la DS dellintera
popolazione non nota, si pu ottenereuna stima del SEM utilizzando al posto
di la deviazione standard del singolo
campione (s)
s________
nSEM =
(stimato)
NOTA: il SEM sempre pi piccolo della DS della popolazione di origine, ed tanto pi piccolo quanto maggiore la numerosit del campione.
7/29/2019 Analisi_statistica
29/100
Limportanza di n
In termini pi semplici, quando valutiamo la media diun campione, la probabilit che questa media sia similea quella della popolazione di origine dipendeessenzialmente da due fattori:
n (la numerosit del campione)
s (la deviazione standard del campione
Infatti, poich il SEM uguale a s /n, quanto pigrande n, e quanto pi piccolo s, tanto pi piccolo
il SEM.Un SEM pi piccolo significa meno probabilit che lamedia del campione sia molto diversa da quella dellapopolazione.
7/29/2019 Analisi_statistica
30/100
Confidence interval: definizioni
Tabella per i Confidence Intervals
Confidence level 0.8 0.9 0.95 0.99
Z score 1.28 1.645 1.96 2.58
Confidence interval = intervallo attorno alla media in cui si ha una certa probabilit
che cada un valore
Confidence limits = i due valori, superiore e inferiore, che delimitano il confidence
interval
Confidence level = la probabilit per cui si calcola il confidence interval (per esempio
95% o 99%)
Z score = il numero di deviazioni standard (moltiplicatore) necessario per ottenere ilconfidence interval per un certo confidence level
Per esempio, per un
confidence level del 95%
Z score
Deviazione standard
CI = Media 1,96 x
7/29/2019 Analisi_statistica
31/100
Un confidence interval del 95% un intervallo di valori, centrato sulla media, che contiene
il 95% dei dati dellintera popolazione (ovvero, in cui c il 95% di probabilit che siacompreso un dato qualunque della popolazione). Corrisponde alla zona ombreggiata del
diagramma. Viene in genere definito per mezzo dei due valori a sinistra e a destra della
regione (confidence limits).
Il valore del 95% il confidence level, e si ottiene utilizzando come moltiplicatore uno z-
score di 1,96. Per ottenere livelli diversi, si usano z-scores appropriati (per esempio, per il
99% si deve moltiplicare per 2,58.
1.96 x
Z score
7/29/2019 Analisi_statistica
32/100
CI riferito alla media di un campione
Se ci riferiamo a un campione di unapopolazione, si definisce il CI della media comelintervallo attorno alla media del campione
entro cui c il 95% (o qualunque altro livello) diprobabilit che cada la vera media dellapopolazione
Il CI della media si calcola a partire dallerrorestandard della media (SEM) del campione
7/29/2019 Analisi_statistica
33/100
7/29/2019 Analisi_statistica
34/100
CI della media: come si calcola
Partendo da un campione, il CI della media sipu calcolare in due modi diversi:
Se nota la DSdella
popolazione generale:
CI = Media z x SEM
Se non nota la DSdella
popolazione generale:
CI = Media t x SEM stimato
Media del
campione
Z score
appropriato
SEM calcolato usando
la DS della popolazione
generale ()
Media del
campione
t appropriato
(sostituisce z)
SEM calcolato
usando la DS del
campione (s)
7/29/2019 Analisi_statistica
35/100
Distribuzione z e distribuzione t
La z-distribution descrive la
distribuzione dei dati in una
popolazione normalmente distribuita.
Intervallo attorno alla media = Media z x
% di dati nellintervallo 80% 90% 95% 99%
z 1.28 1.645 1.96 2.58
La t-distribution (t di Student) simile allaz, ma tiene conto dei gradi di libert (cio
della numerosit N del campione - 1). Per
N che tende allinfinito, t tende a z.
E opportuno usare la t-distribution in
problemi come quello di calcolare il CIper la valutazione della media di una
popolazione dalla media di un campione,
problemi cio in cui lincertezza delrisultato dipende in modo critico dalla
numerosit del campione.
t distribution
df Probability
50% 90% 95% 98% 99% 99,9%
1 l.000 6.314 12.706 3l.821 63.657 636.6l9
2 0.816 2.920 4.303 6.965 9.925 31.598
5 0.727 2.015 2.571 3.365 4.032 6.859
40 0.681 l.684 2.021 2.423 2.704 3.551
60 0.679 1.671 2.000 2.390 2.660 3.460
120 0.677 1.658 l.980 2.358 2.617 3.373
0.674 1.645 1.960 2.326 2.576 3.291
7/29/2019 Analisi_statistica
36/100
Problema della stima della mediaRiassumendo, il problema della stima il primo dei due problemi oggetto dellastatistica inferenziale, e in genere si presenta in questa forma:
Popolazione generale
(di cui non si conosce n la media n la deviazione standard)
Campione(di cui si conoscono N (numerosit),
M (Media) e s (DS)
Calcolo di un Confidence Inetrval attorno alla media del campione,
per un certo Confidence Level, utilizzando N, s, e la tabella t
Conclusione:Secondo i dati noti, c il X% (Confidence Level) di probabilit
che la media della popolazione cada entro il CI calcolato
7/29/2019 Analisi_statistica
37/100
Esempio di stima di una media
Se la media del campione , per esempio, 25, e ilCI calcolato per un CL del 95% va da 22 a 28(media 3), allora si pu dire che:
Secondo i dati a nostra disposizione, laffermazioneche
la media della popolazione di origine compresa fra 22 e 28
ha il 95% di probabilit di essere vera.
NB: E assolutamente sbagliato, invece, dire che, con il95% di probabilit, la media della popolazione di origine
uguale a 25
7/29/2019 Analisi_statistica
38/100
7/29/2019 Analisi_statistica
39/100
Stima della % da un campione
Per le variabili categoriche, in maniera assolutamente analoga, possibile stimare la percentuale di una variabile nella popolazionegenerale a partire da quella nel campione, calcolando un CI.Anche qui si calcola uno SE, di definisce un CL, e si calcolalintervallo.
Per esempio, ammettiamo che in uno studio su 165 neonati di peso < 1000 g, 124 (0,7515, cio
75,15%) abbiano avuto bisogno di ventilazione assistita. Se vogliamo stimare la proporzione nella
popolazione generale dei neonati di quel peso che ha bisogno di ventilazione, calcoleremo lo SE
(mettiamo che in questo caso sia 0,033). Fissato un CL, per esempio 95%, si sceglie un adatto
moltiplicatore (1,96 se si usa la z distribution) e si calcola il CI:
95% CI = 0,7515 1,96 x 0,033
In altre parole, dal campione in esame si pu stimare che c il 95% di
probabilit (CL) che la percentuale di neonati sotto il chilo di peso che ha
bisogno di ventilazione assistita sia compresa fra 0,687 (cio il 68,7%) e 0,817
(cio l81,7%) (CI)
Si ifi t d l CI d l CL
7/29/2019 Analisi_statistica
40/100
Riassumendo, il CI una misura del grado di imprecisione dellanostra stima. Pi ampio il CI, pi imprecisa la nostra stima.
Al contrario, il CL una misura del livello di certezza chevogliamo raggiungere. Pi alto il CL, maggiore la probabilitche la nostra affermazione sia vera.
Un CL alto fa aumentare la certezza, ma anche limprecisione
Un CL basso fa diminuire la certezza, ma aumenta la precisione
Significato del CI e del CL
Esempio:
La media del mio campione e 15. Quale sar la vera media della
popolazione?
A: Sar compresa fra 14 e 16 La probabilit che questo sia vero
dell80% (CI stretto e CL basso: alta precisione, minore certezza)
B: Sar compresa fra 12 e 18 La probabilit che questo sia vero del
95% (CI ampio e CL alto: bassa precisione, maggiore certezza)
7/29/2019 Analisi_statistica
41/100
Verifica di ipotesi
La verifica di ipotesi il secondo tipo di
problema affrontato dalla statistica inferenziale.
Lipotesi da verificare in questo caso lacosiddetta ipotesi nulla (null hypothesis)
7/29/2019 Analisi_statistica
42/100
Ipotesi nulla
Lipotesi nulla (H0) unipotesi che il ricercatore fa riguardo a un
parametro della popolazione oggetto della ricerca (in genere la media) eche viene confutata o non confutata dai dati sperimentali. Nel caso picomune, del confronto fra due campioni, la forma dellipotesi nulla laseguente:
H0: 1 = 2
Dove 1 e 2 sono le medie delle due popolazioni da cui sono stati trattii due campioni.
Per esempio, se i due campioni si riferiscono a neonati a termineoppure a neonati pretermine, e la variabile misurata il valore dellaglicemia a unora di vita, allora lipotesi nulla dice che:non c differenza fra la media dei valori glicemia a unora di vita
nelle due popolazioni.
Lipotesi alternativa, cio che la differenza esiste, prende il nome di H1
7/29/2019 Analisi_statistica
43/100
Ipotesi nulla
Molto spesso lipotesi nulla lopposto di ci che si vorrebbedimostrare.
Come vedremo, lipotesi nulla viene rigettata oppure no asecondo del suo livello di improbabilit.Se lipotesi nulla viene rigettata, questo un dato a favoredellipotesi alternativa. In senso stretto, per, il test statistico nondice nulla sullipotesi alternativa H1, ma solo sulla probabilitdellipotesi nulla.Riassumendo:
Se H0 viene rigettata perch improbabile, questo un dato afavore di H1
Se H0 non viene rigettata, questo non vuol dire che H0 debbaessere vera. Si pu solo dire che, sulla base dei dati raccolti, nonla si pu considerare abbastanza improbabile.
7/29/2019 Analisi_statistica
44/100
Il p-value (probability value)
Ma che vuol dire abbastanza improbabile? Anche nelcaso della verifica di ipotesi, necessario decidere unlivello di improbabilit che autorizzi a rigettare lipotesinulla.
Questo valore si chiama p-value, o soltanto p, e si pudefinire come la probabilit che il risultato ottenuto (peresempio la differenza fra le medie dei due campioni) siadovuto al caso, se lipotesi nulla vera, cio se le mediedelle popolazioni da cui i campioni sono tratti sono uguali.
Il p si esprime come frazione dellunit. Valori di p spessousati come livello sono:
7/29/2019 Analisi_statistica
45/100
Il p-value
Glicemia a unora in un
campione di neonati a termine
Media = M1
IPOTESI NULLA: La media dei valori di glicemia a unora nella
popolazione di tutti i neonati a termine (1) e nella popolazione
di tutti i neonati pretermine (2) uguale (1 = 2)
M1 > M2
Glicemia a unora in un
campione di neonati pretermine
Media = M2
SCELTA DEL LIVELLO: Sar considerato significativo un p < 0,01
A questo punto si dovr scegliere un modello di analisi statistica
appropriato per il tipo di problema (per esempio, in questo caso, il t di Student).
Il risultato del calcolo statistico, alla fine, dovr essere espressosotto forma di p-value per lipotesi nulla.
SE il p < a 0,01: lipotesi nulla viene rigettata, in favore di una possibile
ipotesi alternativa.
SE il p > a 0,01: lipotesi nulla non viene rigettata. Ci non dimostra che
essa sia vera.
7/29/2019 Analisi_statistica
46/100
Errori di tipo I e II
SE il p < a 0,01: lipotesi nullaviene rigettata, in favore di una
possibile ipotesi alternativa.
(studio che ha successo)
SE il p > a 0,01: lipotesi nullanon viene rigettata. Ci nondimostra che essa sia vera.
(studio che non ha successo)
Se per lipotesi nulla vera, si
commette un errore di tipo I.
La probabilit di commettere un
errore di tipo I (detta ) ugualeal p-value.
Se comunque lipotesi nulla falsa, si commette un errore di
tipo II.
La probabilit di commettere un
errore di tipo II (detta ) spessonon calcolabile.
La causa pi frequente di errore
di tipo II la numerosit
insufficiente dei campioni.
7/29/2019 Analisi_statistica
47/100
Errore tipo II e potenza
la probabilit di commettere un errore di tipo II,cio di non riuscire a rigettare unipotesi nulla che falsa (in altre parole, di non riuscire ad affermare la
nostra ipotesi anche se vera 1- esprime la potenza di uno studio, cio laprobabilit di non commettere un errore di tipo II
Se 0,20, la potenza dello studio sar 0,80, in altre
parole lo studio avr l80% di probabilit di riuscire adimostrare la propria ipotesi, se questa vera
di d l ?
7/29/2019 Analisi_statistica
48/100
Da cosa dipende la potenza?
1. Dalla dimensione reale delleffetto che si vuole dimostrare. In
altre parole, quanto pi il segnale da rivelare grande, tantopi facile , per uno studio, rivelarlo.
2. Dal livello di significativit prefissato (soglia di p). In altreparole, quanto pi bassa si pone la soglia di p, tanto pi facile che non si arrivi a quella soglia anche se lipotesi vera.Uno studio che vuole essere pi affidabile, sar anche menopotente.
3. Dalla numerosit del campione. Pi grande N, pi potente lo studio.
4. Dalla varianza (o DS) della popolazione di origine. Pigrande la varianza, meno potente lo studio
5. Da altri fattori: normalit della popolazione, tipo di teststatistico adoperato
i i d l i
7/29/2019 Analisi_statistica
49/100
Dimensionamento del campione Un campione troppo piccolo porta pi facilmente ad errori
di tipo II La numerosit del campione dipende per in modo criticodallentit della differenza esistente fra le due popolazionirelativamente al parametro oggetto dello studio
In uno studio RCT, quindi, importante dimensionare inanticipo il campione, cio decidere prima quanti soggettidovranno essere arruolati per rispondere al quesito
Il dimensionamento va fatto tenendo conto della differenzapi piccola che si ha interesse a cogliere (grandezza del
segnale minimo che si considera utile), e del livello disignificativit statistica che si desidera raggiungere (cio,della soglia fissata per il p)
7/29/2019 Analisi_statistica
50/100
Scelta del test appropriato
A seconda della forma del problema, si sceglier
un test diverso per la verifica delle ipotesi. E
importante ricordare che, qualunque sia il teststatistico impiegato, alla fine il risultato dovr
essere espresso sotto la forma di un p-value
perch lo si possa interpretare.
i h h bi ?
7/29/2019 Analisi_statistica
51/100
Di che test ho bisogno?
Variabili quantitative in gruppi categorici:
confronto fra le medie di due campioni, anchedi numerosit diversa (between-subject)
Variabili quantitative in un gruppo unico:confronto fra coppie di misurazioni nello stessosoggetto (within-subject)
Variabili qualitative in gruppi categorici:confronto fra conteggi (numero dei casi chericadono in differenti categorie)
Rapporto fra due variabili quantitative continuemisurate nello stesso gruppo di soggetti
Variabili quantitative continue o in gruppicategorici: confronto fra le medie di tre o picampioni, e di pi variabili indipendenti(analisi covariata)
Analisi contemporanea di pi variabilidipendenti
t di Student, unpaired
t di Student, paired
ANOVA, ANCOVA
Chi quadro
Coefficiente di correlazione r
e regressione
MANOVA
T t di St d t i d
7/29/2019 Analisi_statistica
52/100
Test di Student unpaired
(between-subject design)
Due gruppi categorici
Maschi Femmine
In cui si misura una variabile
dipendente quantitativa
Bilirubinemia:
media, DS
Bilirubinemia:
media, DS
Due gruppi creati a partire da una variabile
quantitativa secondo un valore arbitrario
EG < 37 sett EG >= 37 sett
In cui si misura una variabile
dipendente quantitativa
Bilirubinemia:
media, DS
Bilirubinemia:
media, DS
OP
P
U
R
E
Test di student paired
7/29/2019 Analisi_statistica
53/100
Test di student paired
(within-subject design)
Un solo gruppo
Neonati a termine
Bilirubina a 2 gg Bilirubina a 4 gg
Due misurazioni per ciascun soggetto
Ogni misurazione viene confrontata con quella corrispondente nello stesso soggetto
7/29/2019 Analisi_statistica
54/100
Variet di t-test
Nel t-test per campioni indipendenti (unpaired) i duecampioni si riferiscono a due gruppi di soggetti diversi(per esempio pazienti trattati o non trattati):
between-subject design.
Nel t-test per campioni appaiati (paired) i due campionisi riferiscono a due diverse misurazioni dello stessoparametro nello stesso gruppo di soggetti (per esempioglicemia prima e dopo un trattamento). In questo caso ci
saranno due misurazioni per ogni soggetto, e quindi lanumerosit dei due campioni necessariamente uguale:
within-subject design.
7/29/2019 Analisi_statistica
55/100
Il test del t di Student
Student lo pseudonimo con cui William Gosset, pubblic nel 1908un lavoro sulla distribuzione t nel caso in cui un campione piccolovenga utilizzato per stimare i parametri della popolazione di origine.
La distribuzione t si avvicina a quella normale (distribuzione z) manmano che la numerosit del campione cresce.
7/29/2019 Analisi_statistica
56/100
Il test del t di Student
Il test del t di Studentapplica il concetto di distribuzione t al confronto fra duecampioni, in particolare alla distribuzione della differenza fra la media di due campioni
derivati dalla stessa popolazione di origine (ipotesi nulla)
Distribuzione ideale delle medie
di due campioni
Tre scenari per la differenza fra due medie
Il t-test come esempio di valutazione del rapporto segnale-rumore
La formula del t-test
i di
7/29/2019 Analisi_statistica
57/100
Variet di t-test
Per campioni indipendenti, anche di numerosit diversa(unpaired):
- campioni con varianza simile (omoschedastico)
- campioni con varianza diversaPer campioni appaiati (paired)
NB: In tutti i casi il test pu essere calcolato a una coda
o a due code
7/29/2019 Analisi_statistica
58/100
Variet di t-test
nel test ad una coda, la zona di rifiuto solamente da una parte della distribuzione (asinistra quando il segno negativo, a destraquando positivo)
nel test a due code, la zona di rifiuto distribuita dalle due parti
Il test a due code pi conservativo (vi siricorre quando non si ha alcuna idea suipossibili risultati) mentre il test ad una coda pi potente
T
7/29/2019 Analisi_statistica
59/100
T-test
Il t-test un test molto robusto. Questo significa che,se applicato bene, d risultati affidabili anche quando lepopolazioni di origine non hanno una distribuzionenormale, soprattutto se le dimensioni dei campioni non
sono estremamente ridotte.
In tutti i casi in cui non si abbia una comprensioneprecisa di quale variet applicare, pi opportuno
ricorrere, conservativamente, al test unpaired, a duecode, per campioni con varianza differente
7/29/2019 Analisi_statistica
60/100
Chi quadro
Il chi quadro si applica quando la variabile dipendente espressacome conteggi in categorie. I risultati quindi sono espressi sottoforma di una tabella (2x2, 2x3, 3x3, ecc.)
Per esempio, se vogliamo valutare il follow-up a 5 anni dei pazientiaffetti da una certa patologia a seconda del sesso, ed esprimiamo ilrisultato come conteggio del numero di pazienti guariti, ancora
malati o morti, avremo una tabella 2x3:
Guariti Malati Morti
Maschi 20 12 4
Femmine 15 9 6
7/29/2019 Analisi_statistica
61/100
Come si calcola il chi quadro
Il calcolo del chi quadro si basa sul confronto fra frequenze osservate efrequenze attese nelle singole sottocategorie.
Le frequenze attese si calcolano a partire dalle frequenze osservate
Guariti Malati
Valori osservati M 20 8 28
F 16 13 29
36 21 57
Guariti Malati
Valori attesi M 17.68 10.32
F 18.32 10.68
chi (p) = 0.203
17.68 = 36*28 / 57
C d l hi d l
7/29/2019 Analisi_statistica
62/100
Come passare dal chi quadro al p
Il test del chi quadro calcola i valori
attesi per ogni cella della tabella, e li
confronta con quelli osservati. Il
risultato ottenuto, detto appunto chi
quadro, viene trasformato in p-value
in maniera dipendente dai gradi di
libert (il numero di gradi di libert di
una tabella uguale al numero di
righe meno 1 moltiplicato per ilnumero di colonne meno 1)
df P = 0.05 P = 0.01 P = 0.001
1 3.84 6.64 10.83
2 5.99 9.21 13.82
3 7.82 11.35 16.27
4 9.49 13.28 18.475 11.07 15.09 20.52
6 12.59 16.81 22.46
7 14.07 18.48 24.32
8 15.51 20.09 26.13
9 16.92 21.67 27.88
10 18.31 23.21 29.59
11 19.68 24.73 31.26
12 21.03 26.22 32.91
Risk e Odds
7/29/2019 Analisi_statistica
63/100
Risk e Odds
Un modo semiquantitativo di esprimere la significativit nel caso di variabilicategoriche rappresentato dai concetti di risk, odds, risk ratio e odds ratio.
Immaginiamo una tabella 2x2 che esprima lincidenza di handicap in funzionedel peso alla nascita
Handicap Non handicap Totale
A. < 1000 g 10 42 52
B. 10001500g 8 88 96
Si definisce rischio (risk) il rapporto fra i soggetti con outcome e il totale,
mentre si definisce probabilit (odds) il rapporto fra soggetti con
outcome e soggetti senza.
Per A: Risk = 10/52 = 0,19 Odds = 10/42 = 0,24
Per B: Risk = 8/96 = 0,08 Odds = 8/88 = 0,09
Risk Ratio e Odds Ratio
7/29/2019 Analisi_statistica
64/100
Risk Ratio e Odds Ratio
Se invece confrontiamo i due gruppi fra di loro, otterremo il Risk Ratio (RR,detto anche Relative Risk) e lOdds Ratio (OR).
Handicap Non handicap Totale
A. < 1000 g 10 42 52
B. 10001500g 8 88 96
Per A: Risk = 10/52 = 0,19 Odds = 10/42 = 0,24
Per B: Risk = 8/96 = 0,08 Odds = 8/88 = 0,09
Confronto di A con B:
RR = 0,19/0,08 = 2,3
OR = 0,24/0,09 = 2,6
Risk Ratio e Odds Ratio: significato
7/29/2019 Analisi_statistica
65/100
Risk Ratio e Odds Ratio: significato
Sia il RR che lOR possono essere riportati, in modo semiquantitativo, a un giudizio disignificativit nel rigettare lipotesi nulla. Ecco due tabelle orientative:
Confronto di A con B:
RR = 0,19/0,08 = 2,3
OR = 0,24/0,09 = 2,6
Table 1. Semiquantitative grading of the relative risk, odds ratio, or rate ratio
Reported Relative Risk, Odds Ratio, or Rate Ratio Estimate
3.0 +++
1 Values 1 indicate increased risk.
Risk Ratio e Odds Ratio: differenza
7/29/2019 Analisi_statistica
66/100
Risk Ratio e Odds Ratio: differenza
Per outcome rari rispetto allintera popolazione, RR e OR sonoquasi uguali.
Quanto pi loutcome frequente, tanto pi il RR e lORdivergono, tenendo presente che lOR sempre pi grande,cio pi lontano dallunit, del RR.
Confronto di A con B:
RR = 0,19/0,08 = 2,3
OR = 0,24/0,09 = 2,6
ANOVA
7/29/2019 Analisi_statistica
67/100
ANOVA
Se si confrontano fra loro tre o pi gruppi, non pi correttoutilizzare il t-test ripetendolo per tutte le combinazioni. In questomodo la probabilit di avere risultati falsamente significativicresce al crescere del numero di gruppi.
In questi casi si deve usare una metodologia di calcolo picomplessa, chiamata ANOVA (ANalysis OfVAriance).
Questo metodo tiene conto non solo della devianza totale deivalori, ma anche della devianza tra (between) i gruppi e delladevianza entro (within) i gruppi.
LANOVA un calcolo statistico complesso, e richiede in genereuna buona comprensione dei concetti teorici di base.
7/29/2019 Analisi_statistica
68/100
Confronto fra due o pi variabili
I test considerati finora misurano una variabile in
pi gruppi. Quando invece si vuole confrontare
landamento di due o pi variabili quantitativenello stesso gruppo si ricorre ai test di
correlazione e di regressione.
Coefficiente di correlazione
7/29/2019 Analisi_statistica
69/100
Coefficiente di correlazione
Il coefficiente di correlazioneesprime la probabilit che duevariabili siano correlate fra loro,anche se non sussiste necessariamenteun rapporto diretto di causalit. Lacorrelazione pu essere lineare o di
altro tipo (quadratica, ecc.)Un coefficiente di correlazione va da-1 (correlazione negativa) a 1(correlazione positiva). I valoriintorni allo 0 esprimono lassenza dicorrelazione.
Il pi semplice coefficiente dicorrelazione quello di Pearson,detto r, che misura la correlazionelineare fra due variabili in uncampione.
r = -1
r = +1
r = 0
Altri esempi di r
7/29/2019 Analisi_statistica
70/100
Altri esempi di r
7/29/2019 Analisi_statistica
71/100
Coefficiente di determinazione r2
E il quadrato della correlazione, ed esprime lapercentuale della variazione dei valori di y che spiegata dal modello di regressione associato a x
0 r2
1.
Quanto pi grande r2 , tanto pi forte la relazionelineare
Quanto pi r2
vicino a 1, tanto pi sicure sono le nostrepredizioni
7/29/2019 Analisi_statistica
72/100
Coefficiente di determinazione
Rapporto fra r e r2
Come passare da r a p
7/29/2019 Analisi_statistica
73/100
7/29/2019 Analisi_statistica
74/100
Una riflessione sul significato di p
In questo esempio, abbiamo due casi in cui il p di
0,05, ma il significato molto diverso
In questo campione di 5 casi (N = 5), r molto alto
(0,80), e quindi la correlazione fra le due variabili
elevata. A causa del piccolo numero di rilevazioni, per,
la probabilit che questo risultato sia casuale elevata, e
il valore del p si attesta a 0,05.
In altre parole, sembra che fra le due variabili ci sia una
correlazione molto alta, ma non lo si pu dire con molta
certezza perch il numero di dati piccolo
In questaltro caso, invece, il numero di dati moltogrande (N = 1000), ma r piccolo (0,05). Anche qui, psi attesta a 0,05.
In altre parole, fra le due variabili c probabilmenteuna correlazione, ma la correlazione di lieve entit
Significato generale di un test
7/29/2019 Analisi_statistica
75/100
In altre parole, possiamo considerare il risultato di un test statistico,
come il t-test o r, come la misura di un rapporto segnale/rumore.Il segnale lentit della differenza fra due gruppi di dati nel confrontofra medie (t di Student), o lentit della correlazione fra due variabili(r).
Il rumore la probabilit della generazione casuale di uno pseudo-segnale, e dipende in modo critico dalla numerosit dei dati.
Significato generale di un test
Segnaleentit della differenza fra lemedie, o della correlazione
Rumorevariabilit casuale
7/29/2019 Analisi_statistica
76/100
Regressione
Se esiste correlazione fra due variabili,
possibile calcolare una funzione che descriva
il rapporto fra le due variabili e che permetta
di predire altri valori. Se tale funzione unalinea, si parla di regressione lineare, altrimenti
di regressione non lineare.
Se le variabili sono pi di due, si parla di
regressione multipla
Un esempio di regressione lineare
7/29/2019 Analisi_statistica
77/100
Un esempio di regressione lineare
La formula generale di una linea di regressione :
y = a + bx
dove a il punto di intersezione dellasse Y, e b lapendenza della linea (angolo con lasse X)
La linea di regressione viene calcolata in maniera da rendere
minima la somma degli scarti quadratici dei singoli valori osservati
7/29/2019 Analisi_statistica
78/100
Predizione
Il calcolo di una linea di regressione pu permettere di farepredizioni riguardo a valori non osservati
7/29/2019 Analisi_statistica
79/100
Regressione lineare e non lineare
7/29/2019 Analisi_statistica
80/100
Regressione multipla
I test di regressione multipla valutano
la maniera in cui molte variabili
indipendenti influenzano unasingola variabile dipendente: per
esempio, come vari fattori prognostici
influenzano la sopravvivenza in una
patologia neoplastica.
Regressione multipla lineare e non
7/29/2019 Analisi_statistica
81/100
Regressione multipla lineare e non
lineare
Curve di Kaplan Meier
7/29/2019 Analisi_statistica
82/100
Curve di Kaplan Meier
La curva di Kaplan Meier permette di rappresentare i dati diuno studio in termini di time to event, cio del temponecessario perch i pazienti raggiungano un determinatoendpoint (per esempio la morte: in questo caso la curva unacurva di sopravvivenza).
La curva rappresenra tutti i dati disponibili in termini dipercentuale dellevento rispetto al tempo trascorso
dallarruolamento, e questo permette di valutare insieme i dati dipazienti arruolati in tempi diversi.
Vengono inclusi anche i pazienti che non hanno presentatoancora lendpoint al momento della chiusura dello studio, e quellidei pazienti persi al follow-up. Tali dati vengono definiticensored e il tempo trascorso fra larruolamento e laconclusione dello studio, oppure fra larruolamento e luscitadallo studio per i persi al follow-up, rappresentato graficamentecon un segno verticale (tick mark).
7/29/2019 Analisi_statistica
83/100
Un esempio di curva di Kaplan Meier
7/29/2019 Analisi_statistica
84/100
Un esempio di curva di Kaplan Meier
Example of a Censored Curve with Tick MarksThis Group of Patients Has a Minimum Follow-Up of a Little Over a Year
Rappresentazione di due gruppi come curva di Kaplan Meier
7/29/2019 Analisi_statistica
85/100
Gap verticale: differenza
nellesito finale
Gap orizzontale: differenza
nel tempo di presentazione
delloutcome
V l i d i i d K l M i
7/29/2019 Analisi_statistica
86/100
Valori derivati da una curva Kaplan Meier
Mediana = tempo a cui il 50% dei pazienti ha
presentato levento
Media = tempo medio di presentazione
dellevento
7/29/2019 Analisi_statistica
87/100
Comparison of survival between two groups. Eyeballing the KM curves for the Placebo and 6-
MP groups, we see that
1. Median survival time is 22.5 m for 6-MP and 8 for placebo (14.5 month difference).
2. The Kaplan-Meier curve for 6-MP group lies above that for the Placebo group and there is a
big gap between the two curves: the survival of 6-MP seems to be superior.
3. The gap seems to become bigger as time progresses.
Valutazione statistica delle curve di Kaplan
7/29/2019 Analisi_statistica
88/100
p
Meier
Lanalisi statistica basata sui principi del chi-quadro, che confronta le percentuali attese con
quelle osservate.
Test: Log rank test.
H0: non c differenza fra le curve A e B
H1: la differenza esiste
Il risultato finale espresso come p.
7/29/2019 Analisi_statistica
89/100
Confronto fra curve di Kaplan Meier
7/29/2019 Analisi_statistica
90/100
p
(Log Rank Test)
Figure 2:Survival of patients in the low risk group treated by liverresection alone or liver resection plus adjuvant chemotherapy.(n=113; Kaplan-Meier estimate, log-rank test).
Cox regression test
7/29/2019 Analisi_statistica
91/100
Cox regression test
E un modello complesso di analisi di regressione multivariata, che
permette sia il confronto fra curve di sopravvivenza di tipo KaplanMeier che il calcolo del contributo di fattori prognostici
indipendenti al rischio.
Un esempio di valutazione del contributo di fattori diversi al rischio cumulativo
Cox proportional hazards model e
7/29/2019 Analisi_statistica
92/100
p p
hazard ratio
Il modello di Cox permette di valutare dueimportanti aspetti nellambito di unarappresentazione time to event di tipoKaplan Meier:
1. Calcolo dell hazard ratio, un numero cheesprime il rischio relativo fra i due gruppi
per unit di tempo2. Calcolo del contributo indipendente al
rischio di pi variabili (analisi covariata)
H d ti diff f i
7/29/2019 Analisi_statistica
93/100
Hazard ratio e differenza fra gruppi
Non sempre lhazard ratio esprime in modorealistico la differenza clinica fra due gruppi.
Come molte misure complesse, il suo significato
pu essere fuorviante, perch dipende in manieracritica dalla forma delle curve.
Se si vuole sapere essenzialmente la rilevanzadel significato clinico finale, occorre semprevalutare anche la mediana e la media delle duecurve.
Cox model
7/29/2019 Analisi_statistica
94/100
Il modello di Cox permette di calcolare il
contributo delle singole variabili alloutcome,stratificando in maniera complessa per le
differenti variabili (analisi covariata)
7/29/2019 Analisi_statistica
95/100
7/29/2019 Analisi_statistica
96/100
7/29/2019 Analisi_statistica
97/100
7/29/2019 Analisi_statistica
98/100
7/29/2019 Analisi_statistica
99/100
7/29/2019 Analisi_statistica
100/100