Statistica Lezione 8 - uniupo.itStatistica Lezione 8 a.a2011-2012 Dott.ssaDaniela Ferrante...
Transcript of Statistica Lezione 8 - uniupo.itStatistica Lezione 8 a.a2011-2012 Dott.ssaDaniela Ferrante...
Statistica
Lezione 8
a.a 2011-2012
Dott.ssa Daniela [email protected]
Università degli Studi del Piemonte OrientaleCorso di Laurea in Infermieristica
Corso integrato in Scienze della Prevenzione e dei Serviz i sanitari
22
Tabelle di contingenza
La tabella seguente presenta la frequenza di osservazioni, categorizzate secondo due variabili
Risultato
Farmaco Curato Non curato Totale
A a b a+b
B c d c+d
TOTALE a+c b+d a+b+c+d
33
La seguente notazione è più generale e si applica a tabelle di qualsiasi dimensione
Tabelle di contingenza
Risultato
Farmaco Curato Non curato Totale
A n11 n12 n1.
B n21 n22 n2.
TOTALE n.1 n.2 n..
44
Si noti che, una volta definito un valore per una delle quattro celle, resta definito anche il valore delle celle restanti, fissati i totali marginali.
In altri termini, in una tabella 2*2 una sola delle celle èlibera di assumere qualsiasi valore, le restanti sono fissate dai totali marginali.
Il numero di celle libere corrisponde al numero di gradi di libertà (g.l. o d.f.).
Tabelle di contingenza
55
Gradi di libertà
Il numero di gradi di libertà in una tabella r * c è dato da:g.l. = (n.righe-1) * (n.colonne-1)
Le tabelle 2*2 hanno quindi 1 grado di libertà.
66
L’analisi di una tabella di contingenza prevede:
� Il calcolo di indicatori di associazione tra le due variabili
� La valutazione della probabilità di osservare la tabella in esame data l’ipotesi nulla (test di significatività).
Tabelle di contingenza
77
Esaminiamo dapprima il caso delle tabelle 2*2
Malattia
Caso Controllo Totale
Esposizione Presente a b a+b
Assente c d c+d
Totale a+c b+d a+b+c+d
Tabelle di contingenza
88
Odds ratio
La misura di associazione usata più frequentemente è l’Odds Ratio (Rapporto Crociato), abbreviato con OR.
Come Odd intendiamo il rapporto: (probabilità a favore / probabilità contrarie).
99
L’odd di malattia tra i soggetti con esposizione è il rapporto tra le due probabilità condizionate: P(Malattia|Esposizione) e P(Non_malattia|esposizione).
Odd(M|E)= [a/(a+b)] / [b/(a+b)] = a/b
In modo analogo si ottiene l’odd di malattia tra i soggetti senza esposizione come rapporto tra le due probabilitàcondizionate P(Malattia|Non_Esposizione) e P(Non_malattia|Non_esposizione).
Odd(M|Non_E)=[c/(c+d)] / [d/(c+d)] = c/d
Odds ratio
1010
Odds Ratio (OR) è il rapporto tra i due odds:
OR = (a/b)/(c/d) = (a*d) / (c*b)
L’intervallo di valori validi per OR è:
0 <= OR <= ∞
Odds ratio
1111
Esempio 1
Un campione di 500 studenti ha partecipato ad uno studio volto a valutare il livello di conoscenza di un certo gruppo di malattie comuni da parte di studenti universitari dei primi anni di medicina
Tipo di facoltà Conoscenza delle malattie
Buona Scarsa Totale
Medicina 31 91 122
Altro 19 359 378
TOTALE 50 450 500
1212
OR (Medicina vs. Altro) = (31 * 359) / (91 * 19) = 6,4
Interpretazione:
Le due variabili sembrano associate: la probabilità di conoscere le malattie è 6,4 volte maggiore per gli studenti di medicina che per gli iscritti ad altre facoltà
Esempio 1
1313
Intervallo di confidenza dell’odds ratio
IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR))
ln(OR) = logaritmo in base “e” dell’Odds Ratio
dcbaORES
1111))(ln( +++=
e ORESORORIC ))(ln(*)ln(2)( Ζ±= α
1414
Esempio 1
α = 0,05 da distribuire nelle due code poichè l' intervallo di confidenza è bilaterale
I.C.95%: e(1,86 - 1,96 * 0,31) ; e(1,86 + 1,96 * 0,31)
I.C.95%: (3,50; 11,79)
31,0359/119/191/131/1))(ln( =+++=ORES
1515
Test di ipotesi
Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito corrisponde all'associazione tra le due variabili mentre l'ipotesi nulla corrisponde all'assenza di associazione.
H0: le variabili non sono associate (quindi OR=1)
1616
Test chi-quadro
Il test statistico misura la probabilità di osservare una tabella come quella data (o più estrema) se vale l'ipotesi nulla.
Il test adottato è il Chi-quadro (χ2).
Questo test fornisce la probabilità (data l’ipotesi nulla) di osservare una tabella come quella in esame o una tabella più ‘estrema’.
1717
( )∑
−=
attattoss
2
2χ
χ2= (a-E(a)) 2 + (b-E(b))2 + (c-E(c)) 2 + (d-E(d)) 2
E(a) E(b) E(c) E(d)
Test chi-quadro
1818
Calcolo del numero di osservazioni attese
Conoscenza delle malattie
Facoltà Buona Scarsa Totale
Medicina E(a) = (a+b)*(a+c)/T E(b)=(a+b)*(b+d)/T a+b
Altro E(c ) = (c+d)*(a+c)/T E(d)=(c+d)*(b+d)/T c+d
TOTALE a+c b+d T
Test chi-quadro
1919
Come si usa il valore χ2 ?
Il valore di probabilità corrispondente al valore della statistica χ2 si legge su apposite tabelle, dato il valore di χ2 ed il numero di gradi di libertà.
Ponendo alfa=0.05 e considerando 1 grado di libertà(essendo la tabella 2x2) otteniamo:
Test chi-quadro
2020
Distribuzione Chi quadrato
Probabilità 0,001 0,01 0,025 0,05 0,1
gradi libertà 1 10,83 6,64 5,02 3,84 2,71
2 13,82 9,21 7,38 5,99 4,61
3 16,27 11,35 9,35 7,82 6,25
4 18,47 13,28 11,14 9,49 7,78
5 20,52 15,09 12,83 11,07 9,24
6 22,46 16,81 14,45 12,59 10,65
7 24,32 18,48 16,01 14,07 12,02
8 26,13 20,09 17,54 15,51 13,36
9 27,88 21,67 19,02 16,92 14,68
10 29,59 23,21 20,48 18,31 15,99
11 31,26 24,73 21,92 19,68 17,28
12 32,91 26,22 23,34 21,03 18,55
13 34,53 27,69 24,74 22,36 19,81
14 36,12 29,14 26,12 23,69 21,06
15 37,70 30,58 27,49 25,00 22,31
16 39,25 32,00 28,85 26,30 23,54
17 40,79 33,41 30,19 27,59 24,77
18 42,31 34,81 31,53 28,87 25,99
19 43,82 36,19 32,85 30,14 27,20
20 45,32 37,57 34,17 31,41 28,41
per numeri di g.l. superiori a 20 usate la riga corrispondente a 20
2121
Tipo di facoltà Conoscenza delle malattie
Buona Scarsa Totale
Medicina 31 91 122
Altro 19 359 378
TOTALE 50 450 500
2222
Calcolo i valori attesi:
Conoscenza delle malattie
Facoltà Buona Scarsa Totale
Medicina E(a) = 12,2 E(b) = 109,8 122
Altro E(c) = 37,8 E(d) = 340,2 378
TOTALE 50 450 500
2323
58,422,340
)2,340359(
8,37
)8,3719(
8,109
)8,10991(
2,12
)2,1231(2222
2 =−+−+−+−=χ
42,58 > 3,84 quindi rifiuto H0
P value < 0,001
2424
Distribuzione chi-quadro
3,841,98
0,050,05
2525
Tabelle R x C
L’estensione del calcolo di χ2 a tabelle con un maggior numero di righe e di colonne è semplice e si basa sulla formula:
Il numero di gradi di libertà si calcola come: (righe-1)*(colonne-1).
( )∑
−=
attattoss
2
2χ
2626
χχχχ2 esatto
La formula approssimata è valida quando il numero di osservazioni non è troppo piccolo
Quando la tabella ha un valore atteso minore di 5 in qualche
cella, si suggerisce di utilizzare la formula del χ2 esatto, sviluppata da Fisher.
Il test si basa sul calcolo della probabilità associata alla tabella osservata ed a ciascuna delle tabelle ‘più estreme’(cioè con indicatore di associazione maggiore di quello osservato nella tabella data)
2727
χχχχ2 esatto
Uso casco e traumi facciali negli incidenti con bicicletta
Con casco Senza casco Totale
Traumi facciali 2 (3) 13 (12) 15
Altri traumi 6 (5) 19 (20) 25
TOTALE 8 32 40
Fisher's Exact TestH0: π1 - π2 = 0
H1: π1 - π2 ≠≠≠≠ 0p-value = 0.69924
≠Alternative
> <
2828
Posso anche calcolare il valore di probabilità utilizzando una funzione di Excel: