STATISTICA MEDICA - med.unipg.it Didattico... · gli indici di variabilità (o dispersione) Vedremo...
-
Upload
phungnguyet -
Category
Documents
-
view
224 -
download
0
Transcript of STATISTICA MEDICA - med.unipg.it Didattico... · gli indici di variabilità (o dispersione) Vedremo...
STATISTICA MEDICA
Prof.ssa Donatella Siepi
tel: 075 5853525
UNIVERSITA’ DEGLI
STUDI DI PERUGIA
05 dicembre 2014
Statistica descrittiva
C
Rilevazione dei dati Rappresentazione dei dati Elaborazione dei dati
STATISTICA DESCRITTIVA
piano tabelle grafici Medie e indici di
variabilitàA
D
E
B
C
A
D
E
B
Indici Statistici
Per sintetizzare i dati ed evidenziare una
certa caratteristica:
• Indici di tendenza centrale
• Indici di dispersione
• La forma
5
• Campo di variazione (Range)
• Scarto medio dalla media
• Varianza e scarto quadratico medio
• Coefficiente di variazione
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
6
Scarto medio dalla media aritmetica
Un modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze
Scarto medio = Distanza media dei dati dalla
media
n
xxxxxx n
.....S medio Scarto
21
m
7
Esempio
Consideriamo le valutazioni di una prova
1a Prova
1° studente 3
2° studente 5
3° studente 8
4° studente 9
media 6,25
x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25;
x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25
4
8
Calcoliamo lo Scarto medio per tutte le tre prove
Scarto 1a prova = 2,25 dati più dispersi,
risultati più eterogenei
Scarto 3a prova = 0,38 dati più concentrati, risultati più omogenei
Scarto 2a pr. Scarto 1a pr.
“Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6
media 6,25 6,25 6,25
scarto medio 2,25 2,13 0,38
9
• Campo di variazione (Range)
• Scarto medio dalla media
• Varianza e scarto quadratico medio
• Coefficiente di variazione
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
10
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.
Varianza
Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M
n
xxxxxx n
22
2
2
12 ..... Varianza
12
Esempio - Varianza
Consideriamo le valutazioni della prima prova
1a Prova
1° studente 3
2° studente 5
3° studente 8
4° studente 9
media 6,25
(x1)2 = (3 – 6,25 )2 = 10,5625; (x2)
2 = (5 – 6,25 )2 = 1,5625;
(x3)2 = (8 – 6,25 )2 = 3,0625; (x4)
2 = (9 – 6,25 )2 = 7,5625;
2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875
4
13
Calcoliamo la Varianza per tutte le tre prove
Varianza 1aprova = 5,69 dati più dispersi,
risultati più eterogenei
Varianza 3a prova = 0,19 dati più concentrati, risultati più omogenei
Varianza 2a pr. Varianza 1a pr
“Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6
media 6,25 6,25 6,25
varianza 5,69 6,19 0,19
Varianza
La varianza di una popolazione (1), il
cui simbolo è σ2 , è ottenuta
dividendo la devianza per n, il
numero di osservazioni.
La varianza di un campione (2), il cui
simbolo è s2 , è ottenuta dividendo la
devianza per n-1, il
numero di gradi di libertà.
La varianza o Quadrato Medio è una devianza media o
devianza rapportata al numero di osservazioni.
15
Scarto quadratico medio o Deviazione
standard
È uguale alla radice quadrata della varianza
n
x
n
xxn
i
n
i
1
2
1
2
medioquadr Scarto
n
xxxxxx n
22
2
2
1 ..... medio quadr. Scarto
16
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
1a Prova scarti da M scarti2
1° studente 3 -3,25 10,5625
2° studente 5 -1,25 1,5625
3° studente 8 1,75 3,0625
4° studente 9 2,75 7,5625
media 6,25 0,00 5,6875
3848,26875,521
2
n
xn
i
17
Calcoliamo lo Scarto quadratico medio per tutte le
prove
Scarto q. 1aprova = 2,38 dati più dispersi,
risultati più eterogenei
Scarto q. 3aprova = 0,43 dati più concentrati, risultati più omogenei
Scarto q. 2a pr. Scarto q. 1a pr
“Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6
media 6,25 6,25 6,25
scarto quadratico 2,38 2,49 0,43
18
Osservazioni:
1. La varianza 2 e lo scarto quadratico medio
danno
informazioni sulla distribuzione dei dati:
• più 2 e sono piccoli più i dati sono
concentrati;
• più 2 e sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati delladistribuzione
19
3. Entrambi si basano sulla proprietà della media per
cui la somma dei quadrati degli scarti dalla media è
minima
4. La varianza è espressa mediante il quadrato
dell’unità di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura
dei dati e pertanto viene preferito alla varianza
20
• Campo di variazione (Range)
• Scarto medio dalla media
• Varianza e scarto quadratico medio
• Coefficiente di variazione
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante
gli indici di variabilità (o dispersione)
Vedremo i seguenti indici
La DS è la stima di variabilità di un campione
(molto utile quando le medie dei due campioni
sono simili)
Non consente di confrontare la variabilità di
campioni le cui medie sono sensibilmente
differenti
In questo caso si usa il
COEFFICIENTE di VARIAZIONE
Coefficiente di variazione
Il coefficiente di variazione (coefficient of
variation oppure coefficient of variability) è
una misura relativa di dispersione, mentre le
precedenti erano tutte misure assolute.
Permette di valutare la dispersione dei valori attorno alla media indipendentemente dall'unità di misura. Ad esempio, la deviazione standard di un campione di redditi espressi in Lire è completamente diversa della deviazione standard degli stessi redditi espressi in Euro, mentre il coefficiente di dispersione è lo stesso in entrambi i casi.
23
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le precedenti
sono misure assolute) ed è una grandezza adimensionale.
E’ particolarmente utile quando si devono confrontare le
distribuzioni di due gruppi con medie molto diverse o con
dati espressi in scale differenti (es. confronto tra variazione
del peso e variazione dell’altezza).
%100
xCV
È rappresentato dalla DS/m * 100
Il valore che ne deriva è una quantità priva di Dimensione è un rapporto, mentre la DS è espressanelle stesse Unità delle osservazioni originali. Il CV permette quindi il confronto di grandezze diverse.
Coefficiente di variazione (CV) odeviazione standard relativa
Il Coefficiente di Variazione (CV oppure
semplicemente con V in molti testi recenti) misura la
dispersione percentuale in rapporto alla media.
Per una popolazione:
dove
− σ = deviazione standard della popolazione
− μ = media della popolazione
Per un campione
dove
- s = deviazione standard del campione
- X = media del campione
26
Calcoliamo il Coeff. di variazione tre prove
CV 1a prova = 38,16% dati più dispersi,
risultati più eterogenei
CV 3a prova = 6,93% dati più concentrati, risultati più omogenei
CV 2a pr. CV 1a pr “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6
media 6,25 6,25 6,25
scarto quadratico 2,38 2,49 0,43
coeff. variazione 38,16% 39,80% 6,93%
In natura, il coefficiente di variazione tende
ad essere costante per ogni fenomeno, con
valori che abitualmente oscillano tra il 5% e il
15%.
Valori esterni a questo intervallo possono fare
sorgere il sospetto di essere in presenza di un
errore di rilevazione o di calcolo; si tratta
comunque di situazioni non usuali che
occorrerebbe spiegare, individuandone la
causa.
•Se il materiale biologico in esame ha un CV troppo
basso (2-3 %), si può sospettare l'esistenza di un
fattore limitante che abbassa notevolmente od elimina
la variabilità, come la presenza di omogeneità
genetica congiunta ad una situazione ambientale
uniforme.
•Un CV molto alto (50%) è indice della presenza di
condizioni anomale o molto differenti per più fattori.
Per l'uomo, il coefficiente di variazione dell’altezza è
stato calcolato tra il 40% e il 45%, testimoniando
l'esistenza nella specie di grandi differenze, dovute sia
a cause genetiche che ambientali (alimentazione,
condizioni sanitarie, ecc.).
ERRORE STANDARD DELLA MEDIA (SEM)
La media e la DS calcolate da un campione sono stime
della media e della DS dell'intera popolazione dalla quale il
campione e' tratto.
Per quantificare in termini probabilistici l'accuratezza di
queste stime, possiamo calcolare i loro SE (sia della media
che della DS).
Il SEM (DS/√n) quantifica il grado di certezza col quale la
media calcolata da un campione casuale stima la vera media
della popolazione da cui il campione e' tratto.
ERRORE STANDARD DELLA MEDIA (SEM)
Pertanto la DS e il SEM misurano 2 aspetti decisamente diversi: • la DS descrive la variabilita' della popolazione,• il SEM descrive l'incertezza nella stima della media.
La media vera della popolazione originale cade ad una distanza dalla media campionaria inferiore a 2 SEM in circa il 95% dei possibili campioni.
E' bene sottolineare ancora come l'errore standard (e quindi la precisione della stima di ) dipende sia dalla variabilità della misura, sia dal numero di repliche che effettuiamo; più precisamente, l'errore standard aumenta all'aumentare della deviazione standard e diminuisce all'aumentare del numero delle ripetizioni, annullandosi quando questo tende ad infinito.