Lezione III: Variabilit  .Lezione 3a- Misure di dispersione o di variabilit

download Lezione III: Variabilit  .Lezione 3a- Misure di dispersione o di variabilit

If you can't read please download the document

  • date post

    15-Feb-2019
  • Category

    Documents

  • view

    214
  • download

    0

Embed Size (px)

Transcript of Lezione III: Variabilit  .Lezione 3a- Misure di dispersione o di variabilit

1

Lezione III:

Variabilit

Cattedra di Biostatistica Dipartimento di Scienze Biomediche, Universit degli Studi

G. dAnnunzio di Chieti Pescara

Prof. Enzo Ballone

Lezione 3a- Misure di dispersione o di variabilit

Misure di dispersione o di variabilit.

Abbiamo visto che la media una misura della localizzazione centrale della distribuzione (il centro di gravit).

Popolazioni con la stessa media possono avere un grado molto diverso di variazione dei dati.

Una maniera per esprimere questa variazione quello di utilizzare la media come punto di riferimento di ciascun valore, cio di calcolare la deviazione di ciascun dato dalla media (il suo scarto dalla media).

2

Misure di dispersione o di variabilit

Le deviazioni saranno numeri positivi per tutti i valori al di sopra della media e numeri negativi per tutti i valori al di sotto della media.

Se noi sommassimo queste deviazioni il risultato sarebbe 0 (i valori positivi sarebbero elisi dai valori negativi).

Quest'approccio non ci consentirebbe pertanto di ottenere una misura della variabilit dei dati.

Il problema si risolve elevando al quadrato le deviazioni dalla media (il quadrato di un numero negativo un numero positivo).

Misure di dispersione o di variabilit

Se sommiamo i quadrati delle deviazioni (o scarti) dalla media e dividiamo questa somma per il numero delle osservazioni otteniamo la deviazione quadratica media (o scarto quadratico medio) o varianza .

Per riportare i valori all'unit di misura di partenza possiamo estrarre la radice quadrata della varianza. La radice quadrata della varianza la misura di distribuzione pi usata ed definita deviazione standard .

Misure di dispersione o di variabilit

Un altro modo di esprimere la variabilit di una distribuzione quella di riferirsi al range di una distribuzione (il valore minimo e il valore massimo).

Il range dipende esclusivamente dai valori estremi, perci se il campione di dati piccolo esso pu dare una stima erronea del range della popolazione (questo perch i valori estremi sono rari e possono non essere rappresentati in un piccolo campione).

3

Esempio 10:

Si considerino inizialmente, le seguenti due distribuzioni di valori riferiti allet di 10 individui

L'et media (media aritmetica) pari a 40 anni per tutti gruppi, ma nel secondo i dati sono pidispersi attorno alla media.

R=10aaR=60aaR=40aa

35aa37aa40aa43aa45aa

10aa25aa40aa55aa70aa

20aa30aa40aa50aa60aa

III gruppo II gruppoI gruppo

Le misure di dispersione utilizzate:

Pertanto oltre ai valori medi vanno introdotti anche indici di misura della VARIABILITA' (o Dispersione) dei dati.

Le misure di dispersione pi usate sono:1. campo di variazione (range);2. devianza;3. varianza;4. deviazione standard;5. coefficiente di variazione (indice di variabilit re lativa);6. differenza interquartile.

Campo di variazione o range

R = Xmax - Xmin . Limiti del campo di variazione

troppo influenzato dai valori estremi; tiene conto dei due soli valori estremi, trascurando tutti gli altri. tende ad aumentare con laumento del numero di osservazioni. Occorre allora un indice di dispersione che consideri tutti i dati (e

non solo quelli estremi), confrontando questi con il loro valor medio.

Tuttavia va ricordato che: Si potrebbe calcolare la somma dei valori assoluti: , ma

tale quantit difficile da trattare matematicamente. Un indice alternativo quello di considerare la somma dei

quadrati degli scarti dalla media aritmetica DEVIANZA =

i =1

n

i(x - x) = 0

i = 1

n

i| x - x |

i = 1

n

i2( x - x )

4

Esempio 5:

Valori del tasso glicemico in 10 soggetti

x-x i (x - x)i

2

x_

= 95 | ix - x| = 94i = 1

10

i 1

( ix - x2) = 1596

=

10

1+196

9-392

196-1481

1-194

576-2471

144+12107

576+24119

25-590

4+297

64+8103

X i(glicemia

mg/100cc )

Devianza e Varianza

La quantit 1596 esprime la Devianza della distribuzione (Dev).

Il limite della Devianza come misura di dispersione quello di aumentare con il numero di osservazioni. Per ottenere una misura che non dipenda dalla numerosit si pu dividere la devianza per il numero n. di dati, ottenendo la Varianza :

2)100/(60.15910

1596

n

)2

x-x i(n

1=i2 ccmg==

=

Devianza e Varianza

In pratica il denominatore n quasi sempre sostituito da (n-1) in modo da ottenere una stima corretta della dispersione della variabile nella popolazione da cui il campione in esame stato estratto.

)100/(3.1779

15962 ccmg1-n

)X-x(S

2i

n

=1i ===

5

Devianza e Varianza

Il limite della Varianza come misura di dispersione quella di avere una unit di misura espressa al quadrato rispetto all'unit di misura originale, per cui si utilizza la Deviazione Standard (D.S. o S.D.):

Essa indica quanto, in media, ciascun elemento si discosta dalla media aritmetica.

)100/(32.133.177.. ccmg1-n

)2

X-x i(

n

1=iSDs ==

==

Devianza e Varianza

La Deviazione Standard l'indice di variabilit pi"reale" e, quindi, pi utilizzato

La Deviazione Standard per distribuzioni di frequenza : assume la seguente forma:

dove k il numero di modalit della variabile statistica X o il numero di classi in cui i valori di X sono stati raggruppati. In tal caso le xi sono i valori centrali delle classi.

D.S.

(xi x)2 fi

i 1

k

n 1=

=

Esempio 11:

Valori pressori massimi rilevati su 5 pazienti ipertesi

ix - x ix -x(

9309655Somma

288124102205

4972001200

64-81851185

529-231701170

)2fixififiPAS (mmHg)

6

Esempio 11:

Media Aritmetica : mmHg; Range : R = 205 170 = 35 mmHg; Devianza : Dev = 930 (mmHg)2; Varianza : s2 = 930 / 4 (mmHg)2 = 232,5 (mmHg)2; Dev. St .: s = mmHg =15,25 mmHg; Coeff. Variaz .: CV% = (15,25 / 193)100 = 7,9 %.

232 5,

x mmHg_

/= =965 5 193

Indici di variabilit relativi

Indici di variabilit relativi: non dipendono dall'unit di misura

Coefficiente di Variazione

Per lEsempio 5 si ottiene:

C Vs

x_

D ev iaz ione S tandard

m ed ia aritm etica= =100 100

CVmg cc

mg cc= =

13 32 100

95 100100 14 02%

. /

/.

Indici di variabilit relativi

E interessante anche il confronto tra i coefficienti di variazione delle due serie di dati dellEsempio 10:

per il gruppo I si ha:

per il gruppo II si ha:

risultati che confermano la maggiore variabilit dei dati della seconda serie rispetto alla prima.

%50.3910040

8.15 ==aa

aaCV

CVaa

aa= =

237

40100 5925%

..

7

Indici di variabilit relativi

Il Coefficiente di Variazione un numero puro, in quanto rapporto di due grandezze omogenee, e perci consente il confronto anche tra variabili eterogenee.

Luso del C.V. si rende necessario ogni qualvolta si vogliono confrontare le misure di variabilit relative a distribuzioni le cui modalit sono espresse in unit di misure diverse (confronto tra variabilit dellaltezza e del peso) oppure sono espresse nella stessa unit di misura ma il loro valore medio risulta molto diverso (confronto delle variabilit dei pesi fra un campione di neonati ed uno di adulti).

Ulteriori calcoli:

Per il calcolo della mediana (Me) e della Moda (Mo) della distribuzione della pressione si procede come nella tabella:

I due esempi che seguono illustrano il calcolo di indici medi e di variabilit nel caso di dati raggruppati in classi di frequenze.

52205

31200

Mo=205

21185

5 / 2 = 2,5 Me = 200

11170

frequ.cumulate

fiPAS(mmHg)

Esempio 12: Azoto ureico (mg %) in un gruppo di 50

adolescenti:

x

303.12701164.5

050Somma

45.697630.05501 30.0529.1 31

22.657628.0549128.0527.1 29

60.9408208.4048826.0525.1 27

11.5520481.00402024.0523.1 25

16.9136242.55201122.0521.1 23

62.9856120.309620.0519.1 21

82.372854.153318.0517.1 19

(xi - )2 * fixi * fi

frequ.

cum.

frequenze (fi)

val. centr. (xi)

Azoto

8

Esempio 12:

x = 1164.50/50 = 23.29 mg %;

D.S. = 30312 49 249. / .= mg %; C.V.= 2.49/23.29*100 = 11%

calcolo mediana: N/2 = 50 / 2 = 25 la classe mediana (classe che

comprende la mediana) data da: 23.1 - 25, ovvero 23.1 < Me < 25;

calcolo moda: la frequenza pi elevata si ha per la classe 23.1 - 25,

dunque: 23.1 < Mo < 25.

Esempio 12:

Il grafico seguente mostra lISTOGRAMMA della distribuzione dellazoto e, sovrapposta a questo, la curva della distribuzione normale (per lo studio di tale curva si veda in appunti successivi).

Esempio 12:

AZOTO

30,0528,0526,0524,0522,0520,0518,05

Fre

quen

ze

25

20

15

10

5

0

9

Esempio 13:

Dosaggio della Fosfatasi Alcalina (UA) in 20 studenti