MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del...
Transcript of MISURE DI SINTESI - Laboratorio di Statistica 2014/2015...73 QUANTILI Sono un’estensione del...
54
MISURE DI SINTESI
55
MISURE DESCRITTIVE D I SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ
0
30
Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità.
0
30
Le due distribuzioni hanno diversa tendenza centrale, ma uguale variabilità.
µ
56
MISURE DI TENDENZA CENTRALE
57
MISURE DI TENDENZA C ENTRALE Un insieme di dati numerici può essere sintetizzato da alcuni valori tipici, che indicano la posizione sull’asse orizzontale di punti importanti della distribuzione studiata
“Punti centrali”
MISURE di TENDENZA
CENTRALE MEDIA (coordinata orizzontale del baricentro) MODA (coordinata orizzontale del punto più alto) MEDIANA
58
MEDIA CAMPIONARIA
SOMMA delle osservazioni di una variabile divisa per il numero totale di osservazioni. NB: x indica la media campionaria;
µ indica la media della popolazione. Esempio Date le età, in anni, di 5 soggetti si calcoli l’età media. 19 21 18 22 28
annix 6.215
108
5
2822182119 ==++++=
n
xx
n
ii∑
== 1
59
MEDIA PESATA
Età (anni) = xi f i xif i
18 2 18 · 2 = 36 19 25 19 · 25 = 475 20 30 20 · 30 = 600 21 22 21 · 22 = 462 22 20 22 · 20 = 440 23 12 23 · 12 = 276 24 10 24 · 10 = 240 25 8 25 · 8 = 200 129 2729
annin
fxx
n
iii
155.2112927291 ===
∑=
n
fxx
n
iii∑
== 1
60
MEDIA PER DATI RAGGR UPPATI IN CLASSI
Età (anni) xk fk xkfk
[15-20) 17.5 10 17.5 · 10 = 175 [20-25) 22.5 15 22.5 · 15 = 337.5 [25-30) 27.5 30 27.5 · 30 = 825 [30-35) 32.5 12 32.5 · 12 = 390 [35-40) 37.5 11 37.5 · 11 = 412.5 78 2140
xk = valore centrale della classe = = media degli estremi di classe
Si assume che i soggetti appartenenti alla stessa classe abbiano tutti uguale altezza, calcolata come media degli estremi di classe.
fk = frequenza di classe
n
fxx
K
kkk∑
== 1
annin
fxx
K
kkk
44.2778
21401 ===∑
=
61
PROPRIETÀ DELLA MEDIA
• Non corrisponde necessariamente ad un valore
che la variabile studiata può assumere; • è unica: per un dato insieme di dati vi è una sola
media; • è facile da calcolare; • usa tutta l’informazione contenuta nei dati (tutti
i dati concorrono al calcolo della media); • è molto sensibile agli OUTLIERS*; • è impiegata in molti test statistici inferenziali. *Outlier = valore estremo, che giace molto perifericamente rispetto alla restante distribuzione dei dati.
62
MEDIANA
È l’osservazione che divide a metà la serie ordinata delle osservazioni. Per individuare la mediana occorre: • ordinare (in senso crescente o decrescente) le
osservazioni; • determinare la posizione della mediana con la
seguente formula:
• individuare la mediana come l’osservazione che
occupa la posizione precedentemente calcolata.
posizione della mediana = (n+1)/2
n = no di osservazioni
63
Distinguiamo 2 casi:
1. Le osservazioni sono in numero dispari Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 Posizione della mediana (n+1)/2=10/2=5 Ordino le osservazioni 23 28 28 31 32 34 42 50 61
La mediana è 32 anni perché occupa la 5a posizione.
2. Le osservazioni sono in numero pari Età (in anni) di 10 soggetti: 42 28 28 61 31 23 50 34 32 37 Posizione della mediana (n+1)/2=11/2=5.5 Ordino le osservazioni 23 28 28 31 32 34 37 42 50 61
La mediana è 33 anni (media aritmetica dei valori che occupano la 5a e la 6a posizione).
64
Esempio Calcolare la mediana dei dati in tabella:
Età (anni) = xi f i Frequenza cumulata 18 2 2 19 25 27 20 30 57 21 22 79 22 20 99 23 12 111 24 10 121 25 8 129
129
Posizione della mediana (129+1)/2=65
La mediana occupa la 65a posizione.
Dalla colonna delle frequenze cumulate risulta che: 18 anni → 1a-2a osservazione 19 anni → 3a-27a osservazione 20 anni →28a-57a osservazione 21 anni→58a-79a osservazione
La mediana è 21 anni, perché quando tutti i 129 dati vengono ordinati, 21 anni occupa la posizione centrale.
65
DATI RAGGRUPPATI IN CLASSI: LA CLASSE MEDIANA
Età (anni) fk Frequenza cumulata [15-20) 10 10 [20-25) 15 25 [25-30) 30 55 [30-35) 12 67 [35-40) 11 78
78
Posizione della mediana (n+1)/2=(78+1)/2 = 39,5 consideriamo la 39a e la 40a posizione
La classe che contiene la 39a e la 40a osservazione è la classe mediana.
Dalla colonna delle frequenze cumulate risulta che: 1a classe: [15-20)→ 1a-10a osservazione 2a classe: [20-25)→11a-25a osservazione 3a classe: [25-30)→26a-55a osservazione
La classe [25-30) anni contiene la 39a e la 40a osservazione e quindi è la classe mediana.
66
PROPRIETÀ DELLA MEDIANA • È unica: per un dato insieme di dati vi è una
sola mediana; • è facile da calcolare; • non è influenzata dai valori estremi (stima
“robusta” di localizzazione).
67
MODA È l’osservazione che si presenta con la massima frequenza. Esempio Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 La moda è 28, perché è l’osservazione che si presenta più frequentemente.
DATI RAGGRUPPATI IN CLASSI: LA CLASSE MODALE
Età (anni) fk
[15-20) 10 [20-25) 15 [25-30) 30 [30-35) 12 [35-40) 11
78 La classe modale è [25-30) anni, perché con essa si registra la massima frequenza.
68
PROPRIETÀ DELLA MODA
• Semplicità concettuale;
0
30
10 20 30 40 50 60 70
Può essere letta direttamente dal grafico: la moda è il valore che ha massima frequenza, cioè il valore corrispondente alla colonna più alta. In questo caso la moda è 40.
• a differenza di media e mediana è determinabile
anche per variabili qualitative; • può non esistere; • ne può esistere più di una:
1 valore modale → distribuzione unimodale; 2 valori modali → distribuzione bimodale.
69
Distribuzione unimodale moda = 40
0
30
10 20 30 40 50 60 70
Distribuzione bimodale moda1 = 60 moda2 = 100
0
30
60
10 40 50 60 70 80 90 100 110 120 130 140 Esempio Distribuzione del peso in un campione casuale di 100 studenti di cui 50 femmine e 50 maschi.
La distribuzione può essere bimodale:
2 picchi
peso più frequente nelle ♀ peso più frequente nei ♂
70
FORMA DI UNA DISTRIB UZIONE Come la forma di una distribuzione influenza le misure di tendenza centrale
DISTRIBUZIONE UNIMODALE SIMMETRICA
Distribuzione SIMMETRICA:
le “code” hanno uguale lunghezza.
MEDIA, MODA E MEDIANA COINCIDONO
La curva è definita “a campana”.
µ= moda=mediana
71
DISTRIBUZIONI ASIMMETRICHE Nelle distribuzioni ASIMMETRICHE, le cui “code” hanno diversa lunghezza MEDIA, MODA E MEDIANA NON COINCIDONO: in particolare, la media tende ad essere spinta verso la coda. La misura di tendenza centrale più appropriata per distribuzioni molto asimmetriche è la mediana (non influenzata dai valori estremi).
Asimmetria positiva Asimmetria negativa
• La distribuzione è “tirata” verso destra, verso i valori positivi. • La media (M) è maggiore della mediana (Me). • Esempio: distribuzione dei punteggi di un test difficile.
• La distribuzione è “tirata” verso sinistra, verso i valori negativi. • La media (M) è minore della mediana (Me) • Esempio: distribuzione dei punteggi di un test facile.
72
MEDIA, MEDIANA E MODA sono definite sia misure di tendenza centrale sia
MISURE DI POSIZIONE
individuano la posizione della distribuzione sull’asse orizzontale quando questa viene rappresentata graficamente. Altre misure di posizione sono i QUANTILI.
73
QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2 parti, ciascuna contenente il 50% delle osservazioni). QUARTILI ���� sono 3 (Q1, Q2, Q3). Dividono la serie ordinata di dati in 4 parti, ciascuna contenente il 25% delle osservazioni.
25% Q1 25% Q2 25% Q3 25%
MEDIANA
DECILI ���� sono 9 (D1, D2, D3, …, D9). Dividono la serie ordinata di dati in 10 parti, ciascuna contenente il 10% delle osservazioni.
PERCENTILI ���� sono 99 (P1, P2, P3,…, P99). Dividono la serie ordinata di dati in 100 parti, ciascuna contenente l’1% delle osservazioni. Il calcolo dei percentili risente della limitatezza del campione: vengono normalmente calcolati per grandi insiemi di dati.
74
QUARTILI
25% Q1 25% Q2 25% Q3 25% Q1 → Primo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 25% delle osservazioni e dopo di sé il 75%. Q2 → Secondo quartile Valore che, nella serie ordinata dei dati, lascia sia prima che dopo di sé il 50% delle osservazioni (vedi mediana). Q3 → Terzo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 75% delle osservazioni e dopo di sé il 25%.
75
POSIZIONE DEI QUARTILI Q1 = (n+1)/4 Q2 = 2(n+1)/4 =(n+1)/2 Q3 = 3(n+1)/4 n = no di osservazioni
COME INDIVIDUARE I QUARTILI Esempio Daniel pag.45 es. 2.6.2
I dati seguenti riportano i diametri (in cm) di neoplasie mammarie di 20 soggetti con sarcoma:
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0
Individuare il primo, il secondo (mediana) e il terzo quartile.
Q1
Posizione di Q1 = (20+1)/4 = 5.25 Q1 = osservazione situata in 5a posizione + 0,25 della differenza tra le osservazioni situate in 6a e 5a posizione
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0
Q1 = 2,5 + (3-2,5)·0,25 = 2,5 + 0,5·0,25 = 2,625
76
Q2 (Mediana) Posizione di Q2 = (20+1)/2 = 10,5 Q2 = osservazione situata in 10a posizione + 0,5 della differenza tra le osservazioni situate in 10a e 11a posizione
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0
Q2 = 4,5 + (5-4,5)·0,5 = 4,5 + 0,5·0,5 = 4,75
Q3
Posizione di Q3=3·(20+1)/4=15.75 Q3 = osservazione situata in 15a posizione + 0,75 della differenza tra le osservazioni situate in 15a e 16a posizione
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0
Q3= 6 + (6,5-6)·0,75 =6 + 0,5·0,75 = 6,375
77
PERCENTILI