Variabilità - Lezione 3

18
Variabilità

description

Corso di StatisticaLezione: 3 di 15Argomento: Variabilità

Transcript of Variabilità - Lezione 3

Page 1: Variabilità - Lezione 3

1

Variabilità

..senza variabilità non ci sarebbe la statistica…

Se tutti votassimo lo stesso partito alle elezioni (=moda), non ci sarebbero i sondaggi, nè le previsioni elettorali…il voto politico sarebbe una unica modalità…

Se tutte le persone fossero alte uguali (=media) non esisterebbe la variabile altezza, perché non la misureremmo…

La statistica si basa sulla diversità, studia l’attitudine a variare dei fenomeni

Page 2: Variabilità - Lezione 3

2

MUTABILITA’LA VARIABILITA’ DEI FENOMENI

QUALITATIVIPer misurarla si usano gli indici di eterogeneità

•Sono indici che si basano sulla frequenze relative fi o percentuali pi

•Non sono vincolati da un particolare ordinamento delle modalità

•Quindi possono essere calcolati per qualsiasi tipo di fenomeno

MUTABILITA’LA VARIABILITA’ DEI FENOMENI QUALITATIVI

Proprietà degli indici di eterogeneità

•Sono sempre positivi

•Sono massimi quando ad ogni modalità assunta dal fenomeno corrisponde la stessa frequenza, cioè fi=1/k per ogni i

•Sono minimi quando il fenomeno assume una sola modalità, cioèuna fi è uguale a 1 e tutte le altre (k-1) sono uguali a 0

Page 3: Variabilità - Lezione 3

3

MUTABILITA’LA VARIABILITA’ DEI FENOMENI QUALITATIVI

Indice di eterogeneità di Gini

21

11

k

ii

E f=

= −∑Assume valori compresi tra 0 e (k-1)/k (massimo)

Per normalizzarlo in modo che vari tra 0 e 1 bisogna dividerlo per il suo massimo:

*1 1 1

kE Ek

=−

ESEMPIO: CORSO DI LAUREA

2 2 2 2 21

11 1 (0.1869 0.3424 0.2538 0.2169 ) 1 0.2636633 0.7363

k

ii

E p=

= − = − + + + = − =∑

*1 1

40.7363 0.98181 3

kE Ek

= = ⋅ =−

K = n° delle modalità = 4

xi ni fi fi2

SAM 137 0.1869 0.0349SPO 251 0.3424 0.1173ORU 186 0.2538 0.0644IES 159 0.2169 0.0471

733 1.0000 0.2636

Indice di eterogeneità di GiniE1 0.7364 k= 4E1* 0.9818

INDICE NORMALIZZATO PROSSIMO A 1: C'è quasi massima eterogeneità

Page 4: Variabilità - Lezione 3

4

ESEMPIO: MEDIA VOTIDati

MEDIA VOTI ni pi Ni Pi fi218 11 1.50% 11 1.50% 0.00022520519 11 1.50% 22 3.00% 0.00022520520 18 2.46% 40 5.46% 0.00060302721 29 3.96% 69 9.41% 0.00156526622 47 6.41% 116 15.83% 0.00411138123 75 10.23% 191 26.06% 0.01046922624 105 14.32% 296 40.38% 0.02051968325 84 11.46% 380 51.84% 0.01313259726 105 14.32% 485 66.17% 0.02051968327 85 11.60% 570 77.76% 0.01344713928 94 12.82% 664 90.59% 0.01644552629 49 6.68% 713 97.27% 0.00446873130 20 2.73% 733 100.00% 0.000744478Totale complessivo 733 100.00% 0.106477147

Indice di eterogeneità di GiniE1 0.8935 k= 12E1* 0.9748

INDICE NORMALIZZATO PROSSIMO A 1: C'è quasi massima eterogeneità

ESEMPIO: RENDIMENTOrendim ni fi pi Ni Fi Pi fi 2

sufficiente 40 0.054570259 5.47% 40 0.054570259 5.47% 0.00299423discreto 151 0.206002729 20.52% 191 0.260572988 25.99% 0.042106366buono 294 0.401091405 40.08% 485 0.661664393 66.07% 0.160657308ottimo 248 0.338335607 33.93% 733 1 100.00% 0.11509822

733 1 100.00% 0.320856125

Indice di eterogeneità di GiniE1 0.6791 k= 4E1* 0.9055

INDICE NORMALIZZATO PROSSIMO A 1: C'è una buona eterogeneità

xi ni fi pi fi2

M 350 0.47749 47.74898 0.227996F 383 0.52251 52.25102 0.273017

733 1 0.501013

Indice di eterogeneità di GiniE1 0.498987 k= 2E1* 0.997973

INDICE NORMALIZZATO PROSSIMO A 1: C'è massima eterogeneità

ESEMPIO: SESSO

Page 5: Variabilità - Lezione 3

5

ESEMPIO: CREDITI (raggruppata in classi)crediti ni fI pi Ni Fi Pi fi20-|20 207 0.282401 28.24% 207 0.282401 28.24% 0.07975

20-|40 183 0.249659 24.97% 390 0.53206 53.21% 0.0623340-|60 84 0.114598 11.46% 474 0.646658 64.67% 0.01313360-|80 83 0.113233 11.32% 557 0.759891 75.99% 0.01282280-|100 64 0.087312 8.73% 621 0.847203 84.72% 0.007623

100-|120 42 0.057299 5.73% 663 0.904502 90.45% 0.003283120-|140 29 0.039563 3.96% 692 0.944065 94.41% 0.001565140-|160 24 0.032742 3.27% 716 0.976808 97.68% 0.001072160-|180 17 0.023192 2.32% 733 1 100.00% 0.000538

733 1 100.00% 0.182116

Indice di eterogeneità di GiniE1 0.8179 k= 9E1* 0.9201

INDICE NORMALIZZATO PROSSIMO A 1: C'è una buona eterogeneità

ESEMPIO: Eterogeneità del RENDIMENTO nei CORSI DI LAUREACORSO LAUREA SPO CORSO LAUREA ORU

Conteggio di ID Conteggio di IDRENDIMENTO Totale pi fi2 RENDIMENTO Totale pi fi2buono 73 29.08% 0.084585959 buono 79 42.47% 0.180397discreto 29 11.55% 0.013348994 discreto 52 27.96% 0.078159ottimo 147 58.57% 0.342994556 ottimo 42 22.58% 0.050989sufficiente 2 0.80% 6.34911E-05 sufficiente 13 6.99% 0.004885Totale complessivo 251 100.00% 0.440993 Totale complessivo 186 100.00% 0.314429

Indice di eterogeneità di Gini Indice di eterogeneità di GiniE1 0.559 k= 4 E1 0.6856 k= 4E1* 0.7453 E1* 0.9141

CORSO LAUREA SAM CORSO LAUREA IES

Conteggio di ID Conteggio di IDRENDIMENTO Totale pi fi2 RENDIMENTO Totale pi fi2buono 64 46.72% 0.218232191 buono 78 49.06% 0.240655discreto 34 24.82% 0.061590921 discreto 36 22.64% 0.051264ottimo 30 21.90% 0.047951409 ottimo 29 18.24% 0.033266sufficiente 9 6.57% 0.004315627 sufficiente 16 10.06% 0.010126Totale complessivo 137 100.00% 0.332090149 Totale complessivo 159 100.00% 0.335311

Indice di eterogeneità di Gini Indice di eterogeneità di GiniE1 0.6679 k= 4 E1 0.6647 k= 4E1* 0.8905 E1* 0.8863

NOTA: Il corso di laurea più omogeneo è SPO, quello più eterogeneo è ORU

Page 6: Variabilità - Lezione 3

6

VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI

Per misurarla si usano

•gli indici di variabilità globale si basano sulle differenze tra i valori delle modalità

•gli indici di dispersionesi basano sulle differenze tra i valori delle modalità e un prefissato indice di posizione

Entrambi possono essere calcolati solo per fenomeni quantitativi

Proprietà degli indici di variabilità e di dispersione

•Sono sempre positivi

•Sono uguali a zero quando tutte le unità osservate assumono la stessa modalità, la variabile statistica in tal caso si dice degenere

•Sono invarianti per traslazione, cioè se ad ogni xi viene aggiunta una quantità c costante, la variabilità di X non cambia

NOTA: per gli indici di variabilità e dispersione non è affatto immediata la determinazione del loro valore massimo, tralasceremo il calcolo dei valori normalizzati degli indici

VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI

Page 7: Variabilità - Lezione 3

7

VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI

SALARIO

1 14002 16103 16304 17005 17106 17507 18008 2000

Maschi

1 16502 16703 16804 16905 17006 17207 17408 1750

Femmine

La media per i maschi e per le femmine coincide = 1700

VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI

1700

1700

1650 1750

1400 2000

Page 8: Variabilità - Lezione 3

8

Indici di variabilità globale

VARIABILITA’LA VARIABILITA’ DEI FENOMENI

QUANTITATIVI

Differenza Interquartile D.I. = Q3-Q1

Campo di Variazione K= xmax-xmin

VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI

xi ni pi Pi1400 1 12.50% 12.50%1610 1 12.50% 25.00%1630 1 12.50% 37.50%1700 1 12.50% 50.00%1710 1 12.50% 62.50%1750 1 12.50% 75.00%1800 1 12.50% 87.50%2000 1 12.50% 100.00%

Min=1400; Max=2000Q1=1610; Q3=1750

D.I=140; k=600

xi ni pi Pi1650 1 12.50% 12.50%1670 1 12.50% 25.00%1680 1 12.50% 37.50%1690 1 12.50% 50.00%1700 1 12.50% 62.50%1720 1 12.50% 75.00%1740 1 12.50% 87.50%1750 1 12.50% 100.00%

Min=1650; Max=1750Q1=1670; Q3=1720

D.I=50; k=100

Salario Maschi Salario Femmine

Nel secondo caso i valori sono molto meno dispersi, stanno vicini tra loro e nell’intorno della media (la media 1700 è molto più rappresentativa, )

Page 9: Variabilità - Lezione 3

9

BOX - PLOT

SALARIO

Page 10: Variabilità - Lezione 3

10

MEDIA VOTI

CREDITI

Page 11: Variabilità - Lezione 3

11

CREDITI

Q-Q PLOT

•Q-Q plot sta per Quantile – Quantile Plot

•E’ un grafico che ha in ascissa e in ordinata i quantili di due distribuzioni.

•Se le distribuzioni sono le stesse, i quantili saranno piu o meno gli stessi ed i punti del diagramma saranno piu o meno sulla retta a 45 gradi

•Tramite il Q-Q Plot è possibile testare se due distribuzioni differiscono sia in termini di posizione, sia in termini di variabilità, si in termini di forma

Page 12: Variabilità - Lezione 3

12

Q-Q PLOT

Indici di dispersione: Varianza

VARIABILITA’

LA VARIABILITA’ DEI FENOMENI QUANTITATIVI

Si basa sulla differenze tra i valori delle modalità e la loro media.

Si considerano gli scostamenti al quadrato per evitare compensazioni tra distanze positive e negative.

NB: si ricordano la terza e la quarta proprietà della media

xix

ix x−

Page 13: Variabilità - Lezione 3

13

VARIAZA SEMPLICE

Se si considera una tabella di rilevazione, la varianza aritmetica èdata dalla seguente formula

( ) ( )2 2

2 2

1 1

1 1n n

i ii i

x x x xn n

σ= =

= − = −∑ ∑

( ) 24; ( ) 29M Voti M Crediti= =

FORMULA OPERATIVA

22906( ) 24 5, 25

V Voti = − =

ID VOTI CREDITI VOTI2 CREDITI21 22 6 484 362 24 71 576 50413 21 19 441 3614 26 27 676 7295 27 22 729 484

2906 6651 26651( ) 29 489, 25

V Crediti = − =

VARIANZA PONDERATA

Se si considera una tabella di frequenza, la varianza è data dalla seguente formula

( ) ( )2 2

2 2

1 1

1 1k k

i i i ii i

x x n x n xn n

σ= =

= − = −∑ ∑

FORMULA OPERATIVA

( ) 24,5M Voti =

( ) 94M Crediti =

VOTI ni VOTI2 VOTI2ni19 10 361 361021 20 441 882024 50 576 2880025 80 625 5000026 20 676 1352027 10 729 729030 10 900 9000

200 121040

2121040( ) 24,5 4,95200

V Voti = − =

crediti xi ni xi2 xi2ni20-|60 40 20 1600 32000

60-|100 80 105 6400 672000100-|140 120 60 14400 864000140-|180 160 15 25600 384000

totale 200 1952000

21952000( ) 94 924200

V Crediti = − =

Page 14: Variabilità - Lezione 3

14

VARIANZA: problemi

Elevando al quadrato si perde l’unità di misura del fenomenoEx. Se si si considera la variabile peso, la varianzarisulta espressa in kg2

SCARTO QUADRATICO MEDIO

2σ σ=

E’ un indice assoluto, cioè risente dell’unità di misura del fenomeno, e ciò impedisce di fare confronti di variabilitàEx. Le distanze, e quindi la loro somma, per il fatturato nel settore Automobilistico sono sicuramente più grandi di quelle nel settore Abbigliamento, ciò non implica che ci sia maggiore variabilità

COEFFICIENTE DI VARIAZIONE

Indice relativo

CVxσ

=

ESEMPIO: MEDIA VOTIDati

MEDIA VOTI ni pi Ni Fi xi2 xi2ni18 11 1.50% 11 1.50% 324 356419 11 1.50% 22 3.00% 361 397120 18 2.46% 40 5.46% 400 720021 29 3.96% 69 9.41% 441 1278922 47 6.41% 116 15.83% 484 2274823 75 10.23% 191 26.06% 529 3967524 105 14.32% 296 40.38% 576 6048025 84 11.46% 380 51.84% 625 5250026 105 14.32% 485 66.17% 676 7098027 85 11.60% 570 77.76% 729 6196528 94 12.82% 664 90.59% 784 7369629 49 6.68% 713 97.27% 841 4120930 20 2.73% 733 100.00% 900 18000Totale complessivo 733 100.00% 468777

Media 25.1473

Varianzaσ2 7.14337 7.14337σ 2.67271CV 0.10628

varianza cacolata con la formula operativa

varianza calcolata con la funzione VAR.POP()

Page 15: Variabilità - Lezione 3

15

ESEMPIO: CREDITIcrediti ni fI pi Ni Fi Pi xi xi2 xi2ni0-|20 207 0.282401 28.24% 207 0.282401 28.24% 10 100 20700

20-|40 183 0.249659 24.97% 390 0.53206 53.21% 30 900 16470040-|60 84 0.114598 11.46% 474 0.646658 64.67% 50 2500 21000060-|80 83 0.113233 11.32% 557 0.759891 75.99% 70 4900 40670080-|100 64 0.087312 8.73% 621 0.847203 84.72% 90 8100 518400

100-|120 42 0.057299 5.73% 663 0.904502 90.45% 110 12100 508200120-|140 29 0.039563 3.96% 692 0.944065 94.41% 130 16900 490100140-|160 24 0.032742 3.27% 716 0.976808 97.68% 150 22500 540000160-|180 17 0.023192 2.32% 733 1 100.00% 170 28900 491300

733 1 100.00% 3350100

Media 52.128Varianzaσ2 1793.256 1793.256 1853.067σ 42.34685CV 0.816934

varianza calcolata con la funzione VAR.POP()

varianza cacolata con la formula operativa sulla tabella di frequenza non raggruppata

varianza calcolata con la formula operativa sulla tabella raggruppata in calssi

ESEMPIO: CREDITI NEI CORSI DI LAUREA

CORSO LAUREA CREDITI sqm(i) CREDITI Media (i)VOTI sqm(i) VOTI media (i) CV (crediti) CV (voti)IES 46.23911861 64.57232704 2.605823639 24.33962264 0.71608258 0.107061ORU 42.62440899 52.34946237 2.575695298 24.44623656 0.81422821 0.105362SAM 44.50154193 50.75912409 2.627798053 24.45985401 0.87672005 0.107433SPO 36.02140776 44.00398406 2.204688868 26.55378486 0.81859424 0.083027

SPO tra i 4 corsi di laurea è quello che presenta minore variabilità nei voti, ciò conferma il risultato ottenuto con l’indice di Gini per i rendimenti (che di fatto è una variabile qualitativa ottenuta dalla variabile voti. Il corso di laurea con minore variabilità per quanto riguarda i crediti è invece IES

Page 16: Variabilità - Lezione 3

16

VARIANZA: PROPRIETA’1. La varianza di una costante è uguale a 0, cioè

2. E’ invariante per translazione, cioè se ad ogni xi viene aggiunta una quantità a costante, la varianza non cambia, cioè

3. Se ogni xi viene moltiplicata per una quantità b costante, la varianza risulta moltiplicata per la costante b al quadrato, cioè

IN SINTESI (varianza di una trasformazione lineare)

2( ) xV X a σ+ =

2 2( ) xV a bX b σ+ =

( ) 0V a =

2( ) ( )V bX b V X=

VARIANZA: TEOREMI

Teorema 1

La varianza di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è già noto il valore della varianza , è

pari alla somma di due varianza, vale a dire

2 2

1

2 21

1

1 ( )i

k

W i ii

ni ij ij

i

nn

x xn

σ σ

σ

=

=

=

= −

∑VARIANZA NEI GRUPPI ( ) Media ponderata delle varianze dei gruppi

Within VARIANZA FRA GRUPPI ( ) Varianza ponderata delle medie dei gruppi

Between

2 2 2 W Bσ σ σ= +

( )2

2

1

1 k

B i ii

x x nn

σ=

= −∑

Page 17: Variabilità - Lezione 3

17

VARIANZA: TEOREMI

Teorema 2

La varianza della somma (o della differenza) di due variabili è uguale alla somma delle varianze delle singole variabili solo se queste sono indipendenti

Se ( ) ( ) ( ) ( ) se e sono indipendenti

altrimenti( ) ( ) ( ) ( ) 2 ( , )

Z X YV Z V X Y V X V Y X Y

V Z V X Y V X V Y COV X Y

= += + = +

= + = + +

ESEMPIO: TEOREMA 1MEDIA VOTI

DatiCORSO LAUREA media( i ) varianza( i ) ni xini xi2 xi2niIES 24.33962264 6.790316839 159 1079.660377 592.4172303 94194.33962ORU 24.44623656 6.634206267 186 1233.962366 597.6184819 111157.0376SAM 24.45985401 6.905322606 137 946.0291971 598.2844584 81964.9708SPO 26.55378486 4.860653006 251 1220.023904 705.1034904 176980.9761Totale complessivo 25.1473397 7.143366047 733 4479.675844 464297.3242

varianza within 6.1114268varianza between 1.031939247varianza totale 7.143366047

tabella Pivot con campi: MEDIA, VAR.POP e CONTEGGIO

Teorema 1: La varianza di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è giuà noto il valore della varianza , è pari alla somma di varianza between e varianza within

Page 18: Variabilità - Lezione 3

18

ESERCIZIO RIEPILOGATIVO

ESERCIZIO RIEPILOGATIVO