Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

22
L’ANALISI DEI CLUSTER L’ANALISI DEI CLUSTER Corso di Laurea Magistrale in Scienze Statistiche Esame di Statistica multivariata A.A. 2009/2010

description

Introduzione teorica all’analisi dei cluster, in particolare sui metodi gerarchici agglomerativi (legame singolo, legame medio e centroide) e applicazione in SAS sul dataset pallavolo.

Transcript of Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

Page 1: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’ANALISI DEI CLUSTERL’ANALISI DEI CLUSTER

Corso di Laurea Magistrale in Scienze Statistiche

Esame di Statistica multivariata

A.A. 2009/2010

Page 2: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

ANALISI DEI CLUSTERANALISI DEI CLUSTER

• Il presupposto di base all’analisi è che gli individui appartenenti allo stesso gruppo dovrebbero essere allo stesso tempo simili tra loro e difformi dagli individui di gruppo diverso.

• OBIETTIVO: formare sottogruppi omogenei della popolazione accorpando tutte quelle osservazioni che presentano caratteristiche simili.

PROBLEMI:

1. come misurare le “distanze” tra gli individui?

2. come costruire i cluster?

Page 3: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

LA MISURA DELLE DISTANZELA MISURA DELLE DISTANZE

• Se la popolazione è costituita da n individui, la matrice delle n(n-1)/2 distanze sarà:

• Sia drs una qualche misura della distanza tra gli oggetti r e s appartenente alla classe delle distanze metriche

Page 4: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

I METODI GERARCHICI AGGLOMERATIVII METODI GERARCHICI AGGLOMERATIVI

STRUTTURA LOGICA

1. Nello stadio iniziale ciascuna unità costituisce un gruppo separato. La distanza tra i gruppi è fornita dalla matrice D.

2. I due gruppi che possiedono distanza minima vengono fusi; la distanza a cui avviene la fusione viene registrata.

3. Si calcola la distanza tra il nuovo gruppo creato e i gruppi già esistenti.

4. Vengono ripetuti i passi 2 e 3 finché non si giunge ad una configurazione in cui esiste un solo gruppo (ciò richiede (n -1) iterazioni) oppure a quella definita da un certo criterio.

Il processo di fusione rappresentato graficamente attraverso il dendrogramma: questo riporta sull’asse orizzontale il livello di distanza a cui avviene la fusione e sull’asse delle ascisse riporta le unità. Ad ogni livello di distanza corrisponde una partizione.

Page 5: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

METODO DEL LEGAME SINGOLOMETODO DEL LEGAME SINGOLO

• La distanza tra gruppi è calcolata come distanza più piccola esistente tra gli elementi appartenenti ad un gruppo e quelli appartenenti ad un altro, cioè:

• Una caratteristica (ed anche un limite) del metodo sta nel produrre tendenzialmente dei grappoli allungati (a salciccia) in relazione al fatto che la fusione dei gruppi avviene facendo riferimento ad un solo legame.

• Quando esistono grappoli ben delineati, ma non separati, il concatenamento potrebbe indurre a considerare un unico grappolo.

• Tuttavia il metodo consente di individuare grappoli di qualsiasi forma e mette in luce eventuali valori anomali meglio di altre tecniche.

Vantaggi e svantaggi

L’analisi dei clusterL’analisi dei cluster

Page 6: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

METODO DEL LEGAME SINGOLOMETODO DEL LEGAME SINGOLO

Esempio (1/2)

L’analisi dei clusterL’analisi dei cluster

1

2

3

4

Page 7: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

METODO DEL LEGAME SINGOLOMETODO DEL LEGAME SINGOLO

Esempio (2/2)

L’analisi dei clusterL’analisi dei cluster

Page 8: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

METODO DEL LEGAME MEDIOMETODO DEL LEGAME MEDIO

• La distanza tra gruppi è calcolata come media aritmetica delle distanze tra tutte le unità che compongono i due gruppi.

Vantaggi e svantaggi

• La fusione dei gruppi avviene a livelli di distanza intermedi tra quella massima e la minima

Page 9: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

METODO DEL LEGAME MEDIOMETODO DEL LEGAME MEDIO

Esempio (1/2)

1

2

Page 10: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

METODO DEL LEGAME MEDIOMETODO DEL LEGAME MEDIO

Esempio (2/2)

3

4

Page 11: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei clusterL’analisi dei cluster

METODO DEL CENTROIDEMETODO DEL CENTROIDE

• La distanza tra i gruppi è pari alla distanza tra i centroidi, vale a dire i valori medi calcolati sugli individui appartenenti ai gruppi.

• Dà luogo a fenomeni “gravitazionali”, per cui i gruppi grandi tendono ad attrarre al loro interno i gruppi piccoli.

• Le distanze a cui avvengono le successive fusioni possono essere non crescenti.

Vantaggi e svantaggi

Page 12: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

LE VARIABILI (1/2)LE VARIABILI (1/2)

Nome giocatrice

Variabili di battuta:

bXset = totale battute effettuate;

bACEXset = numero di ace, cioè di battute che comportano direttamente punto alla squadra;

bERRXset = numero di battute errate;

Variabili di ricezione:

rTOTXset = totale delle ricezioni effettuate;

rERRXset = numero di ricezioni sbagliate;

rNEGXset = numero di ricezioni che hanno influito negativamente sulla continuazione del gioco;

rPERFXset = numero di ricezioni eseguite perfettamente;

Page 13: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

LE VARIABILI (2/2)LE VARIABILI (2/2)

Variabili di attacco:

ATOTXset = totale degli attacchi effettuati;

aMURXset = numero di attacchi che sono stati murati dalla squadra avversaria;

aPERFXset = numero di attacchi che hanno comportato direttamente punto per la squadra;

Variabili di muro:

mINVXset = numero di invasioni a muro;

mPERFXset = numero di muri perfettamente eseguiti che comportano punto diretto alla squadra che mura;

Stat

Corr

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

Page 14: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

I GRUPPII GRUPPI

I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel corso dell’ultimo campionato:

• SS = schiacciatore

• C C = centrale

• L L = libero

• P P = palleggiatore

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

Page 15: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

/* Ricerca di sottogruppi di giocatori simili nel ruolo di schiacciatore */

data clusterS; set c;

where ruolo='S';

/* metodo del legame medio*/

proc cluster method=average nonorm data=clusterS;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

id nome;

proc tree horizontal spaces=2;

id nome;

title 'dendrogramma per il metodo del legame medio';

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

LA PROCEDURA (1/2)LA PROCEDURA (1/2)

Page 16: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

LA PROCEDURA (2/2)LA PROCEDURA (2/2)

/* metodo del legame singolo*/

proc cluster method=single nonorm data=clusterS;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

id nome;

proc tree horizontal spaces=2;

id nome;

title 'dendrogramma per il metodo del legame singolo';

/* metodo del centroide*/

proc cluster method=centroid nonorm data=clusterS;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

id nome;

proc tree horizontal spaces=2;

id nome;

title 'dendrogramma per il metodo del centroide';

run;

Page 17: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

METODO DEL LEGAME SINGOLOMETODO DEL LEGAME SINGOLO

......

Cronologia dei cluster T Dist i NCL ---Cluster uniti---- Freq min e 62 Orazi Antonucc 2 0.1429 61 Borgogel Percan 2 0.1879 60 CL61 Morelli 3 0.3116 59 Angeloni Poli 2 0.328 58 Mengarda Starovic 2 0.3394 57 Larsen Capuano 2 0.3595 56 Togut Centoni 2 0.3793 55 DiIulio Iadarola 2 0.3877 54 Pachale Rinieri 2 0.4146 53 Skowrons Savostia 2 0.4216 52 CL56 Moreno 3 0.4333 51 CL58 Masoni 3 0.4384 50 CL53 Ortolani 3 0.4387 49 Quaranta Djerisil 2 0.4452 48 Godina Tavares 2 0.4675 47 CL49 Jerkov 3 0.472 46 CL52 CL48 0.4744

Cronologia dei cluster T Dist i NCL ---Cluster uniti---- Freq min e

16 CL21 Rondon 10 0.7369 15 CL20 CL30 6 0.747 14 CL16 CL37 20 0.7625 13 CL18 CL14 35 0.769 12 CL44 Metcalf 7 0.8227 11 CL28 CL13 39 0.8257 10 Zetova CL50 4 0.8378 9 CL15 CL11 45 0.8543 8 Turlea CL12 8 0.8835 7 CL9 DeLuca 46 0.9306 6 CL8 CL10 12 0.99 5 CL6 CL7 58 1.0311 4 CL5 CL17 60 1.0319 3 Francia Aguero 2 1.0533 2 CL4 CL3 62 1.1156 1 CL2 Kilic 63 1.1697

Page 18: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

METODO DEL LEGAME SINGOLOMETODO DEL LEGAME SINGOLO

......

Page 19: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

METODO DEL LEGAME MEDIOMETODO DEL LEGAME MEDIO

Cronologia dei cluster T RMS i NCL ---Cluster uniti---- Freq Dist e 62 Orazi Antonucc 2 0.1429 61 Borgogel Percan 2 0.1879 60 Angeloni Poli 2 0.328 59 Mengarda Starovic 2 0.3394 58 CL61 Morelli 3 0.3398 57 Larsen Capuano 2 0.3595 56 Togut Centoni 2 0.3793 55 DiIulio Iadarola 2 0.3877 54 Pachale Rinieri 2 0.4146 53 Skowrons Savostia 2 0.4216 52 Quaranta Djerisil 2 0.4452 51 CL56 Moreno 3 0.4527 50 Godina Tavares 2 0.4675 49 CL59 Masoni 3 0.4799 48 Fiorin Costagra 2 0.4887 47 Ouzunova Pintore 2 0.4958

......

Cronologia dei cluster T RMS i NCL ---Cluster uniti---- Freq Dist e

16 CL29 DeLuca 4 1.0017 15 Francia Aguero 2 1.0533 14 CL34 Metcalf 7 1.081 13 CL17 CL22 15 1.176 12 CL27 CL16 7 1.255 11 Turlea CL14 8 1.2739 10 CL18 CL23 10 1.3706 9 CL12 CL13 22 1.5646 8 CL32 CL19 8 1.5742 7 CL10 CL20 20 1.6159 6 CL11 CL15 10 1.6398 5 CL6 CL8 18 1.9809 4 Kilic CL30 3 2.0677 3 CL4 CL9 25 2.3072 2 CL5 CL3 43 3.1125 1 CL2 CL7 63 3.2953

Page 20: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

METODO DEL LEGAME MEDIOMETODO DEL LEGAME MEDIO

......

Page 21: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

METODO DEL CENTROIDEMETODO DEL CENTROIDE

......

Cronologia dei cluster T Dist i NCL ---Cluster uniti---- Freq centr e 62 Orazi Antonucc 2 0.1429 61 Borgogel Percan 2 0.1879 60 CL61 Morelli 3 0.3266 59 Angeloni Poli 2 0.328 58 Mengarda Starovic 2 0.3394 57 Larsen Capuano 2 0.3595 56 Togut Centoni 2 0.3793 55 DiIulio Iadarola 2 0.3877 54 CL56 Moreno 3 0.411 53 Pachale Rinieri 2 0.4146 52 Skowrons Savostia 2 0.4216 51 Quaranta Djerisil 2 0.4452 50 CL58 Masoni 3 0.4489 49 CL50 CL62 5 0.4563 48 Godina Tavares 2 0.4675 47 CL48 Fratczak 3 0.4797 46 CL52 Ortolani 3 0.4805 45 Fiorin Costagra 2 0.4887

Cronologia dei cluster T Dist i NCL ---Cluster uniti---- Freq centr e

14 CL43 Metcalf 7 1.0168 13 Francia Aguero 2 1.0533 12 CL25 CL15 7 1.0738 11 Turlea CL14 8 1.1751 10 CL17 CL23 10 1.1865 9 CL12 CL18 22 1.2045 8 CL10 CL19 20 1.3304 7 CL11 CL13 10 1.4313 6 CL9 CL35 26 1.4514 5 CL7 CL16 14 1.6755 4 Kilic CL27 3 2.0389 3 CL4 CL6 29 1.9484 2 CL3 CL8 49 2.8046 1 CL5 CL2 63 2.6573

Page 22: Analisi dei cluster - applicazione su dati campionato di pallavolo femminile italiano

L’analisi dei cluster: un esempioL’analisi dei cluster: un esempio

METODO DEL CENTROIDEMETODO DEL CENTROIDE

......