Classification ascendante hiérarchique (CAH)

Introduction Principes de la CAH Exemple K-means Compléments Description des classes

Classification ascendante hiérarchique (CAH)

François Husson

Laboratoire de mathématiques appliquées - Agrocampus Rennes

[email protected]

1 / 40

mailto:[email protected]



1 Introduction

2 Principes de la Classification Ascendante Hiérarchique

3 Exemple

4 Algorithme de partitionnement : les K-means

5 Compléments

6 Caractérisation des classes d’individus

1 / 40



1 Introduction2 Principes de la Classification Ascendante Hiérarchique3 Exemple4 Les K-means : un algorithme de partitionnement5 Compléments

• Consolidation de partition• Classification sur des données de grandes dimensions• Variables qualitatives et classification• Enchaînement analyse factorielle - classification

6 Caractérisation de classes d’individus

1 / 40



1 Introduction


3 Exemple


5 Compléments


2 / 40


Introduction

• Définitions :• Classification : action de constituer ou construire des classes• Classe : ensemble d’individus (ou d’objets) possédant des traits

de caractères communs (groupe, catégorie)• Exemples

• de classification : règne animal, disque dur d’un ordinateur,division géographique de la France, etc.

• de classe : classe sociale, classe politique, etc.• Deux types de classification :

• hiérarchique : arbre, CAH• méthode de partitionnement : partition

3 / 40


Exemple de hiérarchie : le règne animal

4 / 40



1 Introduction


3 Exemple


5 Compléments


5 / 40


Quelles données pour quels objectifs ?

La classification s’intéresse à des tableaux dedonnées individus × variables quantitatives

Objectifs : production d’une structure (arbo-rescence) permettant :• la mise en évidence de lienshiérarchiques entre individus ougroupes d’individus• la détection d’un nb de classes« naturel » au sein de la population

A C B D E F G H

01

23

4

6 / 40


Critères

Ressemblance entre individus :• distance euclidienne• indice de similarité• . . .

Ressemblance entre groupes d’individus :• saut minimum ou lien simple (plus

petite distance)• lien complet (plus grande distance)• critère de Ward

x

x

xx

x

x

x

x

x

x

x

x

x

x

7 / 40


Critères

Ressemblance entre individus :• distance euclidienne• indice de similarité• . . .

Ressemblance entre groupes d’individus :• saut minimum ou lien simple (pluspetite distance)• lien complet (plus grande distance)• critère de Ward

x

x

xx

x

x

x

x

x

x

x

x

x

x

7 / 40


Algorithme

ABC D E FGD 4.72E 5.55 1.00 FG 4.07 2.01 1.81 H 4.75 3.16 2.90 1.12

ABC DE FGDE 4.72FG 4.23 1.81 H 4.07 2.90 1.12

ABC DEDE 4.72FGH 4.07 1.81

ABC DEFGH 4.07

4e regroupement

5e regroupement

6e regroupement

7e regroupement

{ABC},{DE},{FG},{H}

{ABC},{DE},{FGH}

{ABC},{DEFGH}

{ABCDEFGH}

12

34

ABC D E F GD 4.72E 5.55 1.00 F 4.07 2.01 2.06 G 4.68 2.06 1.81 0.61 H 4.75 3.16 2.90 1.28 1.12

3e regroupement

A B C D E F GB 0.50 C 0.25 0.56 D 5.00 4.72 4.80 E 5.78 5.55 5.57 1.00 F 4.32 4.23 4.07 2.01 2.06 G 4.92 4.84 4.68 2.06 1.81 0.61 H 5.00 5.02 4.75 3.16 2.90 1.28 1.12

AC B D E F GB 0.50 D 4.80 4.72E 5.57 5.55 1.00 F 4.07 4.23 2.01 2.06 G 4.68 4.84 2.06 1.81 0.61 H 4.75 5.02 3.16 2.90 1.28 1.12

1er regroupement

2e regroupement

{A},{B},{C},{D},{E},{F},{G},{H}

{AC},{B},{D},{E},{F},{G},{H}

{ABC},{D},{E},{F},{G},{H}

{ABC},{D},{E},{FG},{H}

{ABC},{DE},{FG},{H}

A C B D E F G H

01

8 / 40


Arbres et partitions

Les arbres finissent tous ... par être coupés ! ! !

En définissant un niveau decoupure, on construit unepartition

0.0

0.5

1.0

1.5

●Hierarchical Clustering

●

inertia gain

Cas

arsa

Par

khom

enko

YU

RK

OV

Lore

nzo

NO

OL

BO

UR

GU

IGN

ON

MA

RT

INE

AU

Kar

livan

sB

AR

RA

SU

ldal

HE

RN

UTu

riK

arpo

vC

lay

Seb

rleS

choe

nbec

kO

jani

emi

Bar

ras Qi

Sm

irno

vG

omez

Zsi

vocz

kyM

acey

Sm

ithM

cMU

LLE

NB

erna

rdZ

SIV

OC

ZK

YH

ernu

KA

RP

OV

SE

BR

LETe

rek

Pog

orel

ovK

orki

zogl

ouC

LAY

BE

RN

AR

DN

ool

War

ners

Dre

ws

WA

RN

ER

SS

chw

arzl

Ave

ryan

ov

0.0

0.5

1.0

1.5

Click to cut the tree

Remarque : vu le mode de construction, la partition n’est pasoptimale mais est intéressante

9 / 40


Qualité d’une partition

Quand une partition est-elle bonne ?• Si les individus d’une même classe sont proches• Si les individus de 2 classes différentes sont éloignés

Et mathématiquement ça se traduit par ?• Variabilité intra-classe petite• Variabilité inter-classe grande

=⇒ Deux critères, lequel choisir ?

10 / 40



x̄k moyenne de xk , x̄qk moyenne de xk dans la classe qQ∑

q=1

I∑i=1

(xiqk − x̄k )2

︸︷︷︸Inertie totale

=Q∑

q=1

I∑i=1

(xiqk − x̄qk )2

︸︷︷︸Inertie intra

+Q∑

q=1

I∑i=1

(x̄qk − x̄k )2

︸︷︷︸Inertie inter

x

x1

x2

x

x3

11 / 40



x̄k moyenne de xk , x̄qk moyenne de xk dans la classe qQ∑

q=1

I∑i=1

(xiqk − x̄k )2

︸︷︷︸Inertie totale

=Q∑

q=1

I∑i=1

(xiqk − x̄qk )2

︸︷︷︸Inertie intra

+Q∑

q=1

I∑i=1

(x̄qk − x̄k )2

︸︷︷︸Inertie inter

x

x1

x2

x

x3

=⇒ 1 seul critère !

11 / 40



La qualité d’une partition est mesurée par :

0 ≤ Inertie interInertie totale ≤ 1

Inertie interInertie totale

= 0 =⇒ ∀q, x̄qk = x̄k : les classes ont même moyennesNe permet pas de classifier

Inertie interInertie totale

= 1 =⇒ ∀q,∀i , xiqk = x̄qk : individus d’1 classe identiquesIdéal pour classifier

Attention : ce critère ne peut être jugé en absolu car il dépend dunb d’individus et du nb de classes

12 / 40


Méthode de Ward

• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie inter

Regroupe les objets de faible poids etévite l’effet de chaîne

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

−2 0 2 4 6 8 10

−2

02

46

810

1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21

Saut minimum

Saut minimum

1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27

Ward

Ward

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

******

******

*******

******

**

−2 0 2 4 6 8 10

−2

02

46

810

1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17

Saut minimum

1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

Ward

Regroupe des classesayant des centres degravité proches

Intérêt immédiat pour laclassification

13 / 40


Méthode de Ward

• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie inter

Inertie(a) + Inertie(b) = Inertie(a ∪ b)− mambma + mb

d2(a, b)


xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

−2 0 2 4 6 8 10

−2

02

46

810

1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21

Saut minimum

Saut minimum

1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27

Ward

Ward

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

******

******

*******

******

**

−2 0 2 4 6 8 10

−2

02

46

810

1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17

Saut minimum

1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

Ward



13 / 40


Méthode de Ward• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie interInertie(a) + Inertie(b) = Inertie(a ∪ b)− mamb

ma + mbd2(a, b)︸︷︷︸

à minimiser


xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

−2 0 2 4 6 8 10

−2

02

46

810

1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21

Saut minimum

Saut minimum

1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27

Ward

Ward

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

******

******

*******

******

**

−2 0 2 4 6 8 10

−2

02

46

810

1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17

Saut minimum

1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

Ward



13 / 40


Méthode de Ward• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie interInertie(a) + Inertie(b) = Inertie(a ∪ b)− mamb

ma + mbd2(a, b)︸︷︷︸

à minimiserRegroupe les objets de faible poids etévite l’effet de chaîne

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

−2 0 2 4 6 8 10

−2

02

46

810

1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21

Saut minimum

Saut minimum

1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27

Ward

Ward

xxxx xx

xx

xxxx x

xx

+++++

++

++

+++ +++

******

******

*******

******

**

−2 0 2 4 6 8 10

−2

02

46

810

1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17

Saut minimum

1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

Ward



13 / 40



1 Introduction


3 Exemple


5 Compléments


14 / 40


Les données température

• 15 individus : villes de France• 12 variables : températures mensuelles moyennes (sur 30 ans)

Janv Févr Mars Avri Mai Juin juil Août Sept Octo Nove Déce Lati LongBordeaux 5.6 6.6 10.3 12.8 15.8 19.3 20.9 21 18.6 13.8 9.1 6.2 44.5 -0.34Brest 6.1 5.8 7.8 9.2 11.6 14.4 15.6 16 14.7 12 9 7 48.24 -4.29

Clermont 2.6 3.7 7.5 10.3 13.8 17.3 19.4 19.1 16.2 11.2 6.6 3.6 45.47 3.05Grenoble 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7 11.4 6.5 2.3 45.1 5.43

Lille 2.4 2.9 6 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5 50.38 3.04Lyon 2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1 45.45 4.51

Marseille 5.5 6.6 10 13 16.8 20.8 23.3 22.8 19.9 15 10.2 6.9 43.18 5.24Montpellier 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10 6.5 43.36 3.53

Nantes 5 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4 12.2 8.2 5.5 47.13 -1.33Nice 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16 11.5 8.2 43.42 7.15

Paris 3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16 11.4 7.1 4.3 48.52 2.2Rennes 4.8 5.3 7.9 10.1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4 48.05 -1.41Strasbourg 0.4 1.5 5.6 9.8 14 17.2 19 18.3 15.1 9.5 4.9 1.3 48.35 7.45

Toulouse 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5 43.36 1.26Vichy 2.4 3.4 7.1 9.9 13.6 17.1 19.3 18.8 16 11 6.6 3.4 46.08 3.26

Quelles villes ont des profils météo similaires ?Comment caractériser les groupes de villes ?

15 / 40


Les données température : l’arbre hiérarchique

02

46

Hierarchical clustering

inertia gain

68

Cluster Dendrogram

Tou

lous

e

Bor

deau

x

Nic

e

Mon

tpel

lier

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

nobl

e

Lyon

Par

is

Vic

hy

Cle

rmon

t

Lille

Str

asbo

urg

02

4

16 / 40



15 classes en 14 classes : 0.01






Pertes d’inertie inter

lors du passage de

46









2 classes en 1 classe : 7.88 0

2

inertia gain

Grosse perte si on passe de

2 classes à 1 seule donc on

préfère garder 2 classes

Somme des pertes d’inertie = 12

17 / 40









Pertes d’inertie inter

lors du passage de

46









2 classes en 1 classe : 7.88 0

2

inertia gain

Grosse perte si on passe de

2 classes à 1 seule donc on

préfère garder 2 classes

Somme des pertes d’inertie = 1217 / 40


Utilisation de l’arbre pour construire une partition

Doit-on faire 2 groupes ? 3 groupes ? 4 ?

Découpage en 2 groupes :

Inertie interInertie totale = 7.88

12 = 66%

A quoi comparer ce pourcen-tage ?

68

To

ulo

use

Bo

rdea

ux

Nic

e

Mo

ntp

ellie

r

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

no

ble

Lyo

n

Par

is

Vic

hy

Cle

rmo

nt

Lill

e

Str

asb

ou

rg

02

4

18 / 40



66 % de l’information résumée avec ce découpage en 2 classesA quoi comparer ce pourcentage ?

24

Dim

2 (

18.9

7%)

Lille

Brest

RennesNantes Nice

-4 -2 0 2 4 6

-20

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

Lille

Strasbourg

Vichy Clermont

Grenoble

Paris

Lyon

Toulouse

Bordeaux

MontpellierMarseille

Nice

19 / 40


Utilisation de l’arbre pour construire une partition6

8

To

ulo

use

Bo

rdea

ux

Nic

e

Mo

ntp

ellie

r

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

no

ble

Lyo

n

Par

is

Vic

hy

Cle

rmo

nt

Lill

e

Str

asb

ou

rg

02

4

Séparer villes froides en 2groupes :

Inertie interInertie totale = 1.56

12 = 13%

19 / 40



Passage de 15 villes à 3 classes : 66 % + 13 % = 79 % de lavariabilité des données

24

Dim

2 (

18.9

7%)

Lille

Brest

RennesNantes Nice

-4 -2 0 2 4 6

-20

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

Lille

Strasbourg

Vichy Clermont

Grenoble

Paris

Lyon

Toulouse

Bordeaux


Nice

20 / 40


Détermination d’un nombre de classes

• A partir de l’arbre• Dépend de l’usage(enquête, . . . )

• A partir du diagramme desindices de niveau• Critère ultime :interprétabilité des classes

68

To

ulo

use

Bo

rdea

ux

Nic

e

Mo

ntp

ellie

r

Mar

seill

e

Bre

st

Ren

nes

Nan

tes

Gre

no

ble

Lyo

n

Par

is

Vic

hy

Cle

rmo

nt

Lill

e

Str

asb

ou

rg

02

4

46

02

inertia gain

20 / 40



1 Introduction


3 Exemple


5 Compléments


21 / 40


Algorithme de partitionnement : les K-means

Algorithme d’agrégation autour des centres mobiles (K-means)

• Choisir Q centres declasses au hasard• Affecter les pointsau centre le plusproche• Calculer les Qcentres de gravité

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

●

●●

●

●

● ●

Clermont

GrenobleLyon

Marseille

MontpellierParis Toulouse

Bordeaux

Brest

NantesNice

Rennes

Lille

Strasbourg

Vichy● ●

●●

●

●

● ●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

●

●

●

● ●

Lyon

Marseille

MontpellierParis Toulouse

Bordeaux

Brest

NantesNice

Rennes

Clermont

Grenoble

Lille

Strasbourg

Vichy

●

●

●

●

● ●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

●

●

●

●

●

Bordeaux

Marseille

Montpellier

Nice

Toulouse

Brest

Nantes

Rennes

Clermont

Grenoble

Lille

Lyon

Paris

Strasbourg

Vichy

●

●

●

●

●

●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

●

●

●

●

●

Bordeaux

Marseille

Montpellier

Nice

Toulouse

Brest

Nantes

Rennes

Clermont

Grenoble

Lille

Lyon

Paris

Strasbourg

Vichy●

−4 −2 0 2 4 6

−2

−1

01

23

4

Dim 1 ( 79.85 %)

Dim

2 (

18.

97 %

)

Bordeaux

Brest

Clermont

Grenoble

Lille

Lyon

Marseille

Montpellier

NantesNice

Paris

Rennes

Strasbourg

Toulouse

Vichy

●

●

●

●

● ●

22 / 40



1 Introduction


3 Exemple


5 Compléments


23 / 40


Consolidation d’une partition obtenue par CAH

La partition obtenue par CAH n’est pas optimale et peut êtreaméliorée, consolidée, par les K-means

Algorithme de consolidation :• la partition obtenue par CAH est utilisée comme initialisationde l’algorithme de partitionnement• quelques étapes de K-means sont itérées

=⇒ amélioration de la partition (souvent non décisive)Avantage : consolidation de la partitionInconvénient : perte de l’info de hiérarchie

24 / 40


CAH en grandes dimensions

• Si beaucoup de variables : faire une ACP et ne conserver queles premières dimensions =⇒ on se ramène au cas classique

• Si beaucoup d’individus : algorithme de CAH trop long• Faire une partition (par K-means) en une centaine de classes• Construire la CAH à partir des classes (utiliser l’effectif des

classes dans le calcul)• Obtention du « haut » de l’arbre de la CAH


0.06

0.08

Cluster Dendrogram

158

124

146

118

123

117

169

139

140

285

115

155

176 70

116 11 90

125

130

143

129

218

298

114

174

106

107 73

147

282

292

105

150

137 94

149 82 23

161 83

197 47

194

142

181

290 1

263 88 46 75 26

294 86 54

205 6 4

223

217

198

191

203

209

262

180

189

186

102

226

188

187

200 38

167

154 40

163 37 63

152

166

213

228

296 20

231

164

275 29 84

291

260

109 27 7 30

178 45

214

119

111 5 77

170 71

121 12

134 55

193

237

219 76 97

258 41

144

141

177 36

184

254

230

145

250

175 43

247

284 91

216 85

157

104

179

131

293

126

245 93 16

288

206

196 24 81

113

153 15

159 9

128

151 13 19 49 42

300

156

183 2

232

162 34

242 96

132 8 14

257

256

227

222

211

212

249

165

199

195

182

202

220

190 53

100

208 74 95 31

168

248

299

171

287

272

297

229

261 62 66 22 44

127

148

204

273

274

135

136

239

103 98 80

286

289

210

215

221 28 72

236 69

138

281 78 89

270 61 99

267

233 57 18

279

244

234 60

246

225 50 10

173 17 35

278

269

240

224

120 52

271

277 68

108

101

264

133

268 87

259

265

122

251

252 59

295

207

283 67

192

276 92 65

110 25

238 79

266

255 39

160 64 3

201

253 48

112

243

241 56 32 51

172 58 21 33

185

280

235

0.00

0.02

0.04

Hierarchical Clustering

0.06

0.08

Hierarchical Classification

1 14 33 32 2 40 42 6 35 36 38 26 47 11 25 43 5 16 30 39 19 49 10 17 3 27 23 13 20 8 22 21 50 18 7 41 29 31 34 15 37 24 4 45 28 46 48 9 44 12

0.00

0.02

0.04

0.06

Arbre sur données brutes Arbre à partir de classes

25 / 40


CAH en grandes dimensions

• Si beaucoup de variables : faire une ACP et ne conserver queles premières dimensions =⇒ on se ramène au cas classique• Si beaucoup d’individus : algorithme de CAH trop long

• Faire une partition (par K-means) en une centaine de classes• Construire la CAH à partir des classes (utiliser l’effectif des

classes dans le calcul)• Obtention du « haut » de l’arbre de la CAH


0.06

0.08

Cluster Dendrogram

158

124

146

118

123

117

169

139

140

285

115

155

176 70

116 11 90

125

130

143

129

218

298

114

174

106

107 73

147

282

292

105

150

137 94

149 82 23

161 83

197 47

194

142

181

290 1

263 88 46 75 26

294 86 54

205 6 4

223

217

198

191

203

209

262

180

189

186

102

226

188

187

200 38

167

154 40

163 37 63

152

166

213

228

296 20

231

164

275 29 84

291

260

109 27 7 30

178 45

214

119

111 5 77

170 71

121 12

134 55

193

237

219 76 97

258 41

144

141

177 36

184

254

230

145

250

175 43

247

284 91

216 85

157

104

179

131

293

126

245 93 16

288

206

196 24 81

113

153 15

159 9

128

151 13 19 49 42

300

156

183 2

232

162 34

242 96

132 8 14

257

256

227

222

211

212

249

165

199

195

182

202

220

190 53

100

208 74 95 31

168

248

299

171

287

272

297

229

261 62 66 22 44

127

148

204

273

274

135

136

239

103 98 80

286

289

210

215

221 28 72

236 69

138

281 78 89

270 61 99

267

233 57 18

279

244

234 60

246

225 50 10

173 17 35

278

269

240

224

120 52

271

277 68

108

101

264

133

268 87

259

265

122

251

252 59

295

207

283 67

192

276 92 65

110 25

238 79

266

255 39

160 64 3

201

253 48

112

243

241 56 32 51

172 58 21 33

185

280

235

0.00

0.02

0.04

Hierarchical Clustering

0.06

0.08

Hierarchical Classification

1 14 33 32 2 40 42 6 35 36 38 26 47 11 25 43 5 16 30 39 19 49 10 17 3 27 23 13 20 8 22 21 50 18 7 41 29 31 34 15 37 24 4 45 28 46 48 9 44 12

0.00

0.02

0.04

0.06

Arbre sur données brutes Arbre à partir de classes

25 / 40


CAH sur données qualitatives

Deux stratégies pour faire une classification sur donnéesqualitatives :

• Se ramener à des variables quantitatives• Faire une ACM et ne conserver que les premières dimensions• Faire la CAH à partir des composantes principales de l’ACM

• Utiliser des mesures adaptées aux données qualitatives : indicede similarité, indice de Jaccard, etc.

26 / 40


Enchaînement analyse factorielle - classification• Données qualitatives : ACM renvoie des composantesprincipales qui sont quantitatives

• L’analyse factorielle élimine les dernières composantes qui necontiennent que du bruit =⇒ classification plus stable

• Représentation del’arbre et des classessur un plan factoriel=⇒ vision continueavec AF, discontinueavec CAH ; vision del’information surd’autres axes avecCAH −6 −4 −2 0 2 4 6 8

02

46

8

−3−2

−1 0

1 2

3 4

5

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

heig

ht

●

●

●●●

●●●

●● ●●

● ●●

cluster 1 cluster 2 cluster 3

Lille

Strasbourg

Brest

VichyClermont

Grenoble

Rennes

Paris

Lyon

Nantes

ToulouseBordeauxMontpellier

Marseille

Nice

Hierarchical clustering on the factor map

27 / 40


Enchaînement analyse factorielle - classification• Données qualitatives : ACM renvoie des composantesprincipales qui sont quantitatives• L’analyse factorielle élimine les dernières composantes qui necontiennent que du bruit =⇒ classification plus stable

• Représentation del’arbre et des classessur un plan factoriel=⇒ vision continueavec AF, discontinueavec CAH ; vision del’information surd’autres axes avecCAH −6 −4 −2 0 2 4 6 8

02

46

8

−3−2

−1 0

1 2

3 4

5

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

heig

ht

●

●

●●●

●●●

●● ●●

● ●●


Lille

Strasbourg

Brest

VichyClermont

Grenoble

Rennes

Paris

Lyon

Nantes

ToulouseBordeauxMontpellier

Marseille

Nice

Hierarchical clustering on the factor map

27 / 40



1 Introduction


3 Exemple


5 Compléments


28 / 40


Constitution des classes - Édition des parangonsParangon : individu le plus proche du centre d’une classeclasse 1 : Montpellier Bordeaux Marseille Nice Toulouse

0.419 1.141 1.193 2.242 2.256classe 2 : Rennes Nantes Brest

0.641 1.586 2.045classe 3 : Vichy Clermont Grenoble Paris Lyon

0.428 0.669 1.184 1.339 1.680

24

Dim

2 (

18.9

7%)

Brest

RennesNantes Nice

cluster 2


-4 -2 0 2 4 6

-20

Dim 1 (79.85%)

Dim

2 (

18.9

7%)

Lille

Strasbourg

VichyClermont

Grenoble

Paris

Lyon

Toulouse

Bordeaux


Nice

cluster 1

cluster 3

29 / 40


Caractérisation des classes

• Objectifs :• Trouver les variables les plus caractérisantes pour la partition• Caractériser une classe (ou un groupe d’individus) par des

variables quantitatives• Trier les variables qui caractérisent les classes

• Questions :• Quelles variables caractérisent le mieux la partition ?• Comment caractériser les individus de la classe 1 ?• Quelles variables les caractérisent le mieux ?

30 / 40


Caractérisation des classesQuelles variables caractérisent le mieux la partition ?• Pour chaque variable quantitative :

• construire le modèle d’analyse de variance entre la variablequantitative expliquée par la variable de classe

• faire le test de Fisher de l’effet de la classe• Trier les variables par probabilité critique croissante

Eta2 P-valueOcto 0.8362 1.930e-05Sept 0.8301 2.407e-05Févr 0.8227 3.103e-05Mars 0.8126 4.326e-05Janv 0.8118 4.444e-05Nove 0.8083 4.963e-05Avri 0.7929 7.890e-05Déce 0.7871 9.316e-05Août 0.7864 9.503e-05Juin 0.7241 4.409e-04Mai 0.7164 5.205e-04juil 0.7156 5.287e-04

31 / 40


Caractérisation d’une classe par les variables quantitatives

0 5 10 15 20

Température

Déce

Nove

Octo

Sept

Août

juil

Juin

Mai

Avri

Mars

Févr

Janv ●● ●●●● ●●● ●● ●●● ●

●● ●●●● ●●● ●● ●●● ●

●● ●● ●●●●● ● ● ●●● ●

● ●● ● ●●● ●●● ● ●●●●

● ●● ●● ●● ● ●● ● ● ● ●●

● ●● ●● ●● ● ●● ● ● ● ●●

● ●● ●● ●● ● ●● ●● ● ●●

● ●● ●● ●● ● ●● ●● ● ●●

● ●● ●● ●●● ●● ●● ● ● ●

●● ●●●●●●● ● ● ● ● ● ●

●● ●●●● ●●● ● ● ● ●● ●

●● ●●●● ●●● ●● ●● ● ●

LyonParisGrenobleClermontVichyStrasbourgLilleNantesRennesBrestNiceMarseilleMontpellierBordeauxToulouse

32 / 40



Idée 1 : si les valeurs de X pour la classe q semblent tirées auhasard parmi les valeurs de X , alors X ne caractérise pas la classe q

16 17 18 19 20 21 22 23

Température

●● ●● ●● ● ● ●●● ● ●●●

● ●● ● ● ●● ● ●● ●● ● ●●Août

Aléa

Idée 2 : plus l’hypothèse d’un tirage au hasard est douteuse, plus Xcaractérise la classe q

33 / 40


Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N

Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)

E(X̄q) = x̄ V(X̄q) = s2

nq

(N − nqN − 1

)L(X̄q) = N car X̄q est une moyenne

=⇒ Valeur-test = x̄q − x̄√s2nq

(N−nqN−1

) ∼ N (0, 1)

• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande

Idée : classer les variables par |Valeur-test| décroissante

34 / 40


Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N

Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)

E(X̄q) = x̄ V(X̄q) = s2

nq

(N − nqN − 1

)L(X̄q) = N car X̄q est une moyenne

=⇒ Valeur-test = x̄q − x̄√s2nq

(N−nqN−1

) ∼ N (0, 1)

• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande

Idée : classer les variables par |Valeur-test| décroissante34 / 40



$quanti$‘1‘v.test Mean in Overall sd in Overall p.value

category mean category sdSept 3.40 19.30 17.00 0.755 1.79 0.000678Moye 3.39 13.80 11.80 0.742 1.55 0.000705Avri 3.33 12.70 11.00 0.580 1.37 0.000871Octo 3.32 14.50 12.30 0.941 1.77 0.000893Mars 3.24 10.00 8.23 0.524 1.48 0.001210Août 3.18 21.90 19.60 0.792 1.94 0.001490Juin 3.00 19.80 17.80 0.727 1.73 0.002670Mai 3.00 16.10 14.40 0.691 1.45 0.002720Nove 2.97 9.88 7.93 0.999 1.74 0.003020juil 2.92 22.10 19.80 1.000 2.06 0.003550Févr 2.88 6.80 4.83 0.940 1.81 0.003940Déce 2.54 6.66 4.85 0.896 1.89 0.011200Janv 2.46 5.78 3.97 0.924 1.94 0.013700

35 / 40


Caractérisation d’une classe par les variables quantitatives$‘2‘

v.test Mean in Overall sd in Overall p.valuecategory mean category sd

Mai -2.02 12.90 14.40 0.953 1.45 0.04380Août -2.02 17.50 19.60 1.090 1.94 0.04330Juin -2.05 15.90 17.80 1.160 1.73 0.04020juil -2.18 17.40 19.80 1.350 2.06 0.02900Long -2.88 -2.34 2.58 1.380 3.21 0.00404Ampl -2.95 12.40 15.90 1.560 2.25 0.00316

36 / 40


Caractérisation d’une classe par les variables quantitatives$‘2‘

v.test Mean in Overall sd in Overall p.valuecategory mean category sd

Mai -2.02 12.90 14.40 0.953 1.45 0.04380Août -2.02 17.50 19.60 1.090 1.94 0.04330Juin -2.05 15.90 17.80 1.160 1.73 0.04020juil -2.18 17.40 19.80 1.350 2.06 0.02900Long -2.88 -2.34 2.58 1.380 3.21 0.00404Ampl -2.95 12.40 15.90 1.560 2.25 0.00316

$‘3‘v.test Mean in Overall sd in Overall p.value

category mean category sdSept -2.05 15.90 17.00 0.738 1.79 0.040700Avri -2.11 10.20 11.00 0.637 1.37 0.035100Moye -2.60 10.70 11.80 0.620 1.55 0.009220Octo -2.81 10.90 12.30 0.661 1.77 0.004940Mars -2.85 7.03 8.23 0.807 1.48 0.004310Nove -3.15 6.36 7.93 0.654 1.74 0.001620Févr -3.25 3.16 4.83 0.763 1.81 0.001150Déce -3.28 3.07 4.85 0.911 1.89 0.001020Janv -3.36 2.11 3.97 0.876 1.94 0.000793

36 / 40


Caractérisation des classes par les variables qualitatives

Quelles variables caractérisent le mieux la partition ?

• Pour chaque variable qualitative, construire un test du χ2

entre la variable et la variable de classe• Trier les variables par probabilité critique croissante

$test.chi2p.value df

Région 0.001700272 6

37 / 40


Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?

Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15

Test : H0 : nmcnc

= nmn contre H1 : m anormalement élevée dans c

Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)

Classe 3Cla/Mod Mod/Cla Global p.value v.test

Région=NE 100.00 42.86 20.00 0.077 1.769

33

×100 = 100 ;37

×100 = 42.86 ;315

×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077

=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques

38 / 40




Test : H0 : nmcnc


Sous H0 : L(Nmc) = H(nc ,nmn , n)

PH0 (Nmc ≥ nmc)Classe 3

Cla/Mod Mod/Cla Global p.value v.testRégion=NE 100.00 42.86 20.00 0.077 1.769

33

×100 = 100 ;37

×100 = 42.86 ;315

×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077


38 / 40




Test : H0 : nmcnc




Région=NE 100.00 42.86 20.00 0.077 1.769

33

×100 = 100 ;37

×100 = 42.86 ;315

×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077


38 / 40




Test : H0 : nmcnc




Région=NE 100.00 42.86 20.00 0.077 1.769

33

×100 = 100 ;37

×100 = 42.86 ;315

×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077

=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3

Tri des modalités en fonction des probabilités critiques

38 / 40




Test : H0 : nmcnc




Région=NE 100.00 42.86 20.00 0.077 1.769

33

×100 = 100 ;37

×100 = 42.86 ;315

×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077


38 / 40


Caractérisation d’une classe par les axes

Les axes factoriels sont aussi des variables quantitatives


category mean category sdDim.1 3.39 3.97 0 1.46 3.1 0.000693


category mean category sdDim.2 2.84 2.29 0 1.29 1.51 0.00447


category mean category sdDim.2 -2.11 -0.911 0 0.927 1.51 0.0346Dim.1 -2.56 -2.270 0 1.260 3.10 0.0104

39 / 40


Conclusion

• La classification s’applique à des tableaux individus ×variables quantitatives⇒ L’ACM transforme des variables qualitatives en variablesquantitatives

• CAH donne un arbre hiérarchique ⇒ nombre de classes

• K-means consolide les classes

• Caractérisation des classes par des variables actives etsupplémentaires, quantitatives et qualitatives

40 / 40

Classification ascendante hiérarchique (CAH)

Documents

Transcript of Classification ascendante hiérarchique (CAH)