Classification ascendante hiérarchique (CAH)
Transcript of Classification ascendante hiérarchique (CAH)
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
François Husson
Laboratoire de mathématiques appliquées - Agrocampus Rennes
1 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
1 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction2 Principes de la Classification Ascendante Hiérarchique3 Exemple4 Les K-means : un algorithme de partitionnement5 Compléments
• Consolidation de partition• Classification sur des données de grandes dimensions• Variables qualitatives et classification• Enchaînement analyse factorielle - classification
6 Caractérisation de classes d’individus
1 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
2 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Introduction
• Définitions :• Classification : action de constituer ou construire des classes• Classe : ensemble d’individus (ou d’objets) possédant des traits
de caractères communs (groupe, catégorie)• Exemples
• de classification : règne animal, disque dur d’un ordinateur,division géographique de la France, etc.
• de classe : classe sociale, classe politique, etc.• Deux types de classification :
• hiérarchique : arbre, CAH• méthode de partitionnement : partition
3 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Exemple de hiérarchie : le règne animal
4 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
5 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Quelles données pour quels objectifs ?
La classification s’intéresse à des tableaux dedonnées individus × variables quantitatives
Objectifs : production d’une structure (arbo-rescence) permettant :• la mise en évidence de lienshiérarchiques entre individus ougroupes d’individus• la détection d’un nb de classes« naturel » au sein de la population
A C B D E F G H
01
23
4
6 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Critères
Ressemblance entre individus :• distance euclidienne• indice de similarité• . . .
Ressemblance entre groupes d’individus :• saut minimum ou lien simple (plus
petite distance)• lien complet (plus grande distance)• critère de Ward
x
x
xx
x
x
x
x
x
x
x
x
x
x
7 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Critères
Ressemblance entre individus :• distance euclidienne• indice de similarité• . . .
Ressemblance entre groupes d’individus :• saut minimum ou lien simple (pluspetite distance)• lien complet (plus grande distance)• critère de Ward
x
x
xx
x
x
x
x
x
x
x
x
x
x
7 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Algorithme
ABC D E FGD 4.72E 5.55 1.00 FG 4.07 2.01 1.81 H 4.75 3.16 2.90 1.12
ABC DE FGDE 4.72FG 4.23 1.81 H 4.07 2.90 1.12
ABC DEDE 4.72FGH 4.07 1.81
ABC DEFGH 4.07
4e regroupement
5e regroupement
6e regroupement
7e regroupement
{ABC},{DE},{FG},{H}
{ABC},{DE},{FGH}
{ABC},{DEFGH}
{ABCDEFGH}
12
34
ABC D E F GD 4.72E 5.55 1.00 F 4.07 2.01 2.06 G 4.68 2.06 1.81 0.61 H 4.75 3.16 2.90 1.28 1.12
3e regroupement
A B C D E F GB 0.50 C 0.25 0.56 D 5.00 4.72 4.80 E 5.78 5.55 5.57 1.00 F 4.32 4.23 4.07 2.01 2.06 G 4.92 4.84 4.68 2.06 1.81 0.61 H 5.00 5.02 4.75 3.16 2.90 1.28 1.12
AC B D E F GB 0.50 D 4.80 4.72E 5.57 5.55 1.00 F 4.07 4.23 2.01 2.06 G 4.68 4.84 2.06 1.81 0.61 H 4.75 5.02 3.16 2.90 1.28 1.12
1er regroupement
2e regroupement
{A},{B},{C},{D},{E},{F},{G},{H}
{AC},{B},{D},{E},{F},{G},{H}
{ABC},{D},{E},{F},{G},{H}
{ABC},{D},{E},{FG},{H}
{ABC},{DE},{FG},{H}
A C B D E F G H
01
8 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Arbres et partitions
Les arbres finissent tous ... par être coupés ! ! !
En définissant un niveau decoupure, on construit unepartition
0.0
0.5
1.0
1.5
●Hierarchical Clustering
●
inertia gain
Cas
arsa
Par
khom
enko
YU
RK
OV
Lore
nzo
NO
OL
BO
UR
GU
IGN
ON
MA
RT
INE
AU
Kar
livan
sB
AR
RA
SU
ldal
HE
RN
UTu
riK
arpo
vC
lay
Seb
rleS
choe
nbec
kO
jani
emi
Bar
ras Qi
Sm
irno
vG
omez
Zsi
vocz
kyM
acey
Sm
ithM
cMU
LLE
NB
erna
rdZ
SIV
OC
ZK
YH
ernu
KA
RP
OV
SE
BR
LETe
rek
Pog
orel
ovK
orki
zogl
ouC
LAY
BE
RN
AR
DN
ool
War
ners
Dre
ws
WA
RN
ER
SS
chw
arzl
Ave
ryan
ov
0.0
0.5
1.0
1.5
Click to cut the tree
Remarque : vu le mode de construction, la partition n’est pasoptimale mais est intéressante
9 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Arbres et partitions
Les arbres finissent tous ... par être coupés ! ! !
En définissant un niveau decoupure, on construit unepartition
0.0
0.5
1.0
1.5
●Hierarchical Clustering
●
inertia gain
Cas
arsa
Par
khom
enko
YU
RK
OV
Lore
nzo
NO
OL
BO
UR
GU
IGN
ON
MA
RT
INE
AU
Kar
livan
sB
AR
RA
SU
ldal
HE
RN
UTu
riK
arpo
vC
lay
Seb
rleS
choe
nbec
kO
jani
emi
Bar
ras Qi
Sm
irno
vG
omez
Zsi
vocz
kyM
acey
Sm
ithM
cMU
LLE
NB
erna
rdZ
SIV
OC
ZK
YH
ernu
KA
RP
OV
SE
BR
LETe
rek
Pog
orel
ovK
orki
zogl
ouC
LAY
BE
RN
AR
DN
ool
War
ners
Dre
ws
WA
RN
ER
SS
chw
arzl
Ave
ryan
ov
0.0
0.5
1.0
1.5
Click to cut the tree
Remarque : vu le mode de construction, la partition n’est pasoptimale mais est intéressante
9 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
Quand une partition est-elle bonne ?• Si les individus d’une même classe sont proches• Si les individus de 2 classes différentes sont éloignés
Et mathématiquement ça se traduit par ?• Variabilité intra-classe petite• Variabilité inter-classe grande
=⇒ Deux critères, lequel choisir ?
10 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
Quand une partition est-elle bonne ?• Si les individus d’une même classe sont proches• Si les individus de 2 classes différentes sont éloignés
Et mathématiquement ça se traduit par ?• Variabilité intra-classe petite• Variabilité inter-classe grande
=⇒ Deux critères, lequel choisir ?
10 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
Quand une partition est-elle bonne ?• Si les individus d’une même classe sont proches• Si les individus de 2 classes différentes sont éloignés
Et mathématiquement ça se traduit par ?• Variabilité intra-classe petite• Variabilité inter-classe grande
=⇒ Deux critères, lequel choisir ?
10 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
x̄k moyenne de xk , x̄qk moyenne de xk dans la classe qQ∑
q=1
I∑i=1
(xiqk − x̄k )2
︸ ︷︷ ︸Inertie totale
=Q∑
q=1
I∑i=1
(xiqk − x̄qk )2
︸ ︷︷ ︸Inertie intra
+Q∑
q=1
I∑i=1
(x̄qk − x̄k )2
︸ ︷︷ ︸Inertie inter
x
x1
x2
x
x3
11 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
x̄k moyenne de xk , x̄qk moyenne de xk dans la classe qQ∑
q=1
I∑i=1
(xiqk − x̄k )2
︸ ︷︷ ︸Inertie totale
=Q∑
q=1
I∑i=1
(xiqk − x̄qk )2
︸ ︷︷ ︸Inertie intra
+Q∑
q=1
I∑i=1
(x̄qk − x̄k )2
︸ ︷︷ ︸Inertie inter
x
x1
x2
x
x3
=⇒ 1 seul critère !
11 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
La qualité d’une partition est mesurée par :
0 ≤ Inertie interInertie totale ≤ 1
Inertie interInertie totale
= 0 =⇒ ∀q, x̄qk = x̄k : les classes ont même moyennesNe permet pas de classifier
Inertie interInertie totale
= 1 =⇒ ∀q,∀i , xiqk = x̄qk : individus d’1 classe identiquesIdéal pour classifier
Attention : ce critère ne peut être jugé en absolu car il dépend dunb d’individus et du nb de classes
12 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
La qualité d’une partition est mesurée par :
0 ≤ Inertie interInertie totale ≤ 1
Inertie interInertie totale
= 0 =⇒ ∀q, x̄qk = x̄k : les classes ont même moyennesNe permet pas de classifier
Inertie interInertie totale
= 1 =⇒ ∀q,∀i , xiqk = x̄qk : individus d’1 classe identiquesIdéal pour classifier
Attention : ce critère ne peut être jugé en absolu car il dépend dunb d’individus et du nb de classes
12 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
La qualité d’une partition est mesurée par :
0 ≤ Inertie interInertie totale ≤ 1
Inertie interInertie totale
= 0 =⇒ ∀q, x̄qk = x̄k : les classes ont même moyennesNe permet pas de classifier
Inertie interInertie totale
= 1 =⇒ ∀q,∀i , xiqk = x̄qk : individus d’1 classe identiquesIdéal pour classifier
Attention : ce critère ne peut être jugé en absolu car il dépend dunb d’individus et du nb de classes
12 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Qualité d’une partition
La qualité d’une partition est mesurée par :
0 ≤ Inertie interInertie totale ≤ 1
Inertie interInertie totale
= 0 =⇒ ∀q, x̄qk = x̄k : les classes ont même moyennesNe permet pas de classifier
Inertie interInertie totale
= 1 =⇒ ∀q,∀i , xiqk = x̄qk : individus d’1 classe identiquesIdéal pour classifier
Attention : ce critère ne peut être jugé en absolu car il dépend dunb d’individus et du nb de classes
12 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Méthode de Ward
• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie inter
Regroupe les objets de faible poids etévite l’effet de chaîne
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
−2 0 2 4 6 8 10
−2
02
46
810
1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21
Saut minimum
Saut minimum
1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27
Ward
Ward
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
******
******
*******
******
**
−2 0 2 4 6 8 10
−2
02
46
810
1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17
Saut minimum
1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
Ward
Regroupe des classesayant des centres degravité proches
Intérêt immédiat pour laclassification
13 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Méthode de Ward
• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie inter
Inertie(a) + Inertie(b) = Inertie(a ∪ b)− mambma + mb
d2(a, b)
Regroupe les objets de faible poids etévite l’effet de chaîne
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
−2 0 2 4 6 8 10
−2
02
46
810
1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21
Saut minimum
Saut minimum
1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27
Ward
Ward
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
******
******
*******
******
**
−2 0 2 4 6 8 10
−2
02
46
810
1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17
Saut minimum
1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
Ward
Regroupe des classesayant des centres degravité proches
Intérêt immédiat pour laclassification
13 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Méthode de Ward• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie interInertie(a) + Inertie(b) = Inertie(a ∪ b)− mamb
ma + mbd2(a, b)︸ ︷︷ ︸
à minimiser
Regroupe les objets de faible poids etévite l’effet de chaîne
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
−2 0 2 4 6 8 10
−2
02
46
810
1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21
Saut minimum
Saut minimum
1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27
Ward
Ward
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
******
******
*******
******
**
−2 0 2 4 6 8 10
−2
02
46
810
1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17
Saut minimum
1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
Ward
Regroupe des classesayant des centres degravité proches
Intérêt immédiat pour laclassification
13 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Méthode de Ward• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie interInertie(a) + Inertie(b) = Inertie(a ∪ b)− mamb
ma + mbd2(a, b)︸ ︷︷ ︸
à minimiserRegroupe les objets de faible poids etévite l’effet de chaîne
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
−2 0 2 4 6 8 10
−2
02
46
810
1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21
Saut minimum
Saut minimum
1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27
Ward
Ward
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
******
******
*******
******
**
−2 0 2 4 6 8 10
−2
02
46
810
1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17
Saut minimum
1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
Ward
Regroupe des classesayant des centres degravité proches
Intérêt immédiat pour laclassification
13 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Méthode de Ward• Initialisation : 1 classe = 1 individu =⇒ In. inter = In. totale• A chaque étape : agréger les classes a et b qui minimisent ladiminution de l’inertie interInertie(a) + Inertie(b) = Inertie(a ∪ b)− mamb
ma + mbd2(a, b)︸ ︷︷ ︸
à minimiserRegroupe les objets de faible poids etévite l’effet de chaîne
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
−2 0 2 4 6 8 10
−2
02
46
810
1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21
Saut minimum
Saut minimum
1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27
Ward
Ward
xxxx xx
xx
xxxx x
xx
+++++
++
++
+++ +++
******
******
*******
******
**
−2 0 2 4 6 8 10
−2
02
46
810
1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17
Saut minimum
1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
Ward
Regroupe des classesayant des centres degravité proches
Intérêt immédiat pour laclassification
13 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
14 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Les données température
• 15 individus : villes de France• 12 variables : températures mensuelles moyennes (sur 30 ans)
Janv Févr Mars Avri Mai Juin juil Août Sept Octo Nove Déce Lati LongBordeaux 5.6 6.6 10.3 12.8 15.8 19.3 20.9 21 18.6 13.8 9.1 6.2 44.5 -0.34Brest 6.1 5.8 7.8 9.2 11.6 14.4 15.6 16 14.7 12 9 7 48.24 -4.29
Clermont 2.6 3.7 7.5 10.3 13.8 17.3 19.4 19.1 16.2 11.2 6.6 3.6 45.47 3.05Grenoble 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7 11.4 6.5 2.3 45.1 5.43
Lille 2.4 2.9 6 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5 50.38 3.04Lyon 2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1 45.45 4.51
Marseille 5.5 6.6 10 13 16.8 20.8 23.3 22.8 19.9 15 10.2 6.9 43.18 5.24Montpellier 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10 6.5 43.36 3.53
Nantes 5 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4 12.2 8.2 5.5 47.13 -1.33Nice 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16 11.5 8.2 43.42 7.15
Paris 3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16 11.4 7.1 4.3 48.52 2.2Rennes 4.8 5.3 7.9 10.1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4 48.05 -1.41Strasbourg 0.4 1.5 5.6 9.8 14 17.2 19 18.3 15.1 9.5 4.9 1.3 48.35 7.45
Toulouse 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5 43.36 1.26Vichy 2.4 3.4 7.1 9.9 13.6 17.1 19.3 18.8 16 11 6.6 3.4 46.08 3.26
Quelles villes ont des profils météo similaires ?Comment caractériser les groupes de villes ?
15 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Les données température : l’arbre hiérarchique
02
46
Hierarchical clustering
inertia gain
68
Cluster Dendrogram
Tou
lous
e
Bor
deau
x
Nic
e
Mon
tpel
lier
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
nobl
e
Lyon
Par
is
Vic
hy
Cle
rmon
t
Lille
Str
asbo
urg
02
4
16 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Les données température
15 classes en 14 classes : 0.01
14 classes en 13 classes : 0.02
13 classes en 12 classes : 0.03
12 classes en 11 classes : 0.05
11 classes en 10 classes : 0.06
10 classes en 9 classes : 0.09
Pertes d’inertie inter
lors du passage de
46
10 classes en 9 classes : 0.09
9 classes en 8 classes : 0.17
8 classes en 7 classes : 0.19
7 classes en 6 classes : 0.26
6 classes en 5 classes : 0.42
5 classes en 4 classes : 0.56
4 classes en 3 classes : 0.69
3 classes en 2 classes : 1.56
2 classes en 1 classe : 7.88 0
2
inertia gain
Grosse perte si on passe de
2 classes à 1 seule donc on
préfère garder 2 classes
Somme des pertes d’inertie = 12
17 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Les données température
15 classes en 14 classes : 0.01
14 classes en 13 classes : 0.02
13 classes en 12 classes : 0.03
12 classes en 11 classes : 0.05
11 classes en 10 classes : 0.06
10 classes en 9 classes : 0.09
Pertes d’inertie inter
lors du passage de
46
10 classes en 9 classes : 0.09
9 classes en 8 classes : 0.17
8 classes en 7 classes : 0.19
7 classes en 6 classes : 0.26
6 classes en 5 classes : 0.42
5 classes en 4 classes : 0.56
4 classes en 3 classes : 0.69
3 classes en 2 classes : 1.56
2 classes en 1 classe : 7.88 0
2
inertia gain
Grosse perte si on passe de
2 classes à 1 seule donc on
préfère garder 2 classes
Somme des pertes d’inertie = 1217 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition
Doit-on faire 2 groupes ? 3 groupes ? 4 ?
Découpage en 2 groupes :
Inertie interInertie totale = 7.88
12 = 66%
A quoi comparer ce pourcen-tage ?
68
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
18 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition
Doit-on faire 2 groupes ? 3 groupes ? 4 ?
Découpage en 2 groupes :
Inertie interInertie totale = 7.88
12 = 66%
A quoi comparer ce pourcen-tage ?
68
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
18 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition
Doit-on faire 2 groupes ? 3 groupes ? 4 ?
Découpage en 2 groupes :
Inertie interInertie totale = 7.88
12 = 66%
A quoi comparer ce pourcen-tage ?
68
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
18 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition
Doit-on faire 2 groupes ? 3 groupes ? 4 ?
Découpage en 2 groupes :
Inertie interInertie totale = 7.88
12 = 66%
A quoi comparer ce pourcen-tage ?
68
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
18 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition
66 % de l’information résumée avec ce découpage en 2 classesA quoi comparer ce pourcentage ?
24
Dim
2 (
18.9
7%)
Lille
Brest
RennesNantes Nice
-4 -2 0 2 4 6
-20
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
Lille
Strasbourg
Vichy Clermont
Grenoble
Paris
Lyon
Toulouse
Bordeaux
MontpellierMarseille
Nice
19 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition6
8
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
Séparer villes froides en 2groupes :
Inertie interInertie totale = 1.56
12 = 13%
19 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition6
8
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
Séparer villes froides en 2groupes :
Inertie interInertie totale = 1.56
12 = 13%
19 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Utilisation de l’arbre pour construire une partition
Passage de 15 villes à 3 classes : 66 % + 13 % = 79 % de lavariabilité des données
24
Dim
2 (
18.9
7%)
Lille
Brest
RennesNantes Nice
-4 -2 0 2 4 6
-20
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
Lille
Strasbourg
Vichy Clermont
Grenoble
Paris
Lyon
Toulouse
Bordeaux
MontpellierMarseille
Nice
20 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Détermination d’un nombre de classes
• A partir de l’arbre• Dépend de l’usage(enquête, . . . )
• A partir du diagramme desindices de niveau• Critère ultime :interprétabilité des classes
68
To
ulo
use
Bo
rdea
ux
Nic
e
Mo
ntp
ellie
r
Mar
seill
e
Bre
st
Ren
nes
Nan
tes
Gre
no
ble
Lyo
n
Par
is
Vic
hy
Cle
rmo
nt
Lill
e
Str
asb
ou
rg
02
4
46
02
inertia gain
20 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
21 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Algorithme de partitionnement : les K-means
Algorithme d’agrégation autour des centres mobiles (K-means)
• Choisir Q centres declasses au hasard• Affecter les pointsau centre le plusproche• Calculer les Qcentres de gravité
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
NantesNice
Paris
Rennes
Strasbourg
Toulouse
Vichy
●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
●
●●
●
●
● ●
Clermont
GrenobleLyon
Marseille
MontpellierParis Toulouse
Bordeaux
Brest
NantesNice
Rennes
Lille
Strasbourg
Vichy● ●
●●
●
●
● ●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
NantesNice
Paris
Rennes
Strasbourg
Toulouse
Vichy
●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
●
●
●
● ●
Lyon
Marseille
MontpellierParis Toulouse
Bordeaux
Brest
NantesNice
Rennes
Clermont
Grenoble
Lille
Strasbourg
Vichy
●
●
●
●
● ●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
NantesNice
Paris
Rennes
Strasbourg
Toulouse
Vichy
●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
●
●
●
●
●
Bordeaux
Marseille
Montpellier
Nice
Toulouse
Brest
Nantes
Rennes
Clermont
Grenoble
Lille
Lyon
Paris
Strasbourg
Vichy
●
●
●
●
●
●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
NantesNice
Paris
Rennes
Strasbourg
Toulouse
Vichy
●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
●
●
●
●
●
Bordeaux
Marseille
Montpellier
Nice
Toulouse
Brest
Nantes
Rennes
Clermont
Grenoble
Lille
Lyon
Paris
Strasbourg
Vichy●
−4 −2 0 2 4 6
−2
−1
01
23
4
Dim 1 ( 79.85 %)
Dim
2 (
18.
97 %
)
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
NantesNice
Paris
Rennes
Strasbourg
Toulouse
Vichy
●
●
●
●
● ●
22 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
23 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Consolidation d’une partition obtenue par CAH
La partition obtenue par CAH n’est pas optimale et peut êtreaméliorée, consolidée, par les K-means
Algorithme de consolidation :• la partition obtenue par CAH est utilisée comme initialisationde l’algorithme de partitionnement• quelques étapes de K-means sont itérées
=⇒ amélioration de la partition (souvent non décisive)Avantage : consolidation de la partitionInconvénient : perte de l’info de hiérarchie
24 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
CAH en grandes dimensions
• Si beaucoup de variables : faire une ACP et ne conserver queles premières dimensions =⇒ on se ramène au cas classique
• Si beaucoup d’individus : algorithme de CAH trop long• Faire une partition (par K-means) en une centaine de classes• Construire la CAH à partir des classes (utiliser l’effectif des
classes dans le calcul)• Obtention du « haut » de l’arbre de la CAH
Hierarchical clustering
0.06
0.08
Cluster Dendrogram
158
124
146
118
123
117
169
139
140
285
115
155
176 70
116 11 90
125
130
143
129
218
298
114
174
106
107 73
147
282
292
105
150
137 94
149 82 23
161 83
197 47
194
142
181
290 1
263 88 46 75 26
294 86 54
205 6 4
223
217
198
191
203
209
262
180
189
186
102
226
188
187
200 38
167
154 40
163 37 63
152
166
213
228
296 20
231
164
275 29 84
291
260
109 27 7 30
178 45
214
119
111 5 77
170 71
121 12
134 55
193
237
219 76 97
258 41
144
141
177 36
184
254
230
145
250
175 43
247
284 91
216 85
157
104
179
131
293
126
245 93 16
288
206
196 24 81
113
153 15
159 9
128
151 13 19 49 42
300
156
183 2
232
162 34
242 96
132 8 14
257
256
227
222
211
212
249
165
199
195
182
202
220
190 53
100
208 74 95 31
168
248
299
171
287
272
297
229
261 62 66 22 44
127
148
204
273
274
135
136
239
103 98 80
286
289
210
215
221 28 72
236 69
138
281 78 89
270 61 99
267
233 57 18
279
244
234 60
246
225 50 10
173 17 35
278
269
240
224
120 52
271
277 68
108
101
264
133
268 87
259
265
122
251
252 59
295
207
283 67
192
276 92 65
110 25
238 79
266
255 39
160 64 3
201
253 48
112
243
241 56 32 51
172 58 21 33
185
280
235
0.00
0.02
0.04
Hierarchical Clustering
0.06
0.08
Hierarchical Classification
1 14 33 32 2 40 42 6 35 36 38 26 47 11 25 43 5 16 30 39 19 49 10 17 3 27 23 13 20 8 22 21 50 18 7 41 29 31 34 15 37 24 4 45 28 46 48 9 44 12
0.00
0.02
0.04
0.06
Arbre sur données brutes Arbre à partir de classes
25 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
CAH en grandes dimensions
• Si beaucoup de variables : faire une ACP et ne conserver queles premières dimensions =⇒ on se ramène au cas classique• Si beaucoup d’individus : algorithme de CAH trop long
• Faire une partition (par K-means) en une centaine de classes• Construire la CAH à partir des classes (utiliser l’effectif des
classes dans le calcul)• Obtention du « haut » de l’arbre de la CAH
Hierarchical clustering
0.06
0.08
Cluster Dendrogram
158
124
146
118
123
117
169
139
140
285
115
155
176 70
116 11 90
125
130
143
129
218
298
114
174
106
107 73
147
282
292
105
150
137 94
149 82 23
161 83
197 47
194
142
181
290 1
263 88 46 75 26
294 86 54
205 6 4
223
217
198
191
203
209
262
180
189
186
102
226
188
187
200 38
167
154 40
163 37 63
152
166
213
228
296 20
231
164
275 29 84
291
260
109 27 7 30
178 45
214
119
111 5 77
170 71
121 12
134 55
193
237
219 76 97
258 41
144
141
177 36
184
254
230
145
250
175 43
247
284 91
216 85
157
104
179
131
293
126
245 93 16
288
206
196 24 81
113
153 15
159 9
128
151 13 19 49 42
300
156
183 2
232
162 34
242 96
132 8 14
257
256
227
222
211
212
249
165
199
195
182
202
220
190 53
100
208 74 95 31
168
248
299
171
287
272
297
229
261 62 66 22 44
127
148
204
273
274
135
136
239
103 98 80
286
289
210
215
221 28 72
236 69
138
281 78 89
270 61 99
267
233 57 18
279
244
234 60
246
225 50 10
173 17 35
278
269
240
224
120 52
271
277 68
108
101
264
133
268 87
259
265
122
251
252 59
295
207
283 67
192
276 92 65
110 25
238 79
266
255 39
160 64 3
201
253 48
112
243
241 56 32 51
172 58 21 33
185
280
235
0.00
0.02
0.04
Hierarchical Clustering
0.06
0.08
Hierarchical Classification
1 14 33 32 2 40 42 6 35 36 38 26 47 11 25 43 5 16 30 39 19 49 10 17 3 27 23 13 20 8 22 21 50 18 7 41 29 31 34 15 37 24 4 45 28 46 48 9 44 12
0.00
0.02
0.04
0.06
Arbre sur données brutes Arbre à partir de classes
25 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
CAH en grandes dimensions
• Si beaucoup de variables : faire une ACP et ne conserver queles premières dimensions =⇒ on se ramène au cas classique• Si beaucoup d’individus : algorithme de CAH trop long
• Faire une partition (par K-means) en une centaine de classes• Construire la CAH à partir des classes (utiliser l’effectif des
classes dans le calcul)• Obtention du « haut » de l’arbre de la CAH
Hierarchical clustering
0.06
0.08
Cluster Dendrogram
158
124
146
118
123
117
169
139
140
285
115
155
176 70
116 11 90
125
130
143
129
218
298
114
174
106
107 73
147
282
292
105
150
137 94
149 82 23
161 83
197 47
194
142
181
290 1
263 88 46 75 26
294 86 54
205 6 4
223
217
198
191
203
209
262
180
189
186
102
226
188
187
200 38
167
154 40
163 37 63
152
166
213
228
296 20
231
164
275 29 84
291
260
109 27 7 30
178 45
214
119
111 5 77
170 71
121 12
134 55
193
237
219 76 97
258 41
144
141
177 36
184
254
230
145
250
175 43
247
284 91
216 85
157
104
179
131
293
126
245 93 16
288
206
196 24 81
113
153 15
159 9
128
151 13 19 49 42
300
156
183 2
232
162 34
242 96
132 8 14
257
256
227
222
211
212
249
165
199
195
182
202
220
190 53
100
208 74 95 31
168
248
299
171
287
272
297
229
261 62 66 22 44
127
148
204
273
274
135
136
239
103 98 80
286
289
210
215
221 28 72
236 69
138
281 78 89
270 61 99
267
233 57 18
279
244
234 60
246
225 50 10
173 17 35
278
269
240
224
120 52
271
277 68
108
101
264
133
268 87
259
265
122
251
252 59
295
207
283 67
192
276 92 65
110 25
238 79
266
255 39
160 64 3
201
253 48
112
243
241 56 32 51
172 58 21 33
185
280
235
0.00
0.02
0.04
Hierarchical Clustering
0.06
0.08
Hierarchical Classification
1 14 33 32 2 40 42 6 35 36 38 26 47 11 25 43 5 16 30 39 19 49 10 17 3 27 23 13 20 8 22 21 50 18 7 41 29 31 34 15 37 24 4 45 28 46 48 9 44 12
0.00
0.02
0.04
0.06
Arbre sur données brutes Arbre à partir de classes
25 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
CAH sur données qualitatives
Deux stratégies pour faire une classification sur donnéesqualitatives :
• Se ramener à des variables quantitatives• Faire une ACM et ne conserver que les premières dimensions• Faire la CAH à partir des composantes principales de l’ACM
• Utiliser des mesures adaptées aux données qualitatives : indicede similarité, indice de Jaccard, etc.
26 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
CAH sur données qualitatives
Deux stratégies pour faire une classification sur donnéesqualitatives :
• Se ramener à des variables quantitatives• Faire une ACM et ne conserver que les premières dimensions• Faire la CAH à partir des composantes principales de l’ACM
• Utiliser des mesures adaptées aux données qualitatives : indicede similarité, indice de Jaccard, etc.
26 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Enchaînement analyse factorielle - classification• Données qualitatives : ACM renvoie des composantesprincipales qui sont quantitatives
• L’analyse factorielle élimine les dernières composantes qui necontiennent que du bruit =⇒ classification plus stable
• Représentation del’arbre et des classessur un plan factoriel=⇒ vision continueavec AF, discontinueavec CAH ; vision del’information surd’autres axes avecCAH −6 −4 −2 0 2 4 6 8
02
46
8
−3−2
−1 0
1 2
3 4
5
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
heig
ht
●
●
●●●
●●●
●● ●●
● ●●
cluster 1 cluster 2 cluster 3
Lille
Strasbourg
Brest
VichyClermont
Grenoble
Rennes
Paris
Lyon
Nantes
ToulouseBordeauxMontpellier
Marseille
Nice
Hierarchical clustering on the factor map
27 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Enchaînement analyse factorielle - classification• Données qualitatives : ACM renvoie des composantesprincipales qui sont quantitatives• L’analyse factorielle élimine les dernières composantes qui necontiennent que du bruit =⇒ classification plus stable
• Représentation del’arbre et des classessur un plan factoriel=⇒ vision continueavec AF, discontinueavec CAH ; vision del’information surd’autres axes avecCAH −6 −4 −2 0 2 4 6 8
02
46
8
−3−2
−1 0
1 2
3 4
5
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
heig
ht
●
●
●●●
●●●
●● ●●
● ●●
cluster 1 cluster 2 cluster 3
Lille
Strasbourg
Brest
VichyClermont
Grenoble
Rennes
Paris
Lyon
Nantes
ToulouseBordeauxMontpellier
Marseille
Nice
Hierarchical clustering on the factor map
27 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Enchaînement analyse factorielle - classification• Données qualitatives : ACM renvoie des composantesprincipales qui sont quantitatives• L’analyse factorielle élimine les dernières composantes qui necontiennent que du bruit =⇒ classification plus stable
• Représentation del’arbre et des classessur un plan factoriel=⇒ vision continueavec AF, discontinueavec CAH ; vision del’information surd’autres axes avecCAH −6 −4 −2 0 2 4 6 8
02
46
8
−3−2
−1 0
1 2
3 4
5
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
heig
ht
●
●
●●●
●●●
●● ●●
● ●●
cluster 1 cluster 2 cluster 3
Lille
Strasbourg
Brest
VichyClermont
Grenoble
Rennes
Paris
Lyon
Nantes
ToulouseBordeauxMontpellier
Marseille
Nice
Hierarchical clustering on the factor map
27 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Classification ascendante hiérarchique (CAH)
1 Introduction
2 Principes de la Classification Ascendante Hiérarchique
3 Exemple
4 Algorithme de partitionnement : les K-means
5 Compléments
6 Caractérisation des classes d’individus
28 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Constitution des classes - Édition des parangonsParangon : individu le plus proche du centre d’une classeclasse 1 : Montpellier Bordeaux Marseille Nice Toulouse
0.419 1.141 1.193 2.242 2.256classe 2 : Rennes Nantes Brest
0.641 1.586 2.045classe 3 : Vichy Clermont Grenoble Paris Lyon
0.428 0.669 1.184 1.339 1.680
24
Dim
2 (
18.9
7%)
Brest
RennesNantes Nice
cluster 2
cluster 1 cluster 2 cluster 3
-4 -2 0 2 4 6
-20
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
Lille
Strasbourg
VichyClermont
Grenoble
Paris
Lyon
Toulouse
Bordeaux
MontpellierMarseille
Nice
cluster 1
cluster 3
29 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Constitution des classes - Édition des parangonsParangon : individu le plus proche du centre d’une classeclasse 1 : Montpellier Bordeaux Marseille Nice Toulouse
0.419 1.141 1.193 2.242 2.256classe 2 : Rennes Nantes Brest
0.641 1.586 2.045classe 3 : Vichy Clermont Grenoble Paris Lyon
0.428 0.669 1.184 1.339 1.680
24
Dim
2 (
18.9
7%)
Brest
RennesNantes Nice
cluster 2
cluster 1 cluster 2 cluster 3
-4 -2 0 2 4 6
-20
Dim 1 (79.85%)
Dim
2 (
18.9
7%)
Lille
Strasbourg
VichyClermont
Grenoble
Paris
Lyon
Toulouse
Bordeaux
MontpellierMarseille
Nice
cluster 1
cluster 3
29 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation des classes
• Objectifs :• Trouver les variables les plus caractérisantes pour la partition• Caractériser une classe (ou un groupe d’individus) par des
variables quantitatives• Trier les variables qui caractérisent les classes
• Questions :• Quelles variables caractérisent le mieux la partition ?• Comment caractériser les individus de la classe 1 ?• Quelles variables les caractérisent le mieux ?
30 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation des classesQuelles variables caractérisent le mieux la partition ?• Pour chaque variable quantitative :
• construire le modèle d’analyse de variance entre la variablequantitative expliquée par la variable de classe
• faire le test de Fisher de l’effet de la classe• Trier les variables par probabilité critique croissante
Eta2 P-valueOcto 0.8362 1.930e-05Sept 0.8301 2.407e-05Févr 0.8227 3.103e-05Mars 0.8126 4.326e-05Janv 0.8118 4.444e-05Nove 0.8083 4.963e-05Avri 0.7929 7.890e-05Déce 0.7871 9.316e-05Août 0.7864 9.503e-05Juin 0.7241 4.409e-04Mai 0.7164 5.205e-04juil 0.7156 5.287e-04
31 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitatives
0 5 10 15 20
Température
Déce
Nove
Octo
Sept
Août
juil
Juin
Mai
Avri
Mars
Févr
Janv ●● ●●●● ●●● ●● ●●● ●
●● ●●●● ●●● ●● ●●● ●
●● ●● ●●●●● ● ● ●●● ●
● ●● ● ●●● ●●● ● ●●●●
● ●● ●● ●● ● ●● ● ● ● ●●
● ●● ●● ●● ● ●● ● ● ● ●●
● ●● ●● ●● ● ●● ●● ● ●●
● ●● ●● ●● ● ●● ●● ● ●●
● ●● ●● ●●● ●● ●● ● ● ●
●● ●●●●●●● ● ● ● ● ● ●
●● ●●●● ●●● ● ● ● ●● ●
●● ●●●● ●●● ●● ●● ● ●
LyonParisGrenobleClermontVichyStrasbourgLilleNantesRennesBrestNiceMarseilleMontpellierBordeauxToulouse
32 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitatives
Idée 1 : si les valeurs de X pour la classe q semblent tirées auhasard parmi les valeurs de X , alors X ne caractérise pas la classe q
16 17 18 19 20 21 22 23
Température
●● ●● ●● ● ● ●●● ● ●●●
● ●● ● ● ●● ● ●● ●● ● ●●Août
Aléa
Idée 2 : plus l’hypothèse d’un tirage au hasard est douteuse, plus Xcaractérise la classe q
33 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N
Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)
E(X̄q) = x̄ V(X̄q) = s2
nq
(N − nqN − 1
)L(X̄q) = N car X̄q est une moyenne
=⇒ Valeur-test = x̄q − x̄√s2nq
(N−nqN−1
) ∼ N (0, 1)
• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante
34 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N
Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)
E(X̄q) = x̄ V(X̄q) = s2
nq
(N − nqN − 1
)L(X̄q) = N car X̄q est une moyenne
=⇒ Valeur-test = x̄q − x̄√s2nq
(N−nqN−1
) ∼ N (0, 1)
• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante
34 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N
Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)
E(X̄q) = x̄ V(X̄q) = s2
nq
(N − nqN − 1
)L(X̄q) = N car X̄q est une moyenne
=⇒ Valeur-test = x̄q − x̄√s2nq
(N−nqN−1
) ∼ N (0, 1)
• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante
34 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N
Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)
E(X̄q) = x̄ V(X̄q) = s2
nq
(N − nqN − 1
)L(X̄q) = N car X̄q est une moyenne
=⇒ Valeur-test = x̄q − x̄√s2nq
(N−nqN−1
) ∼ N (0, 1)
• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante
34 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitativesIdée : référence du tirage au hasard de nq valeurs parmi N
Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)
E(X̄q) = x̄ V(X̄q) = s2
nq
(N − nqN − 1
)L(X̄q) = N car X̄q est une moyenne
=⇒ Valeur-test = x̄q − x̄√s2nq
(N−nqN−1
) ∼ N (0, 1)
• Si |Valeur-test| ≥ 1.96 alors X caractérise la classe q• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante34 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitatives
$quanti$‘1‘v.test Mean in Overall sd in Overall p.value
category mean category sdSept 3.40 19.30 17.00 0.755 1.79 0.000678Moye 3.39 13.80 11.80 0.742 1.55 0.000705Avri 3.33 12.70 11.00 0.580 1.37 0.000871Octo 3.32 14.50 12.30 0.941 1.77 0.000893Mars 3.24 10.00 8.23 0.524 1.48 0.001210Août 3.18 21.90 19.60 0.792 1.94 0.001490Juin 3.00 19.80 17.80 0.727 1.73 0.002670Mai 3.00 16.10 14.40 0.691 1.45 0.002720Nove 2.97 9.88 7.93 0.999 1.74 0.003020juil 2.92 22.10 19.80 1.000 2.06 0.003550Févr 2.88 6.80 4.83 0.940 1.81 0.003940Déce 2.54 6.66 4.85 0.896 1.89 0.011200Janv 2.46 5.78 3.97 0.924 1.94 0.013700
35 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitatives$‘2‘
v.test Mean in Overall sd in Overall p.valuecategory mean category sd
Mai -2.02 12.90 14.40 0.953 1.45 0.04380Août -2.02 17.50 19.60 1.090 1.94 0.04330Juin -2.05 15.90 17.80 1.160 1.73 0.04020juil -2.18 17.40 19.80 1.350 2.06 0.02900Long -2.88 -2.34 2.58 1.380 3.21 0.00404Ampl -2.95 12.40 15.90 1.560 2.25 0.00316
36 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables quantitatives$‘2‘
v.test Mean in Overall sd in Overall p.valuecategory mean category sd
Mai -2.02 12.90 14.40 0.953 1.45 0.04380Août -2.02 17.50 19.60 1.090 1.94 0.04330Juin -2.05 15.90 17.80 1.160 1.73 0.04020juil -2.18 17.40 19.80 1.350 2.06 0.02900Long -2.88 -2.34 2.58 1.380 3.21 0.00404Ampl -2.95 12.40 15.90 1.560 2.25 0.00316
$‘3‘v.test Mean in Overall sd in Overall p.value
category mean category sdSept -2.05 15.90 17.00 0.738 1.79 0.040700Avri -2.11 10.20 11.00 0.637 1.37 0.035100Moye -2.60 10.70 11.80 0.620 1.55 0.009220Octo -2.81 10.90 12.30 0.661 1.77 0.004940Mars -2.85 7.03 8.23 0.807 1.48 0.004310Nove -3.15 6.36 7.93 0.654 1.74 0.001620Févr -3.25 3.16 4.83 0.763 1.81 0.001150Déce -3.28 3.07 4.85 0.911 1.89 0.001020Janv -3.36 2.11 3.97 0.876 1.94 0.000793
36 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation des classes par les variables qualitatives
Quelles variables caractérisent le mieux la partition ?
• Pour chaque variable qualitative, construire un test du χ2
entre la variable et la variable de classe• Trier les variables par probabilité critique croissante
$test.chi2p.value df
Région 0.001700272 6
37 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?
Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15
Test : H0 : nmcnc
= nmn contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)
Classe 3Cla/Mod Mod/Cla Global p.value v.test
Région=NE 100.00 42.86 20.00 0.077 1.769
33
×100 = 100 ;37
×100 = 42.86 ;315
×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077
=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?
Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15
Test : H0 : nmcnc
= nmn contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)
Classe 3Cla/Mod Mod/Cla Global p.value v.test
Région=NE 100.00 42.86 20.00 0.077 1.769
33
×100 = 100 ;37
×100 = 42.86 ;315
×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077
=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?
Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15
Test : H0 : nmcnc
= nmn contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc) = H(nc ,nmn , n)
PH0 (Nmc ≥ nmc)Classe 3
Cla/Mod Mod/Cla Global p.value v.testRégion=NE 100.00 42.86 20.00 0.077 1.769
33
×100 = 100 ;37
×100 = 42.86 ;315
×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077
=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?
Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15
Test : H0 : nmcnc
= nmn contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)
Classe 3Cla/Mod Mod/Cla Global p.value v.test
Région=NE 100.00 42.86 20.00 0.077 1.769
33
×100 = 100 ;37
×100 = 42.86 ;315
×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077
=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?
Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15
Test : H0 : nmcnc
= nmn contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)
Classe 3Cla/Mod Mod/Cla Global p.value v.test
Région=NE 100.00 42.86 20.00 0.077 1.769
33
×100 = 100 ;37
×100 = 42.86 ;315
×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077
=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3
Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les variables qualitativesLa modalité Nord-Est caractérise-t-elle la classe 3 ?
Classe 3 Autre classe TotalNord-Est nmc = 3 0 nm = 3Pas NE 4 8 12Total nc = 7 8 n = 15
Test : H0 : nmcnc
= nmn contre H1 : m anormalement élevée dans c
Sous H0 : L(Nmc) = H(nc ,nmn , n) PH0 (Nmc ≥ nmc)
Classe 3Cla/Mod Mod/Cla Global p.value v.test
Région=NE 100.00 42.86 20.00 0.077 1.769
33
×100 = 100 ;37
×100 = 42.86 ;315
×100 = 20 ; PH(7, 315 ,15) [Nmc ≥ 3] = 0.077
=⇒ H0 acceptée, Nord-Est n’est pas sur-représenté dans la classe 3Tri des modalités en fonction des probabilités critiques
38 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Caractérisation d’une classe par les axes
Les axes factoriels sont aussi des variables quantitatives
$‘1‘v.test Mean in Overall sd in Overall p.value
category mean category sdDim.1 3.39 3.97 0 1.46 3.1 0.000693
$‘2‘v.test Mean in Overall sd in Overall p.value
category mean category sdDim.2 2.84 2.29 0 1.29 1.51 0.00447
$‘3‘v.test Mean in Overall sd in Overall p.value
category mean category sdDim.2 -2.11 -0.911 0 0.927 1.51 0.0346Dim.1 -2.56 -2.270 0 1.260 3.10 0.0104
39 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Conclusion
• La classification s’applique à des tableaux individus ×variables quantitatives⇒ L’ACM transforme des variables qualitatives en variablesquantitatives
• CAH donne un arbre hiérarchique ⇒ nombre de classes
• K-means consolide les classes
• Caractérisation des classes par des variables actives etsupplémentaires, quantitatives et qualitatives
40 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Conclusion
• La classification s’applique à des tableaux individus ×variables quantitatives⇒ L’ACM transforme des variables qualitatives en variablesquantitatives
• CAH donne un arbre hiérarchique ⇒ nombre de classes
• K-means consolide les classes
• Caractérisation des classes par des variables actives etsupplémentaires, quantitatives et qualitatives
40 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Conclusion
• La classification s’applique à des tableaux individus ×variables quantitatives⇒ L’ACM transforme des variables qualitatives en variablesquantitatives
• CAH donne un arbre hiérarchique ⇒ nombre de classes
• K-means consolide les classes
• Caractérisation des classes par des variables actives etsupplémentaires, quantitatives et qualitatives
40 / 40
Introduction Principes de la CAH Exemple K-means Compléments Description des classes
Conclusion
• La classification s’applique à des tableaux individus ×variables quantitatives⇒ L’ACM transforme des variables qualitatives en variablesquantitatives
• CAH donne un arbre hiérarchique ⇒ nombre de classes
• K-means consolide les classes
• Caractérisation des classes par des variables actives etsupplémentaires, quantitatives et qualitatives
40 / 40