cours_afc
-
Upload
gangster-marocian -
Category
Documents
-
view
213 -
download
1
description
Transcript of cours_afc
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
L'analyse des correspondances
simples
1 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Cadre gnral
Plusieurs types de tableau :
Analyse en Composantes Principales variables quantitatives Analyse Factorielle des Correspondances deux variablesqualitatives
Analyse des Correspondances Multiples variablesqualitatives
Statistique exploratoire multivarie
analyse descriptive rsum de l'information visualisation de donnes
2 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Un peu d'histoire
Quelques principes thoriques esquisss par Fisher en 1940 Analyse des correspondances activement dveloppe partirde 1961 ... Rennes !
JP. Benzcri : mathmaticien et linguiste Thse de Brigitte Escoer : L'analyse des correspondances
3 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Donnes
Deux variables qualitatives I et J modalits
Tableau de contingence :
Rle symtrique des deux variables
4 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Exemples
catgories socio-professionnelles candidats : nombred'individus de la CSP i qui votent pour le candidat j
parfums descripteurs : nombre de fois o le descripteur j estutilis pour caractriser le parfum i
solutions (acide, amer, etc.) rponse (acide, amer, etc.) :nombre de personnes qui rpondent j pour le stimulus i
comptage en cologie : abondance de l'espce i dans le milieu j text-mining : nombre d'occurrences du mot j dans le texte i exemples o le test d'indpendance du 2 peut tre appliqu
5 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Objectifs
Typologie des lignes Typologie des colonnes Relation entre ces deux typologies Etude de la liaison (la correspondance) entre les deuxvariables
Visualisation des proximits entre modalits et des associations
6 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Notations
Figure: Tableau de donnes en AFC
7 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Notations
Figure: Prol ligne et prol colonne
8 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Indpendance entre deux variables qualitativesIndpendance : fij = fi .f.j
05
1015
2025
300
510
1520
2530
05
1015
2025
30
Cad
re
Em
ploy
Ouv
rier
Etu
dian
t
18-35
36-55
56 et +0
1020
3040
05
1015
2025
010
2030
40
Noi
sette
Ble
u
Ver
t
Noi
r
Mar
ron
Couleur des yeux CSP
Figure: Illustration de l'indpendance (ge couleur des yeux) et de laliaison (ge salaire) entre deux variables partir des prols
9 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Nuage des lignes
ligne icol k
RI
ligne 1col 1
Etude des lignes Etude des colonnes
1
i
I
1
1
i
I
RJ
j J 1 j J
fijfi. Les I lignes sont dans l'espace RJ
Poids de la ligne i : fi . Centre de gravit :I
i=1 fi . (
fijfi.
)= (f.j)j=1,...,J
10 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Distance du 2
Distance entre les lignes i et l :
d2(i , l) =J
j=1
1
f.j
(fij
fi .
flj
fl .
)2
Mtrique :(
1f.j
)j=1,...,J
Distance entre la ligne i et le centre de gravit G :
d2(i ,G ) =J
j=1
1
f.j
(fij
fi . f.j
)2
11 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Distance du 2
Distance entre les lignes i et l :
d2(i , l) =J
j=1
1
f.j
(fij
fi .
flj
fl .
)2
Mtrique :(
1f.j
)j=1,...,J
Distance entre la ligne i et le centre de gravit G :
d2(i ,G ) =J
j=1
1
f.j
(fij
fi . f.j
)2
11 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Distance du 2
Distance entre les lignes i et l :
d2(i , l) =J
j=1
1
f.j
(fij
fi .
flj
fl .
)2
Mtrique :(
1f.j
)j=1,...,J
Distance entre la ligne i et le centre de gravit G :
d2(i ,G ) =J
j=1
1
f.j
(fij
fi . f.j
)2
11 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Inertie totale
Inertie totale =I
i=1
fi . d2(i ,G )
=I
i=1
fi .
Jj=1
1
f.j
(fij
fi . f.j
)2=
Ii=1
Jj=1
(fij fi .f.j)2
fi .f.j
=2
n= 2
2 mesure l'intensit de la liaison
12 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Ajustement du nuage
ligne icol k
RI
ligne 1col 1
Etude des lignes Etude des colonnes
1
i
I
1
1
i
I
RJ
j J 1 j J
fijfi.
On cherche les directions o ons'loigne le plus de l'indpendance
(analogie avec l'ACP et la moyenne)
min
max
i
G Hi u1
Maximiser l'inertie des points projetsIi=1 fi .GH
2i
u1 est l'axe d'inertie maximum
13 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Ajustement du nuage
ligne icol k
RI
ligne 1col 1
Etude des lignes Etude des colonnes
1
i
I
1
1
i
I
RJ
j J 1 j J
fijfi.
On cherche les directions o ons'loigne le plus de l'indpendance
(analogie avec l'ACP et la moyenne)
min
max
i
G Hi u1
Maximiser l'inertie des points projetsIi=1 fi .GH
2i
u1 est l'axe d'inertie maximum
13 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Ajustement du nuage
ACP
(fij
fi .,1
f.j, fi .
)
Ass
ocia
ted
wei
ght o
f the
row
s
Weight for the columns
iiii
uuuu1111
uuuu2222
GGGG FFFFiiii1111
FFFFiiii2222
l
u1, ..., us , ..., uJ1 suite d'axes orthogonaux d'inertie maximum14 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Exemple
12 parfums dcrits par 15 mots :
floral fruity strong soft light ...
Angel 2 11 18 3 1 ...
Aromatics Elixir 2 3 29 2 0 ...
Chanel 5 5 0 19 3 1 ...
Cinma 14 14 3 12 9 ...
Coco Mademoiselle 10 10 6 10 7 ...
...... . . . . .
Peut-on avoir une image synthtique de ces 12 parfums de luxe ?
Quels parfums sont sensoriellement proches ?
Pour quelles raisons certains parfums s'opposent ?
15 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation graphique
-0.5 0.0 0.5 1.0 1.5
-0.5
0.0
0.5
1.0
Dim 1 (60.46%)
Dim
2 (
21.1
2%)
Angel
Aromatics Elixir
Chanel 5
Cinma
Coco MademoiselleJ_adore
J_adore_et
L_instant
Lolita Lempika
Pleasures
Pure Poison
Shalimar
Figure: Reprsentation des lignes en AFC
16 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation des colonnes comme aide l'interprtation
du nuage des lignes
Reprsentation des colonnes (des mots) au barycentre des lignes(des parfums)
Exacts barycentres
-0.5 0.0 0.5 1.0 1.5
-0.5
0.0
0.5
Dim 1 (60.46%)
Dim
2 (
21.1
2%)
Angel
Aromatics Elixir
Chanel 5
Cinma
Coco Mademoiselle
J_adore
J_adore_et
L_instant
Lolita Lempika
Pleasures
Pure Poison
Shalimarfloral
fruity strongsoft
light
sugary
freshdiscreet
spicy
soap
vanilla
acid
oldwooded
agressive
17 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Nuage des colonnes
ligne icol k
RI
ligne 1col 1
Etude des lignes Etude des colonnes
1
i
I
1
1
i
I
RJ
j J 1 j J
fijfi.
fijf.j
Les J colonnes sont dans l'espaceRI
Poids de la colonne j : f.j Centre de gravit :J
j=1 f.j (
fijf.j
)= (fi .)i=1,...,I
18 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Nuage des colonnesDistance entre les colonnes j et k :
d2(j , k) =I
i=1
1
fi .
(fij
f.j fik
f.k
)2Distance entre la colonne j et le centre de gravit G :
d2(j ,G ) =I
i=1
1
fi .
(fij
f.j fi .
)2
Inertie totale =J
j=1
f.j d2(j ,G )
=2
n= 2
19 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Ajustement du nuage
ACP
(fij
f.j,1
fi ., f.j
)fijf.j
f.j
1
f1.
1
fi.
1
fI.
j J1
GGGG
vvvv2222
vvvv1111GGGGjjjj1111
GGGGjjjj2222j
k
v1, ..., vs , ..., vI1 suite d'axes orthogonaux d'inertie maximum20 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation graphique
-0.5 0.0 0.5 1.0 1.5
-1.0
-0.5
0.0
0.5
1.0
Dim 1 (60.46%)
Dim
2 (
21.1
2%)
floral
fruitystrongsoft
light
sugary
freshdiscreet
spicy
soap
vanilla
acid
oldwooded
agressive
Figure: Reprsentation des colonnes
21 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation des lignes comme aide l'interprtation du
nuage des colonnes Reprsentation des lignes (des parfums) au barycentre descolonnes (des mots)
Exacts barycentres
-0.5 0.0 0.5 1.0 1.5
-1.0
-0.5
0.0
0.5
1.0
Dim 1 (60.46%)
Dim
2 (
21.1
2%)
floral
fruity
strongsoft
light
sugary
freshdiscreet
spicy
soap
vanilla
acid
old
wooded
agressiveAngel
Aromatics Elixir
Chanel 5
Cinma
Coco MademoiselleJ_adore
J_adore_et
L_instant
Lolita Lempika
Pleasures
Pure Poison Shalimar
22 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Deux nuages
ligne icol k
RI
ligne 1col 1
Etude des lignes Etude des colonnes
1
i
I
1
1
i
I
RJ
j J 1 j J
fijfi.
fijf.j
prsentation de l'AFC : deux ACP pondres sur les prols ligneset les prols colonnes
23 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Lien entre les deux reprsentations : formules de transition
Fs(i) =1s
Jj=1
fij
fi .Gs(j) =
1s
Jj=1
(fij
fi . f.j
)Gs(j)
La ligne i est au barycentre des colonnes pondres (aucoecient 1/
s prs)
Gs(k) =1s
Ii=1
fij
f.jFs(i) =
1s
Ii=1
(fij
f.j fi .
)Fs(i)
La colonne k est au barycentre des lignes pondres (aucoecient 1/
s prs)
24 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation superpose
-0.5 0.0 0.5 1.0 1.5
-1.0
-0.5
0.0
0.5
1.0
Dim 1 (60.46%)
Dim
2 (
21.1
2%)
Angel
Aromatics Elixir
Chanel 5
Cinma
Coco Mademoiselle
J_adore
J_adore_et
L_instant
Lolita Lempika
Pleasures
Pure Poison
Shalimar
floral
fruity
strongsoft
light
sugary
freshdiscreet
spicy
soap
vanilla
acid
oldwooded
agressive
Figure: Reprsentation superpose en analyse des correspondances
25 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation superpose
Le barycentre reprsente l'indpendance La distance entre niveaux d'une mme variable peut treinterprte
La reprsentation est pseudo-barycentrique (dilatation) :formule de transition
Il n'est pas possible d'interprter la distance entre lesmodalits de deux variables mais ...
... c'est un barycentre pondr de toutes les modalits
26 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Pourcentage d'inertie
Pourcentage d'inertie (pourcentage de variance) de l'axe s :ss s
1 2 3 4 5 6 7 8 9 10 11
Eigenvalues
0.0
0.1
0.2
0.3
0.4
s toujours plus petit que 1 ; la valeur 1 est obtenue pour desassociations exclusives
27 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Aides l'interprtation
Contribution :
inertie projete d'un point sur l'axe s
inertie de l'axe s=
fi .Fs(i)2
s
attention, les points extrmes ne sont pas ceux quicontribuent le plus la construction des axes
Qualit de la reprsentation :
inertie projete d'un point sur l'axe s
inertie totale du point=
fi .Fs(i)2
fi .d2(G , i)= cos2()
28 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Information supplmentaireProjection de lignes et colonnes supplmentaires
ne participent pas la construction des axes
0.5 0.0 0.5 1.0 1.5 2.0
1.
0
0.5
0.0
0.5
1.0
1.5
CA factor map
Dim 1 (60.46%)
Dim
2 (
21.1
2%)
Angel
Aromatics Elixir
Chanel 5
Cinma
Coco MademoiselleJ_adore
J_adore_et
L_instant
Lolita Lempika
Pleasures
Pure Poison
Shalimar
floral
fruitystrongsoft
light
sugary
freshdiscreet
spicy
soap
vanilla
acid
oldwooded
agressive
woman male
toilets
alcohol
heavy
drugs
hot
peppery
rose
lemon
oriental
young
candy
heady
musky
vegetableeau.de.cologne
forest
powerful
ambershower.gel
intense
natureshampoo
29 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Equivalence distributionnelle
Equivalence distributionnelle : considrer deux points-lignes i et
l confondus dans RJ comme un seul point aect de la somme desmasses de i et de l ne modie pas les distances entre tous les
couples de points dans RJ et dans RI . Idem pour deuxpoints-colonne j et k de RI .
Application : regroupement des mots sucr et saveur sucre :
Grce l'quivalence distributionnelle, si ces mots sont employs
dans les mmes circonstances, ils ont des coordonnes proches et
faire l'analyse avec les deux termes ou avec un terme unique qui
regroupe ces deux notions est strictement quivalent
notion trs utile en analyse textuelle (regroupement dessinguliers et pluriels, des conjugaisons des verbes, etc.)
30 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
AFC avec FactoMineR
library(FactoMineR)
parfum = read.table("parfum.txt",header=T,sep="\t",row.names=1)
res.ca = CA(parfum,col.sup=16:39)
plot(res.ca,invisible="row")
plot(res.ca,invisible=c("col","col.sup"))
res.ca$eig
barplot(res.ca$eig[,1],main="Valeurs propres",names.arg=1:nrow(res.ca$eig))
res.ca$row$coord
res.ca$row$cos2
res.ca$row$contrib
res.ca$col$coord
res.ca$col$cos2
res.ca$col$contrib
31 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Exemple
Rsultats en athltisme lors de 5 olympiades : 24 preuves 58 pays
usa ken rus gbr eth cub mar ger jam pol ...
10000m 0 4 0 0 8 0 2 0 0 0 ...
100m 5 0 0 1 0 0 0 0 1 0 ...
110mH 9 0 0 0 0 3 0 1 0 0 ...
1500m 0 5 0 0 0 0 3 0 0 0 ...
200m 8 0 0 1 0 0 0 0 1 0 ...
20km 0 0 3 0 0 0 0 0 0 1 ...
3000mSteeple 0 12 0 0 0 0 1 0 0 0 ...
400m 11 1 0 1 0 0 0 0 1 0 ...
400mH 7 0 0 1 0 0 0 0 2 0 ...
4x100m 4 0 0 1 0 2 0 0 1 0 ...
4x400m 5 0 1 2 0 1 0 0 2 0 ...
5000m 0 5 0 0 4 0 3 1 0 0 ...
50km 0 0 4 0 0 0 0 1 0 3 ...
800m 1 5 1 0 0 0 0 1 0 0 ...
Decathlon 5 0 0 0 0 1 0 1 0 0 ...
Disque 0 0 0 0 0 1 0 3 0 1 ...
Hauteur 3 0 3 2 0 2 0 0 0 1 ...
Javelot 0 0 2 3 0 0 0 0 0 0 ...
Longueur 7 0 0 0 0 2 0 0 1 0 ...
Marathon 1 3 0 0 3 0 1 1 0 0 ...
Marteau 1 0 0 0 0 0 0 0 0 1 ...
Perche 4 0 3 0 0 0 0 1 0 0 ...
Poids 8 0 0 0 0 0 0 0 0 1 ...
Triple saut 3 0 2 3 0 2 0 0 0 0 ...
32 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Dcomposition de l'inertie
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Valeurs propres0.
00.
20.
40.
60.
8
Figure: Diagramme des valeurs propres
33 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation des preuves
-2 -1 0 1
-10
12
Dim 1 (13.85%)
Dim
2 (
10.5
3%)
10000m110mH1500m
200m
20km
3000mS
400m
400mH4x100m
4x400m
5000m
50km
800mDecathlon
Disque
Hauteur
Javelot
Longueur
Marathon
Marteau
Perche
Poids
Triple saut
-2 -1 0 1
-10
12
Dim 1 (13.85%)
Dim
2 (
10.5
3%)
400m
800m
Disque
Marteau
Perche
Triple
100m
Figure: Reprsentation des preuves d'athltisme
34 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation des pays
-2 -1 0 1
-10
12
Dim 1 (13.85%)
Dim
2 (
10.5
3%)
alg
aus
bah
bar
bdi
blr
brabrn
canchn
cub
cze
den
dom
ecu
eri
esp
est
eth
eun
fin
fra
gbr
ger
gre
hun
ita
jam
jpn
kaz
ken
kor
ksa
lat
ltu
mar
mex
nam
ngr
nor
nzlpan
pol
por
qatrou
rsa
rus
slo
sud swe
tch
tri
tur
uga
ukr
usa
zam
-2 -1 0 1
-10
12
Dim 1 (13.85%)
Dim
2 (
10.5
3%)
alg
aus
bah
bar
bdi
blr
brabrn
canchn
cub
cze
den
dom
ecu
eri
esp
est
eth
eun
fin
fra
gbr
ger
gre
hun
ita
jam
jpn
kaz
ken
kor
ksa
lat
ltu
mar
mex
nam
ngr
nor
nzlpan
pol
por
qatrou
rsa
rus
slo
sud swe
tch
tri
tur
uga
ukr
usa
zam
Figure: Reprsentation des pays
35 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Reprsentation superpose
-2 -1 0 1
-10
12
Dim 1 (13.85%)
Dim
2 (
10.5
3%)
10000m
100m
110mH1500m
200m
20km
3000mS
400m400mH
4x100m4x400m
5000m
50km
800mDecathlon
Disque
Hauteur
Javelot
Longueur
Marathon
Marteau
Perche
Poids
Triple saut
alg
aus
bah
bar
bdi
blr
brabrn
canchn
cub
cze
den
dom
ecu
eri
esp
est
eth
eun
fin
fra
gbr
ger
gre
hun
ita
jam
jpn
kaz
ken
kor
ksa
lat
ltu
mar
mex
nam
ngr
nor
nzlpan
pol
por
qatrou
rsa
rus
slo
sud swe
tch
tri
tur
uga
ukr
usa
zam
-2 -1 0 1
-10
12
Dim 1 (13.85%)
Dim
2 (
10.5
3%)
10000m
100m
110mH1500m
200m
20km
3000mS
400m400mH
4x100m4x400m
5000m
50km
800mDecathlon
Disque
Hauteur
Javelot
Longueur
Marathon
Marteau
Perche
Poids
Triple saut
alg
aus
bah
bar
bdi
blr
brabrn
canchn
cub
cze
den
dom
ecu
eri
esp
est
eth
eun
fin
fra
gbr
ger
gre
hun
ita
jam
jpn
kaz
ken
kor
ksa
lat
ltu
mar
mex
nam
ngr
nor
nzlpan
pol
por
qatrou
rsa
rus
slo
sud swe
tch
tri
tur
uga
ukr
usa
zam
Figure: Reprsentation superpose
36 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Extensions
Prise en compte de plus de deux variables qualitatives : analysedes correspondances multiples
Analyse textuelle : les textes correspondent aux lignes, lesmots correspondent aux colonnes et le tableau contient le
nombre d'occurrences d'un mot dans un texte
37 / 38
-
Introduction Nuages des lignes Nuage des colonnes Reprsentation superpose Aides l'interprtation
Un peu de lecture ...
B. Escoer & J. Pags (2008). Analyses factorielles simples etmultiples : objectifs, mthodes et interprtation. Dunod, 4e
dition.
G. Govaert (2003). Analyse des donnes. Lavoisier. M. Greenacre (1984). Theory and Applications of
Correspondence Analysis. Academic press.
F. Husson, S. L & J. Pags (2009). Analyse de donnes avecR. Presses Universitaires de Rennes.
L. Lebart, M. Piron & A. Morineau (2006). Statistiqueexploratoire multidimensionnelle : visualisation et infrence en
fouilles de donnes. Dunod, 4e dition.
G. Saporta (2006). Probabilits, analyse des donnes etstatistiques. Technip, 2e dition.
38 / 38
IntroductionNuages des lignesNuage des colonnesReprsentation superposeAides l'interprtation