Reduction de dimensionnalite
Un exemple de methode :l’Analyse en Composantes Principales (ACP)
P.M. Bousquet
IUT
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 1 / 17
Problematique
pvariables
nindividus
X =
..........
r"super-"variables
nindividus
X' =
..........
(composantesprincipales)
CLASSIFICATION REDUCTIONde DIMENSIONNALITE
classe 1
classe 2
classe 3
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 2 / 17
Interet de la demarche (a quoi ca sert ?)
r = 1 :
VarLandesGironde
SuèdeFranceThaïlande
SILICON GRAPHICS INC
A D C TELECOMMUNICAT
APPLIED DIGITAL ACCE
TEKELEC
MANUGISTICS GROUP INC
CYPRESS SEMICONDUCTOR
NETWORK GENERAL CORP
NOVADIGM INC
Score de santé financière(solvabilité, performance ...)
Indice de développement socio-économique
Indice de délinquance
0/5 5/5
Détermination des migrationspréhistoriques par la génétique(Lucas Cavalli-Sforza)
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 3 / 17
Interet de la demarche
r ≤ 3 : Data visualization ...
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 4 / 17
Interet de la demarche
r quelconque (1, 2, 3 ou +) : Trouver les causes principales de variabilite ...
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 5 / 17
Interet de la demarche
r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees
R G Bpixel 1
R G Bpixel 64
bloc 8 x 8 pixels
.................................. 3 x 8 x 8 = 192 (= p)
........ 15 (= r)- Taux de compression 92 %- 98% de la dispersion (information) initiale
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 6 / 17
Interet de la demarche
r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees
Compression Décompression100%8%
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 7 / 17
Interet de la demarche
r quelconque (1, 2, 3 ou +) : mais aussi ... “Debruitage”
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 8 / 17
Pourquoi ca marche ?
Matrice des correlations
100m Longueur Poids Hauteur 400m 110m.haies Disque Perche Javelot 1500m
100m 1.00 -0.70 -0.37 -0.31 0.63 0.54 -0.23 -0.26 -0.01 0.06
Longueur -0.70 1.00 0.20 0.35 -0.67 -0.54 0.25 0.29 0.09 -0.15
Poids -0.37 0.20 1.00 0.61 -0.20 -0.25 0.67 0.02 0.38 0.13
Hauteur -0.31 0.35 0.61 1.00 -0.17 -0.33 0.52 -0.04 0.20 0.00
400m 0.63 -0.67 -0.20 -0.17 1.00 0.52 -0.14 -0.12 -0.05 0.55
110m.haies 0.54 -0.54 -0.25 -0.33 0.52 1.00 -0.22 -0.15 -0.08 0.18
Disque -0.23 0.25 0.67 0.52 -0.14 -0.22 1.00 -0.18 0.25 0.22
Perche -0.26 0.29 0.02 -0.04 -0.12 -0.15 -0.18 1.00 -0.07 0.18
Javelot -0.01 0.09 0.38 0.20 -0.05 -0.08 0.25 -0.07 1.00 -0.25
1500m 0.06 -0.15 0.13 0.00 0.55 0.18 0.22 0.18 -0.25 1.00
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 9 / 17
La solution ACP (1)
Projection orthogonale
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 10 / 17
La solution ACP (1)
Comment choisir le meilleur sous-espace de projection ?
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 11 / 17
La solution ACP (2)
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 12 / 17
Information (de comparaison entre les individus)=
variance (dispersion)
ABCD
age
32323232
nbenfants
1111
revenu
2000200020002000
Informations Informationsde comparaisonentre les individus ? aucune ...
<=> Variance = 0
La solution ACP (2)
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 12 / 17
Information (de comparaison entre les individus)=
variance (dispersion)
Variance(dispersion)
+
Variance(dispersion)
-
−4 −2 0 2 4
−3
−2
−1
01
23
V1
V2 0.5
0.65
0.77
0.84
0.850.81
0.710.570.430.290.19
0.15
0.16
0.23
0.35
0.5
La solution ACP (2)
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 13 / 17
Objectif : trouver les axes qui maximisent la variance des projetes.
Solution : SVD (Decomposition en valeurs spectrales) de la matrice descorrelations.Les meilleurs axes sont les vecteurs propres de la matrice des correlations dans l’ordre decroissant des valeurspropres.
3 2 1 0 1 2
32
1V
2
3 2 1 0 1 2
32
1
V2
v1, v2 vecteurs propres λ1, λ2 valeurs propres
SVD ... λ2v2
λ1v1
Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP
pn
...p
matrice descorrélations
pr
p
r premiersvecteurs propres
...... ... ... ......
Jeu de donnéesvectoriel
... La cléde l'extraction
de connaissances ...
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 14 / 17
Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 15 / 17
Graphe des contributions
Le graphe des contributions affiche les variances des composantes principales.Comment choisir le nombre de composantes a retenir ?
2.69 1.77 0.89 0.45 0.14 0.05
0.0
1.0
2.0
45 %
30 %
15 %7 %
2 % 1 %
CP1
CP2
CP3CP4
CP5 CP60.0
1.0
2.0
V1 V2 V3 V4 V5 V6
11 1 1 1 1
Deux composantes principales de variancesignificativement supérieure à 1 ....donc plus informatives que les variables initiales.
Ce sont donc des super-variables.
Après centrage-réduction, toutes les variables initiales ont une variance de 1.
Propriete : les composantes principales sont statistiquement independantes.
Ici, les deux premieres C.P. conservent (... “resument” ...) 45 + 30 = 75% de l’information initiale.
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 16 / 17
Expliquer les composantes principales
Les “super-variables” des composantes principales ont un sens par rapport auxvariables initiales. Comment les “expliquer” par rapport a ces variables ?
Tableau des correlations entre variables initiales et composantes principales
positives > 0.70négatives < 0.70
cp1
V2 +V3 +V4 -V6 -
V2 -V3 -V4 +V6 +
Corrélations retenues :
cp1 cp2 cp3 cp4 cp5 cp6V1 -0.06 0.85 -0.44 0.17 -0.21 0.01V2 0.77 -0.50 -0.37 0.00 -0.03 0.16V3 0.84 -0.37 -0.36 0.07 -0.02 -0.16V4 -0.71 -0.49 -0.22 -0.41 -0.18 -0.02V5 0.56 0.65 -0.11 -0.49 0.11 0.00V6 -0.76 -0.04 -0.61 0.08 0.23 0.00
Individus àforts V2, V3et faibles V4, V6
Individus àfaibles V2, V3et forts V4, V6
P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 17 / 17
Top Related