Download - R eduction de dimensionnalit e Un exemple de m ethode : … · 2018. 2. 14. · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP)

Reduction de dimensionnalite

Un exemple de methode :l’Analyse en Composantes Principales (ACP)

P.M. Bousquet

IUT

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 1 / 17

Problematique

pvariables

nindividus

X =

..........

r"super-"variables

nindividus

X' =

..........

(composantesprincipales)

CLASSIFICATION REDUCTIONde DIMENSIONNALITE

classe 1

classe 2

classe 3


Interet de la demarche (a quoi ca sert ?)

r = 1 :

VarLandesGironde

SuèdeFranceThaïlande

SILICON GRAPHICS INC

A D C TELECOMMUNICAT

APPLIED DIGITAL ACCE

TEKELEC

MANUGISTICS GROUP INC

CYPRESS SEMICONDUCTOR

NETWORK GENERAL CORP

NOVADIGM INC

Score de santé financière(solvabilité, performance ...)

Indice de développement socio-économique

Indice de délinquance

0/5 5/5

Détermination des migrationspréhistoriques par la génétique(Lucas Cavalli-Sforza)


Interet de la demarche

r ≤ 3 : Data visualization ...



r quelconque (1, 2, 3 ou +) : Trouver les causes principales de variabilite ...



r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees

R G Bpixel 1

R G Bpixel 64

bloc 8 x 8 pixels

.................................. 3 x 8 x 8 = 192 (= p)

........ 15 (= r)- Taux de compression 92 %- 98% de la dispersion (information) initiale



r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees

Compression Décompression100%8%



r quelconque (1, 2, 3 ou +) : mais aussi ... “Debruitage”


Pourquoi ca marche ?

Matrice des correlations

100m Longueur Poids Hauteur 400m 110m.haies Disque Perche Javelot 1500m

100m 1.00 -0.70 -0.37 -0.31 0.63 0.54 -0.23 -0.26 -0.01 0.06

Longueur -0.70 1.00 0.20 0.35 -0.67 -0.54 0.25 0.29 0.09 -0.15

Poids -0.37 0.20 1.00 0.61 -0.20 -0.25 0.67 0.02 0.38 0.13

Hauteur -0.31 0.35 0.61 1.00 -0.17 -0.33 0.52 -0.04 0.20 0.00

400m 0.63 -0.67 -0.20 -0.17 1.00 0.52 -0.14 -0.12 -0.05 0.55

110m.haies 0.54 -0.54 -0.25 -0.33 0.52 1.00 -0.22 -0.15 -0.08 0.18

Disque -0.23 0.25 0.67 0.52 -0.14 -0.22 1.00 -0.18 0.25 0.22

Perche -0.26 0.29 0.02 -0.04 -0.12 -0.15 -0.18 1.00 -0.07 0.18

Javelot -0.01 0.09 0.38 0.20 -0.05 -0.08 0.25 -0.07 1.00 -0.25

1500m 0.06 -0.15 0.13 0.00 0.55 0.18 0.22 0.18 -0.25 1.00


La solution ACP (1)

Projection orthogonale


La solution ACP (1)

Comment choisir le meilleur sous-espace de projection ?


La solution ACP (2)


Information (de comparaison entre les individus)=

variance (dispersion)

ABCD

age

32323232

nbenfants

1111

revenu

2000200020002000

Informations Informationsde comparaisonentre les individus ? aucune ...

<=> Variance = 0

La solution ACP (2)


Information (de comparaison entre les individus)=

variance (dispersion)

Variance(dispersion)

+

Variance(dispersion)

-

−4 −2 0 2 4

−3

−2

−1

01

23

V1

V2 0.5

0.65

0.77

0.84

0.850.81

0.710.570.430.290.19

0.15

0.16

0.23

0.35

0.5

La solution ACP (2)


Objectif : trouver les axes qui maximisent la variance des projetes.

Solution : SVD (Decomposition en valeurs spectrales) de la matrice descorrelations.Les meilleurs axes sont les vecteurs propres de la matrice des correlations dans l’ordre decroissant des valeurspropres.

3 2 1 0 1 2

32

1V

2

3 2 1 0 1 2

32

1

V2

v1, v2 vecteurs propres λ1, λ2 valeurs propres

SVD ... λ2v2

λ1v1

Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP

pn

...p

matrice descorrélations

pr

p

r premiersvecteurs propres

...... ... ... ......

Jeu de donnéesvectoriel

... La cléde l'extraction

de connaissances ...


Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP


Graphe des contributions

Le graphe des contributions affiche les variances des composantes principales.Comment choisir le nombre de composantes a retenir ?

2.69 1.77 0.89 0.45 0.14 0.05

0.0

1.0

2.0

45 %

30 %

15 %7 %

2 % 1 %

CP1

CP2

CP3CP4

CP5 CP60.0

1.0

2.0

V1 V2 V3 V4 V5 V6

11 1 1 1 1

Deux composantes principales de variancesignificativement supérieure à 1 ....donc plus informatives que les variables initiales.

Ce sont donc des super-variables.

Après centrage-réduction, toutes les variables initiales ont une variance de 1.

Propriete : les composantes principales sont statistiquement independantes.

Ici, les deux premieres C.P. conservent (... “resument” ...) 45 + 30 = 75% de l’information initiale.


Expliquer les composantes principales

Les “super-variables” des composantes principales ont un sens par rapport auxvariables initiales. Comment les “expliquer” par rapport a ces variables ?

Tableau des correlations entre variables initiales et composantes principales

positives > 0.70négatives < 0.70

cp1

V2 +V3 +V4 -V6 -

V2 -V3 -V4 +V6 +

Corrélations retenues :

cp1 cp2 cp3 cp4 cp5 cp6V1 -0.06 0.85 -0.44 0.17 -0.21 0.01V2 0.77 -0.50 -0.37 0.00 -0.03 0.16V3 0.84 -0.37 -0.36 0.07 -0.02 -0.16V4 -0.71 -0.49 -0.22 -0.41 -0.18 -0.02V5 0.56 0.65 -0.11 -0.49 0.11 0.00V6 -0.76 -0.04 -0.61 0.08 0.23 0.00

Individus àforts V2, V3et faibles V4, V6

Individus àfaibles V2, V3et forts V4, V6