Post on 26-Jun-2020
1
STA112 N.Niang
Analyse multidimensionnelle de données longitudinales
Ndèye Niang
Conservatoire National des Arts et Métiers
STA112 N.Niang
Plan
� Introduction
� Terminologie-Notations
� Méthodes directes� Coefficient d’association vectorielle
� DACP, STATIS, TUCKER, PARAFAC
� Méthodes secondaires� Dual, SCA
� Typlogies de trajectoires
STA112 N.Niang
Introduction
� Données longitudinales multidimensionnelles
� Méthodes exploratoires simples ( cf cours 1)
� Indispensables mais insuffisantes pour l’étude des liaisons entre les variables
� Besoin de méthodes multidimensionnelles
� Etude des méthodes descriptives à trois voies utilisant le temps dans l’interprétation
2
STA112 N.Niang
Introduction
� Rappel:
� Données longitudinales: mesures répétées dans le temps, tableau à 3 entrées
STA112 N.Niang
Terminologie - Notations
� Tableau à trois dimensions X
� xijt , i=1,…, N; j= 1,…, p, t=1…,T � i pour les individus en lignes
� j pour les variables en colonnes
� t pour les instants (temps) de mesure en profondeur
� Ensemble de matrices : tranches horizontales xi , tranches latérales xj, tranches frontales xt
� Ensemble de vecteurs: fibres lignes xit , colonnes xjt , tubes xij
STA112 N.Niang
Méthodes multidimensionnelles
3
STA112 N.Niang
Introduction� Cadre général: méthodes d’analyse
simultanée de plusieurs tableaux de
données
� Diverses situations:
� pt variables mesurées sur nt individus à différentes dates: données évolutives
� pt variables mesurées sur nt individus à différentes occasions (non temporel)
� Plusieurs tableaux de contingence ou de proximités
� Ici : données quantitatives individus-variables
STA112 N.Niang
Introduction
� Plusieurs méthodes:
� DACP
� STATIS, STATIS DUALE
� AFM
� PARAFAC, TUCKER
STA112 N.Niang
2. La double ACP (Bouroche,J.M., 1975)
� ACP n°1: nuage des centres de gravité gt comme étude de l’interstructure
� Recherche de l’intrastructure
� ACP de chaque tableau: T systèmes d’axes
� Système d’axes compromis maximise l’inertie de la somme des projections de chaque nuage = somme des inerties après centrage
4
STA112 N.Niang
double ACP (suite)
� Axes compromis : vecteurs propres de
� ACP n°2: ACP de la concaténation verticale (superposition) des Xt centrés
X1
X2
XT
1
T
tt=∑V
STA112 N.Niang
double ACP Ex1 :� La scolarité d’un groupe de six étudiants a été
suivie pendant les quatre années du collège à travers les relevés des notes de mathématiques, français, histoire
Document
Microsoft Office Word 97 - 2003
STA112 N.Niang
double ACP: exemple� Crimes et délits en 9 catégories pour l’ensemble
des départements métropolitains, par année de 1974 à 1993
� VO : vols et recels
� FX :faux et escroqueries
� DF: délits financiers
� CH: chèques sans provisions
� CR: coups, réglements de comptes, traumatismes
� ST: stupéfiants
� DD: destructions et dégradations
� ET : délits à la police des étrangers
� DV : divers
5
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
6
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
7
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
8
STA112 N.Niang
Méthodes STATIS
� Structuration de Tableaux A Trois Indices de la Statistique (Escoufier et L’Hermier des plantes (1976) + C.Lavit)
� permet l’exploration simultanée de plusieurs tableaux de données quantitatives:
� n individus et pt var différentes � STATIS
� Privilégie la position des individus
STA112 N.Niang
Méthodes STATIS
� Remarque p var et nt individus différents �
STATIS DUALE
� Privilégie les relations entre variables
� Remarque: données longitudinales : mêmes individus mêmes variables possible application des deux méthodes et DACP
STA112 N.Niang
L’approche de la méthode:
� Etude classique d’un tableau: l’analyse factorielle associe au tableau un ensemble de représentation graphiques (cercle de corrélations,
plans factoriels)
� Plusieurs tableaux: études séparées� trop de représentations indépendantes, pas pertinent; d’où:
� Recherche d’une unique représentation, un résumé global, un compromis des tableaux
9
STA112 N.Niang
Méthode STATIS
� Idée essentielle de la méthode:
� recherche d’une réponse à la question: les distances entre individus sont elles stables d’un tableaux à un autre ?
� Nécessité de trouver une structure commune aux études appelée intrastructure
STA112 N.Niang
4 étapes:
� Interstructure : étude globale des différences entre tableaux
� Compromis : résumer les tableaux en un seul
représentatif selon certains critères
� Intrastructure : étude fine des différences entre tableaux
� Trajectoires : évolution des individus ou
variables suivant les tableaux
STA112 N.Niang
Notations
� On dispose de N tableaux Xt à p variables
quantitatives décrivant les mêmes n individus
11 21 1
12 22 2
1 2
1
2X
P
P
t
n n Pn
X X X
X X X
X X Xn
=
L
L
M M O MM
K
10
STA112 N.Niang
Interstructure : analyse globale
� ACP particulière: 3 phases
� Définir un objet représentatif
� Définir une métrique pour distances entre objets
� Trouver une image des objets représentatifs
STA112 N.Niang
Interstructure objet représentatif Wt
� Wt = XtMtX’t caractérise (Xt , Mt , D)
Wt contient les produits scalaires entre individus = tous les liens inter individus
� Individu de l’ACP = objet représentatif d’un tableau Xt , et on lui associe un poids
tπ
STA112 N.Niang
Métrique pour distances entre objets
� Métrique de l’ACP:
définir une distance entre objets
Produit scalaire de Hilbert Schmidt:
Si les objets Wt ont des normes très différentes:
( )' ' ' tt t t t tHSTr= =S W W DW DW
( ) ( ) ( )2 2
' ' ' / [ ] [ ]t t t t t tHSTr Tr Tr=W W DW DW DW DW
11
STA112 N.Niang
Rappels ACP� ACP classique : triplet (X , M , D)
� facteurs principaux : MVu = λu = (1)
� composantes principales : c = Xu
MX’DXu= λu
XMX’DXu= λXu X* (1)
WDc= λc
W =matrice des produits scalaires entre individus
Composantes principales WDc = λc
STA112 N.Niang
Métrique pour distances entre objets
On définit la matrice S qui contient les coefficients RV
On associe à chaque tableau un poids:
Comme en ACP on peut construire une image
représentative des objets
Remarque: S a tous ses termes positifs, on aura un
facteur taille
10
0 N
π
π
∆ =
O
STA112 N.Niang
Image représentative des objets
� Rappel : STATIS = ACP particulière :
� Individu = Wt = objet représentatif d’un tableau
� Tableau de données = S = Matrice des coefficients RV (produits scalaires entre objets Wt) et poids
� Composante principale = vecteur propre de S∆∆∆∆
12
STA112 N.Niang
� ACP de S∆∆∆∆Les vecteurs propres de S∆∆∆∆ associés aux deux plus grandes valeurs propres permettent la représentation des objets W1,…, WN sur le 1er plan factoriel :� Les coordonnées des Wt sur l’axe i sont contenues
dans ct,i:,t i i iλ=c u
ième valeurpropre de S∆∆∆∆ième vecteur propre de S∆∆∆∆
Image représentative des objets
STA112 N.Niang
STATIS - Résumé Interstructure
�
STA112 N.Niang
Exemple 1: 1er tour présidentielle
13
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
Compromis-Intrastructure
Interstructure = analyse globalemise en évidence de ressemblances ou différences globales entre tableaux sans les expliquer.
Objectif de la suite = analyse plus fine pour expliquer
Deux étapes:* recherche d’un point de repère= compromis* étude de l’intrastructure
14
STA112 N.Niang
Recherche d’un compromis
CoCompromis = bon resumé, de même nature que les objets
solution: Wco moyenne pondérée desWt
Les coefficients étant tels que Wco soit le plus corrélé avec les Wt
STA112 N.Niang
Recherche d’un compromis
1
W WN
CO t tt
α=
=∑
( )
1
1
1u t
t tα πλ
=
1ère valeur propre de S∆∆∆∆
tième élément du 1er
vecteur propre de S∆∆∆∆
t t t′=W X MXMatrice de données
initiales
Matrice CoCompromis WCO
STA112 N.Niang
Recherche d’un compromisReprésentation et InterprétationReprésentation et Interprétation
4 cas4 cas: : ** WWtt ont des normes voisines et des grands RVont des normes voisines et des grands RV::existence d’une structure commune bien existence d’une structure commune bien décrite par le compromisdécrite par le compromis
** un Wun Wtt différent des autresdifférent des autres: il intervient peu : il intervient peu dans la construction du compromis, robustedans la construction du compromis, robuste
** WWtt normes trop différentesnormes trop différentes: il faut normer: il faut normer** WWtt très différents, RV faiblestrès différents, RV faibles: pas de : pas de
structure communestructure commune
15
STA112 N.Niang
Intrastructure image représentative des points compromis
� ACP de WCOD
� Les vecteurs propres de WCOD associésaux deux plus grandes valeurs propresfournissent une image euclidienne despoints compromis
� Les coordonnées compromis sur l’axe i sont contenues dans le vecteur cCO,i:
,
1CO i i i co i
i
δδ
= =c v W Dv
ième valeur propre de WCOD ième vecteur propre de WCOD
STA112 N.Niang
STATIS - Intrastructure
STA112 N.Niang
Intrastructure : corrélation variables-compromis� Chaque composante principale du
compromis est un vecteur à n dimension, n étant le nombre d’individus des tableaux initiaux.
� Calcul de leurs corrélations avec les variables initiales des tableaux Xt
� Représentation des cercles de corrélation
� Interprétation des axes pour expliquer les positions compromis des individus
16
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
� Wco est encore un opérateur d’Escoufier car les αj sont non négatifs
� Wco est donc associé à un tableau de données “compromis” X tel que Wco=XMX’
� ACP de
� Pondération des tableaux
1 1 2 2 ... T Tα α α=X X X X
17
STA112 N.Niang
STATIS - Trajectoires des individus
� Méthode: technique des points supplémentaires
Représentation sur l’image euclidiennecompromis des N nuages des individus
� Remarque : cCO,i est le “centre de gravité” des points cCO t,i
,
1CO t i t i
iδ=c W Dv
STA112 N.Niang
STATIS - Trajectoires des individus
� Objectif :
� Mise en évidence des écarts entre les Wt etavec le compromis au niveau individuel
� Détection des individus responsables desécarts entre tableaux
� Définition :
� On place les différentes positions d’unindividu tel qu’il est décrit par chaqueétude. Ces différentes positions définissentsa trajectoire
STA112 N.Niang
Interprétation des trajectoires� Deux classes de trajectoires des
individus :� Peu étendue autour de sa position
compromis = individus dont l’évolution suitl’évolution moyenne, écart par rapport à lamoyenne régulier d’un tableau à l’autre
� Trajectoire de grande amplitude =changement de structure suivant lestableaux, différence avec l’évolutionmoyenne
Rque: si les axes du compromis sont bien corrélésavec les variables on pourra expliquer les axes parles variables et on interprètera de façon détailléeles trajectoires des individus
18
STA112 N.Niang
STA112 N.Niang
STATIS DUALE
� Même démarche que STATIS en prenant comme matrice représentant un tableau, Vt
la matrice de covariance des variables à la place des Wt .
� On privilégie les variables au lieu des individus.
� Interstructure: étude globale des variables
� Compromis: moyenne pondérée des Vt
� Intrastructure: compromis des variables
� Trajectoires de variables
STA112 N.Niang
4 . Méthode AFM
� Analyse Factorielle Multiple (B.Escofier et J.Pagès)
� permet l’étude d’un ensemble d’individus décrits par plusieurs groupes de variablesquantitatives ou qualitatives:
� Groupes = mesures à différents instants
sous tableaux d’un tableau(issus d’un regroupement selon certains critères)
19
STA112 N.Niang
AFM : analyse factorielle multiple
� Comme STATIS:
� Comparaison globale des groupes de variables: interstructure
� Comparaison des nuages représentant le même ensemble d’individus: intrastructure et image compromis
� Mais ici juxtaposition des tableaux avec :
� Idée de base = pondération des groupes de variables pour équilibrer leur influence dans l’analyse globale
STA112 N.Niang
AFM : analyse factorielle multiple
� Dans la juxtaposition des N tableaux,
* plus le nombre de variables est grand, plus le tableau aura une grande influence sur les résultats
* plus les variables d’un tableau sont liées (forte structure) plus ce tableau influence le compromis
� Une autre manière de pondérer les tableaux: égaliser les premières valeurs propres de chaque ACP
STA112 N.Niang
AFM
� Objet représentatif
� Compromis
� Intrastructure ACP de
( )1
1ttλ
W
( )1 1
1T
ttt λ=∑ W
1 2(1) (2) ( )1 1 1
1 1 1... TTλ λ λ
=X X X X
20
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
21
STA112 N.Niang
STA112 N.Niang
STA112 N.Niang
Références
Bry, X. Analyses factorielles multiples, Economica, 1996
Escofier, B., Pagès, J. Analyses factorielles simples et multiples, 4ème édition, Dunod , 2008
Kroonenberg, P., Applied Multiway Data Analysis, Wiley, 2008
Lavit, C., Analyse conjointe de tableaux quantitatifs, Masson, 1998
Avec R http://factominer.free.fr/