Analyse statistique pour données à haut débit
Transcript of Analyse statistique pour données à haut débit
Analyse statistique pour données à haut débit
Sébastien Déjean www.lsp.ups-tlse.fr/Dejean
Institut de Mathématiques de ToulouseUniversité Paul Sabatier (Toulouse III)
Licence professionnelle Systèmes d'informations et de modélisations appliqués à la Bioinformatique Institut Universitaire de Technologie Aurillac, Université Clermont-Ferrand I
Cours préparé en collaboration avec Pascal Martin
Unité de Pharmacologie et Toxicologie, INRA Toulouse
2Sébastien Déjean Analyse statistique pour données à haut débit
Objectif du coursL’objectif de ce cours est de présenter des méthodes statistiques standard ainsi que leur application à des données issues de biopuces(puce à ADN, microarray, DNA chip).
Pour la plupart des thèmes abordés, on retrouvera :
1. une « petite histoire » : pas forcément connectée à la statistique ou à la biologie, illustrant l’objectif ou le principe de la méthode
2. les aspects mathématiques
3. une application à des données transcriptomiques
3Sébastien Déjean Analyse statistique pour données à haut débit
Limites du coursCe cours ne traite pas les étapes l’on peut globalement intégrerau pré-traitement des données visant à gommer les biais systématiques liés à la technologie.
Pour les microarrays, cela concerne essentiellement :
• La correction de bruit de fond ( analyse d’image)
• La suppression de valeurs aberrantes
• La normalisation des données. La procédure mise en œuvre dépend de la technologie adoptée : marquage fluorescent sur lame de verre, marquage radioactif sur membrane nylon, technologie Affymetrix.
• …
Dans le cadre de ce cours, nous nous plaçons après ces étapes. Cependant, dans la pratique, on peut très bien être amené à remettre en cause le pré-traitement si l’analyse statistique effectuée a posteriori révèle des incohérences.
4Sébastien Déjean Analyse statistique pour données à haut débit
Au salon de coiffureQue se passe-t-il au salon de coiffure et quel est le rapport avec l’analyse de données de microarray ?
????
Au salon de coiffure, en général, on nous propose le pack lavage-coupe-coiffage. Une fois ce travail accompli, que se passe-t-il ? On se regarde attentivement dans la glace, on nous montre l’arrière du crâne avec un petit miroir. Bref, on nous montre le résultat sous différents points de vue. Si cela ne convient pas (un épi rebelle), on peut demander quelques coups de ciseaux supplémentaires et une nouvelle vérification.
Pour exploiter des données de microarray, la procédure peut très bien être analogue. On procède d’abord à un pré-traitement (correction-suppression-normalisation). Ensuite, on analyse le résultat avec différentes méthodes (tests, classification, ACP). Si les résultats montre des incohérences (un spot aberrant), on peut revenir au pré-traitement, supprimer cette donnée aberrante et reprendre l’analyse.
5Sébastien Déjean Analyse statistique pour données à haut débit
Application aux biopucesÉtude de nutrition chez la souris
Étude réalisée à l’unité de Pharmacologie et Toxicologie de l’INRA de Toulouse
40 souris réparties selon 2 facteurs croisés dans un plan complet et équilibré à 4 répétitions :
• Génotype (2 niveaux) : sauvage (wild-type, WT) ou PPARαdéficientes
• Régime (5 niveaux) :dha (régime enrichi en acides gras de la famille ω3 et particulièrement en
acide docosahexaénoïque, à base d’huile de poisson)
efad (Essential Fatty Acid Deficient, régime constitué uniquement d’acides gras saturés, à base d’huile de coco hydrogénée) ;
lin (régime riche en ω3, à base d’huile de lin) ;
ref (régime dont l’apport en ω6 et en ω3 est adapté des Apports Nutritionnels Conseillés pour la population française, sept fois plus d’ω6 que d’ω3) ;
tsol (riche en ω6, à base d’huile de tournesol).
Données d’expression recueillies pour 120 gènes sur membranes nylon avec marquage radioactif.
6Sébastien Déjean Analyse statistique pour données à haut débit
Plan
I. Indicateurs statistiques 1D et 2D
II. Statistique inférentielle
III. Statistique descriptive
IV. Ouvertures
Rappels ?
7Sébastien Déjean Analyse statistique pour données à haut débit
Indicateurs statistiques unidimensionnels et bi-
dimensionnels
1. Indicateurs de position
2. Indicateurs de dispersion
3. Représentations graphiques
4. Statistiques bi-dimensionnelles
8Sébastien Déjean Analyse statistique pour données à haut débit
Indicateurs de position
∑=
=n
1iiX
n1X
Moyenne Médiane
Quartiles
Mode
Valeur qui sépare l’échantillon en 2 sous-ensembles de taille égales.
Valeur la plus fréquente dans un échantillon.
3 valeurs qui sépare l’échantillon en 4 sous-ensembles de taille égales.
Déciles 9 valeurs qui sépare l’échantillon en 10 sous-ensembles de taille égales.
Quantiles : généralisation de la notion de médiane, quartile…
9Sébastien Déjean Analyse statistique pour données à haut débit
Indicateurs de positionLors d’une négociation salariale entre le dirigeant d’une entreprise et les représentants du personnel, la discussion tourne autour d’une demande d’augmentation généralisée des salaires. Quels chiffres chaque camp doit-il avancer pour convaincre du bien fondé de sa position ?
• La direction a intérêt à avancer le montant du salaire moyen qui est plus largement influencé par les salaires de la direction.
• Du côté du personnel, il faut insister pour prendre en compte non pas le salaire moyen mais le salaire médian plus robuste aux valeurs extrêmes (que sont les salaires des dirigeants).
Exemple : supposons que l’entreprise compte 14 personnes :
• 10 ouvriers : 1000 € / personne
• Un chef d’atelier : 2000 €
• Un directeur technique : 5000 €
• Un directeur des ressources humaines : 8000 €
• Un directeur général : 10 000 €
Salaire moyen : 2500 € - Salaire médian : 1000 €
10Sébastien Déjean Analyse statistique pour données à haut débit
Indicateurs de position
0
2000
4000
6000
8000
10000
12000
Moyenne
Médiane
2500
1000
11Sébastien Déjean Analyse statistique pour données à haut débit
Indicateurs de dispersion
( )∑=
−=n
ii XXnX
1
21)var(
Variance Écart-type
Étendue
Espace inter-quartileCorrespond à l’étendue de l’échantillon privé de la moitié de ces observations (le ¼ le plus élevé et le ¼ le plus faible)
Différence entre la plus grande et la plus petite valeur d’un échantillon
)var()( XX =σ
12Sébastien Déjean Analyse statistique pour données à haut débit
( )24 XX −
Variance
X4 X3 X2 X1 X5XXX −1XX −2
XX −3
XX −4
( )23 XX −
XX −5
( )22 XX −
( )25 XX −
« Moyenne des carrés des écarts à la moyenne »
( )21 XX −
13Sébastien Déjean Analyse statistique pour données à haut débit
Écart-type« Racine carrée de la variance »
Quelques propriétés de l’écart-type :
• Positif (nul si la série est constante)
• Invariant par translation
• Sensible aux valeurs extrêmes
• Dépend de l’ordre de grandeur de l’échantillon d’où l’utilité, parfois, d’utiliser l’écart-type relatif, rapport de l’écart-type sur la moyenne.
• De la même unité que la donnée (et que la moyenne) :
Si l’échantillon est constitué de mesures en m alors l’écart-type s’exprime également en m (tout comme la moyenne) ; ce qui n’est pas le cas de la variance m² !
On peut ainsi additionner moyenne et écart-type (mais pas moyenne et variance), ce qui est fondamental pour la construction d’intervalle de confiance.
14Sébastien Déjean Analyse statistique pour données à haut débit
Centrage-Réduction
X
XXZ ii σ−=
Centrer : retrancher la moyenne
Réduire : diviser par l’écart-type
• Permet d’exprimer des variables différentes sur une échelle commune, en les débarrassant de leurs unités physiques : les observations s’expriment en nombre d’écart-type par rapport à la moyenne.
• Après centrage-réduction, la moyenne des observations est nulle et l’écart-type vaut 1.
Appelé parfois « z-transformation » ou « z-score » dans la littérature anglophone
15Sébastien Déjean Analyse statistique pour données à haut débit
Représentations graphiquesDiagramme-boîte (boxplot)
*
Q2 : Médiane (50%)
Q3 : 3ème quartile (75%)
Q1 : 1er quartile (25%)
Espace inter-quartile
Q3-Q1
Q3 + 1.5(Q3-Q1)
Q1 - 1.5(Q3-Q1)
Point extrême (aberrant ? outlier)
16Sébastien Déjean Analyse statistique pour données à haut débit
Représentations graphiquesBoxplot et histogramme
-2 -1 0 1 2 3
-2 -1 0 1 2 3
05
1015
0 1 2 3 4 5 6
0 1 2 3 4 5 6 7
010
2030
4050
6070
Individuellement, ces graphiques apportent la même information sur la position et la répartition des données. Les boxplots ont cependant l’avantage d’être plus lisible pour un nombre important de séries à représenter.
17Sébastien Déjean Analyse statistique pour données à haut débit
Application aux biopuces
Comparaison des histogrammes et boxplots pour 16 gènes.
18Sébastien Déjean Analyse statistique pour données à haut débit
Application aux biopuces
Boxplot parallèles pour 120 gènes
19Sébastien Déjean Analyse statistique pour données à haut débit
Application aux biopuces
Boxplot parallèles pour 40 souris
20Sébastien Déjean Analyse statistique pour données à haut débit
98.5 99.0 99.5 100.0 100.5 101.0 101.5
-4-2
02
46
x
y
+
+-
-
Covariance
Indicateurs statistiques 2D
( )( )∑=
−−=n
iii YYXXnYX
1
1),cov(
Intuitivement :• Si les + l’emportent
liaison linéaire positive
• Si les – l’emportentliaison linéaire négative
Sur cet exemple : cov(X,Y)=-1.36 X
Y
La covariance dépend des unités de mesure coefficient de corrélation
Signe du produit (Xi-X)(Yi-Y)
)var(),cov( XXX =
21Sébastien Déjean Analyse statistique pour données à haut débit
Coefficient(s) de corrélation
Coefficient de corrélation linéaire de Pearson
Coefficient de corrélation de SpearmanRobustesse due au travail sur les rangs
YX
YXYX σσρ ),cov(),( =
)1( 6 1),( 21
2
−−=∑=
nn
dYX
n
isρ
X Y RX RY d = RX-RY d²20,6 20,7 6 7 -1 121,6 21,8 2 2 0 018,8 20,4 9 8 1 120,8 21,1 3 4 -1 117,5 18,3 10 10 0 019,5 18,9 7 9 -2 420,8 21,1 4 4 0 020,6 21,2 5 3 2 419,2 20,9 8 6 2 422,2 22,9 1 1 0 0
Somme 15
1) Calcul des rangs des observations
2) Différence des rangs
3) Carrés des différences des rangs
∑=
n
id
1
24) Somme des
carrés des différences des
rangs
22Sébastien Déjean Analyse statistique pour données à haut débit
Coefficient(s) de corrélation
Quelques propriétés des coefficients de corrélation :
• Compris entre –1 et 1.
• Les valeurs extrêmes –1 et 1 indique des corrélations parfaites entre les 2 variables.
• Si le coefficient est positif : quand une variable est élevée, l’autre l’est également. Quand une variable est faible, l’autre l’est également.
• Si le coefficient est négatif : quand une variable est élevée (resp. faible), l’autre est faible (resp. élevée).
• Un coefficient nul indique une absence de relation linéaireentre les variables.
23Sébastien Déjean Analyse statistique pour données à haut débit
-1 0 1 2
01
23
45
x2cor1
x2co
r2
18 19 20 21 22
1214
1618
2022
xcor
zcor
18 19 20 21 22
1920
2122
23
xcor
ycor
Coefficient(s) de corrélation
ρ=0.884 - ρs=0.9 ρ=0.676 - ρs=0.912
ρ=0.584 - ρs=0.491
18 19 20 21 22
0 e
+00
1 e
+09
2 e
+09
3 e
+09
4 e
+09
xcor
exp(
xcor
)
ρ = 0.822 - ρs=1
ρ=-0.954 - ρs=-0.903
-1 0 1 2
-3-2
-10
1
x
mx
-1 0 1 2
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
x
xr
ρ=-0.248 - ρs=-0.164
24Sébastien Déjean Analyse statistique pour données à haut débit
Corrélation ≠ Causalité
Quelques exemples d’événements corrélés n’impliquant pas forcément une causalité :
• Le fait de dormir avec ses chaussures est fortement corrélé avec le fait de se réveiller avec la « gueule de bois ». Doit-on en conclure que dormir avec ses chaussures donne la « gueule de bois » ? Ou un troisième facteur est-il impliqué ?
• Mon âge est très fortement corrélé à l’évolution du prix du carburant : les 2 ont augmenté durant les 30 dernières années. Sans minimiser mon impact sur la société, je crois bien que je n’y suis pas pour grand-chose.
• Les personnes qui meurent ont très fréquemment vu un médecin dans les jours qui ont précédé. Est-il si dangereux de rencontrer un médecin ?
• Dans la plupart des villes, on constate une forte corrélation positive entre le nombre de nids de cigognes et la natalité. Nous cacherait-on des choses ?
• …
25Sébastien Déjean Analyse statistique pour données à haut débit
1. Loi de probabilité
2. Estimation
3. Test statistique
4. Gestion de la multiplicité dans les tests
5. Analyse de la variance (ANOVA)
Statistique inférentielle
26Sébastien Déjean Analyse statistique pour données à haut débit
Variable aléatoireUne variable aléatoire est utilisée pour modéliser le résultat d’une expérience non déterministe qui génère un résultat aléatoire.
Exemples :
• lancement d’une pièce, d’un dé (v.a. discrète)
• taille d’un individu pris au hasard dans une population (v.a. continue)
La répartition des valeurs prises par une v.a. conduit à la notion de loi de probabilité.
27Sébastien Déjean Analyse statistique pour données à haut débit
Loi de probabilitéLoi de probabilité Fonction de répartition
)()( kXPkPX ==
Cas continu (densité f)
)()( kXPnFn
kX ==∑
−∞=
Cas discret
∫ ∞−=x
X dttfxF )()(∫=<<b
adxxfbXaP )()(
• croissante sur ]-∞;+∞[
• continue à droite en tout point
• tend vers 0 en -∞ et 1+∞
• dérivée de la fdr
• à valeur positive ou nulle
• 1)( =∫+∞
∞−dxxf1)( ==∑
∈ZkkXP
28Sébastien Déjean Analyse statistique pour données à haut débit
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
-3 -2 -1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Loi de probabilité
0.31
0.31
Loi de probabilité Fonction de répartition
29Sébastien Déjean Analyse statistique pour données à haut débit
Loi de probabilitéLoi binomiale B(n,p)
0.00
0.05
0.10
0.15
0.0
0.2
0.4
0.6
0.8
1.0
knkkn ppCkXP −−== )1()(
Ex : n=20, p=0.5 )!( !!knk
nCkn −=
Loi de probabilité Fonction de répartition
30Sébastien Déjean Analyse statistique pour données à haut débit
Loi de probabilitéLoi de Poisson P(λ)
0.00
0.05
0.10
0.15
0.0
0.2
0.4
0.6
0.8
1.0
!)( kekXPkλ
λ−==
Loi de probabilité Fonction de répartition
Ex : λ=4
31Sébastien Déjean Analyse statistique pour données à haut débit
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Loi de probabilitéLoi normale N(μ,σ²)
N(0,1) N(1,1) N(0,2)
⎟⎠⎞
⎜⎝⎛ −
= 2
2
2
)(exp
21)( σ
μπσ
xxf
Ex :
Loi de probabilité Fonction de répartition-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
32Sébastien Déjean Analyse statistique pour données à haut débit
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
Loi de probabilitéLoi exponentielle E(λ)
λ=1 – 0.5 - 2
)exp()( xxf λλ −=
Ex :
Loi de probabilité Fonction de répartition
33Sébastien Déjean Analyse statistique pour données à haut débit
Loi de probabilitéLoi de Student St(k)
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
k=1 - 2 - 5 - 10
-3 -2 -1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Loi normale N(0,1) - - -Ex :
Loi de probabilité Fonction de répartition
( )( ) 2
12
12
21
)( +
⎟⎠⎞
⎜⎝⎛ +Γ
+Γ= k
ktkk
kxf
π
Γ fonction Gamma d’Euler
34Sébastien Déjean Analyse statistique pour données à haut débit
Loi de probabilitéLoi du khi-deux χ2(k) ( ) 22
2
1
221)(
xk
k exkxf −−
Γ=
Loi de probabilité Fonction de répartition0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
1.2
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
k=1 - 5 - 10 - 20Ex :
Γ fonction Gamma d’Euler
35Sébastien Déjean Analyse statistique pour données à haut débit
Loi de probabilité Fonction de répartition
Loi de Fisher F(n1,n2)
Loi de probabilité
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
2.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
1.0
F(1,1) F(1,5) F(5,1) F(5,5) F(10,10)Ex :
( )( ) ( )( ) 22121
1221
21 21
1
22
21
22
2)( nn
n
nxnnnxnn
nnxfnn
+
−
+ΓΓ
+Γ=
Γ fonction Gamma d’Euler
36Sébastien Déjean Analyse statistique pour données à haut débit
Estimation
Dans un fabrique de biscuit, le procédé mis en œuvre pour vérifier l’aspect moelleux du produit fini consiste à plier le biscuit et à mesurer l’angle d’inclinaison nécessaire pour le casser (un tel test est dit destructif). La règle étant qu’un bon biscuit doit avoir un angle de rupture de 50° (valeur fictive). Tout lot de biscuit doit être validé de la sorte avant d’être commercialisé.
Il va de soi qu’un biscuit cassé n’est pas commercialisable ainsi qu’un biscuit n’étant pas convenablement moelleux (angle de rupture ≠ 50°).
Dans de telles conditions, il est impossible de tester l’ensemble des biscuits (test destructif). Il est donc nécessaire d’effectuer les mesures sur un échantillon représentatif de la population des biscuits. L’angle moyen de rupture calculé sur l’échantillon est un estimateur de cet angle chez les biscuits du même lot (aux conditions de fabrication analogues).
Une histoire de biscuits
37Sébastien Déjean Analyse statistique pour données à haut débit
EstimationQuelques estimateurs
Variance : σ2(X)
Espérance (mathématique) : E(X)
EmpiriqueThéorique
∑=
=n
1iiX
n1X
( )∑=
−=n
ii XXnS
1
22 1
( )∑=
−−=n
ii XXnS
1
221
1
Écart-type : σ (X)
(sans biais)
2SS=
38Sébastien Déjean Analyse statistique pour données à haut débit
Test statistiqueEncore quelques biscuits
Région critique [2]Région critique [1]
Exemple : Fabrication industrielle de biscuit dont l’angle de rupture doit être de 50°. Des facteurs incontrôlés font que cet angle est aléatoire : on suppose qu’il suit une loi N(μ,σ2) avec σ2=9.
Question : comment décider qu’un lot est conforme ?
Hypothèses :H0 : le lot est conforme (μ=50)H1 : le lot n’est pas conforme (μ≠50)
Pour trancher entre les 2 hypothèses, on tire au hasard un échantillon de nbiscuits et on en mesure l’angle de rupture (Xi)i=1,…n. Chaque Xi suit une loi N(μ,σ2).
Règle de décision (principe): Rejet de H0 ⇔ X∉[50-c ; 50+c]
5050-c 50+c
39Sébastien Déjean Analyse statistique pour données à haut débit
Test statistique
βBonne décision
H1
Bonne décisionαH0Réalité
H0(accept. H0)
H1(rejet de H0)
Décision
Erreurs de décision
Interprétation des risques :
• α : rejeter le lot de biscuits alors qu’il est conforme (gaspillage !)
Le patron ne vas pas être content.
• β : déclarer conforme (et donc vendre) des biscuits « défectueux »
Dans ce cas, c’est le client qui n’est pas content.
40Sébastien Déjean Analyse statistique pour données à haut débit
Xi ≈ N(μ,σ2) X ≈ N(μ,σ2/n)
Test statistique
Règle de décision : Rejet de H0 ⇔ X∉[50-c ; 50+c]
α = P[Rejeter H0 // H0 vraie] = P[X ∉ [50-c ; 50+c] // μ =50]
Avec n=16, α=0.05=P[« N(50,9/16) » ∉ [50-c ; 50+c] ]
R> qnorm(0.025,50,0.75) # 48.53
R> qnorm(0.975,50,0.75) # 51.47
c = 1.47 (=1.96*3/4)
Région critique
48.53 51.47
Densité de la loi N(50;9/16)
41Sébastien Déjean Analyse statistique pour données à haut débit
Test statistique
Cas 1) : Jour J1, 16 biscuits tirés au hasard, diamètre moyen : 49.3
Cette valeur n’est pas dans la région critique, on ne peut pas rejeter H0, la production du jour est probablement conforme. La p-value associée à la valeur 49.3 est environ 0.34 ce qui est supérieur au seuil de 5%.
• Cas 2) : Jour J2, 16 biscuits tirés au hasard, diamètre moyen : 52.4
Cette valeur est dans la région critique, on rejette H0, la production du jour n’est pas conforme (au seuil de 5%). La p-value associée à la valeur 52.4 est de l’ordre de 0.0007 ce qui est inférieur au seuil de 5%.
49.3 52.4
p-value
42Sébastien Déjean Analyse statistique pour données à haut débit
Test statistique
X1, X2, …, Xn : n observations aléatoires supposées indépendantes et identiquement distribuées (i.i.d.) de même loi N(μ,σ2) où μ et σ2 sont inconnus.
∑=
=n
1iiX
n1X ( )∑
=−−=
n
ii XXnS
1
221
1
)(n-nS
XT 1/
0 St ≈−= μ
Estimateur de la moyenne
• Hypothèse alternative
H1 : μ > μ0 Rejet de H0 ⇔ Tobs ≥ tn-1,α (test unilatéral)
H1’ : μ < μ0 Rejet de H0 ⇔ Tobs ≤ tn-1,α (test unilatéral)
H1’’ : μ ≠ μ0 Rejet de H0 ⇔ |Tobs| ≥ tn-1,α/2 (test bilatéral)
Si cette hypothèse est vraie, alors on a :
Estimateur de la variance
• Hypothèse nulle : H0 : μ = μ0
Test de Student pour un échantillon
43Sébastien Déjean Analyse statistique pour données à haut débit
Test statistiqueTest de Fisher d’égalité des variances
X1, X2, …, Xn : n1 observations supposées i.i.d. N(μ1,σ12) où μ1 et σ1
2 sont inconnus.
Y1, Y2, …, Yn : n2 observations supposées i.i.d. N(μ2,σ22) où μ2 et σ2
2 sont inconnus.
( )∑=
−−=1
1
2
12
1 11 n
ii XXnS
( )1,1 2132
21 −≈= n-nSSF F
• Hypothèse alternative
H1 : σ12 > σ2
2 Rejet de H0 ⇔ Fobs > fn1-1,n2-1α
H1’ : σ12 < σ2
2 Rejet de H0 ⇔ Fobs < fn1-1,n2-1α
H1’’ : σ12 ≠ σ2
2 Rejet de H0 ⇔ |Fobs| > fn1-1,n2-1,α/2
Si cette hypothèse est vraie, alors on a :
Estimateurs des variances
• Hypothèse nulle : H0 : σ12 = σ2
2
( )∑=
−−=2
1
2
222 1
1 n
ii YYnS
44Sébastien Déjean Analyse statistique pour données à haut débit
Test statistiqueTest de Student pour 2 échantillons
Pour effectuer ce test, on suppose les 2 variances égales. Cela peut être contrôlé par un test de Fisher d’égalité des variances.
x y
-20
-10
010
2030
( ) ( )2
1121
2222
112−+−+−= nnSnSnS
( ) ( ) )-n(n
nnSYXT 2
11/21
21
21 +≈+
−−−= St μμ
• Hypothèse alternative
H1 : μ1 > μ2 Rejet de H0 ⇔ Tobs ≥ tn1+n2-2,α
H1’ : μ1 < μ2 Rejet de H0 ⇔ Tobs ≤ tn1+n2-2,α
H1’’ : μ1 ≠ μ2 Rejet de H0 ⇔ |Tobs| ≥ tn1+n2-2,α/2
Si cette hypothèse est vraie, alors on a :
• Hypothèse nulle : H0 : μ1 = μ2
Estimateur de la variance commune σ
Dans le cas ci-contre, la comparaison des moyennes n’a pas vraiment de sens.
45Sébastien Déjean Analyse statistique pour données à haut débit
Test statistiqueQuelques autres tests (en vrac)
Test du chi-deux : indépendance, homogénéité
Test de Bartlett : homogénéité de variances
Test de Kolmogorov-Smirnov : distribution de variables aléatoires
Test de Shapiro-Wilk : normalité
Test de Wilcoxon (test des rangs signés) : comparaison de distributions
…
46Sébastien Déjean Analyse statistique pour données à haut débit
Test statistique
0 1
-1.1
-1.0
-0.9
-0.8
-0.7
0 1
-1.2
5-1
.20
-1.1
5-1
.10
-1.0
5
L’expression du gène OCTN2 est-elle identique chez les souris WT et PPARα ?
L’expression du gène BIEN est-elle identique chez les souris WT et PPARα ?
Comparaison des variancesF test to compare two variances
F = 0.9745, num df = 19, denom df = 19, p-value = 0.9557
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval: 0.3857185 2.4620238
sample estimates: ratio of variances 0.974499
Comparaison des variances
F = 0.8557, num df = 19, denom df = 19, p-value = 0.7376
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval: 0.3386984 2.1618964
sample estimates: ratio of variances 0.8557049
Comparaison des moyennes
t = -0.9872, df = 38, p-value = 0.3298
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -0.05948870 0.02048870
sample estimates: mean of x / mean of y -1.1490 / -1.1295
Comparaison des moyennes
t = 4.3584, df = 38, p-value = 9.618e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 0.06613658 0.18086342
sample estimates: mean of x / mean of y -0.8595 / -0.9830
La conclusion des tests de comparaison de variance permet de procéder à la comparaison des moyennes.
La différence est significative pour BIEN mais pas pour OCTN2.
47Sébastien Déjean Analyse statistique pour données à haut débit
MultiplicitéPetite histoire (sordide)
La roulette russe est un jeu consistant à mettre une ou plusieurs cartouches (suivant la probabilité souhaitée) dans le barillet d'un revolver, à tourner ce dernier de manière aléatoire puis à pointer le revolver sur sa tempe avant d'actionner la détente. Si une cartouche se trouve alors dans la chambre placée dans l'axe du canon elle sera percutée et le « joueur » mourra ou sera blessé. (Wikipedia)
Supposons que le barillet contienne 100 emplacements de cartouche et que le « joueur » mette 5 cartouches aléatoirement. Sa probabilité d’être blessé (soyons optimiste) est de 5%.
Supposons maintenant que l’individu « joue » plusieurs fois de suite. Intuitivement, on sent bien qu’il va finir par « se faire mal » et que la probabilité de « perdre » au moins une fois augmente à chaque tentative.
Nous allons traduire mathématiquement cette petite histoire.
48Sébastien Déjean Analyse statistique pour données à haut débit
MultiplicitéPetits calculs
Calculons la probabilité qu’à le « joueur » de rester bien portant après n tentatives
• Pour n=1, P[bp(1)]=1-0.05=0.95
• Pour n=2, il faut que le « joueur » soit bien portant après le 1er essai ET après le second
P[bp(2)]=(1-0.05)*(1-0.05)=0.952=0.9025
• Et ainsi de suite…
Règle générale : P[bp(n)]=(1-0.05)n
n 1 2 5 10 100 1000
P[bp(n)] 0.95 0.902 0.774 0.599 0.006 10-23
Quelques valeurs
49Sébastien Déjean Analyse statistique pour données à haut débit
Multiplicité
0 50 100 150 200
0.0
0.2
0.4
0.6
0.8
Nombre de tentatives
Pro
babi
lité
de re
ster
bie
n po
rtant
1 chance sur 2 au bout de 7 tentatives
1 chance sur 10 au bout de 45 tentatives
1 chance sur 100 au bout de 90 tentatives
Représentation de la fonction
n f(n)=0.95n
Graphiquement
50Sébastien Déjean Analyse statistique pour données à haut débit
Multiplicité
Une autre façon de considérer le problème consiste à envisager plusieurs « joueurs » jouant simultanément. Si le risque est toujours fixé à 5% (avec 5 cartouches sur 100 emplacements), et si 100 joueurs actionne la détente, on peut s’attendre à ce que 5 joueurs perdent. Ils seront 50 pour 1000 joueurs…
Cette façon de voir le problème de multiplicité est plus proche de la problématique de la détection de gènes différentiellement exprimés. En effet, un test statistique effectué pour l’ensemble des tests d’une biopuce (plusieurs milliers) au risque de 5% implique nécessairement la détection de gènes non pertinents.
51Sébastien Déjean Analyse statistique pour données à haut débit
MultiplicitéApplication aux biopuces
Dans le cas de l’analyse des biopuces, la conséquence de l’erreur est moins radicale que pour la roulette russe.
Si les tests sont effectués pour détecter les gènes différentiellement exprimés (DE) entre 2 conditions alors le risque consiste à déclarer un gène DE alors qu’il ne l’est pas : on parle de gène faux-positif (FP). Au contraire, un gène « réellement » DE non détecté par le test est dit faux-négatif (FN).
Les conséquences de ces 2 types d’erreur sont de natures diverses. Dans le premier cas, on va engager des moyens (humains et financiers) pour valider l’hypothèse que le gène FP est effectivement intéressant alors qu’il ne l’est pas. Dans le second cas (FN), on passe peut-être à côté de la découverte du siècle en négligeant un gène important !!!
52Sébastien Déjean Analyse statistique pour données à haut débit
Multiplicité
• 1 comparaison : α = P[Rejeter H0 // H0 vraie] = 5%
• 3 comparaisons :α1 = P[Rejeter H01 // H01 vraie] = 5%α2 = P[Rejeter H02 // H02 vraie] = 5%α3 = P[Rejeter H03 // H03 vraie] = 5%
Probabilité de ne pas commettre d’erreur : 1-0.05 = 0.95
Probabilité de ne pas commettre d’erreur = produit des probabilités de ne pas commettre d’erreur à chacune des 3 comparaisons = (1-0.05) * (1-0.05) * (1-0.05) = 0.86
Le risque (global) de commettre au moins une erreur est :
1-0.86 = 0.14
Il faut donc diminuer le risque associé à chaque comparaison pour contrôler le risque global.
Retour sur les tests
53Sébastien Déjean Analyse statistique pour données à haut débit
Multiplicité
En prenant α1=α2=α3=αg/3=0.05/3, on a la probabilité de ne pas commettre d’erreur :
(1-0.05/3) * (1-0.05/3) * (1-0.05/3) = 0.9508
Ce qui correspond à un risque global inférieur à 5%.
Méthode de Bonferroni
La méthode de Bonferroni consiste à corriger le risque associé à chaque comparaison (αi) en le divisant par le nombre de comparaisons à effectuer pour contrôler le risque global (αg)
Dans le cas des biopuces comportant plusieurs centaines voire plusieurs milliers de gènes, cette correction peut devenir trop conservative et conduire à la détection d’aucun gène. D’autres méthodes plus sophistiquées existent : Sidak, Holm, Westfall et Young, Hochberg…
54Sébastien Déjean Analyse statistique pour données à haut débit
MultiplicitéComparaison de méthodes de prise en compte de la multiplicité
Dans le graphique ci-contre, on constate que les 2 méthodes extrêmes sont l’absence d’ajustement (rawp) et la correction de Bonferroni qui détectent respectivement le plus grand (~55) et le plus petit (~25) nombre de gènes. Les autres méthodes d’ajustement sont des intermédiaires entre ces 2 extrêmes.
5%
55Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (1 facteur)Notations
• Yij : jème observation pour la ième modalité du facteur
• Yi. : moyenne des observations de la ième modalité
• Y.j : moyenne des observations de la jème répétition
• Y.. : moyenne générale
• I modalités, J observations par modalité (plan équilibré)
• N=IJ observations
RépétitionsModalité
1
Y11
Y21
…
YI1
Y.1
2 … J
1
Moyenne
Y12
Y22
…
2
Y1.
YI2
Y.2
Y1J…
…
…
Y2J
…
YIJ
… Y.I
…
Y2.
I YI.
Moyenne Y..
56Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (1 facteur)
Modèle d’ANOVA :
SCtotale SCfacteur SCrésidu
Test de l’effet du facteur :
Modèle et somme de carrés
ijiij εαμY ++=
0 ,...,1 : 0 ==∀ iIiH α
( ) ( ) ( )∑∑∑∑∑= === =
−+−=−I
i
J
jiij
I
ii
I
i
J
jij yyyyJyy
1 1
2.
1
2...
1 1
2..
μ : effet moyen général
αi : effet différentiel de la ième modalité du facteur
57Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (1 facteur)
…
P value
F= CMf/CMr
Statistique de test F
SCtotaleN-1Variation
totale
CMr= SCr/(N-I)SCrésiduN-I
Variation « résidu »
CMf= SCf/(I-1)SCfacteurI-1
Variation « facteur »
Carrés moyens
Somme de carrés
Degrés de liberté
Source de variation
Plus la variabilité due au facteur est importante par rapport à celle due au résidu, plus le test est susceptible de conclure à un effet du facteur.
Table d’ANOVA
Règle de décision : F > FI-1,N-I,αrejet de H0
58Sébastien Déjean Analyse statistique pour données à haut débit
Degré de liberté
Dans la table d’ANOVA présentée précédemment, on retrouve une colonne « degré de liberté ». Cette information est essentielle dans tous les aspects de la statistique liés à la modélisation et aux tests. Elle traduit la quantité d’information dont on dispose pour estimer une quantité inconnue. Dans le calcul des degrés de liberté, on se retrouve systématiquement avec une valeur –1.
Imaginons 3 personnes (X, Y, Z) face à 3 vêtements (R, V, B). Chacune des personnes doit choisir à son tour un vêtement.
• X commence et a le choix entre 3 vêtements R, V, B. Il choisit R.
• Y vient ensuite. Il ne reste que 2 choix possibles : V et B. Il choisit B.
• Z arrive et n’a plus le choix, il prend V !
Ainsi, dans une situation où 3 unités sont initialement présentes, on constate que seulement 2 choix sont possibles ; le troisième étant nécessairement imposé.
59Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (2 facteurs)
Facteur B (J modalités)Facteur A
(I modalités) 1
Y111
…
Y11K
Y211
…
Y21K
…
YI11
…
YI1K
Y.1.
2 … J
1
Moyenne
Y121
…
Y12K
Y221
…
Y22K
…
2
Y1..
YI21
…
YI2K
Y.2.
Y1J1
…
Y1JK
…
…
…
Y2J1
…
Y2JK
…
YIJ1
…
YIJK
… Y.3.
…
Y2 ..
I YI ..
Moyenne Y…
Notations
Y11. Y12. Y1J.
Y21. Y22. Y2J.
YI1. YI2. YIJ.
60Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (2 facteurs)
ijkijjiijk εαμY ++++= γβ
( ) ( ) ( ) ( )∑∑∑∑∑∑∑= = == ===
−++−−+−+−I
i
J
j
K
kijijk
I
i
J
jjiij
I
ij
I
ii yyyyyyKyyIKyyJK
1 1 1
2.
1 1
2........
1
2.....
1
2.....
Modèle
SCtotale
Scfacteur A SCrésidu
Décomposition
Scfacteur B Scinteraction
( )∑∑∑= = =
=−I
i
J
j
K
kijk yy
1 1 1
2...
μ : effet moyen général αi : effet différentiel de la ième modalité du facteur Aβi : effet différentiel de la jème modalité du facteur Bγij : effet d’interaction de la ième modalité du facteur A avec la jème du facteur B
61Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (2 facteurs)
CMresid = SCErésidu /IJ(K-1)SCErésiduIJ(K-1)Résiduelle
…CMA*B / CMrésidu
CMA*B = SCEA*Bt /(I-1)(J-1)
SCEA*B(I-1)(J-1)Interaction
…CMB / CMrésiduCMB = SCEB /(J-1)SCEBJ-1Facteur B
…CMA / CMrésiduCMA = SCEA/(I-1)SCEAI-1Facteur A
p-valueFCM
(carré moyen)
SCE(Somme de carrés d’écarts)
Degrés de liberté
Sources de
variation
62Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA (2 facteurs)Graphes d’interaction
Var
iable
rép
onse
Facteur B_1
Facteur B_2
Facteur A_1 Facteur A_2Var
iable
rép
onse
Facteur B_1
Facteur B_2
Facteur A_1 Facteur A_2
L’effet d’un facteur dépend de la modalité de l’autre facteur l’interaction sera
probablement déclarée significative lors du test statistique
L’effet d’un facteur ne dépend pas de la modalité de l’autre facteur l’interaction
sera probablement déclarée non significative lors du test statistique
Y11.
Y21.
Y12.
Y22.
Y11.
Y21.
Y12.
Y22.
63Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA
1) Homoscédasticité
2) Indépendance
3) Normalité
Les données doivent vérifier 3 hypothèses :(de la plus importante à la moins importante)
Dans quels cas peut-on utiliser l’analyse de variance ?
64Sébastien Déjean Analyse statistique pour données à haut débit
ANOVAHomoscédasticité
La variance de la variable à expliquer ne dépend pas des facteurs i.e., la variance est homogène entre les groupes d’individus.
Valeurs prédites par le modèle (fitted values)
Rés
idus
est
imés
Valeurs prédites par le modèle (fitted values)
Rés
idus
est
imés
Hétéroscédasticité Homoscédasticité ☺
65Sébastien Déjean Analyse statistique pour données à haut débit
ANOVAIndépendance
L’effet d’un facteur sur un individu n’a pas d’effet sur un autre individu.
En général, l’indépendance est postulée car elle est définie par le protocole expérimental.
Si il y a une coïncidence spatiale et temporelle des observations, l’indépendance est à mettre en doute.
66Sébastien Déjean Analyse statistique pour données à haut débit
ANOVANormalité
Pour une combinaison donnée des facteurs explicatifs, la distribution des données doit être normale (gaussienne).
Il existe des tests pour vérifier si un ensemble de valeurs est issu d’une loi normale : test de Kolmogorov-Smirnov, test de Shapiro-Wilk…
En général, on se limite à une étude graphique : qqplot (qq : quantile-quantile)
Quan
tile
s em
piriq
ues
des
rés
idus
Quantiles de la loi normale N(0,1)
67Sébastien Déjean Analyse statistique pour données à haut débit
ANOVA
Que faire si les conditions ne sont pas vérifiées par les données ?
Homoscédasticité : faire une transformation des variables (par exemple en prenant le log) et réévaluer l’homoscédasticité.
Indépendance : il existe d’autres méthodes qui permettent de gérer la dépendance.
Normalité : un écart modéré à l’hypothèse de normalité est sans conséquence sur les résultats de l’ANOVA. Si l’écart est trop important, tester des transformations de variables.
68Sébastien Déjean Analyse statistique pour données à haut débit
ANOVAInterprétation des résultats
vérification des hypothèses : homoscédasticité, indépendance et normalité
dans le cas d’un modèle à plusieurs facteurs, analyser en premier lieu les termes d’interactions d’ordre le plus élevé
se servir au mieux des sorties graphiques
gestion de la multiplicité ?
69Sébastien Déjean Analyse statistique pour données à haut débit
ANOVAModèle à 1 facteur : test de l’effet régime pour les souris WTGène BIEN Df Sum Sq Mean Sq F value Pr(>F)
reg 4 0.089270 0.022318 4.4546 0.01429
Residuals 15 0.075150 0.005010
Gène OCTN2 Df Sum Sq Mean Sq F value Pr(>F)
reg 4 0.010520 0.002630 0.6109 0.6611
Residuals 15 0.064575 0.004305
Le régime a un effet sur l’expression du gène BIEN, ce qui n’est pas le cas pour OCTN2.
Modèle à 2 facteurs : test des effets régime et génotypeGène BIEN Df Sum Sq Mean Sq F value Pr(>F)
reg 4 0.063725 0.015931 4.2740 0.007435
geno 1 0.152523 0.152523 40.9182 4.626e-07
reg:geno 4 0.129565 0.032391 8.6898 8.790e-05
Residuals 30 0.111825 0.003727
Gène ApoA.I Df Sum Sq Mean Sq F value Pr(>F)
reg 4 0.058565 0.014641 2.3717 0.0746722
geno 1 0.086490 0.086490 14.0103 0.0007697
reg:geno 4 0.044935 0.011234 1.8197 0.1510557
Residuals 30 0.185200 0.006173
Le régime et le génotype ont un effet sur l’expression du gène BIEN. Seul le génotype influence significativement l’expression du gène OCTN2.
70Sébastien Déjean Analyse statistique pour données à haut débit
Un peu de logiqueIls sont tous égaux
Ils ne sont pas tous égaux
Ils sont tous différents Au moins un est différent
?
71Sébastien Déjean Analyse statistique pour données à haut débit
Logique… et ANOVA
II αααα ==== −121 L Cette relation est fausse (rejetée)
Négation de l’affirmation : « ils sont tous égaux »
1) « ils sont tous différents » ?
OU
2) « il en existe au moins un qui est différent des autres » ?
En cas de rejet de l’hypothèse H0
Oui, mais le(s)quel(s) ? tests multiples
0 ,...,1 : 0 ==∀ iIiH α
72Sébastien Déjean Analyse statistique pour données à haut débit
1. Classification hiérarchique
2. Nuées dynamiques
3. Analyse en Composantes Principales
4. Positionnement multidimensionnel
Statistique descriptive multidimensionnelle
73Sébastien Déjean Analyse statistique pour données à haut débit
Multidimensionnel
Variable v1
Variable V2
Intérêt d’une approche multidimensionnelle ?
Ce qui n’est pas visible en 1 dimension (séparation des points bleus et rouges) devient évident en 2 dimensions
74Sébastien Déjean Analyse statistique pour données à haut débit
Jeu de données• 20 individus : 10 femmes, 10 hommes
• 5 variables :
V1 V2 V3 V4 V5
H 1 106.2 89.5 71.5 65.6 174.0
H 2 110.5 97.0 79.0 71.8 175.3
H 3 115.1 97.5 83.2 80.7 193.5
H 4 104.5 97.0 77.8 72.6 186.5
H 5 107.5 97.5 80.0 78.8 187.2
H 6 119.8 99.9 82.5 74.8 181.5
H 7 123.5 106.9 82.0 86.4 184.0
H 8 120.4 102.5 76.8 78.4 184.5
H 9 111.0 91.0 68.5 62.0 175.0
H 10 119.5 93.5 77.5 81.6 184.0
V1 V2 V3 V4 V5
F 1 105.0 89.0 71.2 67.3 169.5
F 2 100.2 94.1 79.6 75.5 160.0
F 3 99.1 90.8 77.9 68.2 172.7
F 4 107.6 97.0 69.6 61.4 162.6
F 5 104.0 95.4 86.0 76.8 157.5
F 6 108.4 91.8 69.9 71.8 176.5
F 7 99.3 87.3 63.5 55.5 164.4
F 8 91.9 78.1 57.9 48.6 160.7
F 9 107.1 90.9 72.2 66.4 174.0
F 10 100.5 97.1 80.4 67.3 163.8
V1 : tour au niveau des épaules (cm)V2 : tour de poitrine (cm)V3 : tour de taille (cm)V4 : masse (kg)V5 : taille (cm)
75Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationObjectif : classer des individus en groupes
« homogènes »
Critère d’homogénéité : Taille ? Couleur ? Sourire ?
76Sébastien Déjean Analyse statistique pour données à haut débit
Classif. ascendante hiérarchique
• Préalable : distance inter-individus ET critère
d’agglomération (entre groupes d’individus)
• Procédure :
Début : chaque individu est une classe
Déroulement : à chaque étape, on regroupe les 2
« objets » les plus proches
Fin : une classe regroupe tous les individus
• Résultat : construction d’un arbre de classification
(dendrogramme)
77Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationDistance euclidienne
H 1 H 2 H 3 H 4 H 5 …H2 13.08H3 29.81 21.20H4 17.44 12.79 16.01H5 22.05 14.17 10.55 7.28H6 23.56 12.43 14.39 17.16 14.55
…
2nn211n
1i
2ii2 )YX(...)YX()YX()Y,X(d −++−=−= ∑=
08.13)3.175174()8.716.65()795.71()975.89()5.1102.106()2,1( 222222 =−+−+−+−+−=HHd
Exemple
V1 V2 V3 V4 V5H1 106,2 89,5 71,5 65,6 174,0H2 110,5 97,0 79,0 71,8 175,3H1-H2 -4,3 -7,5 -7,5 -6,2 -1,3(H1-H2)² 18,5 56,3 56,3 38,4 1,7 171,1
13,08
Détail d’un calcul
∑
78Sébastien Déjean Analyse statistique pour données à haut débit
Classification
H 1 H 2 H 3 H 4 H 5 …H2 0.0003H3 0.0035 0.0048H4 0.0051 0.0045 0.0032H5 0.0058 0.0062 0.0016 0.0009H6 0.0011 0.0016 0.0077 0.0108 0.0121
…
( )( )
( ) ( )∑ ∑
∑
= =
=
−−
−−−=−=−
n
i
n
iii
n
iii
YX YYXX
YYXXYXYXcor
1 1
22
11),cov(1),(1σσ
Distance 1-corrélationPlutôt que d’utiliser directement la corrélation, on préfère, dans ce contexte, calculer 1-cor(X,Y) qui fournit des valeurs faibles pour des éléments proches. Les valeurs sont alors comprises entre 0 et 2.
V1 V2 V3 V4 V5 E-TH1 106,2 89,5 71,5 65,6 174,0 39,02H2 110,5 97,0 79,0 71,8 175,3 36,88
cov(H1,H2) 1438,3cor(H1,H2) 0,9997 0,0003
Exemple
Détail d’un calcul
Valeur proche de 0 : corrélation forte et positive
Valeur proche de 1 : pas de corrélation
Valeur proche de 2 : corrélation forte et négative
79Sébastien Déjean Analyse statistique pour données à haut débit
Classification
0
0
0
5
4
3
2
1
X
0
0
2
6
5
4
3
2
Y1
0.99500
1.102
56717
150-6
440-5
530-4
320-3
210-2
Y4Y3Y2
Comparaison de distance
Distance euclidienne
Corrélation 1-cor(X,Yi)
Corrélation carrée
sqrt(1-cor2(X,Yi))
Il n’existe pas une distance meilleure que les autres ! Le choix de la distance dépend de l’objectif.
80Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationComparaison de distance
1 2 3 4 5
-10
010
2030
4050
xy1y2y3y4
81Sébastien Déjean Analyse statistique pour données à haut débit
Classification
Minimum (single) Maximum (complete) Moyen (average)
Ward ( ) ( ) ( )∑∑∑∑∑= === =
−+−=−p
1j
n
1i
2Gij
p
1j
2GG
p
1j
n
1i
2Gij XXXXXX j
Minimiser l’inertie intra-classe
Maximiser l’inertie inter-classes
Critère d’agglomération (linkage)
82Sébastien Déjean Analyse statistique pour données à haut débit
Classification
H 2 13 H 3 30 21 H 4 17 13 16 H 5 22 14 11 7 H 6 24 12 14 17 15 H 7 35 24 17 26 20 14 H 8 26 16 13 18 14 8 11 H 9 7 16 31 20 25 24 36 25 H10 24 16 13 18 14 11 15 10 25 F 1 5 14 33 21 25 26 37 28 10 26 F 2 20 19 37 27 29 30 38 33 26 31 17 F 3 10 14 30 17 21 26 36 29 17 27 10 15 F 4 14 19 40 28 32 29 40 32 14 33 12 19 18 F 5 25 21 38 30 31 29 36 34 30 32 22 8 20 23 F 6 8 11 25 14 17 20 30 20 10 18 10 21 13 18 26 F 7 18 29 47 33 39 40 51 42 18 41 16 27 21 15 33 24 F 8 31 44 61 46 52 55 66 57 32 55 30 39 34 30 45 37 15 F 9 2 11 29 16 21 22 33 24 7 23 5 20 10 14 25 7 19 33 F10 17 16 36 24 27 27 37 31 21 32 14 10 11 14 13 20 23 36 16
H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 F1 F2 F3 F4 F5 F6 F7 F8 F9
1 32 5 6 7
Critère : Saut minimum (single)
4
Dendrogramme
83Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationcH
MG
CoA
SA
CC
2P
LTP
AD
SS1 MS
eif2
gTR
bP
PAR
gV
LDLr
Pex1
1aB
cl.3
CO
X1C
YP4
A10
CY
P4A1
4H
MG
CoA
red
FX
Rm
ABC
1S
R.B
IA
CO
TH
CAR
1C
AC
PC
PT2
BIE
NM
RP6
FD
FT
PP
ARa
IL.2
MT
HF
RA
DIS
PR
XR
b2P
XR
LPL
LXR
bS
HP1
FAT
SIAT
4cU
CP2
i.BA
TP
PAR
dTR
aG
SA
CC
1i.N
OS
CY
P24
CY
P27
b1 ap2
CID
EA
CY
P2b
10P
ALc.
fos
RX
Rg1
UC
P3Tp
beta
G6P
DH
CO
X2i.F
ABP
Waf
1C
YP
2b13
NU
RR
1P
DK4
VDR
M.C
PT1
hABC
1R
AR
b2C
YP2
6Lp
in3
NG
FiB
OC
TN2
MD
R1
RAR
aC
16S
Rap
oA.I
SP
I1.1
apoE
PON
AM
2RA
CA
T1M
CA
DR
XRa
LXR
aT
HB
CY
P7a
MD
R2
i.BAB
PA
LDH
3P
ECI
Lpin
2LD
LrT
palp
hacM
OA
TS1
4Lp
inLp
in1
AC
AT2
CYP
8b1
GK
HP
NC
LB
SEP
CY
P27
a1G
6Pas
ePM
DC
Iap
oBG
STa
LCE
CY
P2c
29G
ST
mu
GS
Tpi2
L.F
ABP
FAS
CY
P3A1
1T
HIO
LA
CB
PC
BS
X36
b4N
tcp
AO
Xm
HM
GC
oAS
BA
CT
LPK
apoC
3
020
4060
8010
012
0
Dendrogramme issu de la classification ascendante hiérarchique des 120 gènes avec distinction de 5 groupes.
84Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationQuelques remarques sur la classification hiérarchique :
• aucune connaissance a priori sur le phénomène étudié n’est requise
• réflexion préalable sur le choix de la distance et du critère d’agglomération. Il est même vivement conseillé de procéder à plusieurs classifications et de s’intéresser aux choses qui changent
• critère de saut minimum effet de chaîne (dendrogramme en forme d’escalier)
• le résultat est « figé ». Une fois effectué, un regroupement ne peut plus être défait.
Quand on dit oui, c’est pour la vie !
• un dendrogramme doit être vu comme un mobile pour bébé (le truc que l’on pend au dessus d’un berceau et dont les branches peuvent tourner). Ainsi, les « distances » entre les individus ne sont valables qu’en remontant les branches pas selon leur proximité « visuelle » (T.S.V.P.)
85Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationAu gré de la rotation du mobile, le singe (rose) pourra très bien se retrouver à côté du chien (jaune) ou du lapin (bleu), mais le lapin sera toujours proche de sa balle bleue, le singe de sa balle rose et le chien de sa balle jaune.
Un dendrogramme… c’est pareil !
86Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationFl
orid
aN
orth
Car
olin
aC
alifo
rnia
Mar
ylan
dA
rizon
aN
ew M
exic
oD
elaw
are
Ala
bam
aLo
uisi
ana
Illin
ois
New
Yor
kM
ichi
gan
Nev
ada
Ala
ska
Mis
siss
ippi
Sou
th C
arol
ina
Was
hing
ton
Ore
gon
Wyo
min
gO
klah
oma
Virg
inia
Rho
de Is
land
Mas
sach
uset
tsN
ew J
erse
yM
isso
uri
Ark
ansa
sTe
nnes
see
Geo
rgia
Col
orad
oTe
xas
Idah
oN
ebra
ska
Ken
tuck
yM
onta
naO
hio
Uta
hIn
dian
aK
ansa
sC
onne
ctic
utP
enns
ylva
nia
Haw
aii
Wes
t Virg
inia
Mai
neS
outh
Dak
ota
Nor
th D
akot
aV
erm
ont
Min
neso
taW
isco
nsin
Iow
aN
ew H
amps
hire
050
100
150
Pour enfoncer le clou !Exemple extrait de l’aide en ligne de la fonction hclust() de R
87Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationEncore un coup pour les sportifs !Tableau masculin de l’US Open 2007 de Tennis (à partir des ¼ de finales)
Ferrer Chela Moya Djokovic Federer Roddick Davydenko Haas
Ferrer Djokovic Federer Davydenko
Djokovic Federer
Federer
Djokovic Moya Ferrer Chela Davydenko Haas Roddick Federer
Les rencontres successives ne dépendent pas de l’ordre des joueurs sur le tableau initial. Federer et Djokovic ne pouvaient se rencontrer qu’en finale quelle que soit leur position « visuelle » dans le tableau.
88Sébastien Déjean Analyse statistique pour données à haut débit
ClassificationImage de la matrice des données brutes
H3
H4
H5
H7
H10 H
6
H8 F7 F8 F2 F5 H9 F6 F1 H1 F9 F4 H2 F3 F10
020
4060
8010
012
014
0
Hei
ght
Taill
e
T.ta
ille
Mas
se
T.ep
aule
T.po
itrin
e
010
020
030
040
050
0
Hei
ght
Classification des variables
Classification des individus
Représentation simultanée des classifications des individus et des variables autour d’une image de la matrice des données restructurée selon les dendrogrammes.
Restr
uctura
tion
89Sébastien Déjean Analyse statistique pour données à haut débit
Classification
Cla
ssif
icati
on
des
sou
ris
Classification des gènes
90Sébastien Déjean Analyse statistique pour données à haut débit
Nuées dynamiques
• Préalable : déterminer le nombre de groupes (k) soit par une
connaissance a priori du phénomène étudié, soit par une autre méthode
(classification hiérarchique par exemple)
• Procédure :
Début : k centres (soit tirés aléatoirement, soit imposés par l’utilisateur)
Déroulement : à chaque étape,
tous les individus sont affectés au centre le plus proche
les centres de chaque groupe sont recalculés
Fin : les individus ne changent pas de groupe entre 2 étapes successives
• Résultat : répartition des individus en k groupes
Objectif : répartir des individus dans des groupes « homogènes » dont le nombre est fixé a priori
91Sébastien Déjean Analyse statistique pour données à haut débit
Nuées dynamiques
-0.5 0.0 0.5 1.0
-0.5
0.0
0.5
1.0
x
y
-0.5 0.0 0.5 1.0
-0.5
0.0
0.5
1.0
x
y
Exemple sur données simuléesRépartition en 2 groupes avec tirage aléatoire des centres initiaux
92Sébastien Déjean Analyse statistique pour données à haut débit
Nuées dynamiquesQuelques remarques sur les nuées dynamiques :
• nécessite de déterminer préalablement le nombre de groupes
• si les centres initiaux sont tirés aléatoirement, des exécutions successives de l’algorithme peuvent donner des résultats différents. Face à cela, on peut :
imposer les centres initiaux (par exemple, les barycentres des classes issues d’une classification hiérarchique)
s’intéresser aux formes fortes : quels que soient les centres, certains points se retrouvent toujours dans le même groupe
• un algorithme de nuées dynamiques exécuté après une classification hiérarchique permet de « stabiliser » la classification obtenue : l’algorithme de nuées dynamiques va permettre à des points de changer de groupe au gré de l’évolution de l’algorithme (ce que ne permet pas la classification hiérarchique (Quand on dit oui…)
93Sébastien Déjean Analyse statistique pour données à haut débit
ACP
Exemple tiré de S. Jay Gould (La mal-mesure de l’homme, chapitre 6)
Devinette : Que représente l’image ci-dessous ?(Attention, il y a un piège…)
94Sébastien Déjean Analyse statistique pour données à haut débit
ACPRéponse : C’est la représentation d’un poisson…
en 2 dimensions !!!
1ère composante principale
2ème composante principale
Centre de gravité du poisson
95Sébastien Déjean Analyse statistique pour données à haut débit
ACPL’image de la diapositive précédente est la représentation en 2 dimensions d’un poisson. En d’autres termes, c’est la projection d’un poisson sur un espace de dimension 2. Cette représentation est tellement fidèle à l’original en 3 dimensions (même si certains spécimens sont plutôt plats comme la sole, ils sont quand même en 3D) que nous n’avons aucun mal à le reconnaître. L’information apportée par la 3ème
dimension est minimale et sa perte n’est pas préjudiciable à la reconnaissance de l’objet.
Parmi les projections possibles en 2D, toutes ne permettent pas de reconnaître aussi facilement l’original. Imaginons par exemple, la projection de face (et non plus latéralement) du poisson, il estprobable que la réponse à la devinette soit aussi évidente.
L’ACP permet de déterminer les espaces de dimension inférieure à l’espace initial sur lesquels la projection du nuage de pointsinitial soit la moins déformée possible, autrement dit celle qui
conserve le plus d’information c’est-à-dire de variabilité.
Quelques explications
96Sébastien Déjean Analyse statistique pour données à haut débit
ACP
T.ep T.p T.t Masse Taille
T.ep 1.00 0.74 0.48 0.72 0.71
T.p 0.74 1.00 0.78 0.81 0.51
T.t 0.48 0.78 1.00 0.86 0.37
Masse 0.72 0.81 0.86 1.00 0.61
Taille 0.71 0.51 0.37 0.61 1.00Matrice des corrélations
Tour de Taille Tour
de
Poitr
ineT
ou
r d
’Ép
au
le
Plus mathématiquement (mais pas trop)
Les 5 variables morphologiques recueillies sur les 20 individus présentent des corrélations importantes. On peut en effet supposer qu’une personne ayant un tour d’épaule important a également un tout de poitrine élevé (la carrure de Casimir étant peu répandue chez l’Homo Sapiens). Dans ces conditions, l’information apportée par les 5 variables est redondante. Graphiquement, sur les 3 premières variables (« Tour des épaules », « Tour de poitrine » et « Tour de taille »), cela se traduit par des zones vides de points dans le cube. Une variable unique calculée comme combinaison de ces 3 variables (représentée par le flèche en pointillés) suffirait à représenter les individus avec une perte d’information minimale
car tous les points sont relativement proches de ce nouvel axe qui est la première composante principale.
97Sébastien Déjean Analyse statistique pour données à haut débit
T.Ep. T.P. T.T. M T
H2 110.5 97.0 79.0 71.8 175.3
H3 115.1 97.5 83.2 80.7 193.5
H7 123.5 106.9 82.0 86.4 184.0
H9 111.0 91.0 68.5 62.0 175.0
H10 119.5 93.5 77.5 81.6 184.0
F2 100.2 94.1 79.6 75.5 160.0
F5 104.0 95.4 86.0 76.8 157.5
F8 91.9 78.1 57.9 48.6 160.7
ACP
73 %
17 %
7 %2 % 1 %
Représentation graphique
98Sébastien Déjean Analyse statistique pour données à haut débit
ACPApplication aux biopuces
Représentation des individus (souris) et des variables (gènes) sur le premier plan principal
99Sébastien Déjean Analyse statistique pour données à haut débit
Positionnement multidimensionnel MultiDimensional Scaling
(MDS)
DonnéesBrutesn x p
Distanceinter-individus
n x n
• Principe : mettre en œuvre une ACP sur un tableau de distance
• Objectif : fournir une représentation des individus sur un espace de petitedimension respectant au mieux les distances initiales
La mise en œuvre du MDS peut se faire soit directement sur des données de type distance, soit, sur des distances calculées à partir d’un tableau individus ×variables selon n’importe quelle distance.
100Sébastien Déjean Analyse statistique pour données à haut débit
MDSExemple : distance entre 21 villes européennes
Athens Barcelona Brussels Calais Cherbourg Cologne Copenhagen . . .
Barcelona 3313
Brussels 2963 1318
Calais 3175 1326 204
Cherbourg 3339 1294 583 460
Cologne 2762 1498 206 409 785
Copenhagen 3276 2218 966 1136 1545 760
Geneva 2610 803 677 747 853 1662 1418
Gibraltar 4485 1172 2256 2224 2047 2436 3196
. . .
Jeu de données extrait de « TheCambridge Encyclopaedia » disponible directement dans R
La projection sur le premier plan obtenu par MDS donne une assez bonne répartition
géographique des villes européennes.
Pour des données de ce type, le format individus × variables n’a pas lieu d’être. Les données sont par nature de type distance.
101Sébastien Déjean Analyse statistique pour données à haut débit
MDSComparaison de distances
Distance euclidienne Corrélation Corrélation carrée
Influence du choix de la distance sur la position relative des gènes CAR1 et GSTpi2.
102Sébastien Déjean Analyse statistique pour données à haut débit
ConclusionBiologiste 1 – 0 Statisticien (Traduit de R. Tibshirani)
Avant d’être exécutés, on accorde une dernière volonté à un statisticien et à un biologiste. Le statisticien demande l’autorisation de donner une dernière conférence sur sa Grande Théorie des Statistiques. Le biologiste demande à être exécuté en premier (…avant la conférence…)
Aujourd’hui les biologistes sont confrontés à un afflux massif de données dont la gestion et l’analyse nécessitent des outils adaptés que seuls les statisticiens et les informaticiens maîtrisent.
INTERACTIONS
Biologiste 1 – 1 Statisticien (R.A. Fisher)
To call in a statistician after the experiment is done may beno more than asking him to perform a postmortemexamination: he may be able to say what the experimentdied of.
Les statisticiens se confrontent à des questions nouvelles apportées par les biologistes et à des données d’origine biologique avec leurs spécificités (dimensions, bruits, etc…)
103Sébastien Déjean Analyse statistique pour données à haut débit
Statistique• L. Lebart, A. Morineau, M. Piron - Statistique exploratoire multidimensionnelle, Dunod (1995).
• G. Saporta - Probabilités analyse des données et statistique, Éditions Technip (1990).
Bibliographie
Web• www.lsp.ups-tlse.fr/Biopuces : publications, supports de formation, bibliographie…
Vulgarisation scientifique• Jay Gould S. La mal-mesure de l’homme, Livre de Poche (1997).Corrélation-causalité, analyse factorielles (ACP)…
• Jay Gould S. L’éventail du vivant, Points Sciences (2001).Indicateurs statistiques : moyenne, médiane, mode…
104Sébastien Déjean Analyse statistique pour données à haut débit
Ouvertures
1) Classification de courbesLissage spline
2) Recherche de corrélations entre 2 jeux de données
Analyse canonique
Traitement de problèmes spécifiques
105Sébastien Déjean Analyse statistique pour données à haut débit
Cas n°1
(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)
Expérience de jeûne chez la souris 11 temps de mesure entre 0 et 72h (0 – 3 – 6 – 9 – 12 – 18 – 24 – 36 – 48 – 60 – 72)
4 souris par temps~200 gènes étudiés (130 après « nettoyage »)Objectif : classification des gènes selon leur profil temporeld’expression au cours du jeûne
106Sébastien Déjean Analyse statistique pour données à haut débit
Les données
107Sébastien Déjean Analyse statistique pour données à haut débit
Méthodologie
1) Lissage par spline cubique2) Calcul de la fonction dérivée3) Discrétisation de la courbe
dérivée4) Classification sur la base des
valeurs de la dérivée aux points de discrétisation
108Sébastien Déjean Analyse statistique pour données à haut débit
Lissage
Paramètre de lissage :
• plus λ est élevé, plus la courbe lissé se rapproche d’une droite (régression linéaire)
• quand λ est faible, la solution du problème d’optimisation se rapproche d’une fonction d’interpolation
109Sébastien Déjean Analyse statistique pour données à haut débit
Influence de λ
110Sébastien Déjean Analyse statistique pour données à haut débit
Courbes dérivées
111Sébastien Déjean Analyse statistique pour données à haut débit
Courbes lissées et dérivées
112Sébastien Déjean Analyse statistique pour données à haut débit
Choix de λ
Question centrale dans les problèmes de lissage (et plus généralement dans l’optimisation de fonctions pénalisées)
Méthodes automatiques : validation croisée, sélection de modèle…
Méthodes « pragmatiques » : intégration du phénomène biologique sous-jacent, pertinence du nombre de changements de signe de la dérivée
λ = 0.6
113Sébastien Déjean Analyse statistique pour données à haut débit
Discrétisation20 points de discrétisation équi-répartis entre 0 et 72h
114Sébastien Déjean Analyse statistique pour données à haut débit
Nouvelles données
Les gènes ne sont plus caractérisés par des mesures à 11 temps différents mais par 20 valeurs de la dérivée de leur profil lissé
Le nouveau tableau de données a donc 130 lignes et 20 colonnes
Dans ce nouveau cadre, les variables sont les temps de discrétisation (et non plus les temps réels d’acquisition)
115Sébastien Déjean Analyse statistique pour données à haut débit
Classification
Mise en œuvre d’un algorithme de type kmeans pour stabiliser les groupes issus de la CAH
116Sébastien Déjean Analyse statistique pour données à haut débit
ACP
117Sébastien Déjean Analyse statistique pour données à haut débit
Groupes de profils
118Sébastien Déjean Analyse statistique pour données à haut débit
Cas n°2
(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)
Expérience de nutrition chez la souris 40 souris (4 souris × 5 régimes × 2 génotypes)
2 types de mesure :Expression de 120 gènesConcentration de 21 acides gras hépatiques
Objectif : recherche de corrélationsentre les niveaux d’expression desgènes et les concentrations en acides gras hépatiques
119Sébastien Déjean Analyse statistique pour données à haut débit
Les données
X(40 ×20)
Y(40×120)
40 souris
120 gènes21 lipides
2121 XXXX ... = 12021 YYYY ... =
120Sébastien Déjean Analyse statistique pour données à haut débit
Analyse canoniquePrincipe : rechercher les combinaisons linéaires, une dans chaque groupe de variables, les plus corrélées ( analogie avec l’ACP ?)
21121
212
111
1 XaXaXaU +++= L1201
12021
211
11 YbYbYbV +++= L
( ) ( )VUcorVUcorVU
,max,,
111 ==ρ
Premières variables canoniques
21221
222
121
2 XaXaXaU +++= L1202
12022
212
12 YbYbYbV +++= L
( ) ( )VUcorVUcorVU
,max,,
222 ==ρDeuxièmes variables canoniques
( ) ( ) 0,, 2121 == VVcorUUcor
…
121Sébastien Déjean Analyse statistique pour données à haut débit
Mathématiquement
( ) ttX XXXXP 1−= ( ) ttY YYYYP 1−=
Soit PX et PY les projecteurs sur les espaces engendrés respectivement par les colonnes des matrices X et Y
Les corrélations canoniques ρs sont égales aux racines carrées des valeurs propres de la matrice PXPY
Les vecteurs Us sont les vecteurs propres de la matrice PXPY associés aux valeurs propres λs
Les vecteurs Vs sont les vecteurs propres de la matrice PYPX associés aux valeurs propres λs
122Sébastien Déjean Analyse statistique pour données à haut débit
AC régularisée
( ) ttX XIXXXP 11
−+= λ ( ) ttY YIYYYP 12
−+= λ
Quand on dispose de plus de variables que d’individus, les matrices XtX et YtY deviennent mal conditionnées et leur inversion délicate.
Pour remédier à cela, on peut avoir recours à une technique de régularisation consistant à ajouter un terme, plus ou moins grand, à la diagonale de la matrice à inverser.
Problème de réglage des paramètres de régularisation λ1 et λ2 : validation croisée …
123Sébastien Déjean Analyse statistique pour données à haut débit
Résultats
VariablesIndividus
?
ConnuRésultat de l’étude (validé par ailleurs)