Analyse statistique pour données à haut débit

Analyse statistique pour données à haut débit

Sébastien Déjean www.lsp.ups-tlse.fr/Dejean

Institut de Mathématiques de ToulouseUniversité Paul Sabatier (Toulouse III)

Licence professionnelle Systèmes d'informations et de modélisations appliqués à la Bioinformatique Institut Universitaire de Technologie Aurillac, Université Clermont-Ferrand I

Cours préparé en collaboration avec Pascal Martin

Unité de Pharmacologie et Toxicologie, INRA Toulouse

2Sébastien Déjean Analyse statistique pour données à haut débit

Objectif du coursL’objectif de ce cours est de présenter des méthodes statistiques standard ainsi que leur application à des données issues de biopuces(puce à ADN, microarray, DNA chip).

Pour la plupart des thèmes abordés, on retrouvera :

1. une « petite histoire » : pas forcément connectée à la statistique ou à la biologie, illustrant l’objectif ou le principe de la méthode

2. les aspects mathématiques

3. une application à des données transcriptomiques


Limites du coursCe cours ne traite pas les étapes l’on peut globalement intégrerau pré-traitement des données visant à gommer les biais systématiques liés à la technologie.

Pour les microarrays, cela concerne essentiellement :

• La correction de bruit de fond ( analyse d’image)

• La suppression de valeurs aberrantes

• La normalisation des données. La procédure mise en œuvre dépend de la technologie adoptée : marquage fluorescent sur lame de verre, marquage radioactif sur membrane nylon, technologie Affymetrix.

• …

Dans le cadre de ce cours, nous nous plaçons après ces étapes. Cependant, dans la pratique, on peut très bien être amené à remettre en cause le pré-traitement si l’analyse statistique effectuée a posteriori révèle des incohérences.


Au salon de coiffureQue se passe-t-il au salon de coiffure et quel est le rapport avec l’analyse de données de microarray ?

????

Au salon de coiffure, en général, on nous propose le pack lavage-coupe-coiffage. Une fois ce travail accompli, que se passe-t-il ? On se regarde attentivement dans la glace, on nous montre l’arrière du crâne avec un petit miroir. Bref, on nous montre le résultat sous différents points de vue. Si cela ne convient pas (un épi rebelle), on peut demander quelques coups de ciseaux supplémentaires et une nouvelle vérification.

Pour exploiter des données de microarray, la procédure peut très bien être analogue. On procède d’abord à un pré-traitement (correction-suppression-normalisation). Ensuite, on analyse le résultat avec différentes méthodes (tests, classification, ACP). Si les résultats montre des incohérences (un spot aberrant), on peut revenir au pré-traitement, supprimer cette donnée aberrante et reprendre l’analyse.


Application aux biopucesÉtude de nutrition chez la souris

Étude réalisée à l’unité de Pharmacologie et Toxicologie de l’INRA de Toulouse

40 souris réparties selon 2 facteurs croisés dans un plan complet et équilibré à 4 répétitions :

• Génotype (2 niveaux) : sauvage (wild-type, WT) ou PPARαdéficientes

• Régime (5 niveaux) :dha (régime enrichi en acides gras de la famille ω3 et particulièrement en

acide docosahexaénoïque, à base d’huile de poisson)

efad (Essential Fatty Acid Deficient, régime constitué uniquement d’acides gras saturés, à base d’huile de coco hydrogénée) ;

lin (régime riche en ω3, à base d’huile de lin) ;

ref (régime dont l’apport en ω6 et en ω3 est adapté des Apports Nutritionnels Conseillés pour la population française, sept fois plus d’ω6 que d’ω3) ;

tsol (riche en ω6, à base d’huile de tournesol).

Données d’expression recueillies pour 120 gènes sur membranes nylon avec marquage radioactif.


Plan

I. Indicateurs statistiques 1D et 2D

II. Statistique inférentielle

III. Statistique descriptive

IV. Ouvertures

Rappels ?


Indicateurs statistiques unidimensionnels et bi-

dimensionnels

1. Indicateurs de position

2. Indicateurs de dispersion

3. Représentations graphiques

4. Statistiques bi-dimensionnelles


Indicateurs de position

∑=

=n

1iiX

n1X

Moyenne Médiane

Quartiles

Mode

Valeur qui sépare l’échantillon en 2 sous-ensembles de taille égales.

Valeur la plus fréquente dans un échantillon.

3 valeurs qui sépare l’échantillon en 4 sous-ensembles de taille égales.

Déciles 9 valeurs qui sépare l’échantillon en 10 sous-ensembles de taille égales.

Quantiles : généralisation de la notion de médiane, quartile…


Indicateurs de positionLors d’une négociation salariale entre le dirigeant d’une entreprise et les représentants du personnel, la discussion tourne autour d’une demande d’augmentation généralisée des salaires. Quels chiffres chaque camp doit-il avancer pour convaincre du bien fondé de sa position ?

• La direction a intérêt à avancer le montant du salaire moyen qui est plus largement influencé par les salaires de la direction.

• Du côté du personnel, il faut insister pour prendre en compte non pas le salaire moyen mais le salaire médian plus robuste aux valeurs extrêmes (que sont les salaires des dirigeants).

Exemple : supposons que l’entreprise compte 14 personnes :

• 10 ouvriers : 1000 € / personne

• Un chef d’atelier : 2000 €

• Un directeur technique : 5000 €

• Un directeur des ressources humaines : 8000 €

• Un directeur général : 10 000 €

Salaire moyen : 2500 € - Salaire médian : 1000 €


Indicateurs de position

0

2000

4000

6000

8000

10000

12000

Moyenne

Médiane

2500

1000


Indicateurs de dispersion

( )∑=

−=n

ii XXnX

1

21)var(

Variance Écart-type

Étendue

Espace inter-quartileCorrespond à l’étendue de l’échantillon privé de la moitié de ces observations (le ¼ le plus élevé et le ¼ le plus faible)

Différence entre la plus grande et la plus petite valeur d’un échantillon

)var()( XX =σ


( )24 XX −

Variance

X4 X3 X2 X1 X5XXX −1XX −2

XX −3

XX −4

( )23 XX −

XX −5

( )22 XX −

( )25 XX −

« Moyenne des carrés des écarts à la moyenne »

( )21 XX −


Écart-type« Racine carrée de la variance »

Quelques propriétés de l’écart-type :

• Positif (nul si la série est constante)

• Invariant par translation

• Sensible aux valeurs extrêmes

• Dépend de l’ordre de grandeur de l’échantillon d’où l’utilité, parfois, d’utiliser l’écart-type relatif, rapport de l’écart-type sur la moyenne.

• De la même unité que la donnée (et que la moyenne) :

Si l’échantillon est constitué de mesures en m alors l’écart-type s’exprime également en m (tout comme la moyenne) ; ce qui n’est pas le cas de la variance m² !

On peut ainsi additionner moyenne et écart-type (mais pas moyenne et variance), ce qui est fondamental pour la construction d’intervalle de confiance.


Centrage-Réduction

X

XXZ ii σ−=

Centrer : retrancher la moyenne

Réduire : diviser par l’écart-type

• Permet d’exprimer des variables différentes sur une échelle commune, en les débarrassant de leurs unités physiques : les observations s’expriment en nombre d’écart-type par rapport à la moyenne.

• Après centrage-réduction, la moyenne des observations est nulle et l’écart-type vaut 1.

Appelé parfois « z-transformation » ou « z-score » dans la littérature anglophone


Représentations graphiquesDiagramme-boîte (boxplot)

*

Q2 : Médiane (50%)

Q3 : 3ème quartile (75%)

Q1 : 1er quartile (25%)

Espace inter-quartile

Q3-Q1

Q3 + 1.5(Q3-Q1)

Q1 - 1.5(Q3-Q1)

Point extrême (aberrant ? outlier)


Représentations graphiquesBoxplot et histogramme

-2 -1 0 1 2 3

-2 -1 0 1 2 3

05

1015

0 1 2 3 4 5 6

0 1 2 3 4 5 6 7

010

2030

4050

6070

Individuellement, ces graphiques apportent la même information sur la position et la répartition des données. Les boxplots ont cependant l’avantage d’être plus lisible pour un nombre important de séries à représenter.


Application aux biopuces

Comparaison des histogrammes et boxplots pour 16 gènes.



Boxplot parallèles pour 120 gènes



Boxplot parallèles pour 40 souris


98.5 99.0 99.5 100.0 100.5 101.0 101.5

-4-2

02

46

x

y

+

+-

-

Covariance

Indicateurs statistiques 2D

( )( )∑=

−−=n

iii YYXXnYX

1

1),cov(

Intuitivement :• Si les + l’emportent

liaison linéaire positive

• Si les – l’emportentliaison linéaire négative

Sur cet exemple : cov(X,Y)=-1.36 X

Y

La covariance dépend des unités de mesure coefficient de corrélation

Signe du produit (Xi-X)(Yi-Y)

)var(),cov( XXX =


Coefficient(s) de corrélation

Coefficient de corrélation linéaire de Pearson

Coefficient de corrélation de SpearmanRobustesse due au travail sur les rangs

YX

YXYX σσρ ),cov(),( =

)1( 6 1),( 21

2

−−=∑=

nn

dYX

n

isρ

X Y RX RY d = RX-RY d²20,6 20,7 6 7 -1 121,6 21,8 2 2 0 018,8 20,4 9 8 1 120,8 21,1 3 4 -1 117,5 18,3 10 10 0 019,5 18,9 7 9 -2 420,8 21,1 4 4 0 020,6 21,2 5 3 2 419,2 20,9 8 6 2 422,2 22,9 1 1 0 0

Somme 15

1) Calcul des rangs des observations

2) Différence des rangs

3) Carrés des différences des rangs

∑=

n

id

1

24) Somme des

carrés des différences des

rangs



Quelques propriétés des coefficients de corrélation :

• Compris entre –1 et 1.

• Les valeurs extrêmes –1 et 1 indique des corrélations parfaites entre les 2 variables.

• Si le coefficient est positif : quand une variable est élevée, l’autre l’est également. Quand une variable est faible, l’autre l’est également.

• Si le coefficient est négatif : quand une variable est élevée (resp. faible), l’autre est faible (resp. élevée).

• Un coefficient nul indique une absence de relation linéaireentre les variables.


-1 0 1 2

01

23

45

x2cor1

x2co

r2

18 19 20 21 22

1214

1618

2022

xcor

zcor

18 19 20 21 22

1920

2122

23

xcor

ycor


ρ=0.884 - ρs=0.9 ρ=0.676 - ρs=0.912

ρ=0.584 - ρs=0.491

18 19 20 21 22

0 e

+00

1 e

+09

2 e

+09

3 e

+09

4 e

+09

xcor

exp(

xcor

)

ρ = 0.822 - ρs=1

ρ=-0.954 - ρs=-0.903

-1 0 1 2

-3-2

-10

1

x

mx

-1 0 1 2

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

x

xr

ρ=-0.248 - ρs=-0.164


Corrélation ≠ Causalité

Quelques exemples d’événements corrélés n’impliquant pas forcément une causalité :

• Le fait de dormir avec ses chaussures est fortement corrélé avec le fait de se réveiller avec la « gueule de bois ». Doit-on en conclure que dormir avec ses chaussures donne la « gueule de bois » ? Ou un troisième facteur est-il impliqué ?

• Mon âge est très fortement corrélé à l’évolution du prix du carburant : les 2 ont augmenté durant les 30 dernières années. Sans minimiser mon impact sur la société, je crois bien que je n’y suis pas pour grand-chose.

• Les personnes qui meurent ont très fréquemment vu un médecin dans les jours qui ont précédé. Est-il si dangereux de rencontrer un médecin ?

• Dans la plupart des villes, on constate une forte corrélation positive entre le nombre de nids de cigognes et la natalité. Nous cacherait-on des choses ?

• …


1. Loi de probabilité

2. Estimation

3. Test statistique

4. Gestion de la multiplicité dans les tests

5. Analyse de la variance (ANOVA)

Statistique inférentielle


Variable aléatoireUne variable aléatoire est utilisée pour modéliser le résultat d’une expérience non déterministe qui génère un résultat aléatoire.

Exemples :

• lancement d’une pièce, d’un dé (v.a. discrète)

• taille d’un individu pris au hasard dans une population (v.a. continue)

La répartition des valeurs prises par une v.a. conduit à la notion de loi de probabilité.


Loi de probabilitéLoi de probabilité Fonction de répartition

)()( kXPkPX ==

Cas continu (densité f)

)()( kXPnFn

kX ==∑

−∞=

Cas discret

∫ ∞−=x

X dttfxF )()(∫=<<b

adxxfbXaP )()(

• croissante sur ]-∞;+∞[

• continue à droite en tout point

• tend vers 0 en -∞ et 1+∞

• dérivée de la fdr

• à valeur positive ou nulle

• 1)( =∫+∞

∞−dxxf1)( ==∑

∈ZkkXP


-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Loi de probabilité

0.31

0.31

Loi de probabilité Fonction de répartition


Loi de probabilitéLoi binomiale B(n,p)

0.00

0.05

0.10

0.15

0.0

0.2

0.4

0.6

0.8

1.0

knkkn ppCkXP −−== )1()(

Ex : n=20, p=0.5 )!( !!knk

nCkn −=



Loi de probabilitéLoi de Poisson P(λ)

0.00

0.05

0.10

0.15

0.0

0.2

0.4

0.6

0.8

1.0

!)( kekXPkλ

λ−==


Ex : λ=4


-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Loi de probabilitéLoi normale N(μ,σ²)

N(0,1) N(1,1) N(0,2)

⎟⎠⎞

⎜⎝⎛ −

= 2

2

2

)(exp

21)( σ

μπσ

xxf

Ex :

Loi de probabilité Fonction de répartition-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0


0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Loi de probabilitéLoi exponentielle E(λ)

λ=1 – 0.5 - 2

)exp()( xxf λλ −=

Ex :



Loi de probabilitéLoi de Student St(k)

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

k=1 - 2 - 5 - 10

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Loi normale N(0,1) - - -Ex :


( )( ) 2

12

12

21

)( +

⎟⎠⎞

⎜⎝⎛ +Γ

+Γ= k

ktkk

kxf

π

Γ fonction Gamma d’Euler


Loi de probabilitéLoi du khi-deux χ2(k) ( ) 22

2

1

221)(

xk

k exkxf −−

Γ=

Loi de probabilité Fonction de répartition0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

1.2

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

k=1 - 5 - 10 - 20Ex :




Loi de Fisher F(n1,n2)

Loi de probabilité

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

2.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.2

0.4

0.6

0.8

1.0

F(1,1) F(1,5) F(5,1) F(5,5) F(10,10)Ex :

( )( ) ( )( ) 22121

1221

21 21

1

22

21

22

2)( nn

n

nxnnnxnn

nnxfnn

+

−

+ΓΓ

+Γ=



Estimation

Dans un fabrique de biscuit, le procédé mis en œuvre pour vérifier l’aspect moelleux du produit fini consiste à plier le biscuit et à mesurer l’angle d’inclinaison nécessaire pour le casser (un tel test est dit destructif). La règle étant qu’un bon biscuit doit avoir un angle de rupture de 50° (valeur fictive). Tout lot de biscuit doit être validé de la sorte avant d’être commercialisé.

Il va de soi qu’un biscuit cassé n’est pas commercialisable ainsi qu’un biscuit n’étant pas convenablement moelleux (angle de rupture ≠ 50°).

Dans de telles conditions, il est impossible de tester l’ensemble des biscuits (test destructif). Il est donc nécessaire d’effectuer les mesures sur un échantillon représentatif de la population des biscuits. L’angle moyen de rupture calculé sur l’échantillon est un estimateur de cet angle chez les biscuits du même lot (aux conditions de fabrication analogues).

Une histoire de biscuits


EstimationQuelques estimateurs

Variance : σ2(X)

Espérance (mathématique) : E(X)

EmpiriqueThéorique

∑=

=n

1iiX

n1X

( )∑=

−=n

ii XXnS

1

22 1

( )∑=

−−=n

ii XXnS

1

221

1

Écart-type : σ (X)

(sans biais)

2SS=


Test statistiqueEncore quelques biscuits

Région critique [2]Région critique [1]

Exemple : Fabrication industrielle de biscuit dont l’angle de rupture doit être de 50°. Des facteurs incontrôlés font que cet angle est aléatoire : on suppose qu’il suit une loi N(μ,σ2) avec σ2=9.

Question : comment décider qu’un lot est conforme ?

Hypothèses :H0 : le lot est conforme (μ=50)H1 : le lot n’est pas conforme (μ≠50)

Pour trancher entre les 2 hypothèses, on tire au hasard un échantillon de nbiscuits et on en mesure l’angle de rupture (Xi)i=1,…n. Chaque Xi suit une loi N(μ,σ2).

Règle de décision (principe): Rejet de H0 ⇔ X∉[50-c ; 50+c]

5050-c 50+c


Test statistique

βBonne décision

H1

Bonne décisionαH0Réalité

H0(accept. H0)

H1(rejet de H0)

Décision

Erreurs de décision

Interprétation des risques :

• α : rejeter le lot de biscuits alors qu’il est conforme (gaspillage !)

Le patron ne vas pas être content.

• β : déclarer conforme (et donc vendre) des biscuits « défectueux »

Dans ce cas, c’est le client qui n’est pas content.


Xi ≈ N(μ,σ2) X ≈ N(μ,σ2/n)

Test statistique

Règle de décision : Rejet de H0 ⇔ X∉[50-c ; 50+c]

α = P[Rejeter H0 // H0 vraie] = P[X ∉ [50-c ; 50+c] // μ =50]

Avec n=16, α=0.05=P[« N(50,9/16) » ∉ [50-c ; 50+c] ]

R> qnorm(0.025,50,0.75) # 48.53

R> qnorm(0.975,50,0.75) # 51.47

c = 1.47 (=1.96*3/4)

Région critique

48.53 51.47

Densité de la loi N(50;9/16)


Test statistique

Cas 1) : Jour J1, 16 biscuits tirés au hasard, diamètre moyen : 49.3

Cette valeur n’est pas dans la région critique, on ne peut pas rejeter H0, la production du jour est probablement conforme. La p-value associée à la valeur 49.3 est environ 0.34 ce qui est supérieur au seuil de 5%.

• Cas 2) : Jour J2, 16 biscuits tirés au hasard, diamètre moyen : 52.4

Cette valeur est dans la région critique, on rejette H0, la production du jour n’est pas conforme (au seuil de 5%). La p-value associée à la valeur 52.4 est de l’ordre de 0.0007 ce qui est inférieur au seuil de 5%.

49.3 52.4

p-value


Test statistique

X1, X2, …, Xn : n observations aléatoires supposées indépendantes et identiquement distribuées (i.i.d.) de même loi N(μ,σ2) où μ et σ2 sont inconnus.

∑=

=n

1iiX

n1X ( )∑

=−−=

n

ii XXnS

1

221

1

)(n-nS

XT 1/

0 St ≈−= μ

Estimateur de la moyenne

• Hypothèse alternative

H1 : μ > μ0 Rejet de H0 ⇔ Tobs ≥ tn-1,α (test unilatéral)

H1’ : μ < μ0 Rejet de H0 ⇔ Tobs ≤ tn-1,α (test unilatéral)

H1’’ : μ ≠ μ0 Rejet de H0 ⇔ |Tobs| ≥ tn-1,α/2 (test bilatéral)

Si cette hypothèse est vraie, alors on a :

Estimateur de la variance

• Hypothèse nulle : H0 : μ = μ0

Test de Student pour un échantillon


Test statistiqueTest de Fisher d’égalité des variances

X1, X2, …, Xn : n1 observations supposées i.i.d. N(μ1,σ12) où μ1 et σ1

2 sont inconnus.

Y1, Y2, …, Yn : n2 observations supposées i.i.d. N(μ2,σ22) où μ2 et σ2

2 sont inconnus.

( )∑=

−−=1

1

2

12

1 11 n

ii XXnS

( )1,1 2132

21 −≈= n-nSSF F


H1 : σ12 > σ2

2 Rejet de H0 ⇔ Fobs > fn1-1,n2-1α

H1’ : σ12 < σ2

2 Rejet de H0 ⇔ Fobs < fn1-1,n2-1α

H1’’ : σ12 ≠ σ2

2 Rejet de H0 ⇔ |Fobs| > fn1-1,n2-1,α/2


Estimateurs des variances

• Hypothèse nulle : H0 : σ12 = σ2

2

( )∑=

−−=2

1

2

222 1

1 n

ii YYnS


Test statistiqueTest de Student pour 2 échantillons

Pour effectuer ce test, on suppose les 2 variances égales. Cela peut être contrôlé par un test de Fisher d’égalité des variances.

x y

-20

-10

010

2030

( ) ( )2

1121

2222

112−+−+−= nnSnSnS

( ) ( ) )-n(n

nnSYXT 2

11/21

21

21 +≈+

−−−= St μμ


H1 : μ1 > μ2 Rejet de H0 ⇔ Tobs ≥ tn1+n2-2,α

H1’ : μ1 < μ2 Rejet de H0 ⇔ Tobs ≤ tn1+n2-2,α

H1’’ : μ1 ≠ μ2 Rejet de H0 ⇔ |Tobs| ≥ tn1+n2-2,α/2


• Hypothèse nulle : H0 : μ1 = μ2

Estimateur de la variance commune σ

Dans le cas ci-contre, la comparaison des moyennes n’a pas vraiment de sens.


Test statistiqueQuelques autres tests (en vrac)

Test du chi-deux : indépendance, homogénéité

Test de Bartlett : homogénéité de variances

Test de Kolmogorov-Smirnov : distribution de variables aléatoires

Test de Shapiro-Wilk : normalité

Test de Wilcoxon (test des rangs signés) : comparaison de distributions

…


Test statistique

0 1

-1.1

-1.0

-0.9

-0.8

-0.7

0 1

-1.2

5-1

.20

-1.1

5-1

.10

-1.0

5

L’expression du gène OCTN2 est-elle identique chez les souris WT et PPARα ?

L’expression du gène BIEN est-elle identique chez les souris WT et PPARα ?

Comparaison des variancesF test to compare two variances

F = 0.9745, num df = 19, denom df = 19, p-value = 0.9557

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval: 0.3857185 2.4620238

sample estimates: ratio of variances 0.974499

Comparaison des variances

F = 0.8557, num df = 19, denom df = 19, p-value = 0.7376

alternative hypothesis: true ratio of variances is not equal to 1


sample estimates: ratio of variances 0.8557049

Comparaison des moyennes

t = -0.9872, df = 38, p-value = 0.3298

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: -0.05948870 0.02048870

sample estimates: mean of x / mean of y -1.1490 / -1.1295

Comparaison des moyennes

t = 4.3584, df = 38, p-value = 9.618e-05

alternative hypothesis: true difference in means is not equal to 0


sample estimates: mean of x / mean of y -0.8595 / -0.9830

La conclusion des tests de comparaison de variance permet de procéder à la comparaison des moyennes.

La différence est significative pour BIEN mais pas pour OCTN2.


MultiplicitéPetite histoire (sordide)

La roulette russe est un jeu consistant à mettre une ou plusieurs cartouches (suivant la probabilité souhaitée) dans le barillet d'un revolver, à tourner ce dernier de manière aléatoire puis à pointer le revolver sur sa tempe avant d'actionner la détente. Si une cartouche se trouve alors dans la chambre placée dans l'axe du canon elle sera percutée et le « joueur » mourra ou sera blessé. (Wikipedia)

Supposons que le barillet contienne 100 emplacements de cartouche et que le « joueur » mette 5 cartouches aléatoirement. Sa probabilité d’être blessé (soyons optimiste) est de 5%.

Supposons maintenant que l’individu « joue » plusieurs fois de suite. Intuitivement, on sent bien qu’il va finir par « se faire mal » et que la probabilité de « perdre » au moins une fois augmente à chaque tentative.

Nous allons traduire mathématiquement cette petite histoire.


MultiplicitéPetits calculs

Calculons la probabilité qu’à le « joueur » de rester bien portant après n tentatives

• Pour n=1, P[bp(1)]=1-0.05=0.95

• Pour n=2, il faut que le « joueur » soit bien portant après le 1er essai ET après le second

P[bp(2)]=(1-0.05)*(1-0.05)=0.952=0.9025

• Et ainsi de suite…

Règle générale : P[bp(n)]=(1-0.05)n

n 1 2 5 10 100 1000

P[bp(n)] 0.95 0.902 0.774 0.599 0.006 10-23

Quelques valeurs


Multiplicité

0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

Nombre de tentatives

Pro

babi

lité

de re

ster

bie

n po

rtant

1 chance sur 2 au bout de 7 tentatives



Représentation de la fonction

n f(n)=0.95n

Graphiquement


Multiplicité

Une autre façon de considérer le problème consiste à envisager plusieurs « joueurs » jouant simultanément. Si le risque est toujours fixé à 5% (avec 5 cartouches sur 100 emplacements), et si 100 joueurs actionne la détente, on peut s’attendre à ce que 5 joueurs perdent. Ils seront 50 pour 1000 joueurs…

Cette façon de voir le problème de multiplicité est plus proche de la problématique de la détection de gènes différentiellement exprimés. En effet, un test statistique effectué pour l’ensemble des tests d’une biopuce (plusieurs milliers) au risque de 5% implique nécessairement la détection de gènes non pertinents.


MultiplicitéApplication aux biopuces

Dans le cas de l’analyse des biopuces, la conséquence de l’erreur est moins radicale que pour la roulette russe.

Si les tests sont effectués pour détecter les gènes différentiellement exprimés (DE) entre 2 conditions alors le risque consiste à déclarer un gène DE alors qu’il ne l’est pas : on parle de gène faux-positif (FP). Au contraire, un gène « réellement » DE non détecté par le test est dit faux-négatif (FN).

Les conséquences de ces 2 types d’erreur sont de natures diverses. Dans le premier cas, on va engager des moyens (humains et financiers) pour valider l’hypothèse que le gène FP est effectivement intéressant alors qu’il ne l’est pas. Dans le second cas (FN), on passe peut-être à côté de la découverte du siècle en négligeant un gène important !!!


Multiplicité

• 1 comparaison : α = P[Rejeter H0 // H0 vraie] = 5%

• 3 comparaisons :α1 = P[Rejeter H01 // H01 vraie] = 5%α2 = P[Rejeter H02 // H02 vraie] = 5%α3 = P[Rejeter H03 // H03 vraie] = 5%

Probabilité de ne pas commettre d’erreur : 1-0.05 = 0.95

Probabilité de ne pas commettre d’erreur = produit des probabilités de ne pas commettre d’erreur à chacune des 3 comparaisons = (1-0.05) * (1-0.05) * (1-0.05) = 0.86

Le risque (global) de commettre au moins une erreur est :

1-0.86 = 0.14

Il faut donc diminuer le risque associé à chaque comparaison pour contrôler le risque global.

Retour sur les tests


Multiplicité

En prenant α1=α2=α3=αg/3=0.05/3, on a la probabilité de ne pas commettre d’erreur :

(1-0.05/3) * (1-0.05/3) * (1-0.05/3) = 0.9508

Ce qui correspond à un risque global inférieur à 5%.

Méthode de Bonferroni

La méthode de Bonferroni consiste à corriger le risque associé à chaque comparaison (αi) en le divisant par le nombre de comparaisons à effectuer pour contrôler le risque global (αg)

Dans le cas des biopuces comportant plusieurs centaines voire plusieurs milliers de gènes, cette correction peut devenir trop conservative et conduire à la détection d’aucun gène. D’autres méthodes plus sophistiquées existent : Sidak, Holm, Westfall et Young, Hochberg…


MultiplicitéComparaison de méthodes de prise en compte de la multiplicité

Dans le graphique ci-contre, on constate que les 2 méthodes extrêmes sont l’absence d’ajustement (rawp) et la correction de Bonferroni qui détectent respectivement le plus grand (~55) et le plus petit (~25) nombre de gènes. Les autres méthodes d’ajustement sont des intermédiaires entre ces 2 extrêmes.

5%


ANOVA (1 facteur)Notations

• Yij : jème observation pour la ième modalité du facteur

• Yi. : moyenne des observations de la ième modalité

• Y.j : moyenne des observations de la jème répétition

• Y.. : moyenne générale

• I modalités, J observations par modalité (plan équilibré)

• N=IJ observations

RépétitionsModalité

1

Y11

Y21

…

YI1

Y.1

2 … J

1

Moyenne

Y12

Y22

…

2

Y1.

YI2

Y.2

Y1J…

…

…

Y2J

…

YIJ

… Y.I

…

Y2.

I YI.

Moyenne Y..


ANOVA (1 facteur)

Modèle d’ANOVA :

SCtotale SCfacteur SCrésidu

Test de l’effet du facteur :

Modèle et somme de carrés

ijiij εαμY ++=

0 ,...,1 : 0 ==∀ iIiH α

( ) ( ) ( )∑∑∑∑∑= === =

−+−=−I

i

J

jiij

I

ii

I

i

J

jij yyyyJyy

1 1

2.

1

2...

1 1

2..

μ : effet moyen général

αi : effet différentiel de la ième modalité du facteur


ANOVA (1 facteur)

…

P value

F= CMf/CMr

Statistique de test F

SCtotaleN-1Variation

totale

CMr= SCr/(N-I)SCrésiduN-I

Variation « résidu »

CMf= SCf/(I-1)SCfacteurI-1

Variation « facteur »

Carrés moyens

Somme de carrés

Degrés de liberté

Source de variation

Plus la variabilité due au facteur est importante par rapport à celle due au résidu, plus le test est susceptible de conclure à un effet du facteur.

Table d’ANOVA

Règle de décision : F > FI-1,N-I,αrejet de H0


Degré de liberté

Dans la table d’ANOVA présentée précédemment, on retrouve une colonne « degré de liberté ». Cette information est essentielle dans tous les aspects de la statistique liés à la modélisation et aux tests. Elle traduit la quantité d’information dont on dispose pour estimer une quantité inconnue. Dans le calcul des degrés de liberté, on se retrouve systématiquement avec une valeur –1.

Imaginons 3 personnes (X, Y, Z) face à 3 vêtements (R, V, B). Chacune des personnes doit choisir à son tour un vêtement.

• X commence et a le choix entre 3 vêtements R, V, B. Il choisit R.

• Y vient ensuite. Il ne reste que 2 choix possibles : V et B. Il choisit B.

• Z arrive et n’a plus le choix, il prend V !

Ainsi, dans une situation où 3 unités sont initialement présentes, on constate que seulement 2 choix sont possibles ; le troisième étant nécessairement imposé.


ANOVA (2 facteurs)

Facteur B (J modalités)Facteur A

(I modalités) 1

Y111

…

Y11K

Y211

…

Y21K

…

YI11

…

YI1K

Y.1.

2 … J

1

Moyenne

Y121

…

Y12K

Y221

…

Y22K

…

2

Y1..

YI21

…

YI2K

Y.2.

Y1J1

…

Y1JK

…

…

…

Y2J1

…

Y2JK

…

YIJ1

…

YIJK

… Y.3.

…

Y2 ..

I YI ..

Moyenne Y…

Notations

Y11. Y12. Y1J.

Y21. Y22. Y2J.

YI1. YI2. YIJ.


ANOVA (2 facteurs)

ijkijjiijk εαμY ++++= γβ

( ) ( ) ( ) ( )∑∑∑∑∑∑∑= = == ===

−++−−+−+−I

i

J

j

K

kijijk

I

i

J

jjiij

I

ij

I

ii yyyyyyKyyIKyyJK

1 1 1

2.

1 1

2........

1

2.....

1

2.....

Modèle

SCtotale

Scfacteur A SCrésidu

Décomposition

Scfacteur B Scinteraction

( )∑∑∑= = =

=−I

i

J

j

K

kijk yy

1 1 1

2...

μ : effet moyen général αi : effet différentiel de la ième modalité du facteur Aβi : effet différentiel de la jème modalité du facteur Bγij : effet d’interaction de la ième modalité du facteur A avec la jème du facteur B


ANOVA (2 facteurs)

CMresid = SCErésidu /IJ(K-1)SCErésiduIJ(K-1)Résiduelle

…CMA*B / CMrésidu

CMA*B = SCEA*Bt /(I-1)(J-1)

SCEA*B(I-1)(J-1)Interaction

…CMB / CMrésiduCMB = SCEB /(J-1)SCEBJ-1Facteur B

…CMA / CMrésiduCMA = SCEA/(I-1)SCEAI-1Facteur A

p-valueFCM

(carré moyen)

SCE(Somme de carrés d’écarts)

Degrés de liberté

Sources de

variation


ANOVA (2 facteurs)Graphes d’interaction

Var

iable

rép

onse

Facteur B_1

Facteur B_2

Facteur A_1 Facteur A_2Var

iable

rép

onse

Facteur B_1

Facteur B_2

Facteur A_1 Facteur A_2

L’effet d’un facteur dépend de la modalité de l’autre facteur l’interaction sera

probablement déclarée significative lors du test statistique

L’effet d’un facteur ne dépend pas de la modalité de l’autre facteur l’interaction

sera probablement déclarée non significative lors du test statistique

Y11.

Y21.

Y12.

Y22.

Y11.

Y21.

Y12.

Y22.


ANOVA

1) Homoscédasticité

2) Indépendance

3) Normalité

Les données doivent vérifier 3 hypothèses :(de la plus importante à la moins importante)

Dans quels cas peut-on utiliser l’analyse de variance ?


ANOVAHomoscédasticité

La variance de la variable à expliquer ne dépend pas des facteurs i.e., la variance est homogène entre les groupes d’individus.

Valeurs prédites par le modèle (fitted values)

Rés

idus

est

imés

Valeurs prédites par le modèle (fitted values)

Rés

idus

est

imés

Hétéroscédasticité Homoscédasticité ☺


ANOVAIndépendance

L’effet d’un facteur sur un individu n’a pas d’effet sur un autre individu.

En général, l’indépendance est postulée car elle est définie par le protocole expérimental.

Si il y a une coïncidence spatiale et temporelle des observations, l’indépendance est à mettre en doute.


ANOVANormalité

Pour une combinaison donnée des facteurs explicatifs, la distribution des données doit être normale (gaussienne).

Il existe des tests pour vérifier si un ensemble de valeurs est issu d’une loi normale : test de Kolmogorov-Smirnov, test de Shapiro-Wilk…

En général, on se limite à une étude graphique : qqplot (qq : quantile-quantile)

Quan

tile

s em

piriq

ues

des

rés

idus

Quantiles de la loi normale N(0,1)


ANOVA

Que faire si les conditions ne sont pas vérifiées par les données ?

Homoscédasticité : faire une transformation des variables (par exemple en prenant le log) et réévaluer l’homoscédasticité.

Indépendance : il existe d’autres méthodes qui permettent de gérer la dépendance.

Normalité : un écart modéré à l’hypothèse de normalité est sans conséquence sur les résultats de l’ANOVA. Si l’écart est trop important, tester des transformations de variables.


ANOVAInterprétation des résultats

vérification des hypothèses : homoscédasticité, indépendance et normalité

dans le cas d’un modèle à plusieurs facteurs, analyser en premier lieu les termes d’interactions d’ordre le plus élevé

se servir au mieux des sorties graphiques

gestion de la multiplicité ?


ANOVAModèle à 1 facteur : test de l’effet régime pour les souris WTGène BIEN Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.089270 0.022318 4.4546 0.01429

Residuals 15 0.075150 0.005010

Gène OCTN2 Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.010520 0.002630 0.6109 0.6611

Residuals 15 0.064575 0.004305

Le régime a un effet sur l’expression du gène BIEN, ce qui n’est pas le cas pour OCTN2.

Modèle à 2 facteurs : test des effets régime et génotypeGène BIEN Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.063725 0.015931 4.2740 0.007435

geno 1 0.152523 0.152523 40.9182 4.626e-07

reg:geno 4 0.129565 0.032391 8.6898 8.790e-05

Residuals 30 0.111825 0.003727

Gène ApoA.I Df Sum Sq Mean Sq F value Pr(>F)

reg 4 0.058565 0.014641 2.3717 0.0746722

geno 1 0.086490 0.086490 14.0103 0.0007697

reg:geno 4 0.044935 0.011234 1.8197 0.1510557

Residuals 30 0.185200 0.006173

Le régime et le génotype ont un effet sur l’expression du gène BIEN. Seul le génotype influence significativement l’expression du gène OCTN2.


Un peu de logiqueIls sont tous égaux

Ils ne sont pas tous égaux

Ils sont tous différents Au moins un est différent

?


Logique… et ANOVA

II αααα ==== −121 L Cette relation est fausse (rejetée)

Négation de l’affirmation : « ils sont tous égaux »

1) « ils sont tous différents » ?

OU

2) « il en existe au moins un qui est différent des autres » ?

En cas de rejet de l’hypothèse H0

Oui, mais le(s)quel(s) ? tests multiples

0 ,...,1 : 0 ==∀ iIiH α


1. Classification hiérarchique

2. Nuées dynamiques

3. Analyse en Composantes Principales

4. Positionnement multidimensionnel

Statistique descriptive multidimensionnelle


Multidimensionnel

Variable v1

Variable V2

Intérêt d’une approche multidimensionnelle ?

Ce qui n’est pas visible en 1 dimension (séparation des points bleus et rouges) devient évident en 2 dimensions


Jeu de données• 20 individus : 10 femmes, 10 hommes

• 5 variables :

V1 V2 V3 V4 V5

H 1 106.2 89.5 71.5 65.6 174.0

H 2 110.5 97.0 79.0 71.8 175.3

H 3 115.1 97.5 83.2 80.7 193.5

H 4 104.5 97.0 77.8 72.6 186.5

H 5 107.5 97.5 80.0 78.8 187.2

H 6 119.8 99.9 82.5 74.8 181.5

H 7 123.5 106.9 82.0 86.4 184.0

H 8 120.4 102.5 76.8 78.4 184.5

H 9 111.0 91.0 68.5 62.0 175.0

H 10 119.5 93.5 77.5 81.6 184.0

V1 V2 V3 V4 V5

F 1 105.0 89.0 71.2 67.3 169.5

F 2 100.2 94.1 79.6 75.5 160.0

F 3 99.1 90.8 77.9 68.2 172.7

F 4 107.6 97.0 69.6 61.4 162.6

F 5 104.0 95.4 86.0 76.8 157.5

F 6 108.4 91.8 69.9 71.8 176.5

F 7 99.3 87.3 63.5 55.5 164.4

F 8 91.9 78.1 57.9 48.6 160.7

F 9 107.1 90.9 72.2 66.4 174.0

F 10 100.5 97.1 80.4 67.3 163.8

V1 : tour au niveau des épaules (cm)V2 : tour de poitrine (cm)V3 : tour de taille (cm)V4 : masse (kg)V5 : taille (cm)


ClassificationObjectif : classer des individus en groupes

« homogènes »

Critère d’homogénéité : Taille ? Couleur ? Sourire ?


Classif. ascendante hiérarchique

• Préalable : distance inter-individus ET critère

d’agglomération (entre groupes d’individus)

• Procédure :

Début : chaque individu est une classe

Déroulement : à chaque étape, on regroupe les 2

« objets » les plus proches

Fin : une classe regroupe tous les individus

• Résultat : construction d’un arbre de classification

(dendrogramme)


ClassificationDistance euclidienne

H 1 H 2 H 3 H 4 H 5 …H2 13.08H3 29.81 21.20H4 17.44 12.79 16.01H5 22.05 14.17 10.55 7.28H6 23.56 12.43 14.39 17.16 14.55

…

2nn211n

1i

2ii2 )YX(...)YX()YX()Y,X(d −++−=−= ∑=

08.13)3.175174()8.716.65()795.71()975.89()5.1102.106()2,1( 222222 =−+−+−+−+−=HHd

Exemple

V1 V2 V3 V4 V5H1 106,2 89,5 71,5 65,6 174,0H2 110,5 97,0 79,0 71,8 175,3H1-H2 -4,3 -7,5 -7,5 -6,2 -1,3(H1-H2)² 18,5 56,3 56,3 38,4 1,7 171,1

13,08

Détail d’un calcul

∑


Classification

H 1 H 2 H 3 H 4 H 5 …H2 0.0003H3 0.0035 0.0048H4 0.0051 0.0045 0.0032H5 0.0058 0.0062 0.0016 0.0009H6 0.0011 0.0016 0.0077 0.0108 0.0121

…

( )( )

( ) ( )∑ ∑

∑

= =

=

−−

−−−=−=−

n

i

n

iii

n

iii

YX YYXX

YYXXYXYXcor

1 1

22

11),cov(1),(1σσ

Distance 1-corrélationPlutôt que d’utiliser directement la corrélation, on préfère, dans ce contexte, calculer 1-cor(X,Y) qui fournit des valeurs faibles pour des éléments proches. Les valeurs sont alors comprises entre 0 et 2.

V1 V2 V3 V4 V5 E-TH1 106,2 89,5 71,5 65,6 174,0 39,02H2 110,5 97,0 79,0 71,8 175,3 36,88

cov(H1,H2) 1438,3cor(H1,H2) 0,9997 0,0003

Exemple

Détail d’un calcul

Valeur proche de 0 : corrélation forte et positive

Valeur proche de 1 : pas de corrélation

Valeur proche de 2 : corrélation forte et négative


Classification

0

0

0

5

4

3

2

1

X

0

0

2

6

5

4

3

2

Y1

0.99500

1.102

56717

150-6

440-5

530-4

320-3

210-2

Y4Y3Y2

Comparaison de distance

Distance euclidienne

Corrélation 1-cor(X,Yi)

Corrélation carrée

sqrt(1-cor2(X,Yi))

Il n’existe pas une distance meilleure que les autres ! Le choix de la distance dépend de l’objectif.


ClassificationComparaison de distance

1 2 3 4 5

-10

010

2030

4050

xy1y2y3y4


Classification

Minimum (single) Maximum (complete) Moyen (average)

Ward ( ) ( ) ( )∑∑∑∑∑= === =

−+−=−p

1j

n

1i

2Gij

p

1j

2GG

p

1j

n

1i

2Gij XXXXXX j

Minimiser l’inertie intra-classe

Maximiser l’inertie inter-classes

Critère d’agglomération (linkage)


Classification

H 2 13 H 3 30 21 H 4 17 13 16 H 5 22 14 11 7 H 6 24 12 14 17 15 H 7 35 24 17 26 20 14 H 8 26 16 13 18 14 8 11 H 9 7 16 31 20 25 24 36 25 H10 24 16 13 18 14 11 15 10 25 F 1 5 14 33 21 25 26 37 28 10 26 F 2 20 19 37 27 29 30 38 33 26 31 17 F 3 10 14 30 17 21 26 36 29 17 27 10 15 F 4 14 19 40 28 32 29 40 32 14 33 12 19 18 F 5 25 21 38 30 31 29 36 34 30 32 22 8 20 23 F 6 8 11 25 14 17 20 30 20 10 18 10 21 13 18 26 F 7 18 29 47 33 39 40 51 42 18 41 16 27 21 15 33 24 F 8 31 44 61 46 52 55 66 57 32 55 30 39 34 30 45 37 15 F 9 2 11 29 16 21 22 33 24 7 23 5 20 10 14 25 7 19 33 F10 17 16 36 24 27 27 37 31 21 32 14 10 11 14 13 20 23 36 16

H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 F1 F2 F3 F4 F5 F6 F7 F8 F9

1 32 5 6 7

Critère : Saut minimum (single)

4

Dendrogramme


ClassificationcH

MG

CoA

SA

CC

2P

LTP

AD

SS1 MS

eif2

gTR

bP

PAR

gV

LDLr

Pex1

1aB

cl.3

CO

X1C

YP4

A10

CY

P4A1

4H

MG

CoA

red

FX

Rm

ABC

1S

R.B

IA

CO

TH

CAR

1C

AC

PC

PT2

BIE

NM

RP6

FD

FT

PP

ARa

IL.2

MT

HF

RA

DIS

PR

XR

b2P

XR

LPL

LXR

bS

HP1

FAT

SIAT

4cU

CP2

i.BA

TP

PAR

dTR

aG

SA

CC

1i.N

OS

CY

P24

CY

P27

b1 ap2

CID

EA

CY

P2b

10P

ALc.

fos

RX

Rg1

UC

P3Tp

beta

G6P

DH

CO

X2i.F

ABP

Waf

1C

YP

2b13

NU

RR

1P

DK4

VDR

M.C

PT1

hABC

1R

AR

b2C

YP2

6Lp

in3

NG

FiB

OC

TN2

MD

R1

RAR

aC

16S

Rap

oA.I

SP

I1.1

apoE

PON

AM

2RA

CA

T1M

CA

DR

XRa

LXR

aT

HB

CY

P7a

MD

R2

i.BAB

PA

LDH

3P

ECI

Lpin

2LD

LrT

palp

hacM

OA

TS1

4Lp

inLp

in1

AC

AT2

CYP

8b1

GK

HP

NC

LB

SEP

CY

P27

a1G

6Pas

ePM

DC

Iap

oBG

STa

LCE

CY

P2c

29G

ST

mu

GS

Tpi2

L.F

ABP

FAS

CY

P3A1

1T

HIO

LA

CB

PC

BS

X36

b4N

tcp

AO

Xm

HM

GC

oAS

BA

CT

LPK

apoC

3

020

4060

8010

012

0

Dendrogramme issu de la classification ascendante hiérarchique des 120 gènes avec distinction de 5 groupes.


ClassificationQuelques remarques sur la classification hiérarchique :

• aucune connaissance a priori sur le phénomène étudié n’est requise

• réflexion préalable sur le choix de la distance et du critère d’agglomération. Il est même vivement conseillé de procéder à plusieurs classifications et de s’intéresser aux choses qui changent

• critère de saut minimum effet de chaîne (dendrogramme en forme d’escalier)

• le résultat est « figé ». Une fois effectué, un regroupement ne peut plus être défait.

Quand on dit oui, c’est pour la vie !

• un dendrogramme doit être vu comme un mobile pour bébé (le truc que l’on pend au dessus d’un berceau et dont les branches peuvent tourner). Ainsi, les « distances » entre les individus ne sont valables qu’en remontant les branches pas selon leur proximité « visuelle » (T.S.V.P.)


ClassificationAu gré de la rotation du mobile, le singe (rose) pourra très bien se retrouver à côté du chien (jaune) ou du lapin (bleu), mais le lapin sera toujours proche de sa balle bleue, le singe de sa balle rose et le chien de sa balle jaune.

Un dendrogramme… c’est pareil !


ClassificationFl

orid

aN

orth

Car

olin

aC

alifo

rnia

Mar

ylan

dA

rizon

aN

ew M

exic

oD

elaw

are

Ala

bam

aLo

uisi

ana

Illin

ois

New

Yor

kM

ichi

gan

Nev

ada

Ala

ska

Mis

siss

ippi

Sou

th C

arol

ina

Was

hing

ton

Ore

gon

Wyo

min

gO

klah

oma

Virg

inia

Rho

de Is

land

Mas

sach

uset

tsN

ew J

erse

yM

isso

uri

Ark

ansa

sTe

nnes

see

Geo

rgia

Col

orad

oTe

xas

Idah

oN

ebra

ska

Ken

tuck

yM

onta

naO

hio

Uta

hIn

dian

aK

ansa

sC

onne

ctic

utP

enns

ylva

nia

Haw

aii

Wes

t Virg

inia

Mai

neS

outh

Dak

ota

Nor

th D

akot

aV

erm

ont

Min

neso

taW

isco

nsin

Iow

aN

ew H

amps

hire

050

100

150

Pour enfoncer le clou !Exemple extrait de l’aide en ligne de la fonction hclust() de R


ClassificationEncore un coup pour les sportifs !Tableau masculin de l’US Open 2007 de Tennis (à partir des ¼ de finales)

Ferrer Chela Moya Djokovic Federer Roddick Davydenko Haas

Ferrer Djokovic Federer Davydenko

Djokovic Federer

Federer

Djokovic Moya Ferrer Chela Davydenko Haas Roddick Federer

Les rencontres successives ne dépendent pas de l’ordre des joueurs sur le tableau initial. Federer et Djokovic ne pouvaient se rencontrer qu’en finale quelle que soit leur position « visuelle » dans le tableau.


ClassificationImage de la matrice des données brutes

H3

H4

H5

H7

H10 H

6

H8 F7 F8 F2 F5 H9 F6 F1 H1 F9 F4 H2 F3 F10

020

4060

8010

012

014

0

Hei

ght

Taill

e

T.ta

ille

Mas

se

T.ep

aule

T.po

itrin

e

010

020

030

040

050

0

Hei

ght

Classification des variables

Classification des individus

Représentation simultanée des classifications des individus et des variables autour d’une image de la matrice des données restructurée selon les dendrogrammes.

Restr

uctura

tion


Classification

Cla

ssif

icati

on

des

sou

ris

Classification des gènes


Nuées dynamiques

• Préalable : déterminer le nombre de groupes (k) soit par une

connaissance a priori du phénomène étudié, soit par une autre méthode

(classification hiérarchique par exemple)

• Procédure :

Début : k centres (soit tirés aléatoirement, soit imposés par l’utilisateur)

Déroulement : à chaque étape,

tous les individus sont affectés au centre le plus proche

les centres de chaque groupe sont recalculés

Fin : les individus ne changent pas de groupe entre 2 étapes successives

• Résultat : répartition des individus en k groupes

Objectif : répartir des individus dans des groupes « homogènes » dont le nombre est fixé a priori


Nuées dynamiques

-0.5 0.0 0.5 1.0

-0.5

0.0

0.5

1.0

x

y

-0.5 0.0 0.5 1.0

-0.5

0.0

0.5

1.0

x

y

Exemple sur données simuléesRépartition en 2 groupes avec tirage aléatoire des centres initiaux


Nuées dynamiquesQuelques remarques sur les nuées dynamiques :

• nécessite de déterminer préalablement le nombre de groupes

• si les centres initiaux sont tirés aléatoirement, des exécutions successives de l’algorithme peuvent donner des résultats différents. Face à cela, on peut :

imposer les centres initiaux (par exemple, les barycentres des classes issues d’une classification hiérarchique)

s’intéresser aux formes fortes : quels que soient les centres, certains points se retrouvent toujours dans le même groupe

• un algorithme de nuées dynamiques exécuté après une classification hiérarchique permet de « stabiliser » la classification obtenue : l’algorithme de nuées dynamiques va permettre à des points de changer de groupe au gré de l’évolution de l’algorithme (ce que ne permet pas la classification hiérarchique (Quand on dit oui…)


ACP

Exemple tiré de S. Jay Gould (La mal-mesure de l’homme, chapitre 6)

Devinette : Que représente l’image ci-dessous ?(Attention, il y a un piège…)


ACPRéponse : C’est la représentation d’un poisson…

en 2 dimensions !!!

1ère composante principale

2ème composante principale

Centre de gravité du poisson


ACPL’image de la diapositive précédente est la représentation en 2 dimensions d’un poisson. En d’autres termes, c’est la projection d’un poisson sur un espace de dimension 2. Cette représentation est tellement fidèle à l’original en 3 dimensions (même si certains spécimens sont plutôt plats comme la sole, ils sont quand même en 3D) que nous n’avons aucun mal à le reconnaître. L’information apportée par la 3ème

dimension est minimale et sa perte n’est pas préjudiciable à la reconnaissance de l’objet.

Parmi les projections possibles en 2D, toutes ne permettent pas de reconnaître aussi facilement l’original. Imaginons par exemple, la projection de face (et non plus latéralement) du poisson, il estprobable que la réponse à la devinette soit aussi évidente.

L’ACP permet de déterminer les espaces de dimension inférieure à l’espace initial sur lesquels la projection du nuage de pointsinitial soit la moins déformée possible, autrement dit celle qui

conserve le plus d’information c’est-à-dire de variabilité.

Quelques explications


ACP

T.ep T.p T.t Masse Taille

T.ep 1.00 0.74 0.48 0.72 0.71

T.p 0.74 1.00 0.78 0.81 0.51

T.t 0.48 0.78 1.00 0.86 0.37

Masse 0.72 0.81 0.86 1.00 0.61

Taille 0.71 0.51 0.37 0.61 1.00Matrice des corrélations

Tour de Taille Tour

de

Poitr

ineT

ou

r d

’Ép

au

le

Plus mathématiquement (mais pas trop)

Les 5 variables morphologiques recueillies sur les 20 individus présentent des corrélations importantes. On peut en effet supposer qu’une personne ayant un tour d’épaule important a également un tout de poitrine élevé (la carrure de Casimir étant peu répandue chez l’Homo Sapiens). Dans ces conditions, l’information apportée par les 5 variables est redondante. Graphiquement, sur les 3 premières variables (« Tour des épaules », « Tour de poitrine » et « Tour de taille »), cela se traduit par des zones vides de points dans le cube. Une variable unique calculée comme combinaison de ces 3 variables (représentée par le flèche en pointillés) suffirait à représenter les individus avec une perte d’information minimale

car tous les points sont relativement proches de ce nouvel axe qui est la première composante principale.


T.Ep. T.P. T.T. M T

H2 110.5 97.0 79.0 71.8 175.3

H3 115.1 97.5 83.2 80.7 193.5

H7 123.5 106.9 82.0 86.4 184.0

H9 111.0 91.0 68.5 62.0 175.0

H10 119.5 93.5 77.5 81.6 184.0

F2 100.2 94.1 79.6 75.5 160.0

F5 104.0 95.4 86.0 76.8 157.5

F8 91.9 78.1 57.9 48.6 160.7

ACP

73 %

17 %

7 %2 % 1 %

Représentation graphique


ACPApplication aux biopuces

Représentation des individus (souris) et des variables (gènes) sur le premier plan principal


Positionnement multidimensionnel MultiDimensional Scaling

(MDS)

DonnéesBrutesn x p

Distanceinter-individus

n x n

• Principe : mettre en œuvre une ACP sur un tableau de distance

• Objectif : fournir une représentation des individus sur un espace de petitedimension respectant au mieux les distances initiales

La mise en œuvre du MDS peut se faire soit directement sur des données de type distance, soit, sur des distances calculées à partir d’un tableau individus ×variables selon n’importe quelle distance.


MDSExemple : distance entre 21 villes européennes

Athens Barcelona Brussels Calais Cherbourg Cologne Copenhagen . . .

Barcelona 3313

Brussels 2963 1318

Calais 3175 1326 204

Cherbourg 3339 1294 583 460

Cologne 2762 1498 206 409 785

Copenhagen 3276 2218 966 1136 1545 760

Geneva 2610 803 677 747 853 1662 1418

Gibraltar 4485 1172 2256 2224 2047 2436 3196

. . .

Jeu de données extrait de « TheCambridge Encyclopaedia » disponible directement dans R

La projection sur le premier plan obtenu par MDS donne une assez bonne répartition

géographique des villes européennes.

Pour des données de ce type, le format individus × variables n’a pas lieu d’être. Les données sont par nature de type distance.


MDSComparaison de distances

Distance euclidienne Corrélation Corrélation carrée

Influence du choix de la distance sur la position relative des gènes CAR1 et GSTpi2.


ConclusionBiologiste 1 – 0 Statisticien (Traduit de R. Tibshirani)

Avant d’être exécutés, on accorde une dernière volonté à un statisticien et à un biologiste. Le statisticien demande l’autorisation de donner une dernière conférence sur sa Grande Théorie des Statistiques. Le biologiste demande à être exécuté en premier (…avant la conférence…)

Aujourd’hui les biologistes sont confrontés à un afflux massif de données dont la gestion et l’analyse nécessitent des outils adaptés que seuls les statisticiens et les informaticiens maîtrisent.

INTERACTIONS

Biologiste 1 – 1 Statisticien (R.A. Fisher)

To call in a statistician after the experiment is done may beno more than asking him to perform a postmortemexamination: he may be able to say what the experimentdied of.

Les statisticiens se confrontent à des questions nouvelles apportées par les biologistes et à des données d’origine biologique avec leurs spécificités (dimensions, bruits, etc…)


Statistique• L. Lebart, A. Morineau, M. Piron - Statistique exploratoire multidimensionnelle, Dunod (1995).

• G. Saporta - Probabilités analyse des données et statistique, Éditions Technip (1990).

Bibliographie

Web• www.lsp.ups-tlse.fr/Biopuces : publications, supports de formation, bibliographie…

Vulgarisation scientifique• Jay Gould S. La mal-mesure de l’homme, Livre de Poche (1997).Corrélation-causalité, analyse factorielles (ACP)…

• Jay Gould S. L’éventail du vivant, Points Sciences (2001).Indicateurs statistiques : moyenne, médiane, mode…


Ouvertures

1) Classification de courbesLissage spline

2) Recherche de corrélations entre 2 jeux de données

Analyse canonique

Traitement de problèmes spécifiques


Cas n°1

(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)

Expérience de jeûne chez la souris 11 temps de mesure entre 0 et 72h (0 – 3 – 6 – 9 – 12 – 18 – 24 – 36 – 48 – 60 – 72)

4 souris par temps~200 gènes étudiés (130 après « nettoyage »)Objectif : classification des gènes selon leur profil temporeld’expression au cours du jeûne


Les données


Méthodologie

1) Lissage par spline cubique2) Calcul de la fonction dérivée3) Discrétisation de la courbe

dérivée4) Classification sur la base des

valeurs de la dérivée aux points de discrétisation


Lissage

Paramètre de lissage :

• plus λ est élevé, plus la courbe lissé se rapproche d’une droite (régression linéaire)

• quand λ est faible, la solution du problème d’optimisation se rapproche d’une fonction d’interpolation


Influence de λ


Courbes dérivées


Courbes lissées et dérivées


Choix de λ

Question centrale dans les problèmes de lissage (et plus généralement dans l’optimisation de fonctions pénalisées)

Méthodes automatiques : validation croisée, sélection de modèle…

Méthodes « pragmatiques » : intégration du phénomène biologique sous-jacent, pertinence du nombre de changements de signe de la dérivée

λ = 0.6


Discrétisation20 points de discrétisation équi-répartis entre 0 et 72h


Nouvelles données

Les gènes ne sont plus caractérisés par des mesures à 11 temps différents mais par 20 valeurs de la dérivée de leur profil lissé

Le nouveau tableau de données a donc 130 lignes et 20 colonnes

Dans ce nouveau cadre, les variables sont les temps de discrétisation (et non plus les temps réels d’acquisition)


Classification

Mise en œuvre d’un algorithme de type kmeans pour stabiliser les groupes issus de la CAH


ACP


Groupes de profils


Cas n°2

(P. Martin, Unité de Pharmacologie et Toxicologie, INRA Toulouse)

Expérience de nutrition chez la souris 40 souris (4 souris × 5 régimes × 2 génotypes)

2 types de mesure :Expression de 120 gènesConcentration de 21 acides gras hépatiques

Objectif : recherche de corrélationsentre les niveaux d’expression desgènes et les concentrations en acides gras hépatiques


Les données

X(40 ×20)

Y(40×120)

40 souris

120 gènes21 lipides

2121 XXXX ... = 12021 YYYY ... =


Analyse canoniquePrincipe : rechercher les combinaisons linéaires, une dans chaque groupe de variables, les plus corrélées ( analogie avec l’ACP ?)

21121

212

111

1 XaXaXaU +++= L1201

12021

211

11 YbYbYbV +++= L

( ) ( )VUcorVUcorVU

,max,,

111 ==ρ

Premières variables canoniques

21221

222

121

2 XaXaXaU +++= L1202

12022

212

12 YbYbYbV +++= L

( ) ( )VUcorVUcorVU

,max,,

222 ==ρDeuxièmes variables canoniques

( ) ( ) 0,, 2121 == VVcorUUcor

…


Mathématiquement

( ) ttX XXXXP 1−= ( ) ttY YYYYP 1−=

Soit PX et PY les projecteurs sur les espaces engendrés respectivement par les colonnes des matrices X et Y

Les corrélations canoniques ρs sont égales aux racines carrées des valeurs propres de la matrice PXPY

Les vecteurs Us sont les vecteurs propres de la matrice PXPY associés aux valeurs propres λs

Les vecteurs Vs sont les vecteurs propres de la matrice PYPX associés aux valeurs propres λs


AC régularisée

( ) ttX XIXXXP 11

−+= λ ( ) ttY YIYYYP 12

−+= λ

Quand on dispose de plus de variables que d’individus, les matrices XtX et YtY deviennent mal conditionnées et leur inversion délicate.

Pour remédier à cela, on peut avoir recours à une technique de régularisation consistant à ajouter un terme, plus ou moins grand, à la diagonale de la matrice à inverser.

Problème de réglage des paramètres de régularisation λ1 et λ2 : validation croisée …


Résultats

VariablesIndividus

?

ConnuRésultat de l’étude (validé par ailleurs)

Analyse statistique pour données à haut débit

Documents

Transcript of Analyse statistique pour données à haut débit