Post on 04-Apr-2015
Analyse de la variance : ANOVA à un facteur
Sir Ronald Fischer 1890-1962
Thèmes
Le modèle linéaire général Les postulats de base La logique de l’analyse de la variance Exemples Les tests post-hocs La taille d’effet
Le modèle général linéaire
Xij = µ + j + eij
Xij - la valeur observée pour le sujet i du groupe j
µ - la grande moyenne j - l’influence du traitement
sur le groupe j (j = µj - µ)
eij - l’erreur ou les résidus - selon les postulats - sont distribués de manière normale avec une moyenne de µ = 0 et un écart-type de .
Exemple: la taille moyenne des hommes est 68” et la taille moyenne des femmes est 65”
La taille d’un homme sera donc: 66.5 + 1.5 + e
et la taille d’une femme: 66.5 - 1.5 + e
Répartition des variances
xij = µ + j + eij avec
µ :
j :
eij :
Donc:
X
X j X xij X j
xij X X j X xij X j
Les sommes des carrés
xij X 2 X j X 2 xij X j 2
x ij X 2 X j X 2 x ij X j 2
x ij X 2 n j X j X 2 x ij X j 2
SCtotal SCeffect SCerreur
Les postulats de base
1. Le modèle général s’applique aux données
2. Les valeurs sont distribuées normalement dans la population
3. Les échantillons ont des variances homogènes
4. Les échantillons sont indépendants
La logique de l’ANOVA
Échantillon Population Moyenne Variance
a A µA I2
b B µB I2
c C µC I2
d D µD I2
La logique de l’ANOVA (suite) Les variances des différents échantillons sont
donc égales et elles sont égales à la variance de la population p.
1 = 2 = ... = ij = p avec
1 = s1 = Nous pouvons donc estimer la variance de la
population à partir de la moyenne des variances des échantillons ou bien:
x ij X 2N J
xi1 X 1 2n1 1
Selon le théorème des limites centrales: la distribution d’échantillonnage a une moyenne de µ et une variance de 2 /n
si l’hypothèse nulle est vraie il suit donc que:
pour l’estimé de p 2 il faut multiplier par n
E sx2 E
X j X 2
J 1
x
2 p
2
n
n j X j X 2J 1
Exemple
Afin de tester l’hypothèse que la consommation de caféine facilite l’apprentissage trois groupes d’étudiants se préparent à un examen: le groupe 1 boit une tasse, le groupe 2 boit 2 tasses et le groupe 3 boit 3 tasses de café. Voici leurs scores à l’examen:
Groupe 1 Groupe 2 Groupe 3
50 48 57
42 47 59
53 65 48
45 59 46
55 51 45
m = 49 m = 56 m = 51
Exemple suite
30
40
50
60
70
0 1 2 3 4
Groupe
Sommes des carrés moyens
x ij X j 2
N J 50 49 2 42 49 2 ... 46 51 2 45 51 2
15 3
x ij X j 2
N J1 49 ... 25 36
12468
1239
Intra-groupe:
Inter-groupe:
n X j X J 1
5 49 52 2 5 56 52 2 5 51 52 2
3 1
5 9 16 1 2
65
Calcul de F F SCMint er
SCMint ra
65
391.667
Valeur critique pour 2,12 df et = .05 -> 3.89
Exemple 2
Groupe 1 Groupe 2 Groupe 3
47 55 54
53 54 50
49 58 51
50 61 51
46 52 49
m = 49 m = 56 m = 51
Suite
30
35
40
45
50
55
60
65
0 1 2 3 4
Groupe
Sommes des carrés moyens
Intra-groupe:
Inter-groupe:
n X j X J 1
5 49 52 2 5 56 52 2 5 51 52 2
3 1
5 9 16 1 2
65
x ij X j 2
N J 47 49 2 53 49 2 ... 51 51 2 49 51 2
15 3
x ij X j 2
N J4 16 ... 0 4
1294
127.83
Calcul de F F SCMint er
SCMint ra
65
7.838.3
Valeur critique pour 2,12 df et = .05 -> 3.89
Tableau ANOVA
Source SC df SCM F p
Intergroup 130 2 65 8.3 .005
Intragroup 94 12 7.84
Total 224 14
Résumé
La variance intra-groupe (la somme moyenne des écarts carrés entre chaque observation et la moyenne du groupe) est un estimé de la variance de la population.
Quand l’hypothèse nulle est vraie - et seulement dans ce cas - la variance inter-groupe (la somme moyenne des écarts carrés entre chaque moyenne de groupe et la grande moyenne) est, selon le théorème des limites centrales, aussi un estimé de la variance de la population
Quand il y a un effet de traitement, donc quand l’hypothèse nulle est fausse, la variance inter-groupe est plus large que la variance intra-groupe
L’analyse de la variance consiste à calculer le rapport entre la variance inter-groupe et la variance intra-groupe et de comparer le résultat avec une distribution d’échantillonnage connue: la distribution F.
Les tests post-hocs
Erreurs
Erreur (ou ) par comparaison - le niveau choisi pour une seule comparaison de moyennes
Erreur par famille - le nombre moyen des erreurs faites par famille de comparaisons ’ 1- (1-)c C’
Exemple: ’ = .01 et C = 5
= .049 ou approx. .05
Contraste
Définition: Une comparaison de J moyennes telle que la différence entre deux des J moyennes ou la différence entre une moyenne et la moyenne de deux autres moyennes c11c22cjjcjj
Excursion - Orthogonalité
Une comparaison est orthogonale si:
(c1jc2j)/nj= 0
Exemple:
jth moyenne
1 2 3 4 C 1: 1 -1 0 0 C2: 1 0 -1 0 C3: 0 0 1 -1 1 vs 2: c1jc2j =(1)(1) + (-1)(0) + (0)(-1) + (0)(0) = 1
1 vs 3: c1jc2j =(1)(0) + (-1)(0) + (0)(1) + (0)(-1) = 0
Tukey’s-HSD(John Tukey, 1915-2000)
HSD q k ,df , SCMintra
n
HSD 3.777.83
54.72
La taille d’effet
Taille de l’effet
La corrélation entre la VI et la VD (r) Le pourcentage de la variance de la VD
expliqué par la VI (r2) La différence entre deux moyennes en
unités d’écart-type (d)
Taille d’effet: eta2 et omega2
Treatment Outcome
Alive Dead
Treatment
66 34 100
Control 34 66 100
100 100
2 F dfeffet
F dfeffet dferreur
SCeffet
SCtotal
f 2
1 2
2 SStreat k 1 MSerreur
SStotal MSerreur
Les tailles
Puissance La probabilité de trouver un effet de taille x dans
un échantillon de taille N en utilisant un test statistique avec un donné.
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0 2 4 6 8 10 12 14 16 18
Value of F
Fcrit = 2.58
Les erreurs
Taille d’effet et beta
Variance et beta
Calcul de puissance
Calcul de puissance
http://members.aol.com/johnp71/javastat.html#Power