Chapitre 3 - Comparer plusieurs groupes
description
Transcript of Chapitre 3 - Comparer plusieurs groupes
![Page 1: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/1.jpg)
Chapitre 3 - Comparer plusieurs groupes
![Page 2: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/2.jpg)
2 groupes >2 groupes
A B A B C
Est-ce que la moyenne des 2 groupes diffère ?
Est-ce que la moyenne d’au moins 1 groupe diffère des autres ?
![Page 3: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/3.jpg)
Comparer 2 groupes : le test t de Student
Approche similaire au test Z.
S’applique particulièrement pour de petits échantillons (n<30)
Suppose la normalité des distributions et l’égalité des variances
On pose H0: 1 - 2 = 0 pas de différence entre les moyennes
H1: 1 - 2 0 différence entre les moyennes
On calcule la statistique tc. La formule varie selon les caractéristiques
des échantillons.
![Page 4: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/4.jpg)
Dégré de liberté (DDL) important car la forme de la distribution change
A spécifier lors du calcul de probabilité
![Page 5: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/5.jpg)
2
22
1
21
21 )(
ns
ns
mmtobs
(1)
n1 et n2 inégaux et tous les deux > 30, ddl= n1 + n2 – 2
2
22
1
21
2121
ns
ns
mmmmZZobs
Pour rappel, test Z pour grands
échantillonsLa loi de Student converge vers la loi normale pour n grand
On utilise généralement le test t de student, même pour de grands échantillons, car il est plus robuste au déviations de normalité des échantillons
![Page 6: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/6.jpg)
)(1
)(
22
21
21
ssn
mmtobs
(3)
n1 et n2 égaux (=n) quelque soit leur valeur, ddl= 2(n–1)
n1 et n2 inégaux ou tous les deux < 30, ddl= n1 + n2 – 2
)(2
)1()1(
)(
21
21
21
222
211
21
nnnn
nnsnsn
mmtobs
(2)
![Page 7: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/7.jpg)
On compare tobs à la valeur critique de t pour un risque et pour un degré de liberté (ddl) déterminé
0
t
Test unilatéral (à droite)
t varie avec le ddl
Si tobs < t H0 acceptée
Si tobs > t H0 rejetée
0
t
Test bilatéral
t varie avec le ddl
Si ItobsI < ItIH0 acceptée
Si ItobsI > ItI H0 rejetée
![Page 8: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/8.jpg)
On teste la différence de taille moyenne des filles de 2 amphis
Amphi 1
158163151…175168165
281.640.28
Amphi 2
159149153…178159167
251.660.32
nMoyenneEcart-type
n < 28, n inégaux formule (2)
)(2
)1()1(
)(
21
21
21
222
211
21
nnnn
nnsnsn
mmtobs
0.020
0.0897 0.0757
tobs=0.2427Test bilatéral
Exemple d’application
![Page 9: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/9.jpg)
tobs=0.2427 < t/2= H0 acceptée
Pas de différence significative entre les tailles moyennes des 2 amphis
Valeurs données dans le tableau pour /2 !
![Page 10: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/10.jpg)
Test ANOVA (ANalysis Of VAriance)C
om
pare
r p
lus
de 2
gro
up
es
1 2 3 k
X11 X12 . X1k
X21 . . .
. . . .
. . .
Xn11 . . Xnkk
grouprivière étang fossé
15 16 620 18 715 12 913 17 1418 13 1516 22 1222 14 118 18 1210 21 811 25 5
• Question de recherche : Est-ce que la taille des grenouilles vertes diffère entre les 3 types de milieux ?
• Question statistique : Est-ce que les différences de moyenne entre les 3 habitats sont dues au hasard ?
Comparaison de la taille des individus d’une espèce d’amphibien dans 3 milieux
On s’intéresse aux différentes sources de dispersion des données.
![Page 11: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/11.jpg)
SCT SCI SCE
• Variance1
k
SCEVE
kN
SCIVI
n
ii XxSCT
1
2)(
k
j
nj
ijij xxSCI
1 1
2)(
k
jjj XxnSCE
1
2)(
• Somme des carrés
kN 1k1N• DDL
N=nombre total d’individusk= nombre de groupes
• Rapport des variances F
VI
VEFobs
![Page 12: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/12.jpg)
Fobs suit une loi de Fisher-Snedecor à n-k et k-1 degrés de liberté, avec k = nombre de groupes, n = nombre total d’individus
On pose, H0 : m1 = m2 = … = mk H1 : la moyenne d’au moins un échantillon diffère des autres
On réalise un test unilatéral, car on teste VE (inter-groupe) > VI (intra-groupe)
![Page 13: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/13.jpg)
On calcule F(n-k, k-1) pour le risque et les degré de liberté n-k et k-1 (la forme de la courbe change avec les ddl)
Si Fobs < F(n-k, k-1) H0 acceptée
Si Fobs > F(n-k, k-1) H0 rejetée
F
H0 H0
![Page 14: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/14.jpg)
Critères d’application
- normalité des populations d’origine (testable)
- égalité des variances des différents groupes (testable)
Test de Kolmogorov-Smirnov, Liliefors, Shapiro-Wilk
Test de Levene
Mais test ANOVA robuste aux
- défauts de normalité si l’asymétrie et l’applatissement ne s’écartent pas trop de 0.
- Hétérogénéité des variances si les échantillons sont de même taille ou du même ordre de grandeur.
![Page 15: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/15.jpg)
Pourquoi ne pas faire plusieurs tests t ?
Si =0.05 (1/20), signifie que l’on a 1 chance sur 20 d’observer une valeur dans la zone de réjection de H0.
Si 20 comparaisons, on s’attend à ce qu’une comparaison soit dans cet intervalle (par effet de l’échantillonnage)
On corrige donc le seuil lors de comparaisons multiples
Correction de Bonferroni
’=/n n=nombre de comparaisons
![Page 16: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/16.jpg)
Procédure à suivre
• On peut tester les différences entre groupes pris deux à deux si et seulement si on observe une différence significative globale entre les groupes.
• doit être corrigé lorsque l’on effectue plusieurs comparaisons non indépendantes sur un jeu de données.
• On utilise des tests post hoc ou a posteriori qui prennent en compte le problème des comparaisons multiples (Bonferroni par exemple)
![Page 17: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/17.jpg)
On compare l’effet de 3 régimes alimentaires sur la croissance d’une espèce de daphnie. On mesure la taille des individus après 3 semaines.
H0= les 3 régimes n’influencent pas la taille des daphnies ou
H0= les tailles moyennes dans les 3 groupes sont égales
H1= au moins un des groupes diffère des autres
0
5
10
15
20
Régime 1 Régime 2 Régime 3
Groupe expérimental
Tai
lle à
3 s
emai
nes
8.818.310.9
11.012.78.0
9.714.88.1
9.918.16.4
11.616.411.4
Régime 3Régime 2Régime 1
8.818.310.9
11.012.78.0
9.714.88.1
9.918.16.4
11.616.411.4
Régime 3Régime 2Régime 1
Exemple d’application
![Page 18: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/18.jpg)
Régime 1 Régime 2 Régime 3
1 11.4 16.4 11.6
2 6.4 18.1 9.9
3 8.1 14.8 9.7
4 8.0 12.7 11.0
5 10.9 18.3 8.8
moyenne 9.0 16.1 10.2
SCintra=SC1+SC2+SC3 = 44.80
ddl intra = n-k = 15-3 = 12
SC1 = (11.4-9.0)²+(6.4-9.0)²+(8.1-9.0)²+(8.0-9.0)²+(10.9-9.0)² = 18.06SC2 = … = 22.00SC3 = … = 4.74
• Dispersion intra-groupe
![Page 19: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/19.jpg)
Régime 1 Régime 2 Régime 3 Total
n 5 5 5
moyenne 8.95 16.07 10.20 11.74
SCinter = 5*(8.95-11.74)²+5*(16.07-11.74)²+5*(10.20-11.74)² = 144.38
ddlinter = k-1 = 3-1 = 2
• Dispersion inter-groupe
![Page 20: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/20.jpg)
Inter-groupe
Intr
a-g
rou
pe
• Valeur seuil = F0.05 (1, 2)
avec 1= ddl inter-groupe 2= ddl intra-groupe
F0.05 (3, 4)=6.59 F0.01 (2, 4)=18.0Exemples :
![Page 21: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/21.jpg)
F2,12= Fobs=(SCinter/ddlinter) / (SCintra/ddlintra)
= (144.38/2) / (44.80/12)
= 19.33
F0.05, 2,12= Fseuil = 3.88
FseuilFobs
Fobs > Fseuil
H0 est rejetée, H1 acceptéeAu moins un des 3 groupes diffère des autres
• Rapport des variances
![Page 22: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/22.jpg)
Source de dispersion ddl SC CM F P
inter-groupe 2 144.386 72.193 19.337 0.000
intra-groupe 12 44.802 3.733
total 14 189.188
• Tableau d’ANOVA issu d’un logiciel
p <
H0 est rejetée, H1 acceptée
Au moins un des 3 groupes diffère des autres
![Page 23: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/23.jpg)
Rejet d’une hypothèse nulle H0 correcte
Deux types de risques
z zobs
échantillon 1 échantillon 2
PopOn décide que les moyennes de deux échantillons sont différentes alors qu’elles ne le sont pas.
zobs est fonction de x1-x2
Les 2 échantillons sont issus d’une même population mais zobs > z
![Page 24: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/24.jpg)
Acceptation d’une hypothèse nulle incorrecte
échantillon 1 échantillon 2
zzobs
population 1 population 2
On décide que les moyennes de deux échantillons ne sont pas différentes alors qu’elles le sont.
zobs est fonction de x1-x2
Les 2 échantillons ne sont pas issus d’une même population mais zobs < z
![Page 25: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/25.jpg)
Du point de vue statistique, rejeter H0 ne signifie pas qu’il n’y a pas de différence (ou de relation). Simplement, si elle existe, celle-ci n’est pas détectée
Erreurs de type 1 et de type 2
Décision correcteeffet détecté
Erreur type IRisque
effet détectéeffet n’existe pas
Décision correcteeffet non détectéeffet n’existe pas
Erreur type IIRisque
effet non détecté
Rejet H0 Acceptation H0
Effet
Pas d’effet
![Page 26: Chapitre 3 - Comparer plusieurs groupes](https://reader036.fdocuments.net/reader036/viewer/2022062321/56813a2c550346895da213bd/html5/thumbnails/26.jpg)
On cherche souvent à éviter de conclure à un effet qui n’existe pas (erreur type 1).
Mais erreur type 2 peut avoir conséquencesProgramme de suivi d’une espèce en danger
Si conclusion erronée d’une diminution des populations (type 1)
Actions de conservation non nécessaires
Si conclusion erronée d’une stabilité des populations (type 2)
Risque d’extinction