1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage,...

81
1 L2 STE

Transcript of 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage,...

Page 1: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

1

L2 STE

Page 2: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 2

Intervalles de confiance & tests statistiques

•Echantillonnage, rappels•Intervalle de confiance

MoyenneVariance et écart typeMédianePourcentage

•Tests usuelsPrincipe (rappels)Théorie de la statistique de décision (rappels)Comparaison de deux moyennes expérimentales (grands et petits échantillons)Comparaison de moyennes de deux échantillons appariés Comparaison de deux fréquences expérimentalesComparaison de deux variances expérimentales

•Tests non-paramétriquesConditions d’utilisationUtilisation des rangsTest de signe Test U de Mann-WhitneyTest de WilcoxonTest de Kolmogorov-Smirnov

Plan

Page 3: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

3

Echantillonnage – Estimation d’un paramètre

Extraction de n échantillons d’une population P

Si l’on extrait plusieurs échantillons représentatifs de taille n fixée, les différences observées entre les résultats obtenus sont dues à des fluctuations d’échantillonnage. A partir d’un échantillon, on n’a donc pas de certitudes mais des estimations de paramètres.

L'estimation d'un paramètre peut être faite - par un seul nombre: estimation ponctuelle- par 2 nombres entre lesquels le paramètre peut se trouver: estimation par intervalle

Page 4: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

4

Echantillonnage – Estimation d’un paramètre

Estimation ponctuelle d’une moyenne

1

)(1

2

2

n

xxs

n

ii

x

Estimateur sans biais

n

iixn

x1

1

x barre

n

ss xx Ecart type de la moyenne

Page 5: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

5

Echantillonnage – Estimation d’un paramètre

Pour améliorer la connaissance de la moyenne, il faut augmenter la taille de l’échantillon

Page 6: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

6

Intervalle de confiance de la moyenne

Cas des grands échantillons (variance connue):

Soit une population obéissant à une loi normale de moyenne et d’écart type .

1)Pr( 2/2/

nZx

nZx

Echantillonnage – Estimation d’un paramètre

Page 7: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

7

Echantillonnage – Estimation d’un paramètre

Exemple:

45 hommes de Neandertal males adultes

cm 10

cm 164

x

9.2164

9.166;161

45

1096.1164;

45

1096.1164

à 95% de confiance

Page 8: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

8

Echantillonnage – Estimation d’un paramètre

Page 9: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

9

Cas des petits échantillons:

Quand n<30 ou quand la variance est inconnue, on prend la loi de Student.

1)Pr( 2/2/n

stx

n

stx xx

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de la moyenne

Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

Pour = n-1 degrés de liberté

Page 10: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

10

La loi de Student: t()

degrés de liberté

Converge vers la loi Normale quand augment.

Page 11: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11

La probabilité d’obtenir une valeur de t à l’extérieur de l’intervalle (-t/2 et t/2) -> TABLES.

)( 2/ttP

La loi de Student: t()

Page 12: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

12

Echantillonnage – Estimation d’un paramètre

Page 13: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

13

Echantillonnage – Estimation d’un paramètre

Exemple:6 hommes de Neandertal males adultes

cm 11

cm 165

xs

x

12165

177;153

6

1157.2165;

6

1157.2165

à 95% de confiance

Finalement on peut toujours utiliser la loi de Student puisque t tend vers la loi normale quand n est grand…

Page 14: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

14

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de la variance

Soit une population obéissant à une loi normale de moyenne (inconnue) et d’écart type (inconnu).

1))1()1(

Pr(2

2/

22

2)2/1(

2xx snsn

Pour = n-1 degrés de liberté

Page 15: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

15

Si Z1, Z2, Zn sont des variables aléatoires normales centrées réduites et indépendantes entres elles, la somme des carrées de ces varaibles aléatoires obéit à la loi du 2 à degrés de libertés

222

21

2 .... ZZZ

La loi du Khi carré: 2

Page 16: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

16

La loi du Khi carré: 2

Page 17: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

17

En fait, les calculs sont fastidueux -> TABLES

)( 22 P

La loi du Khi carré: 2

Page 18: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

18

La loi du Khi carré: 2

Page 19: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

19

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de l’écart type (idem)

Soit une population obéissant à une loi normale de moyenne et d’écart type .

1))1()1(

Pr(2

2/

2

2)2/1(

2xx snsn

Pour = n-1 degrés de liberté

Page 20: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

20

Echantillonnage – Estimation d’un paramètre

Intervalle de confiance de la médiane

Si un échantillon est extrait d’une population approximativement normale, et si son effectif est relativement grand (n>60), la distribution d’échantillonnage de la médiane s’approche de la loi normale.

1)

22Pr( 2/2/ n

sZMeMedianen

sZMe xx

nss xMe 2

Page 21: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

21

Echantillonnage – Estimation d’un paramètre

Estimation ponctuelle d’un pourcentage

La population est formée d’individus ayant ou non un caractère A. Soit p la probabilité pour qu’un individu pris au hasard dans la population présente le caractère A.

1

)1(

/

2

n

pps

nap

p

Quand on dispose d’un seul échantillon de taille n, la meilleure estimation ponctuelle de P est donc la fréquence p observée sur l’échantillon.

Page 22: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

22

Echantillonnage – Estimation d’un paramètre

Grands échantillons (n>30), p ni voisin de 0, ni voisin de 1, (np>5, n(1-p)>5)

La variable fréquence obéit à une loi normale centrée réduite

1))1()1(

Pr( 2/2/ n

ppZpP

n

ppZp

Intervalle de confiance d’un pourcentage

Page 23: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

23

Echantillonnage – Estimation d’un paramètre

Un problème très fréquent!Un quotidien publie tous les mois la cote du chef du gouvernement à partir d'un sondage réalisé sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d'opinions favorables, en février de 36%. Un journaliste commente alors ces valeurs par "Le chef du gouvernement perd 2 points !!"

En fait: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on obtient respectivement [35;41] et [33;39] pour les valeurs 38% et 36%. Les deux intervalles ayant une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse ou augmentation de la cote du chef de gouvernement.

Page 24: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

24

L2 STE

Page 25: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

25

On sait qu’un homme de Neandertal mesure en moyenne 165 cm.

Sur un site on trouve 16 hommes avec une moyenne de 167 et un écart type de 8 cm (e.t. échantillon).

Comparaison de la moyenne avec la valeur théorique de 165 cm

Quel est le problème…?

Théorie de la statistique de décision

Possibilités:Moyenne très élevée: Nous pourrons être amenés à croire que ces hommes ont des tailles différentes de 165 cm

Moyenne faiblement plus élevée: on ne pourra pas conclure si c’est significativement supérieur à la norme ou si c’est l’effet du hasard.

Page 26: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

26

Question: à partir de quelle limite pouvons nous raisonnablement conclure à une différence?

H0: =165 (il n’y pas de différence)H1: ≠165

Calcul de

Sur la table la probabilité pour que la moyenne d’échantillonnage soit différente celle de la population de plus 2,131 de écart-type est de 5%.

216

8

n

ss xx

Théorie de la statistique de décision

Page 27: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

27

Les deux risques d’erreur dans un test.

Décision H0 est vraie H1 est vraie H0 acceptée H0 rejetée

Bonne décision Erreur

Erreur Bonne décision

Erreur de 1ere espèce

Erreur de 2nde espèce (compliquée)1-

1-

A priori on ne sait pas à quel type d’erreur on sera confronté:Le résultat de l’échantillon a révélé 167 cm probablement par pur hasard.On conclue que la moyenne pourrait être 165 cm alors qu’en fait elle est mesurée à 167 cm.

Théorie de la statistique de décision

Page 28: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

28

H0 : hypothèse nulle ou principaleEx: Les haches de type A présentent les mêmes teneurs en Sn que les haches de type B.

H1 : hypothèse alternative ou contraire …

Soumission à une épreuve de vérité!

Conclusion : différence attribuable aux fluctuations d’échantillonnage???

Théorie de la statistique de décision

Page 29: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

29

Niveau de signification : un peu arbitraire…significatif : 0.05hautement significatif : 0.01très hautement significatif : 0.001.

Test bilatéral / unilatéral : bilatéral : différence sans se préoccuper du sens.Unilatéral : > ou <. Zone de rejet d’un seul coté de la distribution de probabilité de référence.

Echantillons indépendants ou appariés:Indépendants : aucune influence du 1er ech sur le 2nd.Appariés : prélèvements par paires. Ex : fumeurs H + F.

Théorie de la statistique de décision

Page 30: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

30

Comparaison des moyennes de 2 grands échantillons indépendants (n1 et n2 >30):

Comparaison de deux moyennes expérimentales–grands échantillons -

2

2

1

2

21

21

n

s

n

s

xxZ

xx

c

Deux échantillons qui suivent des lois normales: 1, 21; 2, 2

2

Si H0 est vraie, Zc suit une loi normale N(0,1)

Page 31: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

31

H1 ≠bilatéral

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 32: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

32

H1unilatéral

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 33: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

33

H1 unilatéral

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 34: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

34

H0 H1 Rejet de H0 si = 0.05 = 0.01

1 = 2 1 2

1 > 2

1 < 2

|Zc| |z/2| Zc zZc z

|z/2| = 1.96 z= 1.64 z= 1.64

|z/2| = 2.57 z= 2.33 z= 2.33

Pour résumer:

Maintenant un exemple...

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 35: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

35

Taille des silex sur deux sites

Les moyennes de ces deux échantillons prélevés indépendamment l’un de l’autre diffèrent-elles d’une façon hautement significative?

mms

mms

mmx

n

x

x

09,6

18,37

86,158

50

1

1

22

1

1

mms

mms

mmx

n

x

x

09,5

92,25

46,134

67

2

2

22

2

2

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 36: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

36

n1 et n2 grands -> test sur la loi normale

H0 : a = b

H1 : a b (bilatéral)

2

22

1

21

21

ns

ns

xxZ

xx

c

9.22

6792.25

5018.37

66.13486.158

cZ

= 0.01, Z/2 = 2.57

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 37: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

37

H0 rejetée au seuil de signification de 1%

Comparaison de deux moyennes expérimentales–grands échantillons -

Page 38: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

38

Comparaison d’une moyenne empirique à une moyenne théorique

Même principe que précédemment (quand n est grand):

n

sx

Zx

c0

que l’on teste sur la loi normale N(0,1)

H0: =0

Page 39: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

39

Cas des petits échantillons: Test t

Deux populations normales 1 et 2 de même variance (au moins approximativement) 2. Si n1 et n2 sont petits, s2

x1 et s2x2 sont des

estimateurs peu précis de 2.

Dans ce cas, la variable différence centrée réduite n’obéit plus à une loi normale mais à une loi de Student à =n1+n2-2 degrés de liberté.

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 40: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

40

La variance de la distribution des différences de moyennes est estimées par s2

D

21

22 11

nnss pdD

2

)1()1(

21

22

212 21

nn

snsns xxpd

avec

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 41: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

41

Ce qui donne…

H0 : a = b

Dc s

xxt 21

Avec = n1 + n2 - 2

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 42: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

42

Si les variances s’avèrent inégales alors test t modifié.

2

2

1

2

21

21

n

s

n

s

xxt

xx

cm

11 2

2

2

2

1

2

1

2

2

2

2

1

2

21

21

n

n

s

n

n

s

n

s

n

s

xx

xx

avec

Comparaison de deux moyennes expérimentales– petits échantillons -

Page 43: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

43

Comparaison d’une moyenne empirique à une moyenne théorique

Même principe que précédemment. Suivant si n est petit ou grand, on calcule les variables auxiliaires suivantes:

n

sx

tx

c0

n

sx

Zx

c0

que l’on teste sur la loi de Student ou loi normale N(0,1)

H0: =0

Page 44: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

44

Fondée sur les différences de chaque paire d’éléments

21 iii xxd

On imagine que la différence obéit à une loi normale, mais en général on utilise une loi de Student à n-1 degrés de liberté:

Comparaison de moyennes de deux échantillons appariés

1

)(et 1

2

n

dds

n

ss

n

ii

dd

d

Page 45: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

45

H0 : 1 = 2 ou d = 0

H1: 1 2 , bilatéralH1: 1 > 2 , unilatéralH1: 1 < 2 , unilatéral

d

c s

dt

Comparaison de moyennes de deux échantillons appariés

t calculé pour = n-1 degrés de liberté

Page 46: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

46

Comparaison de deux fréquences expérimentales

Comparaison des fréquences de 2 grands échantillons indépendants.

H0 : p1 = p2 = p

Deux échantillons : f1, n1; f2, n2

On approxime la loi binomiale par la loi normale mais:n1>30, n2>30, n1f1>5, n2f2>5, n1(1-f1)>5, n2(1-f2)>5

Page 47: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

47

Comparaison de deux fréquences expérimentales

Sous H0 on peut réunir les deux échantillons, et on est conduit à l’estimation de p

21

2211ˆnn

fnfnp

Zc devient

21

21

11)ˆ1(ˆ

nnpp

ffZc

H1: p1≠p2

H1: p1>p2

H1: p1<p2

Test sur la loi normale N(0,1)

Page 48: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

48

Comparaison d’une fréquence empirique et d’une fréquence théorique

La différence entre f (mesuré) et p (théorique) est-elle seulement explicable par les aléas dus à l’échantillonnage?

On approxime la loi binomiale par la loi normale mais:n>30, np>5 et nq>5

H0: f = p

npp

pfZc

)1(

H1: f≠pH1: f>pH1: f<p

Test sur la loi normale N(0,1)

Page 49: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

49

Comparaison de deux variances expérimentales

Deux échantillons qui suivent des lois normales: 1, 21; 2, 2

2

H0: 21=2

2

calcul de :2

2

B

A

x

xc s

sF

Plus grande variance

Plus petite variance

>1

Si H0 est vraie, Fc suit une loi de Fisher-Snedecor avec 1=n1-1 et 2=n2-1

Page 50: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

50

Soit 21 et 2

2, un couple de variables aléatoires indépendantes suivant respectivement des lois du 2 à 1 et 2 degrés de libertés.

222

121

/

/

F

Utile pour les tests de variance et de covariance

La loi de Fisher - Snedecor : F(1,2)

Page 51: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

51

)(2121 ,, FFP

La loi de Fisher - Snedecor : F(1,2)

Page 52: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

52

H1: 21>2

2

Sous H0: Pr(Fc<F)=1-

F

Accept. H0rejet H0

Comparaison de deux variances expérimentales

Page 53: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

53

H1: 21≠2

2

Sous H0 : Pr(Fc<F)=1-

F

Accept. H0rejet H0

/2

Comparaison de deux variances expérimentales

Page 54: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

54

Comparaison de deux variances expérimentales

Table de Fisher-Snedecor

Page 55: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 55

Page 56: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 56

1. GénéralitésConditions d’applicationUtilisation des rangs

2. Les tests:Le test de signesLe test U de Mann-WhitneyLe test de Wilcoxon Le test de Kolmogorov Smirnov

Plan

Page 57: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 57

Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie souvent de tests distribution free. L’étape préalable consistant à estimer les paramètres des distributions (p.e. moyenne et écart type) avant de procéder au test d’hypothèse proprement dit n’est plus nécessaire.

Quand?:

1. L’échelle des données est ordinale plutôt que sous forme d’intervalles ou de rapports. Dans ce cas les opérations arithmétiques n’ont pas de sens!

2. Les mesures sont sur des échelles d’intervalles ou de rapports mais les distributions de fréquences observées sont très éloignées de la distribution normale.

Pourquoi et quand utiliser des statistiques non-paramétriques?

1. Généralités – Conditions d’application

Page 58: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 58

Données Paramétrique Non-paramétrique

Distribution normale

n grand

Précis et fiable Si H0 est rejeté, le résultat devrait être le même qu’avec le test paramétrique

Si H0 est accepté, le résultat n’est peut être pas fiable

Distribution non normale

n petit

Résultat absolument pas fiable: souvent un rejet de H0 abusif

Meilleur résultat possible avec de telles données

1. Généralités – Conditions d’application

Page 59: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 59

Données Rangs

x1 = 4,3 R(x1) = 5

x2 = 9,3 R(x2) = 8

x3 = 0,3 R(x3) = 1

x4 = 2,9 R(x4) = 3

x5 = 3,2 R(x5) = 4

x6 = 7,7 R(x6) = 7

x7 = 5,0 R(x7) = 6

x8 = 0,4 R(x8) = 2

On pourrait ordonner du plus grand au plus petit. Les rangs seraient différents, mais les tests aboutiraient au mêmes résultats!

Si x2 avait été 1000, x2 aurait eu le même rang (donc perte irrémédiable d’information)!

Maintenant, on ne travaille plus que sur les rangs

1. Généralités – Utilisation des rangs

Page 60: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 60

Données Rangs

x1 = 4,3 R(x1) = 5

x2 = 9,3 R(x2) = 8

x3 = 0,3 R(x3) = 1

x4 = 0,4 R(x4) = 2,5

x5 = 3,2 R(x5) = 4

x6 = 7,7 R(x6) = 7

x7 = 5,0 R(x7) = 6

x8 = 0,4 R(x8) = 2,5

Si 2 valeurs ou plus sont identiques, le rang devient la moyenne des rangs de la paire ou du groupe

En pratique, souvent peu crucial…

1. Généralités – Utilisation des rangs

Page 61: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 61

Si n est impair: médiane = valeur du point avec le rang (n+1)/2 Si n est pair: médiane entre les valeurs des points qui ont les rangs n/2 et (n+2)/2

Valeur pour laquelle la fréquence cumulée est égale à 0.50 ou point qui partage la distribution en 2 parties égales.

2

1nxmed

Pour n impair2

2

2

2

nn xx

med

Pour n pair

1. Généralités – Rappels sur la médiane

Page 62: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 62

Alternative non-paramétrique au test t

Cas d’un petit échantillon

Voyons un exemple: ces mesures de mercure dans les sols sont-elles issues d’une population dont la médiane serait 40 ppm?

Hg ppm

56 42 61 61 42 55 35 42 39 65 44 51 32 82 41

Signe + + + + + + - + - + + + - + +

Résultat : 3 (–) et 12 (+)Question: Est-ce significativement différent de 50% (-) et 50% (+)?Il semble qu’il y ait déséquilibre… à voir…

2. Les tests – Le test des signes (petits échantillons)

Page 63: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 63

Imaginons que (+) soit un succès: p = 0,5. On peut appliquer la distribution binomiale, avec x, le nombre d’apparitions, p, la probabilité de succès, n, le nombre de tentatives:

Probabilité de 7 succès (ou 8) sur 15 essais = 0,19638Probabilité de 6 succès (ou 9) sur 15 essais = 0,15274Probabilité de 5 succès (ou 10) sur 15 essais = 0,09164Probabilité de 4 succès (ou 11) sur 15 essais = 0,04166

La somme de ces probabilités = 0,9648, donc plus de 95% de chances de se retrouver avec de 4 à 11 (+).

xxnxxnxn pq

xxn

npqCxP

!)!(

!)(

2. Les tests – Le test des signes (petits échantillons)

Page 64: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 64

On pose les hypothèses:

H0: la médiane = 40 ppm HgH1: la médiane ≠ 40 ppm Hg

Avec 12(+), on rejette H0 car on a déjà plus de 96% de chances de se trouver entre 4 (+) et 11 (+) par le simple fait du hasard. On en conclue donc que la médiane de la population est significativement différente de 40 ppm de Hg.

2. Les tests – Le test des signes (petits échantillons)

Page 65: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 65

Quand n est suffisamment grand (n>20), on peut utiliser l’approximation normale de la loi binomiale avec une correction de continuité

2. Les tests – Le test des signes (grands échantillons)

Exemple:Durée de vie supposée d’un foret pétrolier > 250h

271 230 198 275 282 225 284 219253 216 262 288 236 291 253 224264 295 211 252 294 243 272 268

+ - - + + - + -+ - + + - + + -+ + - + + - + +

15(+), 9(-)

H0: médiane de la population = médiane hypothétique spécifiéeH1: médiane de la population > médiane hypothétique spécifiéeAttention test unilatéral

Page 66: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 66

Npq

NpXXZ

Correction de continuité (puisque la loi binomiale est discrète alors que la loi normale est continue): Il faut retrancher 0.5 à X si X>Np et ajouter 0.5 à X si X<Np.

02,15,0.5,0.24

5,0.24)5,015(

Z

Ici c’est un test unilatéral, Z0,05= 1,645. Z<Z0.05, donc H0 n’est pas rejetée. La publicité de la marque n’est pas justifiée!!!

2. Les tests – Le test des signes (grands échantillons)

Page 67: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 67

Alternative non-paramétrique du test t à deux échantillons.

Probablement le test non-paramétrique le plus utilisé dans la littérature.

Il teste l’hypothèse nulle d’égalité des médianes de populations à partir desquelles deux échantillons sont tirés.

H0: médiane de la population x = médiane de la population y H1: médiane de la population x ≠ médiane de la population y

2. Les tests – Le test U de Mann-Whitney

Page 68: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 68

Alliage A (n1=8) Alliage B (n2=10)

18.3 16.4 22.7 17.8 18.9 25.3 16.1 24.2

12.6 14.1 20.5 10.7 15.9 19.6 12.9 15.2 11.8 14.7

3 5 15 1

8 14 4 7

2 6

12 10 16 11

13 18 9 17

Alliage BAlliage A

R1:Somme rangs = 106 R2 : somme rangs = 65

Etape 1: Transformation en rangs

Etape 2

Plus petit effectif = n1

Le plus simple: traiter un exemple

2. Les tests – Le test U de Mann-Whitney (petits échantillons)

Page 69: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 69

111

211 2

)1(R

nnnnU

Pour tester la différence entre les rangs, on utilise la statistique suivante.Calcul de U pour l’échantillon 1 & 2

101062

9.810.8

2

)1(1

11211

R

nnnnU

Ici

2. Les tests – Le test U de Mann-Whitney (petits échantillons)

222

212 2

)1(R

nnnnU

U = min (U1,U2)

70652

11.1010.8

2

)1(2

22212

R

nnnnU

Donc U=10

Page 70: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 70

Si n1 & n2 < 20:Valeurs limites m fournie par une table telle que sous H0, P(U<m)=

On rejette H0 si U<m

Ici U<17, donc H0 est rejeté. Il y a donc une différence significative entre les deux groupes

2. Les tests – Le test U de Mann-Whitney (petits échantillons)

Page 71: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 71

Si n1 & n2 > 20, la distribution U peut être approchée par une distribution normale de telle sorte que

U

UUz

Ceci se teste tout naturellement sur la loi normale…

2. Les tests – Le test U de Mann-Whitney (grands échantillons)

Accepter H0 si –Z<Z<Z, sinon rejeter H0

221nn

U

12

)1( 2121

nnnnU

avec

Page 72: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 72

Comparaison de deux échantillons appariés (chaque valeur d’un échantillon est associée à une valeur de l’autre échantillon, les deux ont la même taille).

Question: Existe-t-il une différence entre les 2 échantillons?

H0: Pas de différence entre les deux groupesH1: Une différence entre les deux groupes

M 5 4 2 3 4 3 8 5 4 5

R 6 3 3 1 1 3 4 2 5 7

Diff -1 1 -1 2 3 0 4 3 -1 -2

Calcul de la différencen = nombre de différences non nulles = 9

2. Les tests – Le test de Wilcoxon

Page 73: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 73

Test de Wilcoxon

On classe ensuite les différences par ordre croissant de valeurs absolues

Val. -1 1 -1 -1 2 -2 3 3 4

Rg 2.5 2.5 2.5 2.5 5.5 5.5 7.5 7.5 9

On affecte à chaque différence son rang dans le classement

w+ : somme des rangs des différences positivesw- : somme des rangs des différences négatives

w+ = 2.5 + 5.5 + 7.5 + 7.5 + 9 = 32w- = 2.5 + 2.5 + 2.5 + 5.5 = 13w = min (w+, w-) = 13

2. Les tests – Le test de Wilcoxon (petits échantillons)

Page 74: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 74

2 cas possibles:

Si n<25 (empirique), alors on utilise une table

n

Niveau de signification, test unilatéral

0,025 0,01 0,005

Niveau de signification, test bilatéral

0,05 0,02 0,01

6 0

7 2 0

8 4 2 0

9 6 3 2

10 8 5 3

11 11 7 5

12 14 10 7

13 17 13 10

14 21 16 13

15 25 20 16

16 30 24 20

17 35 28 23

18 40 33 28

19 46 38 32

20 52 43 38

21 59 49 43

22 66 56 49

23 73 62 55

24 81 69 61

25 89 77 68

Sous H0, P(W<w)=avec = 0.05 et = 0.01

On rejette l’hypothèse nulle si w<w

Ici, pour n = 9 et = 0.05, w = 6

w > w0.05 donc on ne peut pas rejeter H0. Il n’y a pas de différence significative entre les deux échantillons.

2. Les tests – Le test de Wilcoxon (petits échantillons)

Page 75: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 75

Si n>25, lorsque H0 est vraie, W suit approximativement une loi normale N(,) avec

4

)1(

nnw 24

)12)(1(

nnn

On calcule la valeur de la variable normale centrée réduite:

ww

Z

La valeur est comparée à la valeur Z de la loi normale. Si –Z<Z<Z on accepte H0

2. Les tests – Le test de Wilcoxon (grands échantillons)

Page 76: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 76

Test non paramétrique de conformité de Kolmogorov Smirnov

Il consiste à calculer les différences existants entre les distributions de fréquences relatives cumulées de deux échantillons et à vérifier si la plus grande différence peut être fortuite ou pas (Dobs).

)()(:

)()(:

21

21

....1

....0

icumrelicumrel

iicumrelicumrel

xfxfH

xxfxfH

Pour au moins une valeur de xi

Simple sur un exemple…

2. Les tests – Le test de Kolmogorov Smirnov

Page 77: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 77

Domaine vital de l’ours noir (F & M) Sexe Domaine vital

(km2)

F

F

M

M

F

M

F

F

M

F

M

M

F

F

F

37

72

94

504

60

173

49

18

560

50

274

168

102

49

20

Question: L’étendue du domaine vital des ours noirs males est-elle différente de celle du domaine des femelles?

Hypothèses:

)()(:

)()(:

....1

....0

FM

FM

icumrelicumrel

iicumrelicumrel

xfxfH

xxfxfH

Pour au moins une valeur de xi

2. Les tests – Le test de Kolmogorov Smirnov

Page 78: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 78

xi Fcum(xiF) Fcum(xiM) Fcum(xiF)/nF

(A)

Fcum(xiM)/nM

(B)

(A)-(B) Dobs

18

20

37

49

50

60

72

94

102

168

173

274

504

560

1

2

3

5

6

7

8

8

9

9

9

9

9

9

0

0

0

0

0

0

0

1

1

2

3

4

5

6

0,111

0,222

0,333

0,555

0,666

0,777

0,888

0,888

1

1

1

1

1

1

0

0

0

0

0

0

0

0,166

0,166

0,333

0,500

0,666

0,833

1

0,111

0,222

0,333

0,555

0,666

0,777

0,888

0,722

0,833

0,666

0,500

0,333

0,166

0

0,888

2. Les tests – Le test de Kolmogorov Smirnov

Freq cum abs. Freq cum rel. Diff. Diff. max.

Page 79: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 79

Taille (km2)

18 20 37 49 50 60 72 94 102 168 173 274 504 560

Fre

q. C

um.

0,0

0,2

0,4

0,6

0,8

1,0

FM

Dobs = 0,888

2. Les tests – Le test de Kolmogorov Smirnov

Page 80: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 80

Ici cas des petits échantillons nF & nM < 25 (en fait nF=9 et nM=6)

On calcule une variable auxiliaire KS = nF nM Dobs = 9.6.0,888 = 47,952 = 48

Dans la table, la valeur critique s’élève à 39 pour = 0,05

Si KS>KS, alors on rejete H0

(rejet des valeurs trop grandes)

Ici 48>39, donc on rejette H0

Conclusion: L’étendue du domaine vital des mâles diffère significativement de l’étendue du domaine des femelles.

2. Les tests – Le test de Kolmogorov Smirnov

Page 81: 1 L2 STE. 04/11/2013Statistiques2 Intervalles de confiance & tests statistiques Echantillonnage, rappels Intervalle de confiance Moyenne Variance et écart.

11/04/23 Statistiques 81

Si au contraire n1 & n2 sont supérieurs à 25 on calcule :

)2/ln(2

1

avec21

21

KS

nn

nnKSD

Si Dobs > D, l’hypothèse H0 est refusée au profit de H1

2. Les tests – Le test de Kolmogorov Smirnov