Post on 02-Mar-2020
Chapitre 4 1
Polytech Paris-UPMC Probabilités-statistiques
Chapitre 4
BASES DE LA STATISTIQUE INFERENTIELLE
Une enquête statistique est une étude généralement réalisée sur un petit groupe d’objets, d’unités, de personnes que le statisticien nomme individu, le groupe constituant un échantillon d’individus. A partir des résultats obtenus sur cet échantillon, le statisticien essaie de porter des conclusions sur les variations dans un groupe plus vaste formant la population à laquelle on s’intéresse. Au cours de cette étude, on observe les fluctuations d’un individu à l’autre, d’un ou plusieurs paramètres, que l’on appelle des caractères ou variables statistiques.
Relever et analyser les valeurs prises par le (ou les) paramètres étudié(s) avec les fréquences d’observation de ces valeurs ou modalités relève des
statistiques descriptives (en annexe, notions simples qui ne seront pas étudiées en cours)
En déduire des conjectures sur ce (ou ces) paramètre(s) dans la population, dans d’autres échantillons, sur des comparaisons d’échantillons, relève de la
statistique inférentielle Pour faire ces prévisions (ou inférences), pour passer de la description au probable, on utilise la modélisation et les résultats de la théorie des probabilités, vus dans les trois premiers chapitres de ce cours.
Chapitre 4 2
BASES DE LA STATISTIQUE INFERENTIELLE .................................................. 1 4.1 THÉORIE DE L’ECHANTILLONAGE ...................................................... 3
4.1.1 Hypothèse fondamentale de la théorie de l’échantillonage.................... 3 4.1.2 Statistiques d’ordre : lois des valeurs extrêmes...................................... 3 4.1.2 Statistique
€
X n ......................................................................................... 4 4.1.3 Statistique
€
Sn2 .......................................................................................... 5
4.1.3 Corrélation entre
€
X n et
€
Sn2 ...................................................................... 5
4.1.4 Cas des échantillons gaussiens ............................................................... 6 4.1.5 Echantillons artificiels, simulation ......................................................... 7 4.1.6 Application : Méthode de Monte Carlo.................................................. 8
4.2 L’ESTIMATION........................................................................................... 8 4.2.1 Estimateur, définitions............................................................................ 8 4.2.2 Exemples élémentaires d’estimateurs .................................................... 9 4.2.3 Application : estimation ponctuelle........................................................ 9 4.2.4 Estimation par intervalle de confiance ................................................. 10
4.3 TESTS STATISTIQUES ............................................................................ 17 4.3.1 Tests paramétriques.............................................................................. 17 4.3.2 Tests d’ajsutement et tests d’indépendance utilisant la loi du Khi-deux....................................................................................................................... 25
Chapitre 4 3
4.1 THEORIE DE L’ECHANTILLONAGE
4.1.1 Hypothèse fondamentale de la théorie de l’échantillonage Dans le cas d’une étude statistique sur une population, l’échantillon est supposé être tiré selon des règles rigoureuses destinées à en assurer la représentativité de la population. L’hypothèse faite, dans ce cas est que les valeurs observées sur les n individus d’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On introduit le modèle suivant : à chaque individu i tiré, on associe une variable aléatoire
€
Xi dont on observe une seule réalisation. Cette démarche peut se schématiser de la manière suivante
Population Variable X
Echantillon de n individus
€
i1,i2,,in( )
n-uplet
€
(X1,X2,,Xn ) v.a.r. indépendantes et de
même loi que X
n réalisations de X 1 réalisation de
€
(X1,X2,,Xn )
€
X(i1),X(i2),,X(in )( )
€
modélisation⎯ → ⎯ ⎯ ⎯
€
(X1(ω ),X2(ω ),,Xn (ω)) n valeurs « indépendantes » de X
Définition On appelle échantillon le n-uplet de variables aléatoires indépendantes et identiquement distribuées
€
(X1,X2,,Xn ) Définition Une statistique T est une variable aléatoire fonction de
€
X1,X2,,Xn .
€
T = f (X1,X2,,Xn ) La théorie de l’échantillonage se propose d’étudier les propriétés du n-uplet
€
(X1,X2,,Xn ) et des statistiques le décrivant, à partir de la distribution supposée connue de la variable parente X. On reprend et complète les résultats du chapitre 2 de ce cours.
4.1.2 Statistiques d’ordre : lois des valeurs extrêmes X variable aléatoire, supposée continue, de fonction de répartition F et de densité f
Chapitre 4 4
Définition Les valeurs extrêmes sont
€
Y1 =min X1,X2,,Xn{ } et
€
Yn =max X1,X2,,Xn{ } On sait :
€
P(Y1 ≤ y) =1− P(Y1 > y),
et par indépendance
€
P(Y1 > y) = P(Xi > y)i=1
i=n
∏ et
€
P(Yn < y) = P(Xi < y)i=1
i=n
∏
En notant
€
H1 et
€
h1 les fonctions de répartition et de densité de
€
Y1
€
Hn et
€
hn les fonctions de répartition et de densité de
€
Yn On a alors
€
H1(y) =1− 1− F(y)[ ]n
h1(y) = n 1− F(y)[ ]n−1 f (y) et
€
Hn (y) = F(y)[ ]n
h1(y) = n F(y)[ ]n−1 f (y)
4.1.2 Statistique
€
X n Définition La statistique
€
X n ou moyenne empirique de l’échantillon est
€
X n =1n
Xii=1
i=n
∑
Espérance et variance de
€
X n Soit m et
€
σ l’espérance et l’écart-type de la variable parente ; on a
€
E(X n ) = m et
€
V (X n ) =σ2
n
Théorème limite pour
€
X n
Théorème central limite :
€
X n −mσn
L⎯ → ⎯ N(0;1)
Application : loi d’un pourcentage
€
Xn étant une suite de variables aléatoires de Bernoulli indépendantes
€
B(1, p) , notons
€
Fn (= X n ) la fréquence empirique, moyenne arithmétique de n variables de Bernoulli de paramètre p indépendantes
On
€
E(Fn ) = p et
€
V (Fn ) =p(1− p)n
et si n est grand (théorème de De Moivre-Laplace)
€
Fn suit approximativement la
loi
€
N p; p(1− p)n
⎛
⎝ ⎜
⎞
⎠ ⎟
Chapitre 4 5
4.1.3 Statistique
€
Sn2
Définition La statistique
€
Sn2ou variance empirique d’échantillon est :
€
Sn2 =
1n
Xi − X n( )2i=1
i=n
∑
Propriété élémentaire
€
Sn2 =
1n
Xi2
i=1
i=n
∑⎛
⎝ ⎜
⎞
⎠ ⎟ − (X n )
2
Espérance de
€
Sn2
€
E(Sn2) =
n −1n
σ2
Donc
€
E(Sn2) ≠σ2. On dit que
€
Sn2 est une statistique biaisée pour
€
σ2 Variance de
€
Sn2
On montre
€
V (Sn2) =
n −1n3
(n −1)µ4 − (n − 3)σ4[ ] avec
€
µ4 le moment centré d’ordre
4 de X
Alors
€
V (Sn2) ≈ µ4 −σ
4
n si
€
n→+∞
Théorème limite pour
€
Sn2
€
Sn2 −
n −1n
σ2
V (Sn2)
L⎯ → ⎯ N 0;1( )
ce qui peut s’écrire
€
Sn2 −σ2
µ4 −σ4
n L⎯ → ⎯ N 0;1( ) avec l’approximation précédente
4.1.3 Corrélation entre
€
X n et
€
Sn2
Dans le chapitre 3, nous avons vu la définition de la covariance :
€
cov X n ,Sn2( ) = E X n −m( ) Sn
2 −n −1
nσ2
⎛
⎝ ⎜
⎞
⎠ ⎟
⎡
⎣ ⎢
⎤
⎦ ⎥
et
€
cov X n ,Sn2( ) = E X nSn
2( ) − E X n( )E Sn2( )
La covariance est insensible à un changement pas translation, on peut supposer que m=0, c’est à dire
€
E(Xi) = 0 pour tout i. D’où
€
cov X n ,Sn2( ) = E X nSn
2( )
Chapitre 4 6
€
E X nSn2( ) = E 1
nXi
i=1
i=n
∑⎛
⎝ ⎜
⎞
⎠ ⎟ 1n
X j2
j =1
j =n
∑⎧ ⎨ ⎪
⎩ ⎪
⎫ ⎬ ⎪
⎭ ⎪ − (X n )
2⎛
⎝ ⎜ ⎜
⎞
⎠ ⎟ ⎟
⎡
⎣ ⎢ ⎢
⎤
⎦ ⎥ ⎥
€
=1n2
E Xii=1
i=n
∑⎛
⎝ ⎜
⎞
⎠ ⎟ X j
2
j =1
j =n
∑⎛
⎝ ⎜ ⎜
⎞
⎠ ⎟ ⎟
⎡
⎣ ⎢ ⎢
⎤
⎦ ⎥ ⎥ − E X n
3( )
€
=1n2
E XiX j2
j =1
j =n
∑i=1
i=n
∑⎡
⎣ ⎢ ⎢
⎤
⎦ ⎥ ⎥ − E X n
3( )
Les variables sont indépendantes, pour i≠j :
€
E(XiX j2) = E(Xi)E(X j
2) = 0
€
=1n2
E Xi3
i=1
i=n
∑⎡
⎣ ⎢
⎤
⎦ ⎥ − E X n
3( )
€
=1n2E Xi
3
i=1
i=n
∑⎡
⎣ ⎢
⎤
⎦ ⎥ − E
1n
Xii=1
i=n
∑⎛
⎝ ⎜
⎞
⎠ ⎟
3⎡
⎣ ⎢ ⎢
⎤
⎦ ⎥ ⎥
€
=1n2E Xi
3
i=1
i=n
∑⎡
⎣ ⎢
⎤
⎦ ⎥ −
1n3E Xi
3
i=1
i=n
∑⎡
⎣ ⎢
⎤
⎦ ⎥
En conclusion :
€
cov X n ,Sn2( ) =
µ3n−
µ3n2
=n −1n2
µ3 Si
€
n→+∞ ,
€
cov X n ,Sn2( ) →0.
€
X n et
€
Sn2 sont asymptotiquement non corrélées.
Si
€
µ3 = 0 (on dit la distribution symétrique),
€
X n et
€
Sn2 sont non corrélées pour tout
n. Attention : non corrélation ≠ indépendance
4.1.4 Cas des échantillons gaussiens On suppose la variable aléatoire parente normale
€
N m;σ( )
€
X n suit (exactement) la loi
€
N m; σn
⎛
⎝ ⎜
⎞
⎠ ⎟
On montre aussi les deux théorèmes suivants
€
nSn2
σ2 suit la loi
€
χn−12 , loi du Khi-Deux de paramètre (n-1)
€
X n et
€
Sn2 sont indépendantes.
On peut même démontrer une sorte de réciproque : si
€
X n et
€
Sn2 sont indépendantes , alors X suit une loi normale
Chapitre 4 7
Et on a aussi le résultat extrêmement utile
€
Tn−1 =X n −m
Sn
n −1 est une variable de Student
à (n-1) degrés de liberté.
Cela vient du fait que
€
Tn−1 =
X n −mσ
n
nSn2
(n −1)σ2
=X n −m
Sn
n −1
Ce résultat est utile car il ne dépend pas de
€
σ.
Exemple : X suit la loi
€
N 10;2( ) ,
€
X 25 suit la loi
€
N 10;0,4( )et
€
25.S252
4 suit la loi
€
χ242
Des calculs simples de probabilité donnent
€
P(9,34 < X 25 <10,66)= 0,9 et
€
P(1,49 < S25 < 2,41)=0,9.
4.1.5 Echantillons artificiels, simulation Dans de nombreuses études, il est nécessaire de pouvoir disposer d’échantillons de variables de lois connues. On peut recourir à la simulation, c’est à dire « fabriquer » à l’aide d’un programme de calcul une suite de nombres
€
x1,x2,,xn chaque nombre étant une réalisation d’une variable aléatoire suivant la loi voulue, les variables aléatoires étant indépendantes. Dans tous les cas, il est nécessaire de disposer au départ d’une table de nombres aléatoires ou d’un générateur de nombres aléatoires. Un générateur est un algorithme fournissant une suite de nombre compris entre 0 et 1 (nullement aléatoires, on parle de nombre pseudo-aléatoires) mais ayant toutes les propriétés d’un véritable échantillon aléatoire d’une loi uniforme sur
€
0;1[ ] Voir les aides sur la fonction « alea » ou « random » d’une calculatrice, d’un logiciel de type excel. Quelques indications :
- Si X a une fonction de répartition F, dont la réciproque
€
F −1 a une forme analytique simple, on peut utiliser la méthode « inversion de la fonction de répartition »
- Si X a une densité bornée à support borné, on peut utiliser la méthode « du rejet»
- Si X suit une loi de Bernoulli, une loi Gamma
€
γ r , une loi de Poisson, une loi normale, il existe des méthodes particulières.
On peut voir à ce sujet « Probabilités, Analyse des Données et Statistque » de G Saporta, Editions Technip, 1990, pages 276 à 283
Chapitre 4 8
4.1.6 Application : Méthode de Monte Carlo Le terme « méthode de Monte-Carlo », ou « méthode Monte-Carlo », désigne toute méthode visant à calculer une valeur numérique en utilisant des procédés aléatoires, c'est-à-dire des techniques probabilistes. Les méthodes de Monte-Carlo sont particulièrement utilisées pour calculer des intégrales en dimensions plus grandes que 1 (en particulier, pour calculer des surfaces et des volumes). Elles sont également couramment utilisées en physique des particules, où des simulations probabilistes permettent d'estimer la forme d'un signal ou la sensibilité d'un détecteur.
4.2 L’ESTIMATION La plupart des expériences aléatoires conduisent à l'étude de variables aléatoires obéissant à des lois dont le type est connu, mais qui dépendent de paramètres réels liés à l'expérience. Ce paragraphe a pour objectif de donner un cadre théorique et des méthodes afin d'estimer la valeur numérique de ces paramètres.
4.2.1 Estimateur, définitions Si X est une variable aléatoire dont la loi dépend d'un paramètre θ, et (X1, X2,…, Xn) un n-échantillon, une statistique Tn, fonction de (X1, X2,…, Xn) est :
- un estimateur si elle permet d’évaluer le paramètre θ - un estimateur sans biais de θ si E(Tn)= θ - un estimateur asymptotiquement sans biais de θ si
€
limn→+∞
E(Tn ) = θ - un estimateur convergent de θ si
€
n→+∞lim V (Tn )=0
Un estimateur Tn est meilleur (plus efficace) que l'estimateur T'n si pour tout n entier naturel assez grand, V(Tn) ≤ V(T'n). La recherche d’un « bon » estimateur pour un paramètre n’est pas chose facile. On peut être amené à chercher un estimateur sans biais de variance minimale, ce qui est très lié à l’existence de « statistiques exhaustives », notion que nous n’aborderons pas dans ce cours.
Chapitre 4 9
4.2.2 Exemples élémentaires d’estimateurs En reprenant les résultats du paragraphe 4.1, on a les résultats :
-
€
X n est un estimateur sans biais et convergent de m -
€
Sn2 est un estimateur, avec un biais, et convergent de
€
σ2
Un estimateur sans biais de
€
σ2 est
€
Sn*2 =
nn −1
Sn2
-
€
Fn est un estimateur sans biais et convergent de p
4.2.3 Application : estimation ponctuelle Il s’agit de donner une estimation ponctuelle, par une valeur numérique, d’un paramètre d’une loi à partir d’un échantillon. Ce type de situation se rencontre fréquemment dans le monde industriel car, le plus souvent, il n’est pas possible d’étudier la population entière : cela prendrait trop de temps, reviendrait trop cher ou serait aberrant comme, par exemple, dans le cas d’un contrôle de qualité entrainant la destruction des pièces. De manière générale, on donne une estimation ponctuelle d’un paramètre, par la valeur d’un estimateur de ce paramètre calculée à partir d’un échantillon prélévé « au hasard »
€
x1,x2,,xn . Il est d’usage de noter l’estimation ponctuelle par la lettre surmontée d’un « ^ ». Estimations ponctuelles usuelles : Si X est une variable aléatoire de moyenne m et d’écart type
€
σ et un échantillon prélévé « au hasard »
€
x1,x2,,xn -
€
x e , la moyenne de l’échantillon est une estimation ponctuelle de la moyenne inconnue m. Soit
€
ˆ m = x e
-
€
nn −1
σe (où
€
σeest l’écart-type de l’échantillon) est une estimation ponctuelle de
l’écart type
€
σ. Soit
€
ˆ σ =n
n −1σe .
Chapitre 4 10
Remarques :
- certaines calculatrices donnent, pour un échantillon, les deux résultats
€
σe et
€
nn −1
σe il faut donc bien lire la notice. L’estimation de l’écart-type est la
plus grande des deux valeurs.
- si n est assez grand,
€
nn −1
est proche de 1, les deux valeurs sont proches et
parfois
€
σe est acceptée comme estimation ponctuelle de l’écart-type. Si X est une variable aléatoire Bernoulli
€
B(1, p) ,
€
fe la fréquence sur l’échantillon est une estimation ponctuelle de p. Soit
€
ˆ p = fe
4.2.4 Estimation par intervalle de confiance Les estimations ponctuelles dépendent donc de l’échantillon. Pour un paramètre
€
θ , il est souvent plus réaliste et plus intéressant de fournir un renseignement du type
€
a < θ < b plutôt que d’écrire
€
ˆ θ = c . 4.2.4.1 Principe La méthode des intervalles de confiance est la suivante : Soit T un estimateur de
€
θ , on prendra le meilleur estimateur possible, dont on connaît la loi de probabilité pour chaque valeur de
€
θ . Etant donné une valeur
€
θ0 de
€
θ , on peut déterminer un intervalle de fluctuation de niveau 1-
€
α (ou de risque
€
α ) pour T, c’est à dire deux bornes
€
t1 et
€
t2 telles que :
€
P(t1 < T < t2θ = θ0) =1−α En général
€
α est petit, donc 1-
€
α proche de 1. Ces bornes dépendent évidemment de
€
θ0 . On choisira dans la plupart des cas un intervalle de fluctuation à risques symétriques
€
α /2 et
€
α /2, c’est à dire :
€
P(T < t1θ = θ0) = α /2 et
€
P(t2 < Tθ = θ0) = α /2 On adopte alors la règle de décision suivante : soit
€
te la valeur observée sur un échantillon de T : - si
€
te ∈ t1,t2[ ] on conserve
€
θ0 comme valeur possible de
€
θ - si
€
te ∉ t1,t2[ ] on élimine
€
θ0
Chapitre 4 11
On lit donc selon une verticale les intervalles de fluctuation pour une valeur
€
θ0 et, selon l’horizontale issue de t, l’intervalle de confiance pour le paramètre
€
θ . On dit que
€
a,b[ ] est un intervalle de confiance de niveau 1-
€
α (qu’on appelle coefficient de confiance), on dit aussi qu’on prend le risque
€
α , c’est « le risque » d’avoir tort.
-
€
a,b[ ] est un intervalle aléatoire qui dépend de
€
te .
- a et b s’obtiennent par :
€
a = t2−1(te )
b = t1−1(te )
⎧ ⎨ ⎩
Remarques : - si l’on augmente 1-
€
α , on augmente la longueur de l’intervalle de fluctuation, les courbes s’écartent. - si n augmente, comme T est supposé convergent, V(T) diminue, donc
€
t1,t2[ ] diminue et les courbes se rapprochent de la première bissectrice. 4.2.4.2 Intervalle de confiance pour la moyenne d’une loi normale
€
N(m,σ) m est donc le paramètre à estimer par un intervalle de confiance. A.
€
σ est connu
€
X n est le meilleur estimateur de m et
€
X n suit une loi
€
N(m, σn)
Chapitre 4 12
L’intervalle de fluctuation symétrique de
€
X n à
€
1−α est :
€
m − uα / 2σn
< X n < m + uα / 2σn
d’où l’intervalle de confiance :
€
x e − uα / 2σn
< m < x e + uα / 2σn
La valeur de
€
uα / 2 est lue sur la table des quantiles de la loi normale centrée réduite, c’est le quantile d’ordre
€
α /2. Par exemple pour un intervalle de confiance de niveau 95%,
€
α= 5%,
€
u0,025=1,96 Exemple : Dans un contrôle qualité, on prélève au hasard 36 pièces sur la production journalière de 500. On s’intéresse à la masse des pièces. On suppose (modélise) que la masse suit une loi normale
€
N(m,σ), et on suppose que l’écart-type de la production est connu et égal à 12,5g. On mesure la masse de ces 36 pièces, on trouve comme masse moyenne :
€
x e = 774,7g On en déduit les estimations de m :
- estimation ponctuelle :
€
ˆ m =774,7g - estimation par intervalle de confiance de niveau 95% :
€
770,6 ; 778,8[ ]
obtenu par
€
774,7 −1,96 12,536
< m < 774,7 +1,96 12,536
B.
€
σ est inconnu
On utilise le fait que
€
Tn−1 =X n −m
Sn
n −1
suit une loi de Student à (n-1) degrés
de liberté.
L’intervalle symétrique de fluctuation pour
€
Tn−1 est :
€
−tα / 2 <X n −m
Sn
n −1 < tα / 2
D’où l’intervalle de confiance :
€
x e − tα / 2σe
n −1< m < x e + tα / 2
σe
n −1
ou bien
€
x e − tα / 2
ˆ σ n
< m < x e + tα / 2
ˆ σ n
La valeur de
€
tα / 2 est lue sur la table de distribution de T (Loi de Student), c’est le quantile d’ordre
€
α /2.
Chapitre 4 13
Par exemple pour un intervalle de confiance de niveau 95%,
€
α= 5%, Pour n= 20
€
t0,025=2,086, pour n=30
€
t0,025=2,042 , pour n=120
€
t0,025=1,98 Exemple : On reprend l’exemple précédent du contrôle qualité. On prélève dans une production journalière de 500 pièces un échantillon au hasard de 36 pièces. On s’intéresse à la masse des pièces. On suppose (modélise) que la masse suit une loi normale
€
N(m,σ). Sur l’échantillon on obtient :
€
x e = 774,7g et
€
σe= 12,5g On en déduit les estimations de m :
- estimation ponctuelle :
€
ˆ m =774,7g - estimation par intervalle de confiance de niveau 95% :
€
770,4 ; 779,0[ ]
intervalle obtenu par :
€
774,7 − 2,0312,535
< m < 774,7 + 2,0312,535
En pratique, ces résultats sont très souvent utilisés Le théorème central-limite a pour conséquence que les intervalles précédents sont valables pour estimer m d’une loi quelconque si n est assez grand. On a aussi, pour n assez grand,
€
uα / 2 ≈ tα / 2
Chapitre 4 14
4.2.4.3 Intervalle de confiance pour la variance
€
σ2 d’une loi normale
€
σ2 est donc le paramètre à estimer par un intervalle de confiance. A. m est connu
On utilise l’estimateur
€
V =1n
Xi −m( )2i=1
i=n
∑ qui est le meilleur estimateur de
€
σ2 et
€
nVσ2
suit une loi
€
χn2 comme somme de n carrés de
€
N(0;1) indépendantes.
Soit
€
k1et
€
k2 les bornes d’un intervalle de fluctuation d’un
€
χn2 au niveau
€
1−α
C’est à dire
€
P(k1 <nVσ2
< k2) =1−α .
Ce graphique reprend la forme générale de la densité d’une loi du Khi-deux Remarque : le couple (
€
k1,
€
k2) n’est pas unique. Fréquemment on choisit ces valeurs en répartissant le risque
€
α de façon symétrique
€
P(nVσ2
< k1) = P(k2 <nVσ2) =
α2
En notant
€
ve la variance de l’échantillon :
L’intervalle de confiance est :
€
nvek2
<σ2 <nvek1
Chapitre 4 15
B. m est inconnu
On utilise
€
Sn2 =
1n
Xi − X n( )2i=1
i=n
∑ et on sait que
€
nSn2
σ2 suit une loi
€
χn−12 .
Soit
€
l1et
€
l2 les bornes d’un intervalle de fluctuation d’un
€
χn−12 au niveau
€
1−α
C’est à dire
€
P(l1 <nSn
2
σ2< l2) =1−α
L’intervalle de confiance est :
€
nvel2
<σ2 <nvel1
Exemple : n=30 ;
€
Se2=12 ;
€
1−α=0,90 ; on choisit l’intervalle de probabilité 90% avec les bornes
€
l1 =17,708 ;
€
l2 = 42,557 , cela donne
€
8,46 <σ2 < 20,33 d’où :
€
2,91 <σ < 4,51. Remarques : ces résultats ne sont valables QUE pour des lois normales. 4.2.4.4 Intervalle de confiance pour le paramètre d’une loi binomiale quand n est grand C’est le problème connu sous le nom d’un intervalle de confiance pour une proportion p inconnue. Etant donnée une population infinie (ou finie si tirage avec remise) où une proportion p des individus possède un certain caractère, il s’agit de trouver un intervalle de confiance à partir de
€
fe , proportion trouvée dans un échantillon de taille n. On sait que
€
n × f suit une loi binomiale B(n,p) ; si n est « petit » on utilisera des tables de loi binomiale ou l’abaque.
Et si n est « grand »,
€
Fn suit approximativement la loi
€
N p; p(1− p)n
⎛
⎝ ⎜
⎞
⎠ ⎟
L’intervalle de fluctuation symétrique est :
€
p − uα / 2p(1− p)n
< Fn < p + uα / 2p(1− p)n
Les bonnes de l’intervalle de fluctuation sont donnés par
€
y = p ± uα / 2p(1− p)n
.
Soit
€
y − p( )2 = (uα / 2)2 p(1− p)
n, ce qui est l’équation d’une ellipse passant par
l’origine, et le point (1,1) pour lesquels les tangentes sont verticales.
Chapitre 4 16
Remarque : les parties de l’ellipse extérieure au carré unité sont sans signification; elles correspondent aux zones où l’approximation normale n’est pas pertinente. Etant donnée une valeur
€
fe observée, l’intervalle de confiance s’obtient en
résolvant l’équation en p :
€
fe − p( )2 = (uα / 2)2 p(1− p)
n
Après calculs et approximation par un développement limité en 1/n, on obtient
€
p1et
€
p2 et, donc, l’intervalle de confiance :
€
fe − uα / 2fe (1− fe )
n< p < fe + uα / 2
fe (1− fe )n
Exemple : n=400 ;
€
fe=0,36 ;
€
1−α=0,95 : on a 0,31<p<0,41. 4.2.4.4 Méthode pratique de constitution d’échantillons Pour un sondage, la manière de prélever ou de constituer l’échantillon d’individus à observer est d’importance, il existe plusieurs méthodes classiques pour cela : la méthode des quotas (ou sondage raisonné), la méthode des unités types, le sondage stratifié, sondage à probabilités inégales, etc.
Chapitre 4 17
4.3 TESTS STATISTIQUES
4.3.1 Tests paramétriques 4.3.1.1 Principe La variable aléatoire X dépend d’un paramètre
€
θ . Construire un test revient à déterminer un mécanisme décisionnel, qui au vu d’un échantillon, permet de prendre une décision sur les valeurs possibles de
€
θ . En pratique, cela revient à choisir entre deux hypothèses sur
€
θ : la première hypothèse
€
H0 , appelée hypothèse nulle, et une autre hypothèse,
€
H1, appelée hypothèse alternative. Souvent l’hypothèse nulle correspond à une égalité du paramètre
€
θ à une valeur donnée, on dit que
€
H0 est « simple ». Dans ce cas, la plupart des tests paramétriques peuvent se ramener à un test du type, où
€
θ0 ≠θ1 :
€
H0 θ = θ0H1 θ = θ1
⎧ ⎨ ⎩
ou
€
H0 θ = θ0H1 θ ≠ θ0
⎧ ⎨ ⎩
ou
€
H0 θ = θ0H1 θ > θ0
⎧ ⎨ ⎩
ou
€
H0 θ = θ0H1 θ < θ0
⎧ ⎨ ⎩
Ce polycopié restera dans ce cadre. Les hypothèses
€
H0 et
€
H1 ne sont pas symétriques, le choix de l’hypothèse nulle est celui qui construit le test, l’hypothèse alternative permet de construire la règle de décision. 4.3.1.2 Procédure de décision Accepter
€
H0 , l’hypothèse nulle, revient automatiquement à refuser
€
H1 l’hypothèse alternative, et réciproquement, refuser
€
H0 entraîne automatiquement l’acceptation de
€
H1. Il y a donc un risque de se tromper de décision. On synthétise le problème par un tableau de probabilités. vérité décision
€
H0
€
H1
€
H0 1-
€
α
€
β
€
H1
€
α 1-
€
β C’est à dire
€
P(choisir H0 /H0 vraie) =1−α
€
P(rejeter H0 /H0 vraie) =α Dans la pratique, on choisit
€
α , les valeurs courantes sont 10%, 5%, 1%.
Chapitre 4 18
€
α étant fixé,
€
β sera déterminé comme résultat d’un calcul (mais ceci n’est possible que si on connaît les lois de probabilités sous
€
H1).
€
α et
€
β varient en sens contraire. Si on diminue
€
α , on augmente 1-
€
α (probabilité d’accepter
€
H0 si
€
H0 est vraie) mais ainsi on a une règle de décision plus stricte qui aboutit à n’abandonner
€
H0 que dans des cas rarissimes, donc peut-être à conserver
€
H0 à tort. Vocabulaire :
-
€
α s’appelle le niveau du test c’est aussi le risque de première espèce : probabilité de choisir
€
H1 alors que
€
H0est vraie -
€
β s’appelle le risque de deuxième espèce : probabilité de choisir
€
H0 alors que
€
H1 est vraie - 1-
€
β s’appelle la puissance du test, c’est la probabilité de choisir
€
H1 alors que
€
H1 est vraie.
- La région critique W est l’ensemble des valeurs de la variable de décision qui conduisent à écarter
€
H0 au profit de
€
H1. La forme de la région critique est déterminée par la nature de
€
H1, sa détermination exacte se fait en écrivant :
€
P(W /H0) = α La région d’acceptation est son complémentaire
€
W , et l’on a donc :
€
P(W /H0) =1−α et
€
P(W /H1) =1− β La construction d’un test n’est rien d’autre que la détermination de la région critique, sans connaître le résultat de l’expérience, donc a priori. En résumé, la construction d’un test revient à : 1. Choix de
€
H0 et de
€
H1 2. Détermination de la variable de décision 3. Allure de la région critique en fonction de
€
H1. 4. Calcul de la région critique en fonction de
€
α 5. Calcul éventuel de la puissance 1-
€
β 6. Calcul de la valeur expérimentale de la variable de décision 7. Conclusion : si la valeur expérimentale est dans la région critique, on rejette
€
H0 . Dans le cas contraire, on accepte
€
H0 , « faute de mieux » 4.3.1.2 Test de la moyenne m d’une loi
€
N(m,σ)
- cas où
€
σ est connu,
Le test repose sur la variable de décision
€
X n qui suit une loi
€
N(m, σn)
Pour
€
H0 m = m0
H1 m = m1
⎧ ⎨ ⎩
avec
€
m1 > m0 , la région critique est définie par
€
X n >k.
Chapitre 4 19
€
P(X n > k /H0) = P U >k −m0σn
⎛
⎝
⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟
= α
où
€
U =X n −m0
σn
suit une loi normale centrée réduite.
Exemple : On veut tester
€
H0 m = 600H1 m = 650⎧ ⎨ ⎩
, et on sait que
€
σ=100
On a un échantillon de 9 mesures, on choisit le risque de 5%.
On calcule
€
k = 600 +1003.1,64 = 655 .
La règle de décision est donc la suivante : - Si la valeur moyenne trouvée sur l’échantillon est supérieure à 655, on refuse
€
H0 , et donc on accepte
€
H1 - Si la valeur moyenne trouvée sur l’échantillon est inférieure à 655, on accepte
€
H0 Une fois établie la règle de décision, on calcule la moyenne sur l’échantillon. Elle est de 610,2 : donc on accepte
€
H0 . Remarque : ici
€
β = 0,56, ce qui est considérable. Le test n’est pas puissant.
- cas où
€
σ est inconnu
Le test repose sur la variable de décision
€
Tn−1 =X n −m
Sn
n −1
qui suit une loi de
Student à (n-1) degrés de liberté.
Pour
€
H0 m = m0
H1 m ≠ m0
⎧ ⎨ ⎩
, la région critique est définie par
€
Tn−1 > k avec
€
P "Tn−1 > k"/"m = m0"( ) = α exemple :
€
H0 :m = 30 contre
€
H1 :m ≠ 30 Un échantillon de 15 observations a donné
€
x e = 37,2 et
€
σ e = 6,2 C’est un test bilatéral car on s’occupe de la valeur absolue, et la variable considérée suit une loi de Student. La valeur critique à
€
α=5% pour un test bilatéral d’un
€
T14 est 2,145
On calcule la valeur
€
t =37,2 − 306,2
14 = 4,35 .
Conclusion : on rejette
€
H0 , donc on accepte
€
H1. Pour les tests de moyenne, si la variable parente ne suit pas une loi normale, les tests précédents s’appliquent encore dès que n est assez grand (n>30 en général) en raison du théorème central-limite.
Chapitre 4 20
Dans les deux exemples ci dessus, on a mis en place : - un test bilatéral pour
€
H1 :θ ≠ θ0 , la région critique correspond à
€
θ −θ0 significativement non nul, - un test unilatéral pour
€
H1 :θ > θ0 (respectivement
€
H1 :θ < θ0), si la région critique correspond à (
€
θ −θ0 ) significativement positif (respectivement négatif). Le cas
€
H1 :θ = θ1 se traite avec un test unilatéral suivant la position de
€
θ0 et
€
θ1. On peut dans ce cas faire le calcul de la puissance du test. 4.3.1.3 Test de la variance d’une loi
€
N(m,σ)
- cas où m est connu (cas peu fréquent)
La variable de décision est
€
V =1n
Xi −m( )2i=1
i=n
∑ .
Ainsi pour
€
H0 σ =σ0H1 σ =σ1
⎧ ⎨ ⎩
, avec
€
σ1 >σ0 la région critique est définie par
€
V =1n
Xi −m( )2i=1
i=n
∑ > k et k est déterminé en considérant que
€
nVσ2
suit une loi
€
χn2 .
€
P(V > k) = P χn2 >
nkσ 02
⎛
⎝ ⎜
⎞
⎠ ⎟ = α
- cas où m est inconnu (cas usuel)
La variable de décision est
€
Sn2 =
1n
Xi − X n( )2i=1
i=n
∑ et on sait que
€
nSn2
σ2 suit une loi
€
χn−12 .
-
Ainsi pour
€
H0 σ =σ0H1 σ =σ1
⎧ ⎨ ⎩
, avec
€
σ1 >σ0 la région critique est définie par
€
Sn2 > k et k est déterminé en considérant que
€
nSn2
σ2 suit une loi
€
χn−12 .
-
€
P(Sn2 > k) = P χn−1
2 >nkσ 02
⎛
⎝ ⎜
⎞
⎠ ⎟ = α
Exemple : On teste
€
σ0 = 3, avec 20 observations, on a trouvé
€
se = 3,5 , on choisit de faire un test au risque 5%
La valeur critique est d’un
€
χ192 pour 5% est 30,144 d’où
€
k =30,144.32
20=13,56
On a
€
se2 = 3,52 =12,25. On accepte donc
€
H0 Important : ces résultats ne sont valables QUE pour des lois normales. Ces tests utilisent la loi du
€
χ2 .
Chapitre 4 21
4.3.1.4 Test de la valeur théorique d’un pourcentage p pour un grand échantillon
La variable de décision est
€
Fn et, pour n est grand,
€
Fn suit la loi
€
N p; p(1− p)n
⎛
⎝ ⎜
⎞
⎠ ⎟
Pour
€
H0 p = p0H1 p ≠ p0
⎧ ⎨ ⎩
, la région critique au risque
€
α est définie par :
€
Fn − p0 > uα / 2p0(1− p0)
n
Soit le complémentaire de
€
p0 − uα / 2p0(1− p0)
n;p0 + uα / 2
p0(1− p0)n
⎡
⎣ ⎢
⎤
⎦ ⎥
Exemple : Pour n=200, on observe une proportion de 45% ayant le caractère observé. On teste
€
p0 = 0,5 au risque de 5%.
La région critique correspond à
€
Fn − 0,5 >1,96 (0,5)2
200= 0,07
Or l’écart entre la valeur observée et la valeur théorique est de 0,05. On accepte donc
€
H0 Si n est trop petit pour une approximation par une loi normale, on utilisera une abaque elliptique (voir en annexe). 4.3.1.5 Tests de comparaison de deux échantillons gaussiens. On a deux échantillons de taille
€
n1 et
€
n2 , on veut tester si on peut admettre qu’ils viennent d’une même population relativement au caractère étudié, ces deux échantillons ayant été prélevés indépendamment l’un de l’autre. Dans ce polycopié, on ne considère que le cas où le caractère étudié peut être modélisé par une loi normale. Par exemple : taux de cholestérol de deux groupes de personnes ayant pris deux médicaments différents, taux en dioxine des résidus urbains après deux types de traitement, etc On formalise le problème de la manière suivante :
€
X1 suit la loi
€
N(m1,σ1) et
€
X2 suit la loi
€
N(m2,σ2) On veut tester
€
H0 :m1 = m2 et σ1 =σ2 contre
€
H1 :m1 ≠ m2 ou σ1 ≠σ2 Le test va considérer d’abord l’égalité des variances et, si elles ne sont pas significativement différentes, à tester ensuite les espérances en admettant
€
σ1 =σ2 . A- Test des variances par le test de Fisher-Snedecor En utilisant les résultats de la théorie de l’échantillonnage :
Chapitre 4 22
€
n1S1,n12
σ12 suit une loi
€
χn1 −12 et
€
n2S2,n22
σ22 suit une loi
€
χn2 −12 .
Dans l’hypothèse
€
H0 :σ1 =σ2, on a (on l’admet) :
€
F =
n1S1,n12
n1 −1n2S2,n2
2
n2 −1
suit une loi de Fisher-Snedecor de paramètres
€
(n1 −1,n2 −1) ,
usuellement notée
€
F(n1 −1,n2 −1) On peut interpréter F comme le rapport de deux estimateurs de
€
σ12 et
€
σ22
respectivement. Si
€
σ1 =σ2, ce rapport ne doit pas différer significativement de 1. F sera la variable de décision. En pratique, on met toujours au numérateur la plus
grande des deux quantités :
€
n1S1,n12
n1 −1 et
€
n2S2,n22
n2 −1 et la région critique est de la forme
F>k avec k>1. Si les deux échantillons ont même taille
€
n = n1 = n2 , le calcul se simplifie
€
F =S1,n2
S2,n2 .
Si le test de Fisher-Snedecor aboutit à la conclusion
€
σ1 =σ2 , on passe au test des moyennes. Exemple :
€
n1 = 25; n2 =13; s12 = 0,05; s2
2 = 0,07; α = 0,05
Il faut permuter les indices 1 et 2 car
€
13 × 0,0712
>25 × 0,0524
La région critique pour une loi de Fisher-Snedecor
€
F(12;24)au risque 5% est F>2,18. Ici, la valeur est de 0,68, on accepte l’hypothèse
€
σ1 =σ2 . B- Test des moyennes par le test de Student Supposons désormais
€
σ1 =σ2 =σ . On sait :
€
X 1,n1 suit une loi
€
N(m1,σn1)
€
n1S1,n12
σ2 suit une loi
€
χn1 −12
et
€
X 2,n2 suit une loi
€
N(m2,σn2)
€
n2S2,n22
σ2 suit une loi
€
χn2 −12 .
Comme les lois sont indépendantes,
€
n1S1,n12 + n2S2,n2
2
σ2 suit une loi
€
χn1 +n2 −22 et
€
X 1,n1 − X 2,n2 suit une loi
€
N m1 −m2,σ1n1
+1n2
⎛
⎝ ⎜
⎞
⎠ ⎟
Chapitre 4 23
€
σ étant inconnu, on utilise la loi de Student. On sait que :
€
T =
(X 1,n1 − X 2,n2 ) − (m1 −m2)
σ1n1
+1n2
n1S1,n12 + n2S2,n2
2
σ2(n1 + n2 − 2)
suit une loi
€
Tn1 +n2 −2
Ce qui, en éliminant
€
σ, se ramène à :
€
T =(X 1,n1 − X 2,n2 ) − (m1 −m2)
(n1S1,n12 + n2S2,n2
2 ) 1n1
+1n2
⎛
⎝ ⎜
⎞
⎠ ⎟
n1 + n2 − 2 suit une loi
€
Tn1 +n2 −2
Dans l’hypothèse
€
H0 :m1 = m2 et la région critique est de la forme
€
T > k . Exemple : on reprend l’exemple précédent
€
n1 = 25; n2 =13; x 1 = 2,7; x 2 = 2,8; s12 = 0,05; s2
2 = 0,07; α = 0,05 , L’hypothèse d’égalité des variances a déjà été acceptée. La valeur calculée de la variable de décision T vaut environ -3,5. La valeur critique pour
€
T36 au risque 5 % est de 2,03 On rejette donc l’hypotèse nulle : les échantillons sont significativement différents, dans leur moyenne en l’occurrence. Remarque : l’ordre des tests (test des variances, et, si égalité acceptée, test des moyennes) est indispensable, l’égalité des variances est nécessaire à l’utilisation d’une loi de Student. Si les échantillons sont non gaussiens, le test de variance n’est plus valable, mais on a un résultat capital, qui peut tester l’égalité des moyennes. Pour
€
n1 et
€
n2 assez grands, on peut quand même tester les moyennes en appliquant la formule de Student que
€
s1 soit différent ou non de
€
s2 . On dit que le test de Student est « robuste » car il résiste bien à un changement de la loi de
€
X1 et
€
X2. 4.3.1.6 Test de comparaison de deux pourcentages (grands échantillons). Dans deux échantillons de grande taille
€
n1 et
€
n2 , on relève les pourcentages
€
f1 et
€
f2 d’individus présentant un certain caractère. Soit
€
p1 et
€
p2 les probabilités correspondantes : il s’agit de savoir si
€
p1et
€
p2 sont significativement différents ou non.
On teste donc
€
H0 p1 = p2 = pH1 p1 ≠ p2
⎧ ⎨ ⎩
.
Chapitre 4 24
Si
€
H0 est vraie,
€
f1 et
€
f2 sont deux réalisations indépendantes de deux variables
€
F1 et
€
F2 qui suivent des lois normales.
€
F1 suit la loi
€
N p; p(1− p)n1
⎛
⎝ ⎜
⎞
⎠ ⎟
€
F2 suit la loi
€
N p; p(1− p)n2
⎛
⎝ ⎜
⎞
⎠ ⎟
Donc
€
F1 − F2 suit la loi N p; p(1− p) 1n1
+1n2
⎛
⎝ ⎜
⎞
⎠ ⎟
On rejettera
€
H0 , si,
€
f1 − f2 > uα / 2 p(1− p) 1n1
+1n2
Si p n’est pas connu, on le remplace par son estimation :
€
ˆ p = n1p1 + n2 p2
n1 + n2
Exemple : échantillon A :
€
nA = 96 ;
€
fA = 0,18 échantillon B :
€
nB = 60 ;
€
fB = 0,25 test au niveau 10 %
€
ˆ p = 0,21 et
€
f1 − f2
ˆ p (1− ˆ p ) 1n1
+1n2
= 0,89 <1,68
On ne peut donc rejeter
€
H0 4.3.1.7 Test de comparaison de moyennes de deux échantillons appariés. Un même échantillon d’individus est soumis à deux mesures successives d’un même caractère. Exemples : copies soumises à une double correction, passage du même test d’aptitude à deux instants différents d’un cursus de formation (problème de l’apprentissage) On veut tester l’hypothèse
€
H0 que les deux séries de valeurs sont semblables. Soit
€
X1 (respectivement
€
X2) la variable correspondant à la première (respectivement deuxième) série. On va tester
€
E(X1) = E(X2) en formalisant le problème de la manière suivante :
€
X1 − X2 suit la loi N(m1 −m2,σ) Cela sous-entend que
€
(X1,X2) est un vecteur gaussien (toute combinaison linéaire de composantes suit une loi normale, voir chapitre 3) Le test de
€
H0 :m1 = m2 contre
€
H1 :m1 ≠ m2 consiste à former les différences
€
di = xi,1 − xi,2 et à faire un test de Student sur la moyenne des
€
di car
€
σ est en général inconnu :
Chapitre 4 25
€
D =d Sd
n −1 =X 1,n − X 2,n
Sd
n −1 suit une loi
€
Tn−1
On rejettera
€
H0 si
€
d > k . La différence avec le test de Student d’égalité de deux moyennes étudié au paragraphe 4.3.1.5 provient du fait que les variables
€
X1 et
€
X2 ne peuvent être supposées indépendantes.
4.3.2 Tests d’ajsutement et tests d’indépendance utilisant la loi du Khi-deux
4.3.2.1 Tests d’ajustement Ces tests ont pour but de vérifier qu’un échantillon provient ou non d’une variable aléatoire de distribution connue. On note F la fonction de répartition de la variable échantillonnée et
€
F0 la fonction de répartition à laquelle on veut la comparer. Il s’agit de tester
€
H0 :F = F0 contre
€
H1 :F ≠ F0 Avant de faire un test, il est obligatoire de faire quelques vérifications simples :
- allure de l’histogramme (symétrie, etc) - relation connue entre les paramètres (par exemple : moyenne=variance pour une loi de Poisson)
- ajustement graphique : la fonction de répartition empirique pour un échantillon de grande taille doit peu différer de la fonction de répartion théorique. Avec un papier adapté au modèle testé, cela peut se faire graphiquement. Par exemple : loi exponentielle et papier semi-logarithmique, droite de Henry pour une loi normale, etc.
Test du Khi-deux Soit X une variable aléatoire discrète ou discrétisée, c’est à dire divisée en k classes de probabilités théoriques
€
p1, p2,, pk . Soit un N-échantillon empirique de cette variable X, et
€
n1,n2,,nk les effectifs observés dans ces k classes. Cela correspond à un tableau du type : - cas discret
X Effectif observé
Probabilité théorique Effectif théorique
€
x1
€
n1
€
P(X = x1) =
€
p1
€
Np1
€
€
€
€
€
xi
€
ni
€
P(X = xi) =
€
pi
€
Npi
€
€
€
€
€
xk
€
nk
€
P(X = xk ) =
€
pk
€
Npk total N 1 N
Chapitre 4 26
- cas continu discrétisé X Effectif
observé Probabilité théorique Effectif
théorique
€
x1,x2] ]
€
n1
€
P(x1 < X < x2) =
€
p1
€
Np1
€
€
€
€
€
xi,xi+1] ]
€
ni
€
P(xi < X < xi+1) =
€
pi
€
Npi
€
€
€
€
€
xk,xk+1] ]
€
nk
€
P(xk < X < xk+1) =
€
pk
€
Npk total N 1 N
On considère
€
DN2 définie par :
€
DN2 =
(ni − Npi)2
Npii=1
i=k
∑
€
DN2 =
(effectifs observés − effectifs théoriques)2
effectifs théoriquesi∑
€
DN2 une « distance » entre les effectifs théoriques et les effectifs observés.
Si
€
H0est vraie, on s’attend, intuitivement, à ce que cette distance soit faible.
€
DN2 dépend de la somme de k termes, mais ils ne sont pas indépendants il suffit
d’en connaître k-1 car
€
ni = Ni=1
i=k
∑ .
On a un résultat théorique très important, non montré dans ce polycopié : Théorème Si
€
N →+∞ ,
€
DN2 est asymptotiquement distribué comme une variable du
€
χk−12 et
ceci quelle que soit la loi de X.
D’où le test du Khi-deux : on rejettera
€
H0 si
€
d2 =(ni − Npi)
2
Npii=1
i=k
∑ est trop grand,
c’est à dire supérieur à q, avec
€
P(χk−12 > q) = α , pour un risque
€
α . Conditions d’utilisation du test :
- Pour que la distance
€
DN2 converge vers une loi du Khi-deux, lorsque
l’hypothèse
€
H0est vérifiée, il est nécessaire que le nombre d’observations
€
ni dans chaque classe soit supérieur à 5. Si ce n’est pas le cas pour une classe, il est nécessaire de réunir cette classe avec une classe adjacente.
- Si lors de la détermination de la loi théorique, il a été nécessaire d’estimer l paramètres, alors le nombre de degrés de liberté du Khi-deux doit être diminué de l. On a donc
€
P(χk− l−12 > q) = α
Chapitre 4 27
Exemple : Dans un atelier de réparation automobile, on relève sur une période de 100 jours le nombre journalier d’accidents du travail. k= nombre d’accidents dans la journée 0 1 2 3 4 5 6
€
nk= nombre de jours concernés 14 26 27 19 8 5 1 Les données de l’échantillon donnent :
€
x e =2 et
€
σe
€
≈2. On propose de tester l’ajustement à une loi de Poisson de paramètre 2. k= nombre d’accidents
0 1 2 3 4 5 6
€
fk= fréquence observée
0,14 0,26 0,27 0,19 0,08 0,05 0,01
€
pk= fréquence théorique
0,1535 0,2707 0,2707 0,1804 0,0902 0,0361 0,0165
Il faut regrouper les deux dernières valeurs pour que tous les effectifs soient supérieurs à 5. k= nombre d’accidents 0 1 2 3 4 k≥5
€
fk= fréquence observée 0,14 0,26 0,27 0,19 0,08 0,06
€
pk= fréquence théorique 0,1535 0,2707 0,2707 0,1804 0,0902 0,0526 On a estimé la moyenne, on va tester la distance avec la loi du
€
χ42
La lecture de la table donne q=9, 5 au risque 5%. Donc on rejettera
€
H0 si la valeur calculée de
€
d2est supérieure à 9,5
€
d2 =(ni − Npi)
2
Npii=1
i=5
∑
€
≈0,329
Donc on accepte
€
H0 : la distribution observée correspond à une loi de Poisson de paramètre 2 au risque de 5%. Remarque : il existe d’autres tests (Kolmogorov-Smirnov, Cramer-Von Mises) qui peuvent être plus appropriés suivant les cas 4.3.2.1 Tests d’indépendance Pour un couple de variables aléatoires réelles
€
(X,Y ), on possède un tableau du nombre de réalisations, au cours de N expériences identiques indépendantes, pour chaque couple de valeurs
€
(xi,y j ) (ou bien
€
xi,xi+1] ], y j ,y j+1] ]( ) )
Chapitre 4 28
Y X
€
y1
€
€
y j
€
€
yk Total
€
x1
€
€
xi
€
€
nij
€
€
ni.
€
€
xr Total
€
€
n. j
€
N On reprend les notations de statistique descriptive :
-
€
nij est le nombre d’observations pour lesquelles
€
X = xi et
€
Y = y j
- ni•=
€
nijj∑ est le nombre d’observations pour les quelles
€
X = xi
- n•j=
€
niji∑ est le nombre d’observations pour les quelles
€
Y = y j
La question qui est posée est la suivante : Au vu de l’échantillon, peut-on considérer que les deux variables X et Y sont indépendantes ? On va tester
€
H0 : X et Y sont indépendantes contre
€
H1 : X et Y ne sont pas indépendantes. Si les deux variables sont indépendantes, alors la loi du couple est
€
pij = P(X = xi et Y = y j ) = P(X = xi).P(Y = y j ) Les probabilités
€
pij sont inconnues, on les estime de la manière suivante : On reprend les notations de statistique descriptive :
-
€
fij =nijN est la fréquence conjointe de la modalité (xi,yj)
- fi•=
€
fijj∑ est la fréquence de la valeur xi
- f•j=
€
fiji∑ est la fréquence de la valeur yj
On fait les estimations ponctuelles :
€
ˆ p i. = f i. ,
€
ˆ p . j = f. j et
€
ˆ p ij = ˆ p i. × ˆ p j. Le nombre théorique, si il y a indépendance, d’observations de la modalité (xi,yj) pour le couple (X,Y) est alors :
€
N × ˆ p ij Comme dans un test d’ajustement, on construit la « distance du Khi-deux » entre la loi théorique et la loi empirique observée par la quantité suivante :
Chapitre 4 29
€
DN2 =
(effectifs observés − effectifs théoriques)2
effectifs théoriquesi∑
€
DN2 =
nij − Nˆ p ij( )2
Nˆ p ijj =1
k
∑i=1
r
∑
Sous
€
H0 ,
€
DN2 suit a priori une loi du Khi-deux
€
χrk−12 car le couple est observé selon
rk modalités. Mais on a estimé des paramètres, donc il faut diminuer le nombre de degrés de liberté. On a fait :
- (r-1) estimations de
€
ˆ p i. car la r-ième est donnée par la contrainte
€
ˆ p i.i∑ =1
- (k-1) de
€
ˆ p . j car la k-ième est donnée par la contrainte
€
ˆ p . jj∑ =1.
Lors de la mise en place du test d’adéquation, il faut donc diminuer le nombre de degrés de liberté du
€
χ2 de
€
(r −1) + (k −1) . Le nombre de degrés de liberté est donc
€
rk −1− (r −1) − (k −1) = (r −1)(k −1). La table du
€
χ(r−1)(k−1)2 permet de déterminer la constante q tel que
€
P(χ(r−1)(k−1)2 > q) = α et donc de spécifier la région critique du test.
Exemple : Tester au seul de 5%, l’efficacité d’un nouveau vaccin contre la grippe, pour lequel un relevé statistique donne le tableau
vaccinés non vaccinés total ont contracté la grippe 13 26 39 n’ont pas contracté la grippe
107 94 201
total 120 120 240
Quelques éléments de construction du test : - 240 observations, - probabilité théorique d’être vacciné= 120/240=0,5 - probabilité théorique de contracter la grippe = 39/240=0,1625
Tableau « théorique » si indépendance
vaccinés non vaccinés total ont contracté la grippe 19,5 19,5 39 n’ont pas contracté la grippe
100,5 100,5 201
total 120 120 240 La région critique est déterminée par la loi du Khi-deux
€
χ12 .
Au seuil de 5%
€
P(χ12 > q) = 0,05 avec q=3,841
Chapitre 4 30
On calcule la « distance du Khi-deux » entre les valeurs observées et les valeurs théoriques.
€
(13 −19,5)2
19,5+(26 −19,5)2
19,5+(107 −100,5)2
100,5+(94 −100,5)2
100,5= 5,17
5,17>3,841 On rejette
€
H0 : le vaccin est efficace.