Introduction aux tests non-paramétriques L3 EURIA,...
Transcript of Introduction aux tests non-paramétriques L3 EURIA,...
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Introduction aux tests non-paramétriquesL3 EURIA, année 2015-2016
Pierre Ailliot
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Outline
1 Introduction aux tests statistiques
2 Tests du χ2 pour les lois discrètesTest d’adéquation du χ2
Le test d’adéquation du χ2 en pratiqueTest du χ2 d’indépendance de deux variables
3 Test de Kolmogorov-Smirnov pour les lois continues
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Introduction aux tests statistiques
Exemple
Afin de vérifier si un dé est équilibré, on réalise 90 lancers successifs d’un même dé. Lesrésultats sont reportés dans le tableau ci-dessous.
Face 1 2 3 4 5 6
Effectifs 9 16 23 10 13 19
Fréquences 0.10 0.18 0.26 0.11 0.14 0.21
Peut-on conclure à partir de cette expérience que les faces ont des probabilités différentesd’apparaître?
On va construire un test statistique pour choisir entre les deux hypothèses suivantes :
H0 : le dé est équilibré contre H1 : le dé n’est pas équilibré
Si H0 est vraie alors on s’attend à observer approximativement la même proportionde 1, 2,..., 6 mais les résultats vont être différents à chaque lancer
Il est possible d’obtenir le tirage ci-dessus en lançant 90 fois un dé équilibré ou nonéquilibré : on a donc toujours une probabilité de se tromper en choisissant H0 ou H1!
Un test d’hypothèse statistique va permettre de contrôler ces probabilités de setromper
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Introduction aux tests statistiques
On distingue deux erreurs
Risque de première espèce α : probabilité de choisir H1 alors que H0 est vraie.Risque de deuxième espèce β : probabilité de choisir H0 alors que H0 est fausse.
H0 est vrai H0 est fausse
Accepter H0 1 − α βRefuser H0 α 1 − β
En pratique, on fixe α (valeurs courantes : 10%, 5% ou 1%) mais pas β
H0 joue donc un rôle plus important que H1 : le test permet principalement de vérifiersi il y a assez d’information dans l’échantillon pour refuser H0.
H0 est généralement une hypothèse "simple" et H1 une hypothèse "composite"
H0 : l’échantillon suit une loi uniformeH1 : l’échantillon provient d’une autre loi
Le calcul deβ est souvent impossible en pratique
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Outline
1 Introduction aux tests statistiques
2 Tests du χ2 pour les lois discrètesTest d’adéquation du χ2
Le test d’adéquation du χ2 en pratiqueTest du χ2 d’indépendance de deux variables
3 Test de Kolmogorov-Smirnov pour les lois continues
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Test d’adéquation du χ2 : fondements probabilistes
Observations : (x1, ..., xn) à valeurs dans {1, ..., k} (ou dans un ensemble fini)Modélisation : (x1, ..., xn) = (X1(ω), ...,Xn(ω)) réalisation d’une expérience aléatoireavec (X1, ...,Xn) échantillon aléatoire i.i.d.πj = P[Xi = j] la probabilité de tirer la valeur j ∈ {1, ..., k}
An(j) = card{i ∈ {1, ..., n}|Xi = j} =∑n
i=1 1l(Xi = j)
Définition
Si (U1, ...,Up) ∼i.i.d N (0, 1) alors Z = U21+ ...+ U2
p ∼ χ2p .
Proposition
∑kj=1
(An(j)−nπj)2
nπj
L→ χ2
k−1lorsque n → +∞.
Exercice
1 Calculer E [An(j)] et var(An(j)).
2 Ecrire la LGN et le TCL pour la suite Zi = 1l(Xi = j).
3 On suppose dans la suite que k = 2. Montrer que∑k
j=1(An(j)−nπj)
2
nπj=
(An(1)−nπ1)2
nπ1(1−π1).
4 En déduire que la proposition est vraie dans le cas particulier k = 2.
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Le test d’adéquation du χ2.
On veut choisir entre les deux hypothèses suivantes
H0 : ∀j, πj = πj,0 contre H1 : ∃j πj 6= πj,0
πj,0 des valeurs fixées qui décrivent la loi sous H0.
Si H0 est vraie et n "grand" alors
Dn =k
∑
j=1
(
An(j)− nπj,0
)2
nπj,0
= n
k∑
j=1
(
Fn(j)− πj,0
)2
πj,0
≈ χ2k−1
Dn est la "distance du χ2" entre les proportions observés Fn(j) =An(j)
net les
effectifs πj,0 espérés sous H0
PH0(Dn ≤ χ2
p,1−α) ≈ 1 − α avec χ2
p,γ le quantile d’ordre γ de la loi χ2p.
On adopte la règle de décision suivante :
on accepte H0 si Dn ≤ χ2k−1,1−α
on refuse H0 si Dn > χ2k−1,1−α
avec χ2p,γ le quantile d’ordre γ de la loi χ2
p. Pourquoi?
Il est naturel d’accepter H0 si la statistique de test Dn est "petite"
Le risque de première espèce est approximativement α pour n grand car
PH0(Dn > χ2
k−1,1−α) ≈ α
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Un exemple
Exemple
Reprenons l’exemple du dé.Faisons l’application numérique avec les observations (x1, ..., xn). On doit calculer
dn =k
∑
j=1
(
an(j)− nπj,0
)2
nπj,0
≈ χ2k−1
n = 90, k = 6, an(1) = 9,...an(6) = 19, πj,0 = 1/6.
Face (j) 1 2 3 4 5 6 Total
Effectifs observés (an(j)) 9 16 23 10 13 19 90
Effectifs espérés(nπj,0) 15 15 15 15 15 15 90
Contributions ((an(j)−nπj,0)
2
nπj,0) 2.40 0.07 4.27 1.67 0.27 1.07 9.73
Pour α = 5%, on obtient χ2k−1,1−α
= χ25,0.95
= 11.0705.
Conclusion : dn < χ2k−1,1−α
donc on accepte H0.
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Utilisation de R
Sur l’exemple du dé> Nobs=c(9,16,23,10,13,19) #effectifs observés
> p=rep(1,6)/6 #probabilités sous H0
> chisq.test(Nobs,p=p)
Chi-squared test for given probabilities
data: x
X-squared = 9.7333, df = 5, p-value = 0.08315
Degré de signification d’un test (p-value) :
pv = PH0(Dn > dn)
A retenir :
On accepte H0 avec un risque de première espèce α ssi pv > α
Plus la p-value est faible, moins l’hypothèse H0 est réaliste.
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Validité asymptotique
On a supposé que Dn =∑k
j=1(An(j)−nπj,0)
2
nπj,0≈ χ2
k−1
Approximation valable si nπj,0 ≥ 5 pour j ∈ {1, ..., k}
Alternatives si cette condition n’est pas vérifiée :
Regrouper des classesUtiliser une méthode de Monte Carlo (simulate.p.value=TRUE avec R)
Exercice
On a lancé 20 fois un dé et on a obtenu les résultats suivants
4,5,6,2,2,5,6,3,2,6,2,4,3,6,3,6,3,2,2,6.
1 Réaliser le test du χ2 afin de vérifier si le dé est équilibré. Comparer les résultats obtenus en utilisant l’approximation par la loi du χ
2 et
la méthode de Monte Carlo. On pourra utiliser la commande R table pour calculer le tableau d’effectif.
1 Quelle méthode est la plus pertinente sur cet exemple?
2 Relancer plusieurs fois la commande qui permet de faire le test avec la méthode de Monte Carlo : pourquoi le résultat change-t-il
à chaque fois?
2 Simuler N = 1000 fois 20 lancers d’un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente
pour chacune de ces 1000 expériences simulées.
1 Tracer un histogramme de la statistique de test simulée (avec l’option freq=FALSE pour que l’aire soit normalisée) et la densité
de la loi du χ2 (fonction dchisq) sur le même graphique. Discuter.
2 Quel est le quantile empirique à 95% de la statistique de test simulée (on pourra utiliser la fonction quantile)? Comparer à la
statistique de test obtenue sur l’échantillon observé et discuter.
3 Combien de simulations ont une statistique de test supérieure à celle obtenue sur l’échantillon observé? En déduire une
estimation de la p-value du test et comparer aux résultats donnés par la fonction chisq.test.
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Prise en compte de paramètres estimés
On cherche souvent à tester l’adéquation à une loi qui dépend de paramètres inconnus(par exemple une loi de Poisson ou une loi binomiale). Si on estime les paramètres parmaximum de vraisemblance, alors le degré de liberté de la loi asymptotique devientk − l − 1 avec l le nombre de paramètres à estimer (par exemple, l = 1 pour une loi dePoisson).
Exercice
Une société d’assurances a comptabilisé, parmi ses 500 assurés, ceux qui ont déclaré un(ou plusieurs) sinistres au cours d’une année. Les résultats sont présentés dans letableau suivant :
Sinistres déclarés 0 1 2 3 4 5
Nombre d’assurés 171 202 80 36 8 3
1 Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assurésuit une loi de Poisson de paramètre 1?
2 Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assurésuit une loi de Poisson?
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Test d’indépendance
Exemple
On veut savoir si le temps écoulé depuis la vaccination contre une maladie donnée a ounon une influence sur le degré de gravité de la maladie lorsqu’elle apparaît.Pour simplifier, nous ne distinguons que trois degrés de gravité. Parmi les malades, nouscomparons les vaccinés depuis moins de 25 ans et ceux vaccinés depuis plus de 25 ans :
Degr e de gravit e Legere Moyenne Forte Total
vaccin < 25 ans 43 120 324 714vaccin > 25 ans 230 347 510 860
Total 163 554 857 1574
Peut-on conclure qu’il existe une dépendance entre la date de vaccination et le degré degravité de la maladie?
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Test du χ2 d’indépendance
(X1, ...,Xn) à valeurs dans {1, ..., k1} et (Y1, ...,Yn) à valeurs dans {1, ..., k2}
On veut tester
H0 : les 2 variables sont indép. contre H1 : les 2 variables ne sont pas indép.
H0 est vraie ssi ∀(i, j) P[Xl = i,Yl = j] = P[Xl = i]P[Yl = j] .
Si H0 est vrai on doit donc avoir F (i, j) ≈ Fi F′
j
Estimation de la loi jointe : Fn(i, j) =card{l∈{1,...,n}|Xl=i et Yl=j}
n
Estimation des lois marginales: Fn(i) =card{l∈{1,...,n}|Xl=i}
n, F ′
n(j) =card{l∈{1,...,n}|Yl=j}
n
Comment construire une distance entre ces deux quantités? On doit connaître la loisous H0 pour pouvoir contrôler le risque de première espèce.
On peut montrer que si H0 est vraie alors
Dn = n
k1∑
i=1
k2∑
j=1
(Fn(i, j)− Fn(i)F ′n(j))
2
Fn(i)F ′n(j)
≈ χ2(k1−1)(k2−1)
Règle de décision : on accepte H0 ssi Dn ≤ χ2(k1−1)(k2−1),1−α
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Test du χ2 d’indépendance avec R
Exemple
Degr e de gravit e Legere Moyenne Forte Total
vaccin < 25 ans 43 120 324 714vaccin > 25 ans 230 347 510 860
Total 163 554 857 1574
Commandes R :> tab=matrix(c(43,120,324,230,347,510),nrow=2)
> chisq.test(tab)
Pearson’s Chi-squared test
data: tab
X-squared = 70.389, df = 2, p-value = 5.19e-16
Conclusion : on ne peut pas supposer que la date de vaccination et la gravité de lamaladie sont indépendantes!
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Test d’adéquation du χ2
Le test d’adéquation du χ2 en pratique
Test du χ2 d’indépendance de deux variables
Test du χ2 d’indépendance : exercice
Exercice
Une compagnie d’assurance veut savoir si il existe une relation entre l’âge des assurés etla fréquence des sinistres afin de réaliser la tarification d’un groupe d’assuré. Elle disposedes données suivantes :
Nombre de sinistres 0 1 >1
assuré <25 ans 805 230 115assuré entre 25 et 60 ans 2086 391 130
assuré >60 ans 511 182 36
Que peut en conclure la compagnie d’assurance? On réalisera un test du χ2 en utilisantles formules données dans le cours et on vérifiera qu’on obtient la même statistique detest et la même p-value que celles qui sont données par la fonction chisq.test.
Pierre Ailliot Introduction aux tests non-paramétriques
Introduction aux tests statistiques
Tests du χ2 pour les lois discrètes
Test de Kolmogorov-Smirnov pour les lois continues
Outline
1 Introduction aux tests statistiques
2 Tests du χ2 pour les lois discrètesTest d’adéquation du χ2
Le test d’adéquation du χ2 en pratiqueTest du χ2 d’indépendance de deux variables
3 Test de Kolmogorov-Smirnov pour les lois continues
Pierre Ailliot Introduction aux tests non-paramétriques