Introduction aux tests non-paramétriques L3 EURIA,...

Introduction aux tests statistiques

Tests du χ2 pour les lois discrètes

Test de Kolmogorov-Smirnov pour les lois continues

Introduction aux tests non-paramétriquesL3 EURIA, année 2015-2016

Pierre Ailliot

[email protected]

Pierre Ailliot Introduction aux tests non-paramétriques




Outline

1 Introduction aux tests statistiques

2 Tests du χ2 pour les lois discrètesTest d’adéquation du χ2

Le test d’adéquation du χ2 en pratiqueTest du χ2 d’indépendance de deux variables

3 Test de Kolmogorov-Smirnov pour les lois continues






Exemple

Afin de vérifier si un dé est équilibré, on réalise 90 lancers successifs d’un même dé. Lesrésultats sont reportés dans le tableau ci-dessous.

Face 1 2 3 4 5 6

Effectifs 9 16 23 10 13 19

Fréquences 0.10 0.18 0.26 0.11 0.14 0.21

Peut-on conclure à partir de cette expérience que les faces ont des probabilités différentesd’apparaître?

On va construire un test statistique pour choisir entre les deux hypothèses suivantes :

H0 : le dé est équilibré contre H1 : le dé n’est pas équilibré

Si H0 est vraie alors on s’attend à observer approximativement la même proportionde 1, 2,..., 6 mais les résultats vont être différents à chaque lancer

Il est possible d’obtenir le tirage ci-dessus en lançant 90 fois un dé équilibré ou nonéquilibré : on a donc toujours une probabilité de se tromper en choisissant H0 ou H1!

Un test d’hypothèse statistique va permettre de contrôler ces probabilités de setromper






On distingue deux erreurs

Risque de première espèce α : probabilité de choisir H1 alors que H0 est vraie.Risque de deuxième espèce β : probabilité de choisir H0 alors que H0 est fausse.

H0 est vrai H0 est fausse

Accepter H0 1 − α βRefuser H0 α 1 − β

En pratique, on fixe α (valeurs courantes : 10%, 5% ou 1%) mais pas β

H0 joue donc un rôle plus important que H1 : le test permet principalement de vérifiersi il y a assez d’information dans l’échantillon pour refuser H0.

H0 est généralement une hypothèse "simple" et H1 une hypothèse "composite"

H0 : l’échantillon suit une loi uniformeH1 : l’échantillon provient d’une autre loi

Le calcul deβ est souvent impossible en pratique





Test d’adéquation du χ2

Le test d’adéquation du χ2 en pratique

Test du χ2 d’indépendance de deux variables

Outline












Test d’adéquation du χ2 : fondements probabilistes

Observations : (x1, ..., xn) à valeurs dans {1, ..., k} (ou dans un ensemble fini)Modélisation : (x1, ..., xn) = (X1(ω), ...,Xn(ω)) réalisation d’une expérience aléatoireavec (X1, ...,Xn) échantillon aléatoire i.i.d.πj = P[Xi = j] la probabilité de tirer la valeur j ∈ {1, ..., k}

An(j) = card{i ∈ {1, ..., n}|Xi = j} =∑n

i=1 1l(Xi = j)

Définition

Si (U1, ...,Up) ∼i.i.d N (0, 1) alors Z = U21+ ...+ U2

p ∼ χ2p .

Proposition

∑kj=1

(An(j)−nπj)2

nπj

L→ χ2

k−1lorsque n → +∞.

Exercice

1 Calculer E [An(j)] et var(An(j)).

2 Ecrire la LGN et le TCL pour la suite Zi = 1l(Xi = j).

3 On suppose dans la suite que k = 2. Montrer que∑k

j=1(An(j)−nπj)

2

nπj=

(An(1)−nπ1)2

nπ1(1−π1).

4 En déduire que la proposition est vraie dans le cas particulier k = 2.








Le test d’adéquation du χ2.

On veut choisir entre les deux hypothèses suivantes

H0 : ∀j, πj = πj,0 contre H1 : ∃j πj 6= πj,0

πj,0 des valeurs fixées qui décrivent la loi sous H0.

Si H0 est vraie et n "grand" alors

Dn =k

∑

j=1

(

An(j)− nπj,0

)2

nπj,0

= n

k∑

j=1

(

Fn(j)− πj,0

)2

πj,0

≈ χ2k−1

Dn est la "distance du χ2" entre les proportions observés Fn(j) =An(j)

net les

effectifs πj,0 espérés sous H0

PH0(Dn ≤ χ2

p,1−α) ≈ 1 − α avec χ2

p,γ le quantile d’ordre γ de la loi χ2p.

On adopte la règle de décision suivante :

on accepte H0 si Dn ≤ χ2k−1,1−α

on refuse H0 si Dn > χ2k−1,1−α

avec χ2p,γ le quantile d’ordre γ de la loi χ2

p. Pourquoi?

Il est naturel d’accepter H0 si la statistique de test Dn est "petite"

Le risque de première espèce est approximativement α pour n grand car

PH0(Dn > χ2

k−1,1−α) ≈ α








Un exemple

Exemple

Reprenons l’exemple du dé.Faisons l’application numérique avec les observations (x1, ..., xn). On doit calculer

dn =k

∑

j=1

(

an(j)− nπj,0

)2

nπj,0

≈ χ2k−1

n = 90, k = 6, an(1) = 9,...an(6) = 19, πj,0 = 1/6.

Face (j) 1 2 3 4 5 6 Total

Effectifs observés (an(j)) 9 16 23 10 13 19 90

Effectifs espérés(nπj,0) 15 15 15 15 15 15 90

Contributions ((an(j)−nπj,0)

2

nπj,0) 2.40 0.07 4.27 1.67 0.27 1.07 9.73

Pour α = 5%, on obtient χ2k−1,1−α

= χ25,0.95

= 11.0705.

Conclusion : dn < χ2k−1,1−α

donc on accepte H0.








Utilisation de R

Sur l’exemple du dé> Nobs=c(9,16,23,10,13,19) #effectifs observés

> p=rep(1,6)/6 #probabilités sous H0

> chisq.test(Nobs,p=p)

Chi-squared test for given probabilities

data: x

X-squared = 9.7333, df = 5, p-value = 0.08315

Degré de signification d’un test (p-value) :

pv = PH0(Dn > dn)

A retenir :

On accepte H0 avec un risque de première espèce α ssi pv > α

Plus la p-value est faible, moins l’hypothèse H0 est réaliste.








Validité asymptotique

On a supposé que Dn =∑k

j=1(An(j)−nπj,0)

2

nπj,0≈ χ2

k−1

Approximation valable si nπj,0 ≥ 5 pour j ∈ {1, ..., k}

Alternatives si cette condition n’est pas vérifiée :

Regrouper des classesUtiliser une méthode de Monte Carlo (simulate.p.value=TRUE avec R)

Exercice

On a lancé 20 fois un dé et on a obtenu les résultats suivants

4,5,6,2,2,5,6,3,2,6,2,4,3,6,3,6,3,2,2,6.

1 Réaliser le test du χ2 afin de vérifier si le dé est équilibré. Comparer les résultats obtenus en utilisant l’approximation par la loi du χ

2 et

la méthode de Monte Carlo. On pourra utiliser la commande R table pour calculer le tableau d’effectif.

1 Quelle méthode est la plus pertinente sur cet exemple?

2 Relancer plusieurs fois la commande qui permet de faire le test avec la méthode de Monte Carlo : pourquoi le résultat change-t-il

à chaque fois?

2 Simuler N = 1000 fois 20 lancers d’un dé équilibré avec la fonction sample et calculer la statistique du test de la question précédente

pour chacune de ces 1000 expériences simulées.

1 Tracer un histogramme de la statistique de test simulée (avec l’option freq=FALSE pour que l’aire soit normalisée) et la densité

de la loi du χ2 (fonction dchisq) sur le même graphique. Discuter.

2 Quel est le quantile empirique à 95% de la statistique de test simulée (on pourra utiliser la fonction quantile)? Comparer à la

statistique de test obtenue sur l’échantillon observé et discuter.

3 Combien de simulations ont une statistique de test supérieure à celle obtenue sur l’échantillon observé? En déduire une

estimation de la p-value du test et comparer aux résultats donnés par la fonction chisq.test.








Prise en compte de paramètres estimés

On cherche souvent à tester l’adéquation à une loi qui dépend de paramètres inconnus(par exemple une loi de Poisson ou une loi binomiale). Si on estime les paramètres parmaximum de vraisemblance, alors le degré de liberté de la loi asymptotique devientk − l − 1 avec l le nombre de paramètres à estimer (par exemple, l = 1 pour une loi dePoisson).

Exercice

Une société d’assurances a comptabilisé, parmi ses 500 assurés, ceux qui ont déclaré un(ou plusieurs) sinistres au cours d’une année. Les résultats sont présentés dans letableau suivant :

Sinistres déclarés 0 1 2 3 4 5

Nombre d’assurés 171 202 80 36 8 3

1 Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assurésuit une loi de Poisson de paramètre 1?

2 Peut-on admettre au niveau 5% que le nombre de sinistres déclarés par un assurésuit une loi de Poisson?








Test d’indépendance

Exemple

On veut savoir si le temps écoulé depuis la vaccination contre une maladie donnée a ounon une influence sur le degré de gravité de la maladie lorsqu’elle apparaît.Pour simplifier, nous ne distinguons que trois degrés de gravité. Parmi les malades, nouscomparons les vaccinés depuis moins de 25 ans et ceux vaccinés depuis plus de 25 ans :

Degr e de gravit e Legere Moyenne Forte Total

vaccin < 25 ans 43 120 324 714vaccin > 25 ans 230 347 510 860

Total 163 554 857 1574

Peut-on conclure qu’il existe une dépendance entre la date de vaccination et le degré degravité de la maladie?








Test du χ2 d’indépendance

(X1, ...,Xn) à valeurs dans {1, ..., k1} et (Y1, ...,Yn) à valeurs dans {1, ..., k2}

On veut tester

H0 : les 2 variables sont indép. contre H1 : les 2 variables ne sont pas indép.

H0 est vraie ssi ∀(i, j) P[Xl = i,Yl = j] = P[Xl = i]P[Yl = j] .

Si H0 est vrai on doit donc avoir F (i, j) ≈ Fi F′

j

Estimation de la loi jointe : Fn(i, j) =card{l∈{1,...,n}|Xl=i et Yl=j}

n

Estimation des lois marginales: Fn(i) =card{l∈{1,...,n}|Xl=i}

n, F ′

n(j) =card{l∈{1,...,n}|Yl=j}

n

Comment construire une distance entre ces deux quantités? On doit connaître la loisous H0 pour pouvoir contrôler le risque de première espèce.

On peut montrer que si H0 est vraie alors

Dn = n

k1∑

i=1

k2∑

j=1

(Fn(i, j)− Fn(i)F ′n(j))

2

Fn(i)F ′n(j)

≈ χ2(k1−1)(k2−1)

Règle de décision : on accepte H0 ssi Dn ≤ χ2(k1−1)(k2−1),1−α








Test du χ2 d’indépendance avec R

Exemple

Degr e de gravit e Legere Moyenne Forte Total

vaccin < 25 ans 43 120 324 714vaccin > 25 ans 230 347 510 860

Total 163 554 857 1574

Commandes R :> tab=matrix(c(43,120,324,230,347,510),nrow=2)

> chisq.test(tab)

Pearson’s Chi-squared test

data: tab

X-squared = 70.389, df = 2, p-value = 5.19e-16

Conclusion : on ne peut pas supposer que la date de vaccination et la gravité de lamaladie sont indépendantes!








Test du χ2 d’indépendance : exercice

Exercice

Une compagnie d’assurance veut savoir si il existe une relation entre l’âge des assurés etla fréquence des sinistres afin de réaliser la tarification d’un groupe d’assuré. Elle disposedes données suivantes :

Nombre de sinistres 0 1 >1

assuré <25 ans 805 230 115assuré entre 25 et 60 ans 2086 391 130

assuré >60 ans 511 182 36

Que peut en conclure la compagnie d’assurance? On réalisera un test du χ2 en utilisantles formules données dans le cours et on vérifiera qu’on obtient la même statistique detest et la même p-value que celles qui sont données par la fonction chisq.test.





Outline






Introduction aux tests non-paramétriques L3 EURIA,...

Documents

Transcript of Introduction aux tests non-paramétriques L3 EURIA,...