Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es...

102
Statistiques - Notes de cours - M1 Elisabeth Gassiat

Transcript of Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es...

Page 1: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

Statistiques - Notes de cours - M1

Elisabeth Gassiat

Page 2: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver
Page 3: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

Table des matieres

1 Introduction 51.1 Estimation et regions de confiance . . . . . . . . . . . . . . . . . . . . . . 51.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Construction d’estimateurs 132.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Methode des moments. Estimation empirique . . . . . . . . . . . . . . . . 142.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Fonction de repartition et theoreme de Glivenko-Cantelli 21

4 Construction de tests 254.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.1.2 Optimalite dans le cas de deux hypotheses simples . . . . . . . . . 26

4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . 264.3 Test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . 284.4 Lien entre tests et regions de confiance . . . . . . . . . . . . . . . . . . . . 28

5 Vecteurs gaussiens 31

6 Modele lineaire gaussien 356.1 Definition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356.2 Estimation des parametres . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6.2.1 Estimation de m et σ2 . . . . . . . . . . . . . . . . . . . . . . . . . 366.2.2 Estimation de β et σ2 . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.3 Tests d’hypotheses lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 386.4 Regions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.4.1 Region de confiance pour m . . . . . . . . . . . . . . . . . . . . . . 396.4.2 Region de confiance pour β . . . . . . . . . . . . . . . . . . . . . . 406.4.3 Region de confiance pour σ2 . . . . . . . . . . . . . . . . . . . . . . 41

7 Elements de theorie de la decision 437.1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437.2 Affinite de test et minoration du risque maximum . . . . . . . . . . . . . . 437.3 Distance et affinite de Hellinger . . . . . . . . . . . . . . . . . . . . . . . . 467.4 Vitesse de separation pour le test de deux hypotheses simples . . . . . . . 507.5 Divergence de Kullback . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3

Page 4: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.6 Estimation bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547.6.1 Estimateurs admissibles et estimateurs bayesiens . . . . . . . . . . 547.6.2 Notion de loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . 567.6.3 Calcul d’estimateurs bayesiens . . . . . . . . . . . . . . . . . . . . 58

8 Tests du rapport de vraisemblance et theorie de Neyman-Pearson 638.1 Extension de la notion de test . . . . . . . . . . . . . . . . . . . . . . . . . 638.2 Cas de deux hypotheses simples . . . . . . . . . . . . . . . . . . . . . . . . 648.3 Tests d’hypotheses multiples . . . . . . . . . . . . . . . . . . . . . . . . . . 66

9 Etude des estimateurs sans biais 719.1 Exhaustivite et estimateurs UVMB . . . . . . . . . . . . . . . . . . . . . . 71

9.1.1 Exemple du modele de Bernoulli . . . . . . . . . . . . . . . . . . . 719.1.2 Exhaustivite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729.1.3 Estimateurs UVMB . . . . . . . . . . . . . . . . . . . . . . . . . . 779.1.4 Modele exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

9.2 Efficacite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 829.2.1 Score et information de Fisher . . . . . . . . . . . . . . . . . . . . 829.2.2 Inegalite de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 839.2.3 Cas des modeles produit . . . . . . . . . . . . . . . . . . . . . . . . 849.2.4 Modeles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . . 85

9.3 Limites des estimateurs sans biais et de l’efficacite . . . . . . . . . . . . . 85

10 Elements de statistique asymptotique 8910.1 Etude asymptotique de l’estimateur du maximum de vraisemblance . . . . 8910.2 Amelioration d’un estimateur

√n-consistant . . . . . . . . . . . . . . . . . 93

10.3 Consistance de l’estimateur du maximum de vraisemblance . . . . . . . . 9410.4 Asymptotique du test du rapport de vraisemblance . . . . . . . . . . . . . 9610.5 Generalisations multidimensionnelles . . . . . . . . . . . . . . . . . . . . . 9710.6 Constructions de regions de confiance asymptotiques . . . . . . . . . . . . 9810.7 Retour sur le test du chi-deux d’ajustement . . . . . . . . . . . . . . . . . 99

Page 5: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1 Introduction

En probabilite, on etudie les proprietes de variables aleatoires connaissant leur loi.En statistique, on cherche a trouver de l’information sur la loi connaissant les variablesaleatoires.

Voici une idee de la demarche sur un exemple simple, celui du sondage.On souhaite avoir une idee de la proportion p de personnes qui preferent l’option A al’option B dans une population de N individus (deux options possibles). Pour cela, oninterroge n personnes. On se dit que considerer, parmi ces n personnes, la proportion pde personnes qui preferent l’option A a l’option B donne une idee de p.Bon, mais si on refait un sondage, on ne va pas retrouver la meme valeur pour p : c’estune variable aleatoire, l’alea vient du choix des n parmi les N . Ah oui, mais si on choisitces n “au hasard”, on se dit qu’on va trouver une valeur proche. Mais alors : tout letemps ? Non ce n’est pas possible, meme au hasard, on peut tomber sur un ”mauvais”echantillon. Et une valeur proche comment ? Cela depend de si on veut que ce resultatarrive ”souvent”.Essayons de formaliser tout cela. On va noter Xi = 1 si la i-eme personne interrogeerepond A et Xi = 0 si la i-eme personne interrogee repond B. On note alors Zn le nombrede personnes qui ont repondu A parmi les n, soit Zn =

∑ni=1Xi. La proportion observee

est donc p = 1nZn. Dire que l’on choisit n personnes au hasard parmi N , c’est dire que le

tirage de l’ensemble de ces n personnes suit la loi uniforme sur tous les sous-ensembles an elements parmi les N possibles, et Zn suit alors la loi hypergeometrique de parametre(n, p,N). On sait que si N est tres grand par rapport a n, cette loi est approximativementla loi binomiale B(n; p), qui est celle que l’on obtient avec un tirage avec remise (les Xi

sont alors des variables aleatoires independantes de meme loi de Bernoulli de parametrep). Du coup, le fait que p soit proche de p, et avec quelle probabilite, va pouvoir etrequantifie.Dans cette demarche, il y a une part de modelisation qui consiste a dire quelque chosesur la loi possible de la variable aleatoire consideree. Ici, la modelisation porte sur la loide Zn par l’intermediaire de ”au hasard” et l’approximation N >> n.

On a X variable aleatoire de loi P inconnue, et la modelisation fixe P, ensemble delois possibles pour P , autrement dit, on a une information a priori qui est : P ∈ P.

1.1 Estimation et regions de confiance

Reprenons la situation ou l’on dispose de X1, . . . , Xn independantes de loi de Ber-noulli B(θ), et que l’on cherche a estimer θ par 1

n

∑ni=1Xi. On dit que X1, . . . , Xn est

5

Page 6: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1 Introduction

l’observation et que 1n

∑ni=1Xi est un estimateur de θ. Ce vocabulaire dit seulement

que c’est une quantite qui ne depend que de l’observation. C’est une variable aleatoire.Comment savoir si cette variable aleatoire est proche de θ ?

Rappels :— LFGN On suppose que (Xk)k≥1 est une suite de variables aleatoires reelles independantes

et de meme loi P , telle que E(|X1|) est finie. Alors la suite de variables aleatoires( 1n

∑ni=1Xi)n≥1 converge presque surement vers E(X1).

— LGN On suppose que (Xk)k≥1 est une suite de variables aleatoires reelles independanteset de meme loi, telle que E(|X1|) est finie. Alors la suite de variables aleatoires( 1n

∑ni=1Xi)n≥1 converge en probabilite vers E(X1).

Reprendre les definitions de convergence p.s. et en probabilite qui permettent de voirque, en ce qui concerne la question de quantifier les probabilites des ecarts, la LFGN estseulement qualitative, et que ce qui nous interesse est la LGN.

Souvent on note Xn = 1n

∑ni=1Xi la moyenne empirique.

Dans notre exemple, on a E(X1) = θ, donc Xn semble etre un ”bon” estimateur de θ.Pour evaluer ses performances, il faut noter qu’il y a deux types d’erreurs, si on utiliseXn : |Xn− θ| (l’ecart entre l’estimateur Xn et la valeur cible θ), et, si l’on veut precisercette erreur pour avoir |Xn − θ| ≤ ε la probabilite que cette affirmation soit fausse.On voit que ces deux erreurs varient de maniere inverse : si l’on augmente la precision(si l’on diminue ε), on diminue la probabilite que l’affirmation soit vraie. On va doncconstruire des fourchettes que l’on associe a des niveaux de confiance, c’est ce que l’onappelle un intervalle de confiance : on va chercher a evaluer P (|Xn − θ| ≥ ε), et sic’est inferieur ou egal a α, on dira que [Xn − ε,Xn + ε] est un intervalle de confiancepour θ de niveau de confiance 1− α.

Il y a plusieurs choses a remarquer. D’abord, la loi P des Xi est inconnue. Elle dependde θ, on va donc la noter Pθ. Ensuite, l’intervalle de confiance est un intervalle aleatoire.Si on renouvelle l’experience, il change. Et ce que l’on veut controler, on souhaite quecela soit valide bien que l’on ne connaisse pas la loi, puisque justement c’est l’objectif,donc que ce soit vrai quel que soit θ.

Definition 1.1.1. Soit α ∈ [0, 1]. On dit que I est un intervalle de confiance pourθ ∈ Θ de niveau de confiance 1− α si et seulement si

— I est un intervalle aleatoire, dont les bornes sont des variables aleatoires fonctionde l’observation

—∀θ ∈ Θ, Pθ (θ ∈ I) ≥ 1− α.

Dans l’exemple, Θ = [0, 1]. Noter que dans l’evenement ”θ ∈ I” c’est I qui estaleatoire, pas θ qui est une quantite fixe (mais inconnue). Reprendre l’exemple pourlire la definition.

6

Page 7: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1.1 Estimation et regions de confiance

On veut donc evaluer P (|Xn − θ| ≥ ε). Outils ?

Rappels :

— Inegalite de Markov Si Z est une variable aleatoire reelle positive ou nulle, alors

∀t > 0, P (|Z| ≥ t) ≤ E(Z)

t.

(Ceci n’a un interet que si E(Z) est finie).— Inegalite de BT Si Z est une variable aleatoire reelle admettant une esperance

et une variance, alors

∀t > 0, P (|Z − E(Z)| ≥ t) ≤ V ar(Z)

t2.

Se rappeler les preuves.

Sur l’exemple : V ar(Xn) = θ(1−θ)n (bien detailler pourquoi), et donc ∀θ ∈ [0, 1],

Pθ(|Xn − θ| ≥ ε) ≤ θ(1−θ)nε2

. Par ailleurs, par l’etude de la fonction θ 7→ θ(1 − θ), onvoit que ∀θ ∈ [0, 1], θ(1− θ) ≤ 1/4. On a donc

∀θ ∈ [0, 1], Pθ(|Xn − θ| ≥ ε

)≤ 1

4nε2.

ceci se reecrit en (detailler les etapes)

∀θ ∈ [0, 1], Pθ(Xn − ε < θ < Xn + ε

)≥ 1− 1

4nε2,

ce qui montre que l’intervalle I =]Xn − ε;Xn + ε[ est un intervalle de confiance pourθ ∈ Θ de niveau de confiance 1 − 1

4nε2. Si l’on fixe α et que l’on veut un intervalle de

niveau de confiance 1−α, il faut choisir ε = 1/2√nα. En ce qui concerne n, on voit que

la probabilite d’erreur decroit en 1/n. Dans ce cas, on peut utiliser une inegalite plusperformante, qui donne une decroissance exponentielle en n.

Proposition 1.1.1 (Inegalite de Cramer-Chernoff.). Soient X1, . . . , Xn des variablesaleatoires reelles independantes et de meme loi P telle que pour tout λ > 0, ψ(λ) soitfini en posant

ψ(λ) = logE(eλ(X1−E(X1))

).

Alors

∀ε > 0, ∀λ > 0, P(Xn − E(X1) ≥ ε

)≤ e−n(λε−ψ(λ)).

Preuve : On a pour tout λ > 0

1Xn−E(X1)≥ε = 1λ(Xn−E(X1))≥λε

≤ exp[λ(Xn − E(X1))− λε

]

7

Page 8: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1 Introduction

donc en prenant l’esperance

P(Xn − E(X1) ≥ ε

)≤ E

exp

[λ(Xn − E(X1))− λε

]= e−λε

n∏i=1

E[eλn

(Xi−E(X1))]

car les Xi sont independants. Puis comme ils ont meme loi, pour tout i = 1, . . . , n,

logE[eλn

(Xi−E(X1))] = ψ(λn), donc pour tout λ > 0

P(Xn − E(X1) ≥ ε

)≤ e−λε+nψ(λ

n)

et l’on obtient la proposition en posant λ = λ/n.

Lemme 1.1.1 (Lemme de Hoeffding.). Soit Y une variable aleatoire reelle de loi P telleque, pour des reels a et b, a ≤ Y ≤ b, et telle que E(Y ) = 0. Alors

∀λ ∈ R, logE[eλY

]≤ λ2(b− a)2

8.

Preuve :On a

−b− a2≤ Y − a+ b

2≤ b− a

2

donc (Y − a+ b

2

)2

≤ (b− a)2

4.

Du coup, si Q est une probabilite sur [a, b], on a (dire pourquoi !)

V arQ (Y ) ≤ (b− a)2

4.

Prenons maintenant pour tout reel λ, dQλ(y) = eλy−φ(λ)dP (y), en posant φ(λ) =logEP e

λy (dire pourquoi ca existe). Maintenant, on obtient facilement que φ est deuxfois derivable (dire pourquoi et faire les calculs !) et que pour tout λ,

φ′′(λ) = V arQλ (Y ) .

Donc

∀λ ∈ R, φ′′(λ) ≤ (b− a)2

4.

En integrant entre 0 et λ,

∀λ ∈ R, φ′(λ)− φ′(0) ≤ λ(b− a)2

4,

8

Page 9: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1.1 Estimation et regions de confiance

mais φ′(0) = EP (Y ), donc en integrant de nouveau entre 0 et λ,

∀λ ∈ R, φ(λ)− φ(0) ≤ λ2(b− a)2

8,

et enfin φ(0) = 0.

Consequence pour notre exemple :

Proposition 1.1.2. Soient X1, . . . , Xn des variables aleatoires reelles independantes etde meme loi Pθ = B(θ). Alors

∀ε > 0, ∀θ ∈ [0, 1], Pθ(|Xn − θ| ≥ ε

)≤ 2e−2nε2 .

Preuve : On fixe ε > 0 et θ ∈ [0, 1].En appliquant le lemme de Hoeffding a chaque Xi (avec a = −θ et b = 1 − θ, doncb− a = 1) puis l’inegalite de Cramer-Chernoff, on obtient pour tout λ > 0

Pθ(Xn − θ ≥ ε

)≤ e−n(λε−λ

2

8).

Donc

Pθ(Xn − θ ≥ ε

)≤ e−n supλ>0(λε−λ

2

8).

Mais supλ>0(λε− λ2

8 ) = 2ε2, donc

Pθ(Xn − θ ≥ ε

)≤ e−2nε2 .

Par ailleurs, les θ − Xi, i = 1, . . . , n sont aussi des variables aleatoires independantescentrees de meme loi et telles que θ− 1 ≤ θ−Xi ≤ θ donc le meme raisonnement donne

Pθ(θ −Xn ≥ ε

)≤ e−2nε2

et l’on termine par Pθ(|Xn − θ| ≥ ε

)= Pθ

(Xn − θ ≥ ε

)+ Pθ

(θ −Xn ≥ ε

).

On peut aussi penser, pour controler Pθ(|Xn − θ| ≥ ε

)a des resultats asymptotiques.

Rappel TLC : On suppose que (Xk)k≥1 est une suite de variables aleatoires reellesindependantes et de meme loi, admettant une esperance et une variance. Alors la suite(

√n

(Xn − E(X1)√

V ar(X1)

))n≥1

converge en loi vers U , variable aleatoire reelle de loi N (0, 1).Se rappeler la definition de convergence en loi et les differents criteres equivalents deconvergence en loi.

9

Page 10: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1 Introduction

Retour a l’exemple : lorsque (Xk)k≥1 est une suite de variables aleatoires reellesindependantes et de meme loi Pθ = B(θ), on a par le TLC

∀θ ∈ [0, 1], ∀ε > 0, limn→+∞

(√n

∣∣∣∣∣ Xn − θ√θ(1− θ)

∣∣∣∣∣ ≥ ε)

= 2

∫ +∞

ε

1√2πe−

u2

2 du

par parite de la densite de la loi N (0, 1), soit (ecrire les details)

∀θ ∈ [0, 1], ∀ε > 0, limn→+∞

(Xn −

ε√θ(1− θ)√n

≤ θ ≤ Xn +ε√θ(1− θ)√n

)= 2F (ε)−1

en notant F la fonction de repartition de la loi N (0, 1).Comme pour tout θ,

√θ(1− θ) ≤ 1

2 ,

∀θ ∈ [0, 1], ∀ε > 0, Pθ

(Xn −

ε√θ(1− θ)√n

≤ θ ≤ Xn +ε√θ(1− θ)√n

)

≤ Pθ(Xn −

ε

2√n≤ θ ≤ Xn +

ε

2√n

)et on a

∀θ ∈ [0, 1], ∀ε > 0, lim infn→+∞

(Xn −

ε

2√n≤ θ ≤ Xn +

ε

2√n

)≥ 2F (ε)− 1.

On obtient ainsi que [Xn −

ε

2√n

;Xn +ε

2√n

]est un intervalle de confiance pour θ ∈ Θ asymptotiquement de niveau de confiance 1−α,si l’on a choisi ε de sorte que F (ε) = 1− α/2. On note u1−α/2 un tel ε.Par exemple, pour α = 0.05, on obtient u1−α/2 ≈ 1.96, donc pour avoir une precision de0.01 (largeur de l’intervalle de confiance) il faut n ≈ 104.

Definition 1.1.2. Soit α ∈ [0, 1]. Soit (Xk)k≥1 une suite de variables aleatoires reellesindependantes et de meme loi Pθ. On dit que In est un intervalle de confiance pourθ ∈ Θ asymptotiquement de niveau de confiance 1− α si et seulement si

— In est un intervalle aleatoire, dont les bornes sont des variables aleatoires fonctionde l’observation X1, . . . , Xn

—∀θ ∈ Θ, lim inf

n→+∞Pθ (θ ∈ In) ≥ 1− α.

1.2 Tests

Imaginons que le sondage soit fait dans un contexte de controle de qualite, et que θsoit la proportion de pieces defectueuses dans la production.

10

Page 11: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1.2 Tests

La question a laquelle le statisticien s’interesse ici est de savoir si cette proportion est,par exemple, bien inferieure a 5%. Autrement dit, etant donne une valeur θ0 fixee, ils’agit de decider si θ ≤ θ0 au vu du resultat du sondage.Une approche naıve pourrait etre de decider que oui, en effet, θ ≤ θ0 si l’observationest telle que Xn ≤ θ0 et non, ce n’est pas le cas, si l’observation est telle que Xn > θ0.En reflechissant un peu, on voit que ce n’est pas la bonne methode, car alors, si en faitθ = θ0, et que l’on ”devrait” decider que oui, en effet, θ ≤ θ0 et bien la probabilite de setromper en decidant que ce n’est pas le cas, est proche de 1/2 pour n grand.Par contre, il semble que decider que oui, en effet, θ ≤ θ0 si l’observation est telleque Xn ≤ t et non, ce n’est pas le cas, si l’observation est telle que Xn > t soit unebonne procedure. Toute la question est de choisir le seuil de decision t. Pour cela, on vaquantifier les erreurs de decision. Il y a deux erreurs de decision possible : decider queθ ≤ θ0 alors qu’en fait θ > θ0, et decider que θ > θ0 alors qu’en fait θ ≤ θ0. Notons

α = supθ≤θ0

Pθ(Xn > t

).

α est appelee erreur de premiere espece, elle quantifie la probabilite maximum del’erreur que l’on fait en decidant que θ > θ0 alors qu’en fait θ ≤ θ0.Si l’on note maintenant

β = supθ>θ0

Pθ(Xn ≤ t

),

β est appelee erreur de deuxieme espece, elle quantifie la probabilite maximum del’erreur que l’on fait en decidant que θ ≤ θ0 alors qu’en fait θ > θ0.On souhaite choisir le seuil t de sorte que ces deux erreurs soient petites.

Proposition 1.2.1. Soient X1, . . . , Xn des variables aleatoires reelles independantes etde meme loi Pθ = B(θ). Alors, pour t fixe, la fonction θ 7→ Pθ

(Xn > t

)est croissante,

et pour toute valeur θ0, pour tout t, supθ≤θ0 Pθ(Xn > t

)+ supθ>θ0 Pθ

(Xn ≤ t

)= 1.

Preuve : Soient U1, . . . , Un des variables aleatoires reelles independantes et de memeloi uniforme sur [0, 1]. Pour tout θ ∈ [0, 1], 1U1≤θ est de loi B(θ), et donc

Pθ(Xn > t

)= P

(1

n

n∑i=1

1Ui≤θ > t

).

Mais θ 7→ 1Ui≤θ est une fonction croissante, donc θ 7→ P(

1n

∑ni=1 1Ui≤θ > t

)est aussi

une fonction croissante. Donc son maximum pour θ ∈ [0, θ0] est atteint en θ0. De meme,Pθ(Xn ≤ t

)= 1 − P

(1n

∑ni=1 1Ui≤θ > t

)est une fonction decroissante de θ, c’est une

fonction continue de θ (car polynomiale ; l’ecrire !) donc son maximum pour θ ∈]θ0, 1]est en θ0. On a donc supθ≤θ0 Pθ

(Xn > t

)+ supθ>θ0 Pθ

(Xn ≤ t

)= Pθ0

(Xn > t

)+

Pθ0(Xn ≤ t

)= 1.

Comment choisir t ? Si l’on cherche a rendre α petit, il faut choisir t assez grand, maisalors β = 1− α ne sera pas petit.Si l’on choisit t = θ0, alors pour n grand α et β sont proches de 1/2, ce qui n’est pas

11

Page 12: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

1 Introduction

satisfaisant dans un contexte de controle de qualite.Ce que l’on peut faire, c’est choisir t de sorte que α soit petit, et que, lorsque θ1 > θ0,pour θ1 pas trop proche de θ0 on ait supθ>θ1 Pθ

(Xn ≤ t

)petit.

Introduisons maintenant la notion de test statistique.

Definition 1.2.1. Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ.Un test statistique de l’hypothese H0 : “θ ∈ Θ′′0 contre l’alternative H1 : “θ ∈ Θ′′1est une variable aleatoire φ fonction mesurable de l’observation et a valeur dans 0, 1.On appelle region de rejet l’ensemble des valeurs de l’observation pour lesquelles φ = 1.La taille du test est supθ∈Θ0

Eθφ.On appelle puissance du test la fonction θ 7→ Eθφ.On dit que le test est de niveau α si sa taille est majoree par α, ou autrement dit si lafonction puissance, pour θ ∈ Θ0, est majoree par α.

Un test est une procedure de decision : si φ = 1, on decide H1, on dit aussi que l’onrejette H0. Si φ = 0, on decide H0, on dit aussi que l’on accepte H0.

Reprenons l’exemple.Allure de la fonction puissance, qui croit de 0 a 1 sur [0, 1].

De meme que pour les intervalles de confiance, on peut parler de test asymptotique-ment de niveau α si (φn) est une suite de tests de H0 : “θ ∈ Θ′′0 contre H1 : “θ ∈ Θ′′1tel que

∀θ ∈ Θ0, lim supn→+∞

Eθφn ≤ α.

En utilisant le theoreme de limite centrale, on voit que si l’on choisit comme seuil, dansl’exemple,

tn = θ0 +u1−α

√θ0(1− θ0)√n

alors le test φn = 1Xn≥tn est asymptotiquement de niveau α pour tester H0 : “θ ≤ θ′′0contre H1 : “θ > θ′′0 .

Aussi, en prenant θ1 = θ0 + 2u1−α√θ0(1−θ0)√n

, on obtient

∀θ ≥ θ1, lim supn→+∞

Eθφn ≥ 1− α,

soit∀θ ≥ θ1, lim sup

n→+∞Pθ(Xn ≤ tn

)≤ α.

12

Page 13: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2 Construction d’estimateurs

2.1 Generalites

On considere le modele statistique avec l’observation X, a valeurs dans X muni d’unetribu A, et une famille de probabilites (Pθ)θ∈Θ sur (X ,A).Si Θ ⊂ Rk pour un entier k, on dit que le modele est parametrique.Si Θ est une partie d’un espace de dimension infinie (par exemple : l’ensemble desprobabilites ayant une densite sur R), on dit que le modele est non parametrique.Soit g une fonction de Θ dans un ensemble Y muni d’une tribu B. Un estimateur deg(θ) est une variable aleatoire T (X), ou T est une fonction mesurable de X dans Y.On appelle biais la quantite g(θ) − Eθ[T (X)]. (Rappel : on note Eθ l’esperance prisesour la probabilite Pθ, c’est a dire pour X de loi Pθ). Noter que le biais est une fonctionde θ.On dit que T (X) est un estimateur sans biais de g(θ) si et seulement si

∀θ ∈ Θ, Eθ[T (X)] = g(θ).

Pour evaluer la qualite d’un estimateur, on introduit une fonction de perte :

L : Y × Y → R+

verifiant : ∀y ∈ Y, L(y, y) = 0.

On appelle risque de l’estimateur T (X) la fonction

θ 7→ Eθ [L(g(θ), T (X))] .

On cherche alors des estimateurs qui rendent ce risque petit. (C’est une fonction, doncil faut choisir le sens de “petit”, on y reviendra !).

Exemples :— Risque quadratique : lorsque Y = R, et L(y, y′) = (y − y′)2, le risque est

Eθ[(g(θ)− T (X))2].On a la decomposition “biais-variance” : risque quadratique=carre du biais +variance

Eθ[(g(θ)− T (X))2] = (g(θ)− Eθ[T (X)])2 + V arθ[T (X)].

Ecrire la preuve.— Risque de test/ de classification : lorque L(y, y′) = 1y 6=y′ , le risque est

Eθ[1T (X)6=g(θ)] = Pθ (T (X) 6= g(θ)) .

13

Page 14: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2 Construction d’estimateurs

Lorsque l’on considere une suite d’experiences statistiques, de sorte que pour toutentier n, on dispose d’une observation (X1, . . . , Xn) et d’une famille de probabilites(Pθ,n)θ∈Θ sur (X n,An) (par exemple, a partir d’une suite de variables i.i.d., de sorte quePθ,n = P⊗nθ ), si (Tn(X1, . . . , Xn))n≥1 est une suite d’estimateurs de g(θ), on dira que :

— Tn est un estimateur fortement consistant de g(θ) si et seulement si

∀θ ∈ Θ, limn→+∞

Tn(X1, . . . , Xn) = g(θ) Pθ − p.s..

— Tn est un estimateur consistant de g(θ) si et seulement si

∀θ ∈ Θ, Tn(X1, . . . , Xn)→n→+∞ g(θ) en Pθ − probabilite,

autrement dit, si Y ⊂ Rm et si ‖·‖ est une norme (par exemple la norme euclidienne)sur Rm,

∀θ ∈ Θ, ∀ε > 0, limn→+∞

Pθ,n (‖Tn(X1, . . . , Xn)− g(θ)‖ ≥ ε) = 0.

Remarque : par abus de notation, j’utiliserai Tn pour Tn(X1, . . . , Xn) (comme faitci-dessus).

2.2 Methode des moments. Estimation empirique

On considere (Xn)n≥1 une suite de variable aleatoires independantes identiquementdistribuees sur X .Soit φ : X → R une fonction telle que pour tout θ ∈ Θ, φ ∈ L1(Pθ).Soit g : Θ→ R donnee par

∀θ ∈ Θ, g(θ) = Eθ[φ(X)].

L’estimateur de g(θ) obtenu par la methode des moments est

Tn =1

n

n∑i=1

φ(Xi).

Alors, Tn est un estimateur sans biais et consistant de g(θ).

Exemple : le sondage vu au premier chapitre.

Plus generalement, on parle de methode des moments lorsque l’on construit un esti-mateur avec des moyennes empiriques.

Exemple du modele gaussien : Soit (Xn)n≥1 une suite de variable aleatoiresindependantes identiquement distribuees sur R, de loi N (m,σ2).

14

Page 15: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2.3 Maximum de vraisemblance

Le modele est alors, pour la loi de X1, (Pθ)θ∈Θ avec θ = (m,σ2) et Θ = R × R+,∗. Un

estimateur de θ obtenu par la methode des moments est θn = (mn, σ2n) avec

mn =1

n

n∑i=1

Xi, σ2n =

1

n

n∑i=1

X2i −

(1

n

n∑i=1

Xi

)2

.

Il est consistant (dire pourquoi). Est-il sans biais ? (calculer le biais).

La methode des moments est une methode qui utilise donc des moments calcules avecla mesure empirique Pn, qui est une mesure de probabilite aleatoire qui met en chaqueXi la masse 1/n :

Pn =1

n

n∑i=1

δXi .

Dans l’exemple precedent,

mn =

∫xdPn(x), σ2

n =

∫x2dPn(x)−

(∫xdPn(x)

)2

.

Tous les moments empiriques sont des estimateurs consistants de l’esperance de lafonction, la methode fonctionne car Pn est un bon estimateur de Pθ. En quel sens ? Aumoins en ce qui concerne la fonction de repartition, c’est ce que l’on verra au prochainchapitre (voir Theoreme de Glivenko-Cantelli).

2.3 Maximum de vraisemblance

On dit que le modele statistique est un modele domine si il existe une mesure posi-tive µ su (X ,A) telle que : pour tout θ ∈ Θ, Pθ est absolument continue par rapport aµ.Se rappeler la definition de “absolument continue”.

En ce cas, pour tout θ ∈ Θ, il existe une fonction mesurable fθ de X dans R telle quePθ = fθµ, c’est la densite de Pθ par rapport a µ.On appelle alors vraisemblance la variable aleatoire fonction de θ :

L(θ) = fθ(X),

et log-vraisemblance la variable aleatoire fonction de θ :

`(θ) = log fθ(X).

Pour estimer θ, on peut choisir la valeur de θ qui rend la densite maximale en la valeur del’observation, c’est ce que l’on appelle l’estimateur du maximum de vraisemblance :

θ = argmaxθ∈ΘL(θ) = argmaxθ∈Θ`(θ).

15

Page 16: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2 Construction d’estimateurs

Se posent alors les questions d’existence et d’unicite.

Lorsque le modele statistique est celui de n variables aleatoires independantesX1, . . . , Xn

de loi Pθ, θ ∈ Θ, si le modele est domine (par la mesure µ), alors le modele (P⊗nθ )θ∈Θ

est domine par µ⊗n. Si pour tout θ ∈ Θ, Pθ = fθµ, alors la vraisemblance est

Ln(θ) =n∏i=1

fθ(Xi),

et la log-vraisemblance est :

`n(θ) =n∑i=1

log fθ(Xi).

Exemples— Modele de Bernoulli. Soit (X1, . . . , Xn) i.i.d. de loi de Bernoulli B(θ), θ ∈ [0, 1].

La loi de Bernoulli est absolument continue par rapport a µ = δ0 + δ1. Une faconpratique d’ecrire la vraisemblance est L(θ) = θX(1− θ)1−X . On a alors en notantSn =

∑ni=1Xi :

`n(θ) = Sn log θ + (n− Sn) log(1− θ).

Le maximum de vraisemblance est θn = Sn/n. (Le demontrer).— Modele Gaussien. Soit (X1, . . . , Xn) i.i.d. de loi N (m,σ2), m ∈ R, σ2 ∈ R+,∗.

La loi gaussienne N (m,σ2) est absolument continue par rapport a Lebesgue, dedensite 1

σ√

2πe−(x−m)2/2σ2

, donc

`n(m,σ2) = −n∑i=1

(Xi −m)2

2σ2− n

2log(2πσ2).

Le maximum de vraisemblance est

mn =1

n

n∑i=1

Xi, σ2n =

1

n

n∑i=1

X2i −

(1

n

n∑i=1

Xi

)2

.

(Le demontrer).Il est clair que si l’on change de mesure dominante, la vraisemblance change (le voir

sur les deux exemples). Que se passe-t-il alors pour l’estimateur du maximum de vrai-semblance ? On peut voir sur les deux exemples que, en changeant de mesure dominante,on ne change pas l’estimateur du maximum de vraisemblance (Le faire ! Et voir ce quichange et ce qui ne change pas !). En fait, c’est un resultat general, qui justifie la notion(intrinseque) d’estimateur du maximum de vraisemblance.

Proposition 2.3.1. Si un modele (X ,A, (Pθ)θ∈Θ) est domine, alors il existe une pro-babilite Q qui domine le modele et qui verifie

∀A ∈ A, Q(A) = 0⇐⇒ ∀θ ∈ Θ, Pθ(A) = 0.

On dit alors que Q est une dominante privilegiee du modele.

16

Page 17: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2.3 Maximum de vraisemblance

Remarque : il n’y a pas unicite de la dominante privilegiee, toute autre mesure deprobabilite equivalente a Q est une dominante privilegiee.

Preuve : Soit µ une mesure dominante. On commence par construire une probabiliteP equivalente a µ et qui domine le modele. La mesure µ est sigma-finie, donc il existeune collection au plus denombrable d’ensembles mesurables An, n ∈ N , qui forme unepartition de X et tels que pour tout n, µ(An) < +∞. On choisit (λn)n∈N des reels telsque

∑n∈N λn = 1 et tels que

∀n ∈ N, µ(An) > 0⇐⇒ λn > 0.

On pose P telle quedP

dµ(x) =

∑n∈N

λnµ(An)

1An(x).

On a pour tout ensemble mesurable A,

P (A) =∑n∈N

λnµ(A ∩An)

µ(An)

ce qui montre que P est une probabilite absolument continue par rapport a µ, et que siP (A) = 0, alors pour tout n ∈ N , µ(A ∩ An) = 0, donc µ(A) = 0 et µ est absolumentcontinue par rapport a P . Du coup aussi, pour tout θ ∈ Θ, Pθ est absolument continuepar rapport a P .Notons maintenant Fθ = dPθ/dP . L’ensemble Aθ = Fθ > 0 est mesurable. Soit C lacollection des reunions au plus denombrables d’ensembles Aθ, et posons

M = supC∈C

P (C).

On a M ≤ 1. Soit Cn une suite d’elements de C tels que P (Cn) ≥ M − 1/n. SoitC? = ∪n≥1Cn. C? ∈ C, et P (C?) ≥ M , donc P (C?) = M . Comme C? ∈ C, il existeune collection au plus denombrable (θj)j∈J d’elements de Θ tels que C? = ∪j∈JAθj . Soitensuite (λj)j∈J des reels strictement positifs tels que

∑j∈J λj = 1, et soit Q la mesure

telle quedQ

dP(x) =

∑j∈J

λjFθj (x).

On a pour tout ensemble mesurable A, Q(A) =∑

j∈J λjPθj (A), donc Q est une proba-bilite telle que si A est tel que, pour tout θ ∈ Θ, Pθ(A) = 0, alors Q(A) = 0. Il s’agitmaintenant de montrer la reciproque.Demontrons tout d’abord que

∀θ ∈ Θ, P (Aθ) = P (Aθ ∩ C?).

En effet, si ce n’etait pas le cas, pour un θ de Θ, on aurait P (Aθ ∩ (C?)c) > 0, doncP (Aθ ∪ C?) > M : contradiction.

17

Page 18: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2 Construction d’estimateurs

Soit maintenant A tel que Q(A) = 0. Pour tout θ ∈ Θ, on a P (Aθ ∩ (C?)c) = 0, et donc

Pθ(A ∩ (C?)c) =

∫A∩(C?)c

FθdP =

∫A∩(C?)c∩Aθ

FθdP = 0.

Donc

Pθ(A) = Pθ(A ∩ C?) =

∫A∩C?

FθdP =

∫A∩Aθ∩C?

FθdP.

On en deduit que

Pθ(A) =

∫A∩Aθ∩(∪j∈JAθj )

FθdP ≤∑j∈J

∫A∩Aθ∩Aθj

FθdP =∑j∈J

∫A∩Aθ∩Aθj

FθFθj

dPθj .

Mais comme Q(A) = 0, on a pour tout j ∈ J , Pθj (A) = 0, donc∫A∩Aθ∩Aθj

FθFθj

dPθj = 0,

et donc Pθ(A) = 0.

Corollaire 2.3.1. L’estimateur du maximum de vraisemblance ne depend pas du choixde mesure dominante.

Preuve : Soient µ une mesure dominante. Notons L(θ) la vraisemblance obtenue avecµ. Soit Q une dominante privilegiee. Alors Q est absolument continue par rapport a µ,et l’on a, en notant LQ(θ) = dPθ

dQ (X) :

L(θ) = LQ(θ)dQ

dµ(X).

Par ailleurs, dQdµ (X) > 0 Pθ-p.s. pour tout θ. Donc θ maximise L(θ) si et seulement si θ

maximise LQ(θ), qui est une quantite qui ne depend pas de µ.

On va maintenant justifier l’usage du maximum de vraisemblance dans une situationtres simple et en considerant le risque de test.On se place dans la situation ou Θ est reduit a deux points, que l’on peut noter Θ =0, 1. Le modele est alors reduit a deux probabilites P0 et P1, et c’est donc un modeledomine. Une dominante privilegiee est µ = P0+P1

2 . Alors :

Proposition 2.3.2. L’estimateur du maximum de vraisemblance minimise la moyennedu risque de test en 0 et en 1.

Preuve : On considere donc la fonction de perte 1t6=θ, et pour tout estimateur T lerisque R(T, θ) = Pθ(T 6= θ). Soit alors S(T ) la moyenne 1

2(R(T, 0) + R(T, 1)). On a,comme T (X) ∈ 0, 1,

S(T ) =1

2

∫T (x)f0(x)dµ(x) +

∫(1− T (x))f1(x)dµ(x)

=

1

2+

1

2

∫T (x)(f0(x)− f1(x))dµ(x).

18

Page 19: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2.3 Maximum de vraisemblance

Soit θ l’estimateur du maximum de vraisemblance. On a alors

S(T )− S(θ) =1

2

∫(T (x)− θ(x))(f0(x)− f1(x))dµ(x).

Mais si f0(x)−f1(x) < 0, alors θ(x) = 1, et T (x)− θ(x) ≤ 0. Et si f0(x)−f1(x) > 0, alorsθ(x) = 0, et T (x)− θ(x) ≥ 0. Donc dans tous les cas, (T (x)− θ(x))(f0(x)− f1(x)) ≥ 0,et donc S(T )− S(θ) ≥ 0.

On va calculer la moyenne du risque pour l’estimateur du maximum de vraisemblance,et pour cela introduire la distance en variation.

Definition 2.3.1. Si P et Q sont deux probabilites sur (X ,A), la distance en varia-tion totale entre P et Q est definie par

d (P ;Q) = supA∈A|P (A)−Q(A)|.

Ceci definit une distance sur l’ensemble des probabilites sur (X ,A)

En effet, on verifie la symetrie, le fait que si d (P ;Q) = 0, alors P = Q, et l’inegalitetriangulaire.

On a alors

Proposition 2.3.3. Si µ domine P et Q, alors la distance en variation totale entre Pet Q verifie

d (P ;Q) =1

2

∥∥∥∥dPdµ − dQ

∥∥∥∥L1(µ)

= P (A)−Q(A)

ou A = x : dPdµ (x) ≥ dQdµ (x).

La distance en variation totale entre P et Q est alors notee ‖P −Q‖V T .

Remarque : au passage, on a montre que∥∥∥dPdµ − dQ

∥∥∥L1(µ)

est une quantite qui ne

depend pas de la mesure dominante choisie.

Preuve : Tout d’abord, en posant

A = x :dP

dµ(x) ≥ dQ

dµ(x),

on a ∥∥∥∥dPdµ − dQ

∥∥∥∥L1(µ)

=

∫A

(dP

dµ− dQ

)dµ−

∫Ac

(dP

dµ− dQ

)dµ.

Par ailleurs, ∫A

(dP

dµ− dQ

)dµ+

∫Ac

(dP

dµ− dQ

)dµ = 0,

19

Page 20: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

2 Construction d’estimateurs

donc ∥∥∥∥dPdµ − dQ

∥∥∥∥L1(µ)

= 2

∫A

(dP

dµ− dQ

)dµ.

Puis on a par definition P (A)−Q(A) ≤ d (P ;Q). Maintenant, si B ∈ A,

P (B)−Q(B) = P (B ∩A) + P (B ∩Ac)−Q(B ∩A)−Q(B ∩Ac)

=

∫A∩B

(dP

dµ− dQ

)dµ+

∫Ac∩B

(dP

dµ− dQ

)dµ

≤∫A∩B

(dP

dµ− dQ

)dµ

≤∫A

(dP

dµ− dQ

)dµ = P (A)−Q(A),

et de la meme maniere

P (B)−Q(B) ≥∫Ac

(dP

dµ− dQ

)dµ = −[P (A)−Q(A)],

donc pour tout B ∈ A,|P (B)−Q(B)| ≤ P (A)−Q(A),

et en prenant le supremum en B ∈ A on obtient d(P,Q) = P (A)−Q(A).

On obtient maintenant, dans le cadre precedent :

Proposition 2.3.4. Si Θ = 0, 1, la valeur minimale de la moyenne du risque de testen 0 et en 1, atteinte par le maximum de vraisemblance, vaut

1

2(1− ‖P0 − P1‖V T ) .

20

Page 21: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

3 Fonction de repartition et theoreme deGlivenko-Cantelli

Soit X une variable aleatoire reelle.

Definition 3.0.1. La fonction de repartition FX de X est la fonction de R dans[0, 1] donnee par

∀t ∈ R, FX (t) = P (X ≤ t) .

On a les proprietes suivantes. (Rappeler les preuves).— FX est une fonction croissante, continue a droite, telle que

limt→−∞

FX(t) = 0

etlim

t→+∞FX(t) = 1;

— Si on note FX(t−) la limite a gauche de FX au point t (dire pourquoi elle existe),FX(t−) = P (X < t) et FX (t)− FX(t−) = P (X = t).

— La fonction de repartition caracterise la loi. Autrement dit, si deux variablesaleatoires ont meme fonction de repartition, alors elles ont meme loi.

Par ailleurs, la premiere propriete est caracteristique des fonctions de repartition.

Proposition 3.0.1. Si F est une fonction de R dans [0, 1] qui est croissante, continuea droite, telle que limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1, alors il existe une variablealeatoire reelle X telle que F est la fonction de repartition de X.

(Rappeler la preuve)

Definition 3.0.2. Toute fonction de repartition F admet une inverse generalisee (oupseudo-inverse) definie par :

∀u ∈]0, 1[, F− (u) = inf x ∈ R : F (x) ≥ u .

On dit aussi que F− est la fonction quantile et que F− (u) est le quantile de u.

On a alors :

Proposition 3.0.2. Pour tout x ∈ R et tout u ∈]0, 1[,

u ≤ F (x)⇐⇒ F− (u) ≤ x.

21

Page 22: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

3 Fonction de repartition et theoreme de Glivenko-Cantelli

F− est une fonction croissante qui verifie

∀u ∈]0, 1[, F (F− (u)) ≥ u,

et∀x ∈ R, si F (x) ∈]0, 1[, F−(F (x)) ≤ x.

Preuve :Commencer par regarder des exemples de cas F discontinue et F avec unplateau.Soit u ∈]0, 1[, on note I = x ∈ R : F (x) ≥ u. Comme u < 1, I est non vide. Sinon onaurait pour tout reel x, P (X ≤ x) < u < 1).Par ailleurs comme F est croissante, si x ∈ I et si y ≥ x, alors y ∈ I.Donc I est un intervalle semi-infini a droite, notons x0 sa borne inferieure. I = (x0,+∞[.Montrons alors que x0 ∈ I. En effet, pour tout t > 0, x0 + t ∈ I, donc F (x0 + t) ≥ uet comme F est continue a droite, F (x0) ≥ u. Donc I = [x0,+∞[ et donc F− (u) = x0.L’equivalence de la proposition s’en deduit.La croissance de F− en decoule. Puis en prenant x = F−(u) on obtient la premiereinegalite, et en prenant u = F (x) on obtient la deuxieme inegalite.

La fonction quantile permet de simuler une variable aleatoire de fonction de repartitionconnue a partir d’une variable aleatoire de loi uniforme sur [0, 1].

Theoreme 3.0.1. Si U est une variable aleatoire de loi uniforme sur [0, 1], alors F− (U)est une variable aleatoire de fonction de repartition F .

Preuve : En effet, pour tout reel x, en utilisant la proposition precedente on a

P(F− (U) ≤ x

)= P (U ≤ F (x)) = F (x).

Soit maintenant (Xn)n≥1 une suite de variables aleatoires independantes de memeloi que X. On note Pn la mesure empirique et Fn la fonction de repartition empiriquedonnee par :

∀t ∈ R, Fn (t) =1

n

n∑i=1

1Xi≤t =

∫1x≤tdPn(x).

On a alors :

Theoreme 3.0.2 (Theoreme de Glivenko-Cantelli). La fonction de repartition empi-rique converge P-presque surement uniformement vers la fonction de repartition, i.e.

P− p.s., limn→+∞

supt∈R|Fn(t)− F (t)| = 0

Preuve : Soit N un entier strictement positif.

Notons pour 1 ≤ j ≤ N − 1, xj,N = F−(jN

), et x0,N = −∞ et xN,N = +∞.

On convient Fn(x0,N ) = 0, F (x0,N ) = 0, Fn(xN,N ) = 1 et F (xN,N ) = 1. On a alors pourtout j tel que 0 ≤ j ≤ N − 1,

∀t ∈ [xj,N ;xj+1,N [, Fn(xj,N ) ≤ Fn(t) ≤ Fn(xj+1,N−) et F (xj,N ) ≤ F (t) ≤ F (xj+1,N−).

22

Page 23: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

Donc

∀t ∈ [xj,N ;xj+1,N [, Fn(xj,N )− F (xj+1,N−) ≤ Fn(t)− F (t) ≤ Fn(xj+1,N−)− F (xj,N ).

Comme xj,N = F−(jN

), on a F (xj,N−) ≤ j

N ≤ F (xj,N ) pour tout j (verifier que aussi

pour j = 0 et j = N), de sorte que

∀t ∈ [xj,N ;xj+1,N [, Fn(xj,N )−F (xj,N )− 1

N≤ Fn(t)−F (t) ≤ Fn(xj+1,N−)−F (xj+1,N−)+

1

N.

Donc

supt∈R|Fn(t)− F (t)| ≤ 1

N+ max

1≤j≤N−1|Fn(xj,N )− F (xj,N )|; |Fn(xj,N−)− F (xj,N−)| .

Par la loi forte des grands nombres, pour tout j, Fn(xj,N )− F (xj,N ) tend vers 0 P -p.s.et Fn(xj,N−)− F (xj,N−) tend vers 0 P -p.s. Si pour tout N on note AN l’evenement

AN =

(lim supn→+∞

supt∈R|Fn(t)− F (t)| ≤ 1

N

)on a donc P (AN ) = 1 (preciser comment cela decoule des LFGN citees precedemment).Alors, P (∩N≥1AN ) = 1, et⋂

N≥1

AN ⊂(

limn→+∞

supt∈R|Fn(t)− F (t)| = 0

).

On va maintenant s’interesser au cas ou la fonction de repartition F est continue.

Proposition 3.0.3. Si F est continue, pour tout u ∈]0, 1[, F (F− (u)) = u.Si X est de fonction de repartition F continue, alors F (X) est de loi uniforme sur [0, 1].

Preuve : Reste a voir qu’alors F (F− (u)) ≤ u. Pour tout δ > 0, on a F− (u) − δ <F− (u), donc, par contraposition de l’equivalence de la proposition 3.0.6, F (F− (u)−δ) <u. Comme F est continue, on peut passer a la limite quand δ tend vers 0 et obtenirF (F− (u)) ≤ u.Si maintenant X est de fonction de repartition F continue, X a meme loi que F−(U) ouU est de loi uniforme sur [0, 1], donc F (X) a meme loi que F (F−(U)) = U .

On a aussi :

Theoreme 3.0.3. Si F est une fonction de repartition continue, si X1, . . . , Xn sont nvariables aleatoires independantes de fonction de repartition F et si Fn est la fonctionde repartition empirique, alors la loi de

Dn = supt∈R|Fn(t)− F (t)|

ne depend pas de F .

23

Page 24: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

3 Fonction de repartition et theoreme de Glivenko-Cantelli

Preuve : Soit U1, . . . , Un des variables aleatoires independantes de loi uniforme sur[0, 1]. Alors (X1, . . . , Xn) a meme loi que (F−(U1), . . . , F−(Un)), et donc Dn a meme loique

D0n = sup

t∈R

∣∣∣∣∣ 1nn∑i=1

1F−(Ui)≤t − F (t)

∣∣∣∣∣ .Mais on a alors, comme l’evenement (F−(Ui) ≤ t) est egal a l’evenement (F (t) ≥ Ui)

D0n = sup

t∈R

∣∣∣∣∣ 1nn∑i=1

1Ui≤F (t) − F (t)

∣∣∣∣∣et comme F est continue croissante sur R, avec limite 0 en −∞ et limite 1 en +∞,F (R) = (0, 1) (l’intervalle est ouvert ou semi-ouvert ou ferme), donc en posant u = F (t),

D0n = sup

u∈]0,1[

∣∣∣∣∣ 1nn∑i=1

1Ui≤u − u

∣∣∣∣∣ .Application : construction de bandes de confiance pour F : La loi de D0

n peutetre tabulee, donc si dn,α est tel que

P(D0n ≥ dn,1−α

)≤ α,

alors si Fc designe l’ensemble des fonctions de repartition continues, on a, en utilisant letheoreme precedent,

∀F ∈ Fc, PF (‖Fn − F‖∞ ≤ dn,1−α) ≥ 1− α

et l’ensemble des fonctions comprises, pour tout t, entre Fn(t)−dn,1−α et Fn(t) +dn,1−αest une ”bande de confiance” pour F de niveau de confiance 1− α.

24

Page 25: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

4 Construction de tests

Se rappeler la notion de test, avec la definition 1.2.1.La methode indiquee par l’exemple du sondage est : choisir une statistique de test,c’est-a-dire une variable aleatoire, dont la loi est differente selon que l’hypothese nulleH0 est vraie ou selon que c’est l’hypothese alternative H1 qui est vraie, choisir une regionde rejet qui est conforme a ce changement qualitatif, et la calibrer en fonction du niveausouhaite (revoir cela avec l’exemple du sondage).

4.1 Test du rapport de vraisemblance

4.1.1 Generalites

Soit un modele statistique domine (X ,A, (Pθ)θ∈Θ).Soient Θ0 et Θ1 deux sous-ensembles disjoints de Θ. On veut tester H0 : ”θ ∈ Θ0” contreH1 : ”θ ∈ Θ1”.Le test du rapport de vraisemblance consiste a prendre la decision en fonction de lavaleur de la vraisemblance sur chacun des ensembles definissant l’hypothese nulle (Θ0)et l’hypothese alternative (Θ1). Soit donc µ une mesure dominante, et pour tout θ ∈ Θ,fθ la densite de Pθ par rapport a µ. On note L(θ) la vraisemblance. Soit

T (X) =supθ∈Θ1

L(θ)

supθ∈Θ0L(θ)

.

Le test du rapport de vraisemblance est de la forme

φ(X) = 1T>s

pour un seuil s fixe. Si on se fixe un niveau α ∈]0, 1[, alors on definit

Cα = inf

C > 0 : sup

θ∈Θ0

Pθ (T > C) ≤ α.

On a :

Proposition 4.1.1. Pour tout α ∈]0, 1[, si l’ensembleC > 0 : supθ∈Θ0

Pθ (T > C) ≤ α

est non vide, alors le test du rapport de vraisemblance 1T>Cα est de niveau α.

Preuve : Soit θ ∈ Θ0. Pour tout C > Cα, on a Pθ (T > C) ≤ α. Comme la fonc-tion C 7→ Pθ (T > C) est continue a droite, on a en faisant tendre C vers Cα a droite,Pθ (T > Cα) ≤ α. Comme ceci est vrai pour tout θ ∈ Θ0, on en deduit que le test du

25

Page 26: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

4 Construction de tests

rapport de vraisemblance 1T>Cα est de niveau α.

Exemple : modele binomial et test de H0 : ”θ ≤ θ0” contre H1 : ”θ > θ0”. Montrerque le test du rapport de vraisemblance prend la forme 1Sn≥sn,α pour un sn,α bien choisi.

4.1.2 Optimalite dans le cas de deux hypotheses simples

On considere le cas ou Θ0 = θ0 et Θ1 = θ1, θ0 6= θ1.On note f0 (resp. f1) la densite de Pθ0 (resp. Pθ1) par rapport a la mesure dominante.Le test du rapport de vraisemblance est de la forme

φ(X) = 1f1(X)>sf0(X)

et le seuil s est choisi en fonction du niveau souhaite α du test.La taille du test est Pθ0(f1(X) > sf0(X)), sa puissance est Pθ1(f1(X) > sf0(X)). On ale resultat d’optimalite suivant.

Proposition 4.1.2. Si le test du rapport de vraisemblance est de taille α alors il estplus puissant que n’importe quel test de niveau α de H0 : ”θ = θ0” contre H1 : ”θ = θ1”.

Preuve : Soient s et α tels que Pθ0(f1(X) > sf0(X)) = α. Posons φ(X) = 1f1(X)>sf0(X).Soit ψ un test de niveau α de ”θ = θ0” contre H1 : ”θ = θ1”. On a

Eθ1 [φ− ψ]− sEθ0 [φ− ψ] =

∫(f1(x)− sf0(x)) (φ(x)− ψ(x)) dµ(x)

≥ 0

car la fonction (f1(x)− sf0(x)) (φ(x)− ψ(x)) est toujours positive ou nulle (le voir endistinguant les differents cas de signe possibles pour f1(x)− sf0(x)).Donc

Eθ1 [φ]− Eθ1 [ψ] ≥ s (Eθ0 [φ]− Eθ0 [ψ])

≥ s (α− Eθ0 [ψ])

≥ 0

car φ est de taille α (donc Eθ0 [φ] = α) et ψ est de niveau α (donc Eθ0 [ψ] ≤ α).

Reprendre le cas du test de rapport de vraisemblance pour le modele binomial.

4.2 Test de Kolmogorov-Smirnov

On considere le modele statistique (Rn,B(Rn), (P⊗nF )F∈F ), ou F est l’ensemble desfonctions de repartition sur R. Si F0 est une fonction de repartition fixee, on veut testerH0 : ”F = F0” contre H1 : ”F 6= F0”. L’idee est de se baser sur la fonction de repartitionempirique Fn. On a alors :

26

Page 27: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

4.2 Test de Kolmogorov-Smirnov

Theoreme 4.2.1. Si F0 est continue, le test

φ = 1‖Fn−F0‖∞≥dn,1−α

est de niveau α.

On a deja vu que si F0 est continue, la loi de ‖Fn−F0‖∞ sous P⊗nF0ne depend pas de F0.

La preuve du theoreme est alors immediate. On appelle ce test test de Kolmogorov-Smirnov et Dn = ‖Fn − F0‖∞ statistique de Kolmogorov.Le calcul de Dn est simple. On a (le demontrer) :

Dn = max2≤i≤n

∣∣∣∣ i− 1

n− F0(X(i−1))

∣∣∣∣ ; ∣∣∣∣ i− 1

n− F0(X(i))

∣∣∣∣ ∨ ∣∣F0(X(1))∣∣ ∨ ∣∣1− F0(X(n))

∣∣en notant (X(i))1≤i≤n la statistique de rang de (Xi)1≤i≤n c’est-a- direX(1) ≤ X(2) ≤ · · · ≤ X(n).

La loi de Dn sous P⊗nF0est continue. (Le demontrer en l’ecrivant avec la loi uniforme).

Si F 6= F0, on a pour tout t, Fn(t)− F0(t) = Fn(t)− F (t) + F (t)− F0(t), donc

‖Fn − F0‖∞ ≥ ‖F − F0‖∞ − ‖Fn − F‖∞

et donc, si F est continue et ‖F − F0‖∞ ≥ 2dn,1−α

1− EF [φ] ≤ PF (‖Fn − F‖∞ ≥ ‖F − F0‖∞ − dn,1−α) ≤ α,

c’est-a-dire que si F est continue et ‖F −F0‖∞ ≥ 2dn,1−α, la puissance en F est ≥ 1−α.On peut montrer que dn,1−α est d’ordre 1/

√n quand n tend vers l’infini (en montrant

que sous F0 continue,√n‖Fn − F0‖∞ converge en loi).

On peut chercher a comparer la loi inconnue a F0 en precisant sa ”position” parrapport a F0. Par exemple, si l’on veut tester H0 : ”∀t, F (t) ≤ F0(t)” contre H1 :”∃t, F (t) > F0(t)” , on utilisera la statistique de Smirnov

D+n = sup

t∈R(Fn(t)− F0(t)) .

On peut montrer que si F0 est continue, la loi de D+n lorsque F = F0 ne depend pas de

F0, et peut donc etre tabulee. On peut donc choisir d+n,1−α tel que le test 1D+

n≥d+n,1−α

soit

de niveau α. (Demontrer tout cela, et comment calculer D+n avec la statistique de rang).

Noter que lorsque pour tout t, F (t) ≤ F0(t), l’observation a tendance a etre plusgrande sous PF que sous PF0 .

27

Page 28: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

4 Construction de tests

4.3 Test du chi-deux d’ajustement

On vient de voir un test d’ajustement pour decider si une loi est une loi donnee conti-nue. Il s’agit d’un test non parametrique.Que faire pour tester la meme chose pour des lois discretes ? On va y repondre dans lecas parametrique.On se place dans le cas ou X = 1, . . . , k. On note P l’ensemble des probabilitesp = (p(1), . . . , p(k)) sur X , et Pp la loi sur X induite par p. Le modele statistique estalors (X n,A, (P⊗np )p∈P).

On se donne p0 ∈ P tel que p0(j) > 0, j = 1, . . . , k, et on veut tester H0 : ”p = p0”contre H1 : ”p 6= p0”.On dispose de X1, . . . , Xn. Pour tout j = 1, . . . , k, on note

Nj =n∑i=1

1Xi=j

la statistique de comptage (remarquer qu’elle depend de n et X1, . . . , Xn meme si la

notation ne l’indique pas). On se dit queNjn est un bon estimateur de p(j), donc que

pour tester ”p = p0” contre ”p 6= p0” on pourrait se baser sur les differencesNjn − p0(j).

On pose :

Zn =k∑j=1

(Nj − np0(j))2

np0(j).

On va avoir besoin de lois du Chi-deux.

Definition 4.3.1. Soit m un entier. La loi du Chi-deux a m degres de liberte est la loide la somme des carres de m variables aleatoires independantes de loi N (0, 1). On notecette loi χ2(m).

On a alors :

Theoreme 4.3.1. Sous Pp0, Zn converge en loi quand n tend vers +∞ vers une variablealeatoire de loi χ2(k − 1) (loi du Chi-deux a k − 1 degres de liberte).

On demontrera ce theoreme au chapitre suivant.

A partir de ce theoreme, on peut construire un test qui soit asymptotiquement deniveau α et de puissance 1 (Le faire ! Demontrer les resultats de niveau et puissance !).

4.4 Lien entre tests et regions de confiance

Lorsqu’on a construit des tests, on est souvent parti du meme point de depart quelorsqu’on a construit des regions de confiance ; on est parti d’un estimateur de ce qui estteste ou estime, et fait ensuite des calculs analogues. Y a-t-il quelque chose de general

28

Page 29: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

4.4 Lien entre tests et regions de confiance

qui relie les deux procedures statistiques ?

Dire la definition d’une region de confiance R(X) pour θ, pas forcement un intervallede R.

Proposition 4.4.1. Soit R(X) une region de confiance pour θ de niveau de confiance1− α. Alors, pour tout θ0 ∈ Θ,

φ(X) = 1θ0 /∈R(X)

est un test de niveau α de H0 : ”θ = θ0” contre H1 : ”θ 6= θ0”

Preuve : Fixons θ0 ∈ Θ. On a alors Pθ0(θ0 ∈ R(X)) ≥ 1−α puisque R(X) une regionde confiance pour θ de niveau de confiance 1− α, et donc

Eθ0 [φ(X)] = Pθ0(θ0 /∈ R(X)) = 1− Pθ0(θ0 ∈ R(X)) ≤ α.

Proposition 4.4.2. On suppose que pour tout θ0 ∈ Θ, φθ0(X) est un test de niveau αde H0 : ”θ = θ0” contre H1 : ”θ 6= θ0”, et que la fonction de Θ× X dans R qui, a tout(θ,X) associe φθ(X) est mesurable. Alors

R(X) = θ ∈ Θ : φθ(X) = 0

est une region de confiance pour θ de niveau de confiance 1− α.

Preuve : Soit θ0 quelconque fixe dans Θ. Puisque φθ0(X) est un test de niveau α deH0 : ”θ = θ0” contre H1 : ”θ 6= θ0”, on a Eθ0 [φ(X)] ≤ α, soit Pθ0(φθ0(X) = 0) ≥ 1− α.Autrement dit,

Pθ0 (θ0 ∈ R(X)) ≥ 1− α.

Ceci etant vrai pour tout θ0 ∈ Θ cela prouve que R(X) est une region de confiance pourθ de niveau de confiance 1− α.

Exemples :— Modele binomial : construire un test de H0 : ”θ = θ0” contre H1 : ”θ 6= θ0” a partir

de la region de confiance vue en introduction.— Revisiter le test de Kolmogorov et la bande de confiance pour la fonction de

repartition.— A partir du test du chi-deux d’ajustement, construire une region de confiance pour

la probabilite (p1, . . . , pk) dans le modele multinomial.

29

Page 30: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver
Page 31: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

5 Vecteurs gaussiens

Ce qui suit sont surtout des rappels !

Definition 5.0.1. La loi gaussienne N (m,σ2), ou m ∈ R et σ2 ∈ R+ est la probabilitede densite par rapport a Lebesgue

1

σ√

2πexp

(−(x−m)2

2σ2

).

Un vecteur aleatoire X a valeurs dans Rk est un vecteur gaussien si et seulement sitoute combinaison lineaire de ses coordonnees est une variable aleatoire reelle gaussienne,autrement dit, si et seulement si, pour tout U ∈ Rk, il existe m ∈ R et σ2 ∈ R+ tels queUTX soit de loi N (m,σ2).

Si X est un vecteur gaussien, on peut alors definir E(X) le vecteur des esperances descoordonnees de X, et V ar(X) la matrice k×k de variance de X. (Rappeler sa definition).

La fonction caracteristique φ du vecteur gaussien d’esperance m ∈ Rk et dematrice de variance Σ est donnee par

∀t ∈ Rk, φ (t) = exp

[imT t− 1

2tTΣt

].

(Rappeler la preuve.)En particulier, la loi d’un vecteur gaussien est completement determinee par son esperancem ∈ Rk et sa matrice de variance Σ, on note alors la loi Nk(m; Σ). Si Σ est inversible,la densite par rapport a Lebesgue sur Rk est

1

(2π)k/2√det(Σ)

exp

(−1

2(x−m)TΣ−1(x−m)

).

Proposition 5.0.1. Si X est un vecteur gaussien de loi Nk(m; Σ) et si A est une matricep× k, alors AX est un vecteur gaussien de loi Np(Am;AΣAT ).

(Rappeler la preuve.)

Proposition 5.0.2. Si X est un vecteur gaussien et si sa variance est diagonale parblocs, alors les blocs de coordonnees correspondants forment des vecteurs gaussiens independants.

31

Page 32: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

5 Vecteurs gaussiens

(Rappeler la preuve.)

Definition 5.0.2. Un n-echantillon gaussien est un vecteur gaussien de loi Nn(0; Id),c’est-a-dire un vecteur dont les n composantes sont des variables aleatoires independantesde loi gaussienne centree reduite.

Proposition 5.0.3. Lorsqu’on fait un changement de base orthonormee, un n-echantillongaussien reste un n-echantillon gaussien.

(Rappeler la preuve.)

Theoreme 5.0.1 (Theoreme de Cochran). Soit X un n-echantillon gaussien, et soientE1, . . . , Ep des sous-espaces vectoriels de Rn orthogonaux, dont la somme est egale aRn. Notons Πj la projection orthogonale de Rn sur Ej, j = 1, . . . , p et kj = dim(Ej),j = 1, . . . , p.Alors les vecteurs Πj(X), j = 1, . . . , p, sont des vecteurs gaussiens independants, et pourj = 1, . . . , p, ‖Πj(X)‖2 suit la loi χ2(kj).

Preuve : Soit (ei,j)1≤i≤p,1≤j≤ki la base orthonormee de Rn telle que, pour tout i =1, . . . , p, (ei,j)1≤j≤ki est une base orthonormee de Ei. Soit A la matrice de changementde base associee, de sorte que si Y = AX, Y1, . . . , Yn sont les coordonnees de X dans lanouvelle base. Par les deux propositions qui precedent, Y est un n-echantillon gaussien.Par ailleurs, pour tout i = 1, . . . , p, en notant k0 = 0 :

Πi(X) =

ki∑j=1

Yk1+...+ki−1+jei,j .

Donc

‖Πi(X)‖2 =

ki∑j=1

Y 2k1+...+ki−1+j

et ‖Πi(X)‖2 suit donc la loi χ2(ki). Par ailleurs, (Πi(X))1≤i≤p est un vecteur gaussien dematrice de variance diagonale, donc les Πj(X), j = 1, . . . , p, sont des vecteurs gaussiensindependants

Theoreme 5.0.2 (Theoreme de limite centrale multidimensionnel). Soit (Xn)n≥1 unesuite de variables aleatoires a valeurs dans Rk, independantes et de meme loi de variancefinie. Alors

√n

(1

n

n∑i=1

Xi − E(X1)

)converge en loi vers une variable U de loi Nk(0, V ar(X1)).

32

Page 33: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

(Rappeler la preuve a partir du TLC unidimensionnel.)

Preuve du Theoreme 4.3.1 : On a X1, . . . , Xn i.i.d. de loi Pp0 sur 1, . . . , k. Pourj = 1, . . . , k, on note

Nj =n∑i=1

1Xi=j

et

Zn =k∑j=1

(Nj − np0(j))2

np0(j).

Soit Wn le vecteur de Rk de j-ieme coordonnee

1√n

(Nj − np0(j)√

p0(j)

).

Notons D le vecteur de Rk de j-ieme coordonnee√p0(j).

Par le TLC multidimensionnel, le vecteur Wn converge en loi sous Pp0 vers une variableU de loi Nk(0, Id−DDT ). Donc, par image continue, Zn = ‖Wn‖2 converge en loi sousPp0 vers ‖U‖2. Maintenant, A = Id−DDT est la matrice de projection orthogonale surl’orthogonal de la droite engendree par D. Donc AAT = A, et U a meme loi que AV ,ou V est de loi Nk(0, Id). Donc ‖U‖2 a meme loi que ‖AV ‖2, qui est de loi χ2(k − 1)d’apres le Theoreme de Cochran.

33

Page 34: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver
Page 35: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6 Modele lineaire gaussien

6.1 Definition et exemples

Le modele lineaire gaussien est (Rn,B(Rn), (Pθ)θ∈Θ), ou θ = (m,σ2), Pθ = Nn(m,σ2Id),et Θ = V × R∗+, V etant un sous-espace vectoriel de Rn.

Si l’observation est Y , on peut ecrire

Y = m+ ε, m ∈ V, ε ∼ Nn(0, σ2Id),

ou encore

Yi = mi + εi, i = 1, . . . , n,

εi, i = 1, . . . , n, i.i.d. de loi N (0, σ2). Remarquer qu’ici, les εi ne sont pas observes, etque les Yi n’ont pas meme loi.

Dans ce modele, il y a deux parties :

— La modelisation de la variance : ε ∼ Nn(0, σ2Id), les εi ont meme variance, ilssont independants, ils sont gaussiens.

— La modelisation de l’esperance : choix du sous-espace vectoriel V tel que m ∈ V(modele lineaire).

Une facon d’ecrire la modelisation de l’esperance est d’ecrire que V est l’image de Xpour une matrice X n× p, et donc qu’il existe β ∈ Rp tel que

m = Xβ.

Si X est injective, ou encore si V est de dimension p, alors ce β est unique et l’on ecritle modele

Y = Xβ + ε, β ∈ Rp, ε ∼ Nn(0, σ2Id).

Ici, X est connu (car V est connu), et l’on pose θ = (β, σ2), Pθ = Nn(Xβ, σ2Id),Θ = Rp × R∗+.

Exemples : Pour chaque exemple, expliciter le modele sous ses deux formes, avec Vet avec X.

1. Regression : On a des mesures Yi, on veut les expliquer par des variables connues.Par exemple : par le temps, si les mesures sont faites a des temps ti, on peut cherchera ajuster une parabole :

Yi = a+ bti + ct2i + εi, i = 1, . . . , n.

35

Page 36: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6 Modele lineaire gaussien

Ou bien par des donnees socio-culturelles :

Yi = a0 + a1X(1)i + . . .+ akX

(k)i + εi, i = 1, . . . , n.

(voir en quoi le modele est lineaire)

2. Analyse de la variance a un facteur : n individus, p traitements, ni individussoumis au traitement i, n = n1 + . . . + np, Yi,j : efficacite du traitement i sur lej-ieme individu traite par i :

Yi,j = µi + εi,j , i = 1, . . . , p, j = 1, . . . , ni.

Etude statistique :Ce que l’on va etudier :Les questions statistiques concernent θ, c’est a dire m ou β et σ2. On va donc s’interessera l’estimation des parametres, et a des tests sur ces parametres.Ce que l’on ne va pas etudier :En choisissant pour analyser le probleme pose le modele lineraire gaussien, il convientde verifier que l’on n’a pas eu tort de choisir ce modele. Il s’agit de construire des testsde validation du modele, par exemple pour tester que :

— Les εi ont meme variance— Les εi sont independants— Les εi sont gaussiens.Il faut noter que si le modele est valide, cela ne signifie pas qu’il est vrai : un modele

est toujours faux !, cela signifie que la variabilite de l’experience est correctement priseen compte.En statistique, une question centrale est celle du choix de modele : si on choisit unmodele trop complique, on a beaucoup de parametres a estimer, et on cumule beaucoupd’erreurs d’estimation, si on choisit un modele trop simple, on reflete mal l’experience.Le choix de modele est un veritable sujet de mathematique !

6.2 Estimation des parametres

6.2.1 Estimation de m et σ2

Le modele est domine. On peut ecrire la vraisemblance et demontrer que l’estimateurdu maximum de vraisemblance est donne par (le demontrer !) :

m = ΠV (Y ) , σ2 =1

n‖Y −ΠV (Y ) ‖2,

ou ΠV est la projection orthogonale sur V . Par Cochran, on obtient facilement les lois, etque E

[‖Y −ΠV (Y ) ‖2

]= n− p, avec p = dim(V ), donc on prefere choisir l’estimateur

sans biais

σ2 =1

n− p‖Y −ΠV (Y ) ‖2

On a

36

Page 37: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6.2 Estimation des parametres

Theoreme 6.2.1. L’estimateur du maximum de vraisemblance m suit la loi Nn(m,σ2ΠV ),

il est independant de σ2, et (n− p)σ2/σ2 suit la loi χ2(n− p).

Preuve : par le theoreme de Cochran (ecrire la preuve.)

6.2.2 Estimation de β et σ2

Pour obtenir l’estimateur du maximum de vraisemblance, on cherche β ∈ Rp quiminimise ‖Y −Xβ‖2. On peut faire le calcul par calcul differentiel, et obtenir (le faire)qu’un tel β verifie

(XTX)β = XTY.

On a

Lemme 6.2.1. Si X est injective, alors XTX est inversible, et la projection orthogonalesur V , image de X, est

ΠV = X(XTX)−1XT .

Preuve :X(XTX)−1XT est symetrique, idempotente, et si Y ∈ V ,X(XTX)−1XTY =Y .

Theoreme 6.2.2. L’estimateur du maximum de vraisemblance est

β = (XTX)−1XTY,

sa loi est Np(β, σ2(XTX)−1), et il est independant de σ2.

Retour sur les exemples 1, 2.

Analyse de la variance : On obtient (faire le calcul !) :

µi =1

ni

ni∑j=1

Yi,j , i = 1, . . . , p

et

σ2 =1

n− p

p∑i=1

ni∑j=1

(Yi,j − µi)2.

Regression affine : il s’agit du modele

Yi = a+ bti + εi, i = 1, . . . , n.

Ecrire X et β, et calculer a et b.

37

Page 38: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6 Modele lineaire gaussien

6.3 Tests d’hypotheses lineaires

Dans les exemples de modeles lineaires vus en introduction, on peut se poser desquestions comme :

— Si l’on ajuste une parabole (exemple 1), passe-t-elle par l’origine ? C’est-a-dire :a-t-on a = 0 ? Ou bien, la courbe est-elle en fait une droite ? C’est-a- dire : a-t-onb = 0 ?

— Parmi les variables explicatives, certaines n’interviennent pas ? C’est-a-dire : a-t-on, pour certains i, ai = 0 ?

— Y a-t-il une difference entre les traitements ? C’est-a-dire : a-t-on µ1 = . . . = µp ?Ces questions la se formulent sous forme d’hypotheses lineaires, c’est-a-dire sous la

forme ”m ∈ W” pour un sous-espace vectoriel W de V (Le faire sur les 3 exemplesindiques !)

Soit donc W un sous-espace vectoriel de V . Notons p = dim(V ) et q = dim(W ), q < p(sinon W = V et il n’y a rien a tester). On souhaite tester

H0 : ”m ∈W”

contreH1 : ”m ∈ V \W”.

La statistique du test du rapport de vraisemblance est, si l’on note L(m,σ2) la vraisem-blance :

T =supm∈V \W,σ2>0 L(m,σ2)

supm∈W,σ2>0 L(m,σ2)

Et l’on obtient (le calculer !) :

T =

(‖Y −ΠW (Y )‖‖Y −ΠV (Y )‖

)n.

Pour cela, on utilise le fait que, comme W est un sous-espace de dimension q < p, pourtout m ∈ V et σ2 > 0,

P(m,σ2) (ΠV (Y ) ∈W ) = 0.

(Le demontrer, en utilisant que sous P(m,σ2), ΠV (Y ) suit la loi Nn(m,ΠV )).

Par Pythagore,

‖Y −ΠV (Y )‖2 + ‖ΠV (Y )−ΠW (Y )‖2 = ‖Y −ΠW (Y )‖2,

et donc

T =

(1 +‖ΠV (Y )−ΠW (Y )‖2

‖Y −ΠV (Y )‖2

)n/2.

Le test du rapport de vraisemblance est donc celui qui decide H0 si ‖ΠV (Y )−ΠW (Y )‖‖Y−ΠV (Y )‖ est

plus grand qu’un seuil. Reste a fixer ce seuil pour avoir un test de niveau α.

38

Page 39: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6.4 Regions de confiance

Definition 6.3.1. Soit Z une variable aleatoire. On dit que Z suit la loi de Fisher am et l degres de liberte si Z a meme loi que

U1/m

U2/l

ou U1 et U2 sont des variables aleatoires independantes, U1 de loi χ2(m) et U2 de loiχ2(l). On note F (m, l) cette loi.

On appelle test de Fisher de H0 : ”m ∈ W” contre H1 : ”m ∈ V \W” le test quirejette H0 lorsque

‖ΠV (Y )−ΠW (Y )‖2/(p− q)‖Y −ΠV (Y )‖2/(n− p)

≥ fp−q,n−p,1−α

en notant fp−q,n−p,1−α le 1− α-quantile de la loi F (p− q, n− p).

Theoreme 6.3.1. Le test du rapport de vraisemblance de H0 : ”m ∈ W” contreH1 : ”m ∈ V \W” est le test de Fisher, et il est de niveau α.

(Ecrire la preuve !)

Retour sur les exemples.

Analyse de la variance : Le test du rapport de vraisemblance de H0 : ”µ1 = . . . =µp” contre H1 : ”∃i, j : µi 6= µj” est le test qui rejette H0 lorsque∑p

i ni(Y −1ni

∑nij=1 Yi,j)

2/(p− 1)∑pi=1

∑nij=1(Yi,j − 1

ni

∑nik=1 Yi,k)

2/(n− p)≥ fp−1,n−p,1−α

en notant

Y =1

n

p∑i=1

ni∑j=1

Yi,j .

(Le demontrer !)

Regression affine : Ecrire le test de H0 : ”a = 0” contre H1 : ”a 6= 0” .

6.4 Regions de confiance

6.4.1 Region de confiance pour m

L’idee est de partir de ΠV (Y ) qui est un estimateur de m, de loi Nn(m,σ2ΠV ).

ΠV (Y )−m = σΠV

(Y −mσ

)

39

Page 40: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6 Modele lineaire gaussien

et donc par le theoreme de Cochran, ‖ΠV (Y )−m‖2/σ2 suit la loi χ2(p). Si l’on connaitσ2, cela permet de construire une region de confiance pour m (le faire !). Que faire si onne connait pas σ2 ? L’idee est de le remplacer par un estimateur, et de considerer

‖ΠV (Y )−m‖2

‖Y −ΠV (Y )‖2/(n− p).

On ecrit

‖ΠV (Y )−m‖2/p‖Y −ΠV (Y )‖2/(n− p)

=σ2‖ΠV

(Y−mσ

)‖2/p

σ2‖(Y−mσ

)−ΠV

(Y−mσ

)‖2/(n− p)

,

qui, en utilisant le theoreme de Cochran, suit la loi F (p, n− p). (L’ecrire !). On a donc

∀m ∈ V, ∀σ2 > 0, P(m,σ2)

(‖ΠV (Y )−m‖2/p

‖Y −ΠV (Y )‖2/(n− p)≤ fp,n−p,1−α

)≥ 1− α.

Donc m ∈ V : ‖ΠV (Y )−m‖2 ≤ pfp,n−p,1−α‖Y −ΠV (Y )‖2/(n− p)

est une region de confiance pour m de niveau de confiance 1 − α. C’est, dans V , unesphere centree en ΠV (Y ) et de rayon ‖Y −ΠV (Y )‖

√pfp,n−p,1−α/(n− p).

Remarque : si m0 est un vecteur fixe de V , on peut donc maintenant ecrire un test deH0 : m = m0 contre H1 : ”m 6= m0”. (Le faire !).

6.4.2 Region de confiance pour β

On part de l’estimateur de β :

β = (XTX)−1XTY ∼ Np(β, σ2(XTX)−1

).

On a alors

(XTX)1/2

(β − βσ

)∼ Np (0, Id) ,

et donc1

σ2

(β − β

)T(XTX)

(β − β

)∼ χ2(p).

Comme β est independant de σ2, on a que(β − β

)T(XTX)

(β − β

)/p

σ2=

(β−βσ

)T(XTX)

(β−βσ

)/p

(n−p)σ2

σ2 /(n− p)

suit la loi F (p, n− p). Donc, si fp,n−p,1−α est le quantile d’ordre 1− α et F (p, n− p) :

∀β ∈ Rp, ∀σ2 > 0, P(β,σ2)

(β − β

)T(XTX)

(β − β

)/p

σ2≤ fp,n−p,1−α

= 1− α

40

Page 41: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

6.4 Regions de confiance

et donc β ∈ Rp,

(β − β

)T(XTX)

(β − β

)≤ pσ2fp,n−p,1−α

est une region de confiance pour β de niveau de confiance 1− α.

6.4.3 Region de confiance pour σ2

On part de l’estimateur

σ2 =1

n− p‖Y −ΠV Y ‖2

pour lequel on sait que (n− p) σ2

σ2 suit la loi χ2(n− p). On a donc :

∀m ∈ V, ∀σ2 > 0, P(m,σ2)

(χ2n−p,α/2 ≤ (n− p) σ

2

σ2≤ χ2

n−p,1−α/2

)≥ 1− α.

Donc [(n− p)σ2

χ2n−p,1−α/2

;(n− p)σ2

χ2n−p,α/2

]est un intervalle de confiance pour σ2 de niveau de confiance 1− α.

41

Page 42: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver
Page 43: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

7.1 introduction

Soit (X ,A, (Pθ)θ∈Θ) un modele statistique, et X l’observation.

Soit g : Θ→ Rd, et L une fonction de perte, c’est-a-dire une fonction de Rd×Rd dansR+. Si T (X) est un estimateur de g(θ), la fonction de risque est

θ 7→ Eθ [L (g(θ), T (X))] := R(θ, T ).

Pour comparer des estimateurs, on va comparer les risques. On peut penser a deux faconsde faire :

— Comparer la valeur maximale du risque, c’est l’approche minimax— Comparer une valeur moyenne du risque, ce sera l’approche bayesienne.

Dans l’approche minimax, on cherche un estimateur T (X) qui soit proche (voire realise)la valeur minimale, parmi tous les estimateurs possibles, du risque maximal. On appellerisque minimax la quantite

infT

supθ∈Θ

R(θ, T ).

On va voir qu’il y a des limitations intrinseques liees au modele statistique et au choixde fonction de perte.

7.2 Affinite de test et minoration du risque maximum

Revoir la distance en variation totale, definition et proprietes.

Definition 7.2.1. Soient P et Q deux probabilites definies sur un meme espace. Onappelle affinite de test entre P et Q la quantite

π(P,Q) = 1− ‖P −Q‖V T .

Proposition 7.2.1. Si µ domine P et Q, et si dP = fdµ et dQ = gdµ, alors

π(P,Q) =

∫(f ∧ g)dµ.

43

Page 44: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

Preuve :On a

π(P,Q) = 1−∫f≥g

(f − g) dµ

=

∫fdµ−

∫f≥g

(f − g) dµ

=

∫f<g

fdµ+

∫f≥g

gdµ

=

∫(f ∧ g)dµ.

Sous l’hypothese que la fonction de perte verifie une inegalite de type triangulaire, onva voir une minoration du risque minimax.

Theoreme 7.2.1 (Theoreme de Le Cam). On suppose qu’il existe C > 0 tel que, pourtous u, v, w dans Rd,

L(u, v) ≤ C [L(u,w) + L(v, w)] .

Alors pour tout estimateur T (X),

supθ∈Θ

Eθ [L (g(θ), T (X))] ≥ 1

2Csup

(θ1,θ2)∈Θ2

[L (g(θ1), g(θ2))π (Pθ1 , Pθ2)] .

Preuve : Soient θ1 et θ2 de Θ. Posons µ = Pθ1 + Pθ2 , dPθ1 = fθ1dµ et dPθ2 = fθ2dµ.On a par l’hypothese sur L

L (g(θ1), g(θ2)) ≤ C [L (g(θ1), T (X)) + L (g(θ2), T (X))]

et donc∫L (g(θ1), g(θ2)) (fθ1(x) ∧ fθ2(x))dµ(x) ≤

C

∫[L (g(θ1), T (x)) + L (g(θ2), T (x))] (fθ1(x) ∧ fθ2(x))dµ(x).

Mais ∫L (g(θ1), T (x)) (fθ1(x) ∧ fθ2(x))dµ(x) ≤

∫L (g(θ1), T (x)) fθ1(x)dµ(x)

et ∫L (g(θ2), T (x)) (fθ1(x) ∧ fθ2(x))dµ(x) ≤

∫L (g(θ2), T (x)) fθ2(x)dµ(x)

ce qui donne

L (g(θ1), g(θ2))

∫(fθ1(x) ∧ fθ2(x))dµ(x) ≤

C

[∫L (g(θ1), T (x)) fθ1(x)dµ(x) +

∫L (g(θ2), T (x)) fθ2(x)dµ(x)

].

44

Page 45: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.2 Affinite de test et minoration du risque maximum

Autrement dit : pour tout (θ1, θ2) ∈ Θ2,

L (g(θ1), g(θ2))π (Pθ1 , Pθ2) ≤ C Eθ1 [L (g(θ1), T (X))] + Eθ2 [L (g(θ2), T (X))] .

Le deuxieme membre de l’inegalite est majore par

2C supθ∈Θ

Eθ [L (g(θ), T (X))] ,

et il suffit alors de prendre le supremum en (θ1, θ2) ∈ Θ2 pour obtenir le theoreme.

Proposition 7.2.2. Si d(·, ·) est une distance et si p ≥ 1, alors L(u, v) = (d(u, v))p

verifie l’hypothese du theoreme de Le Cam avec C = 2p−1.

Preuve : On a pour tous u, v, w, par l’inegalite triangulaire

d(u, v)p ≤ (d(u,w) + d(v, w))p .

Mais si p ≥ 1, la fonction x 7→ xp est convexe, donc pour tous x et y,(x+ y

2

)p≤ xp + yp

2,

et donc

(d(u,w) + d(v, w))p = 2p(d(u,w) + d(v, w)

2

)p≤ 2p

(d(u,w)p + d(v, w)p

2

)= 2p−1(d(u,w)p+d(v, w)p).

En particulier, avec p = 2, on a la minoration du risque quadratique : pour toutestimateur T (X),

supθ∈Θ

Eθ[‖g(θ)− T (X)‖2

]≥ 1

4sup

(θ1,θ2)∈Θ2

[‖g(θ1)− g(θ2)‖2π (Pθ1 , Pθ2)

].

Ce qui nous interessera en particulier, c’est de comprendre comment evolue le minoranten fonction de n dans une experience statistique de variables i.i.d. Lorsque le modele est(X n,An, (P⊗nθ )θ∈Θ), et que la fonction de perte L verifie l’hypothese du theoreme de LeCam, on a : pour tout estimateur Tn(X1, . . . , Xn),

supθ∈Θ

Eθ [L (g(θ), Tn(X1, . . . , Xn))] ≥ 1

2Csup

(θ1,θ2)∈Θ2

[L (g(θ1), g(θ2))π

(P⊗nθ1 , P⊗nθ2

)].

(7.1)

Il s’agit alors de comprendre comment evolue π(P⊗nθ1 , P⊗nθ2

)en fonction de n.

45

Page 46: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

7.3 Distance et affinite de Hellinger

On va definir une distance entre deux probabilites a partir de leurs densites par rap-port a une mesure dominante. On commence par voir que cette quantite ne depend pasde la mesure dominante choisie – comme on a vu pour la distance en variation.

Soient P et Q deux probabilites sur un espace probabilisable (Ω,A). Soit µ une mesuresur Ω qui domine P et Q. On note f la densite de P par rapport a µ et g la densite deQ par rapport a µ. Si maintenant on pose ν = P+Q

2 , p la densite de P par rapport a νet q la densite de Q par rapport a ν, on a

p = fdµ

dνet q = g

dν.

On a donc ∫ (√f −√g

)2dµ =

∫(√p−√q)2 dν

et cette quantite ne depend donc pas de la mesure dominante choisie.

Definition 7.3.1. On appelle distance de Hellinger la quantite h(P,Q) telle que

h2(P,Q) =1

2

∫ (√f −√g

)2dµ.

On appelle affinite de Hellinger la quantite ρ(P,Q) telle que

ρ(P,Q) =

∫ √f√gdµ.

Il est clair que la distance de Hellinger est une distance. Par ailleurs,∫ (√f −√g

)2dµ =

∫ (f + g − 2

√f√g)dµ

= 2− 2

∫ √f√gdµ

et donch2(P,Q) = 1− ρ(P,Q).

Ceci a pour consequence que

0 ≤ h2(P,Q) ≤ 1 et 0 ≤ ρ(P,Q) ≤ 1.

On va maintenant relier distance de Hellinger et distance en variation. Commenconspar comparer affinite de test et affinite de Hellinger. On a

Proposition 7.3.1. Pour toutes probabilites P et Q,

π(P,Q) ≤ ρ(P,Q) et (1− π(P,Q))2 ≤ 1− ρ2(P,Q).

46

Page 47: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.3 Distance et affinite de Hellinger

Preuve : On a

π(P,Q) =

∫f ∧ g dµ

=

∫ (√f ∧√g

)2dµ

≤∫ (√

f ∧√g)(√

f ∨√g)dµ

=

∫ √f√g dµ = ρ(P,Q).

Par ailleurs, par Cauchy-Schwarz

ρ2(P,Q) ≤∫

(f ∧ g) dµ

∫(f ∨ g) dµ.

Mais f + g = f ∧ g + f ∨ g, ce qui donne∫(f ∧ g) dµ

∫(f ∨ g) dµ =

∫(f ∧ g) dµ

∫(f + g − f ∧ g) dµ

= π(P,Q) (2− π(P,Q))

= 1− (1− π(P,Q))2

donc(1− π(P,Q))2 ≤ 1− ρ2(P,Q).

On deduit de cette proposition le fait que ces deux distances sont comparables, mais nesont pas equivalentes.

Theoreme 7.3.1. Pour toutes probabilites P et Q,

‖P −Q‖V T ≤√

2h(P,Q)

eth2(P,Q) ≤ ‖P −Q‖V T .

Preuve : La premiere inegalite decoule du fait que

‖P −Q‖2V T = (1− π(P,Q))2 ≤ (1 + ρ(P,Q)) (1− ρ(P,Q)) ≤ 2 (1− ρ(P,Q)) .

La deuxieme inegalite decoule de

h2(P,Q) = 1− ρ(P,Q) ≤ 1− π(P,Q) = ‖P −Q‖V T .

On s’interesse maintenant a la distance entre P⊗n et Q⊗n, n un entier. La densite deP⊗n par rapport a µ⊗n est

∏ni=1 f(xi), celle de Q⊗n est

∏ni=1 g(xi). On a par Fubini

∫ √√√√ n∏i=1

f(xi)

√√√√ n∏i=1

g(xi)dµ⊗n =

n∏i=1

∫ √f(xi)

√g(xi)dµ,

47

Page 48: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

et doncρ(P⊗n, Q⊗n) = (ρ(P,Q))n .

On en deduit

Proposition 7.3.2. Pour toutes probabilites P et Q,

h2(P⊗n, Q⊗n) ≤ nh2(P,Q).

Preuve : On ah2(P⊗n, Q⊗n) = 1−

(1− h2(P,Q)

)n.

Par ailleurs, pour tout entier n ≥ 1 et tout u ∈ [0, 1], par le theoreme des accroissementsfinis, il existe u ∈ [0, u] tel que 1 − (1 − u)n = n(1 − u)n−1u, donc pour tout u ∈ [0, 1],1− (1− u)n ≤ nu.

On peut maintenant obtenir le comportement de π(P⊗n, Q⊗n) en fonction de n.

Theoreme 7.3.2. Pour toutes probabilites P et Q,

1−√

2nh(P,Q) ≤ π(P⊗n, Q⊗n) ≤ e−nh2(P,Q).

Preuve : Montrons la majoration. On a

π(P⊗n, Q⊗n) ≤ ρ(P⊗n, Q⊗n) = exp[n log(1− h2(P,Q))].

Mais pour tout u > 0, log(1 +u) ≤ u, donc exp[n log(1−h2(P,Q))] ≤ exp[−nh2(P,Q))].Montrons maintenant la minoration. On a(

1− π(P⊗n, Q⊗n))2 ≤ 1− ρ2(P⊗n, Q⊗n) = 1− (ρ(P,Q))2n .

Mais pour tout u ∈ [0, 1], 1− u2n ≤ 2n(1− u). Donc(1− π(P⊗n, Q⊗n)

)2 ≤ 2n (1− ρ(P,Q)) = 2nh2(P,Q).

Dans la minoration du risque maximum du theoreme de Le-Cam avec n observa-tions i.i.d., on doit avoir un minorant > 0 de π(P⊗nθ1 , P⊗nθ2 ). On voit que cela necessite

d’avoir h(Pθ1 , Pθ2) ≤ c/√n pour un c < 1/

√2. Par ailleurs, le theoreme montre que si

h(Pθ1 , Pθ2) ≥ c/√n, alors π(P⊗nθ1 , P⊗nθ2 ) ≤ exp(−c2).

On va maintenant s’interesser au risque maximum lorsque la fonction de perte est unepuissance de la distance de Hellinger. On se donne p ≥ 1. On se place dans le modele(X n,An, (P⊗nθ )θ∈Θ). pour tout estimateur Tn(X1, . . . , Xn),

Theoreme 7.3.3. On suppose qu’il existe c < 1/√

2 tel que pour tout entier n, il existeθ1 et θ2 dans Θ tels que h(Pθ1 , Pθ2) = c/

√n. Alors il existe γ(p) > 0 tel que pour tout

estimateur Tn(X1, . . . , Xn), pour tout entier n,

supθ∈Θ

Eθ[hp(Pθ, PTn(X1,...,Xn)

)]≥ γ(p)n−p/2.

48

Page 49: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.3 Distance et affinite de Hellinger

En vitesse de Hellinger, la vitesse de convergence la meilleure possible est1/√n.

Preuve : On applique l’inegalite (7.1) avec la fonction de perte l(u, v) = h(Pu, Pv)p,

et l’on obtient

supθ∈Θ

Eθ[hp(Pθ, PTn(X1,...,Xn)

)]≥ 1

2psup

(θ1,θ2)∈Θ2

[hp (Pθ1 , Pθ2)

(1−√

2nh(Pθ1 , Pθ2))],

puis on choisit θ1 et θ2 dans Θ tels que h(Pθ1 , Pθ2) = c/√n pour obtenir

supθ∈Θ

Eθ[hp(Pθ, PTn(X1,...,Xn)

)]≥ 1

2p

[(c√n

)p (1−√

2c)],

et l’on obtient le resultat avec γ(p) = 12p c

p(1−√

2c).

Sinon de maniere generale, l’inegalite (7.1) se reecrit

supθ∈Θ

Eθ [L (g(θ), Tn(X1, . . . , Xn))] ≥ 1

2Csup

(θ1,θ2)∈Θ2

[L (g(θ1), g(θ2))

(1−√

2nh(Pθ1 , Pθ2))].

(7.2)En particulier, le risque quadratique verifie :

supθ∈Θ

[(Tn(X1, . . . , Xn)− θ)2

]≥ 1

4sup

(θ1,θ2)∈Θ2

[(θ1 − θ2)2

(1−√

2nh(Pθ1 , Pθ2))]. (7.3)

Exemple 1 : modele gaussien de moyenne inconnue et de variance 1. Θ = R, Pθ =N (θ, 1). On a (faire le calcul !) :

ρ (Pθ1 , Pθ2) = exp

[−(θ1 − θ2)2

8

],

donc, comme pour tout u ≥ 0, 1− exp(−u) ≤ u,

h2 (Pθ1 , Pθ2) ≤ (θ1 − θ2)2

8.

L’inegalite (7.3) donne alors : pour tout estimateur Tn(X1, . . . , Xn),

supθ∈R

[(Tn(X1, . . . , Xn)− θ)2

]≥ 1

4sup

(θ1,θ2)∈R2

[(θ1 − θ2)2

(1−√n|θ1 − θ2|

2

)].

En prenant par exemple |θ1−θ2| = 1/√n on obtient : pour tout estimateur Tn(X1, . . . , Xn),

supθ∈R

[(Tn(X1, . . . , Xn)− θ)2

]≥ 1

8n.

49

Page 50: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

Par ailleurs, l’estimateur Tn(X1, . . . , Xn) = 1n

∑ni=1Xi = X verifie que pour tout θ ∈ R,

Eθ[(X − θ)2] = 1/n, donc

supθ∈R

( 1

n

n∑i=1

Xi − θ

)2 =

1

n.

Exemple 2 : modele uniforme. Θ = R∗+, Pθ est la loi uniforme sur [0, θ]. On a (fairele calcul !) :

ρ (Pθ1 , Pθ2) =

(1− |θ1 − θ2|

θ1 ∨ θ2

)1/2

.

Si x ∈ [0, 1], 1−√x ≤ 1− x, on a

h2 (Pθ1 , Pθ2) ≤ |θ1 − θ2|θ1 ∨ θ2

.

L’inegalite (7.3) donne alors : pour tout estimateur Tn(X1, . . . , Xn),

supθ∈]0,1]

[(Tn(X1, . . . , Xn)− θ)2

]≥ 1

4sup

(θ1,θ2)∈]0,1]2

(θ1 − θ2)2

1−

√2n|θ1 − θ2|θ1 ∨ θ2

.En prenant par exemple |θ1 − θ2| = c/n et θ1 = 1 on obtient : pour tout estimateurTn(X1, . . . , Xn),

supθ∈R

[(Tn(X1, . . . , Xn)− θ)2

]≥ c2(1−

√c)

8n2.

Si l’on pose Tn(X1, . . . , Xn) = maxX1, . . . , Xn, on a (faire le calcul !) :

[(Tn(X1, . . . , Xn)− θ)2

]=

2θ2

(n+ 1)(n+ 2)≤ 2

n2

lorsque θ ∈]0, 1].

7.4 Vitesse de separation pour le test de deux hypothesessimples

Etant donne un n-echantillon X1, . . . , Xn de loi P , on considere le test du rapportde vraisemblance pour tester ”P = P0” contre ”P = P1”. Comme pour l’estimation, letest s’ameliore si n augmente : a niveau fixe la puissance augmente. Une autre facon devoir l’apport d’information lorsque n augmente est de se demander jusqu’a quel pointP0 et P1 peuvent etre proches pour avoir malgre tout les deux erreurs (de premiere etde deuxieme espece) majorees par α.

50

Page 51: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.4 Vitesse de separation pour le test de deux hypotheses simples

Soit donc µ une mesure dominant P0 et P1, f0 (resp. f1) la densite de P0 (resp. P1)par rapport a µ. Le test du rapport de vraisemblance s’ecrit

φ = 1∑ni=1 log

f1(Xi)

f0(Xi)≥ncn

pour un seuil ncn a fixer en fonction du niveau souhaite. Evaluons maintenant les erreursde premiere et de deuxieme espece. On a pour tout λ > 0 (le demontrer)

EP0 [φ] ≤ e−λncn(EP0

[eλ log

f1(X1)f0(X1)

])n.

En prenant λ = 1/2 on obtient

EP0

[eλ log

f1(X1)f0(X1)

]= ρ (P0, P1) = 1− h2 (P0, P1) ,

ce qui donneEP0 [φ] ≤ e−ncn/2en log(1−h2(P0,P1)),

et doncEP0 [φ] ≤ e−n[cn/2+h2(P0,P1)].

Par ailleurs

EP1 [1− φ] = P1

(n∑i=1

logf1(Xi)

f0(Xi)≤ ncn

)

= P1

(n∑i=1

logf0(Xi)

f1(Xi)≥ −ncn

)et donc, comme par la meme methode que precedemment,

EP1 [1− φ] ≤ e−n[−cn/2+h2(P0,P1)].

Pour avoirEP0 [φ] ≤ α,

il suffit de choisir

cn = −2h2(P0, P1) +2

nlog

(1

α

).

On a alors

EP1 [1− φ] ≤ 1

αe−2nh2(P0,P1)],

et donc on a EP1 [1− φ] ≤ α des que

nh2(P0, P1) ≥ log

(1

α

).

En distance de Hellinger, la vitesse de separation de deux hypothesessimples pour obtenir un test du rapport de vraisemblance dont les deuxerreurs sont majorees par α est 1/

√n.

51

Page 52: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

7.5 Divergence de Kullback

On va definir une quantite qui va etre comparable a la distance de Hellinger entre deuxprobabilites. Soient donc P et Q deux probabilites sur un espace probabilisable (Ω,A).Soit µ une mesure sur Ω qui domine P et Q. On note f la densite de P par rapport a µet g la densite de Q par rapport a µ. Si P est absolument continue par rapport a Q, ona f = g dPdQ et si f > 0 alors g > 0 µ-p.s. (c’est-a-dire µx : f(x) > 0 et g(x) = 0 = 0).On a en ce cas∫ (

dP

dQlog

dP

dQ

)dQ =

∫f>0,g>0

(log

f

g

)dP

=

∫f>g>0

(log

f

g

)dP −

∫g>f>0

(log

g

f

)dP.

Montrons que∫g>f>0

(log g

f

)dP est finie, de sorte que

∫ (dPdQ log dP

dQ

)dQ est bien defini

(quitte a valoir +∞ si∫f>g>0

(log f

g

)dP = +∞).

Si P (g > f > 0) = 0, alors∫g>f>0

(log g

f

)dP = 0. Si P (g > f > 0) > 0, par

l’inegalite de Jensen,

1

P (g > f > 0)

∫g>f>0

(log

g

f

)dP ≤ log

Q(g > f > 0)P (g > f > 0)

< +∞.

On peut donc introduire la definition suivante.

Definition 7.5.1. On appelle divergence de Kullback entre P et Q la quantite

K (P,Q) =

∫ (dPdQ log dP

dQ

)dQ si P Q

+∞ sinon.

Remarque : la divergence de Kullback n’est pas une distance car elle n’est passymetrique : en general, K(P,Q) 6= K(Q,P ). Par contre, elle est bien positive ou nulle,et nulle si et seulement si les probabilites sont egales, c’est une consequence de l’inegalitequi suit.

Proposition 7.5.1. On aK (P,Q) ≥ 2h2 (P,Q) .

Preuve : Supposons P Q, sinon l’inegalite est immediate. On a

K (P,Q) =

∫f>0,g>0

(log

f

g

)dP

= −2

∫f>0,g>0

(log

√g

f

)dP

≥ −2

∫f>0,g>0

(√g

f− 1

)dP

52

Page 53: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.5 Divergence de Kullback

car pour tout x > −1, log(1 + x) ≤ x. Puis, comme µ-p.s., f > 0 = f > 0, g > 0, ona∫f>0,g>0 dP = 1, et donc∫

f>0,g>0

(√g

f− 1

)dP =

∫f>0,g>0

√fgdµ− 1

= ρ (P,Q)− 1

= −h2 (P,Q) .

Cette proposition permet un nouveau minorant dans le theoreme de Le Cam : si lafonction de perte verifie les hypotheses du theoreme de Le Cam, pour tout estimateurT (X),

supθ∈Θ

Eθ [L (g(θ), T (X))] ≥ 1

2Csup

(θ1,θ2)∈Θ2

[L (g(θ1), g(θ2))

(1−

√K(Pθ1 , Pθ2)

)]. (7.4)

Pour utiliser ce resultat avec n observations independantes, on a un calcul simple dela divergence de Kullback entre produits tensoriels.

Proposition 7.5.2. Soient, pour i = 1, . . . , n, Pi et Qi deux probabilites sur un espaceprobabilisable (Ωi,Ai). Alors

K (⊗ni=1Pi,⊗ni=1Qi) =

n∑i=1

K (Pi, Qi)

En particulier :K(P⊗n, Q⊗n

)= nK (P,Q) .

Preuve : l’ecrire !.

Application au modele lineaire gaussien.Considerons le modele

Y = Xβ + ε

avec X = (x1, . . . , xn)T ∈ Rn, β ∈ R, ε ∼ Nn(0, σ2Id) et θ = (β, σ2). On s’interesseau risque quadratique minimax pour estimer β. On a en appliquant (7.4), pour toutestimateur T (Y ),

supθ∈R×σ2

[(T (Y )− β)2

]≥ 1

4sup

(θ1,θ2)

[(β1 − β2)2

(1−

√K(Pθ1 , Pθ2)

)]avec Pθ = ⊗ni=1N (xiβ, σ

2). On a donc

K(Pθ1 , Pθ2) =

n∑i=1

K(N (xiβ1, σ

2),N (xiβ2, σ2)).

Puis (faire le calcul !) :

K(N (xiβ1, σ

2),N (xiβ2, σ2))

=x2i

2σ2(β1 − β2)2

53

Page 54: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

et donc

supθ∈R×σ2

[(T (Y )− β)2

]≥ 1

4sup

(θ1,θ2)

(β1 − β2)2

1−

√√√√(β1 − β2)2

2σ2

n∑i=1

x2i

.En prenant pour un c ∈]0, 1],

(β1 − β2)2 =2cσ2∑ni=1 x

2i

on obtient

supθ∈R×σ2

[(T (Y )− β)2

]≥ σ2c(1−

√c)

2∑n

i=1 x2i

.

L’estimateur du maximum de vraisemblance est

β =

∑ni=1 xiYi∑ni=1 x

2i

pour lequel, pour tout θ ∈ R× σ2,

[(β − β

)2]

=σ2∑ni=1 x

2i

,

et β est un estimateur minimax a constante pres.

7.6 Estimation bayesienne

7.6.1 Estimateurs admissibles et estimateurs bayesiens

On veut estimer g(θ), et on se fixe une fonction de perte L. Les definitions qui suivents’entendent relativement a la fonction de perte fixee. Soient T (X) et T ′(X) deux esti-mateurs.

Definition 7.6.1. On dit que T est aussi bon que T ′ si

∀θ ∈ Θ, R(θ, T ) ≤ R(θ, T ′).

On dit que T est meilleur que T ′ si T est aussi bon que T ′ et que en outre,

∃θ0 ∈ Θ, R(θ0, T ) < R(θ0, T′).

On dit que T est admissible si il n’existe pas d’estimateur T ′ meilleur que T .

Theoreme 7.6.1. Un estimateur admissible et de risque constant est minimax.

54

Page 55: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.6 Estimation bayesienne

Preuve : Soit T un estimateur admissible et tel que pour une constante C, pour toutθ ∈ Θ, R(θ, T ) = C. Alors supθ∈ΘR(θ, T ) = C. Si T ′ est un autre estimateur, il n’estpas meilleur que T . Donc ou bien T est aussi bon que T ′, auquel cas supθ∈ΘR(θ, T ) ≤supθ∈ΘR(θ, T ′), ou bien il existe θ tel que R(θ, T ′) < R(θ, T ), mais alors il existe θ′ telque R(θ′, T ′) > R(θ′, T ) = C, auquel cas

supθ∈Θ

R(θ, T ′) > C = supθ∈Θ

R(θ, T ).

Donc T est bien minimax.

On suppose maintenant Θ mesurable, et on munit alors Θ d’une probabilite ν, appeleealors loi a priori. Les definitions qui suivent s’entendent relativement a la fonction deperte fixee et a la loi a priori fixee.

Definition 7.6.2. On appelle risque de Bayes de l’estimateur T la quantite

Rν(T ) =

∫ΘR(θ, T )dν(θ).

On dit que T est un estimateur bayesien si

— Pour tout θ ∈ Θ, R(θ, T ) est fini.— Pour tout estimateur T ′, Rν(T ) ≤ Rν(T ′).

Autrement dit, un estimateur bayesien minimise le risque bayesien. On va voir quesous certaines conditions, pour trouver des estimateurs admissibles, il suffit de trouverdes estimateurs bayesiens. Si en outre leur risque est constant, ils sont minimax.

Theoreme 7.6.2. Soit T un estimateur bayesien. Supposons que l’une des conditionssuivantes est realisee :

1. T est unique au sens suivant : si T ′ est un estimateur bayesien, alors pour toutθ ∈ Θ, T = T ′ Pθ-p.s.

2. Θ est denombrable et ν charge tous les points de Θ.

3. Θ est une partie de Rk, ν charge tous les ouverts de Θ, et si T ′ est tel que R(θ, T ′)est fini pour tout θ ∈ Θ, alors θ 7→ R(θ, T ′) est continue.

Alors T est admissible.

Preuve : On va raisonner par l’absurde. Soit T un estimateur bayesien, et supposonsqu’il n’est pas admissible. Alors il existe un estimateur T ′ meilleur que T , donc tel que

∀θ ∈ Θ, R(θ, T ′) ≤ R(θ, T )

et

∃θ0 ∈ Θ, R(θ0, T′) < R(θ, T ).

55

Page 56: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

Supposons 1. Alors Rν(T ′) = Rν(T ), car T est bayesien. Donc pour tout θ ∈ Θ, T = T ′

Pθ-p.s. et donc pour tout θ ∈ Θ, R(θ, T ′) = R(θ, T ) : contradiction.Supposons 2. Alors

Rν(T )−Rν(T ′) =∑θ∈Θ

(R(θ, T )−R(θ, T ′)

)ν(θ)

≥(R(θ0, T )−R(θ0, T

′))ν(θ0)

> 0 : contradiction.

Supposons 3. Alors la fonction θ 7→ R(θ, T )−R(θ, T ′) est continue. Soit ε = R(θ0, T )−R(θ0, T

′). Par continuite, il existe un ouvert U contenant θ0 tel que

∀θ ∈ U, |R(θ, T )−R(θ, T ′)− ε| ≤ ε

2,

et donc tel que

∀θ ∈ U, R(θ, T )−R(θ, T ′) ≥ ε

2.

On a alors

Rν(T )−Rν(T ′) =

∫Θ

(R(θ, T )−R(θ, T ′)

)dν(θ)

≥∫U

(R(θ, T )−R(θ, T ′)

)dν(θ)

≥ ε

2ν(U)

> 0 : contradiction.

7.6.2 Notion de loi conditionnelle

La formule

Rν(T ) =

∫θ

(∫XL(g(θ), T (x))dPθ(x)

)dν(θ) =

∫θ×X

L(g(θ), T (x))dPθ(x)dν(θ)

peut etre lue en considerant que le couple (τ,X) (parametre et observation) est unevariable aleatoire, de loi jointe dν(θ)dPθ(x). Le point de vue bayesien est de munir l’en-semble des parametres d’une loi a priori ν, et de considerer que, conditionnellement aufait que le parametre τ soit θ, l’observation est de loi Pθ. A condition que ce que l’onvient de dire ait un sens, c’est a dire que l’on puisse effectivement parler de loi condi-tionnelle. C’est ce que l’on va etudier ici.

Si (X,Y ) est un couple de variables aleatoires dans X ×Y, de loi PX,Y , on sait que siX et Y sont des variables independantes, on peut ecrire, par Fubini : pour toute fonctionφ mesurable ≥ 0,

E [φ(X,Y )] =

∫X

[∫Yφ(x, y)dPY (y)

]dPX(x) =

∫Y

[∫Xφ(x, y)dPX(x)

]dPY (y).

56

Page 57: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.6 Estimation bayesienne

On souhaite ecrire une formule analogue lorsque X et Y ne sont pas des variablesindependantes, en faisant intervenir une loi conditionnelle :

E [φ(X,Y )] =

∫X

[∫Yφ(x, y)dPY (y|X = x)

]dPX(x) (7.5)

On va montrer que c’est possible sous certaines conditions. On suppose ici que X ⊂ Rket Y ⊂ Rp.

Proposition 7.6.1. Soit µ (resp. ν) une mesure positive sur X (resp. Y). On supposeque P(X,Y ) est absolument continue par rapport a µ ⊗ ν de densite f(x, y). Alors (7.5)est vraie si l’on definit

dPY (y|X = x) = f(y|X = x)dν(y),

avec

f(y|X = x) =f(x, y)

g(x)1g(x)>0

ou g(x) est la densite par rapport a µ de la loi de X (g(x) =∫Y f(x, y)dν(y)).

dPY (y|X = x) est une version de la loi conditionnelle de Y sachant X = x.Noter l’analogie avec la formule definissant les probabilites conditionnelles.

Preuve : Soit φ une fonction mesurable ≥ 0. On a∫X

[∫Yφ(x, y)f(y|X = x)dν(y)

]dPX(x) =

∫X

[∫Yφ(x, y)

f(x, y)

g(x)1g(x)>0dν(y)

]g(x)dµ(x)

=

∫X

[∫Yφ(x, y)f(x, y)dν(y)

]dµ(x)

car si g(x) = 0, alors f(x, y) = 0 ν-p.p. Puis par Fubini∫X

[∫Yφ(x, y)f(x, y)dν(y)

]dµ(x) =

∫X×Y

φ(x, y)f(x, y)dν(y)dµ(x)

= E [φ(X,Y )] .

Cette ”loi conditionnelle” permet-elle alors de calculer les esperances conditionnellescomme les esperances ?

Quelques rappels sur les esperances conditionnelles par rapport a une tribu ; par rap-port a une variable aleatoire ; la notation esperance conditionnelle a X = x.

Proposition 7.6.2. Si (7.5) est vraie, alors pour toute fonction ψ ∈ L1(PY ),

E [ψ(Y )|X = x] =

∫Yψ(y)dPY (y|X = x).

57

Page 58: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

Preuve : Notons

ρ(x) =

∫Yψ(y)dPY (y|X = x).

On veut montrer que pour toute fonction h mesurable bornee,

E [ψ(Y )h(X)] = E [ρ(X)h(X)] .

Soit donc h mesurable bornee. On a

E [ρ(X)h(X)] =

∫X

(∫Yψ(y)dPY (y|X = x)

)h(x)dPX(x)

=

∫X

(∫Yψ(y)h(x)dPY (y|X = x)

)dPX(x)

= E [ψ(Y )h(X)]

car (7.5).

7.6.3 Calcul d’estimateurs bayesiens

On suppose que le modele (X ,A, (Pθ)θ∈Θ) est domine. Soit µ une mesure dominante,et pour tout θ ∈ Θ, fθ la densite de Pθ par rapport a µ. On suppose aussi que la loi apriori a une densite ρ par rapport a une mesure π sur Θ : dν(θ) = ρ(θ)dπ(θ). On a alors

Rν(T ) =

∫Θ×X

L(g(θ), T (x))fθ(x)ρ(θ)dµ(x)dπ(θ).

Autrement dit, si (τ,X) est une variable aleatoire sur Θ×X de loi de densite h(θ, x) =fθ(x)ρ(θ) par rapport a π ⊗ µ, on a

Rν(T ) = E [L(g(τ), T (X))] .

On peut donc appliquer les resultats precedents sur les lois conditionnelles, et l’on a

Rν(T ) =

∫X

(∫ΘL(g(θ), T (x))ρ(θ|X = x)dπ(θ)

)h(x)dµ(x),

ou h est la densite de la loi marginale de X, c’est-a-dire h(x) =∫

Θ fθ(x)ρ(θ)dπ(θ), et ouρ(θ|X = x) est la densite de la loi conditionnelle de τ sachant X = x, donnee par

ρ(θ|X = x) =fθ(x)ρ(θ)

h(x)1h(x)>0.

On appelle ρ(θ|X)dπ(θ) loi a posteriori.Il est clair qu’alors, pour minimiser Rν(T ), il suffit pour tout x de choisir T (x) quiminimise

∫Θ L(g(θ), T (x))ρ(θ|X = x)dπ(θ). On va voir deux exemples typiques dans le

cas ou ce que l’on cherche a estimer est a valeurs reelles, c’est-a-dire quand g : Θ→ R.

58

Page 59: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.6 Estimation bayesienne

7.6.3.1 Cas de la perte quadratique

On considere L(u, v) = (u − v)2. Alors un estimateur bayesien est l’esperance aposteriori T (X) donnee par

T (x) =

∫Θg(θ)ρ(θ|X = x)dπ(θ),

et T est unique hdµ-p.s. (Demontrer ces deux affirmations).Si tout ensemble negligeable pour hdµ l’est pour Pθ pour tout θ, alors T est admissible.(Ecrire ce que cela signifie, indiquer des conditions suffisantes pour obtenir ce resultat).

Exemple : modele de Bernoulli avec a priori Beta.Le modele est (0, 1n,P(0, 1n), (B(θ)⊗n)θ∈[0,1]). L’observation est X1, . . . , Xn. Onchoisit la loi a priori Beta B(a, b), avec a > 0 et b > 0, de densite par rapport aLebesgue

Γ(a+ b)

Γ(a)Γ(b)θa−1(1− θ)b−1

10<θ<1.

(Rappel : Γ(z) =∫ +∞

0 xz−1e−xdx).La loi a posteriori est alors la loi Beta B(a+

∑ni=1Xi; b+n−

∑ni=1Xi). (Le demontrer).

L’esperance a posteriori est

T (X1, . . . , Xn) =a+

∑ni=1Xi

a+ b+ n,

et T est admissible. (Demontrer ces deux affirmations).

Exemple : modele gaussien avec a priori gaussien.Le modele est (Rn,B(Rn), (N (θ, 1)⊗n)θ∈R). L’observation est X1, . . . , Xn. On choisit laloi a priori N (0, σ2). La loi a posteriori est alors la loi

N

(σ2

1 + nσ2

n∑i=1

Xi;σ2

1 + nσ2

).

(Le demontrer).L’esperance a posteriori est

T (X1, . . . , Xn) =σ2

1 + nσ2

n∑i=1

Xi,

et T est admissible. (Demontrer ces deux affirmations).

59

Page 60: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7 Elements de theorie de la decision

7.6.3.2 Cas de la perte valeur absolue

On considere L(u, v) = |u−v|. Alors un estimateur bayesien est T (X) ou T (x) minimisepour tout x ∫

Θ|θ − T (x)| dν(θ|X = x).

On va voir qu’ un estimateur bayesien est la mediane a posteriori T (X) qui verifie

ν (τ ≤ T (X)|X) ≥ 1

2et ν (τ ≥ T (X)|X) ≥ 1

2.

Pour cela, nous allons definir, pour α ∈]0, 1[, le quantile d’ordre α d’une loi de probabilite,et appliquer cela au quantile d’ordre 1/2 appele mediane. Soit Z une variablealeatoire de loi P .

Definition 7.6.3. On dit que q est un quantile d’ordre α de Z (ou de la loi de Z) siet seulement si

P (Z ≤ q) ≥ α et P (Z ≥ q) ≥ 1− α.

Proposition 7.6.3. Si F est la fonction de repartition de Z, alors F−(α) est un quantiled’ordre α de Z.

Remarque : il peut y avoir plusieurs quantiles d’ordre α.

Preuve : rappeler la definition de la fonction quantile et ses proprietes, voir que laproposition en est une consequence.

Proposition 7.6.4. q est un quantile d’ordre α de Z si et seulement si q minimise lafonction

u 7→ αE [(Z − u)+] + (1− α)E [(Z − u)−] .

Preuve : Notons

h(u) = αE [(Z − u)+] + (1− α)E [(Z − u)−] .

Remarquons que l’on a aussi

h(u) = E [(Z − u)+] + (1− α)E [(u− Z)] = E [(Z − u)−] + αE [(Z − u)] .

On montre alors que pour tous u et v tels que u ≤ v,

h(u)− h(v) ≥ (v − u) [P (Z ≥ v)− (1− α)]

(en utilisant la premiere formulation) et

h(v)− h(u) ≥ (v − u) [P (Z ≤ u)− α]

60

Page 61: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

7.6 Estimation bayesienne

(en utilisant la deuxieme formulation).Si q minimise h, alors pour tout v > q on a h(q)−h(v) ≤ 0, donc P (Z ≥ v) ≤ 1−α, soitP (Z < v) ≥ α, donc P (Z ≤ q) ≥ α en faisant tendre v vers q. Aussi, pour tout u < q,h(q)− h(u) ≤ 0, donc P (Z ≤ u) ≤ α, donc P (Z < q) ≤ α en faisant tendre u vers q etdonc P (Z ≥ q) ≥ 1− α.Reciproquement, si P (Z ≤ q) ≥ α, alors pour tout v > q on a h(q) − h(v) ≤ 0, et siP (Z ≥ q) ≥ 1− α, pour tout u < q, h(q)− h(u) ≤ 0.

Exemple : dans le cas du modele gaussien avec a priori gaussien, la mediane a pos-teriori est egale a l’esperance a posteriori

61

Page 62: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver
Page 63: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8 Tests du rapport de vraisemblance ettheorie de Neyman-Pearson

8.1 Extension de la notion de test

On considere le modele statistique (X ,A, (Pθ)θ∈Θ), Θ0 et Θ1 deux parties de Θ tellesque Θ0 ∩Θ1 = ∅.On veut tester H0 : ”θ ∈ Θ0” contre H1 : ”θ ∈ Θ1”.Se rappeler ce qu’est un test φ(X), et toutes les notions liees.

On va etendre la notion de test, en particulier de facon a obtenir des tests de taille αdans tous les cas.

Definition 8.1.1. Un test statistique de l’hypothese H0 : “θ ∈ Θ′′0 contre l’alter-native H1 : “θ ∈ Θ′′1 est une variable aleatoire φ fonction mesurable de l’observationet a valeur dans [0, 1]. La regle de decision est la suivante : on rejette H0 avec probabi-lite φ(X). En pratique, on genere une variable aleatoire U independante de X et de loiuniforme sur [0, 1], et on rejette H0 si U ≤ φ(X).

On peut aussi considerer le test randomise ψ(X,U) = 1U≤φ(X), qui lui est a valeursdans 0, 1 et tel que φ(X) = E[ψ|X]. Le demontrer.

Definition 8.1.2. La taille du test est supθ∈Θ0Eθφ.

On appelle puissance du test la fonction θ 7→ Eθφ.On dit que le test est de niveau α si sa taille est majoree par α, ou autrement dit si lafonction puissance, pour θ ∈ Θ0, est majoree par α.

Demontrer que ces notions sont identiques si on les applique au test ou au test rando-mise.

On va maintenant, comme pour les methodes d’estimation, chercher des criteres d’op-timalite. De meme qu’on a compare les risques des estimateurs, on va comparer lespuissances des tests.

Definition 8.1.3. Le test φ est dit uniformement le plus puissant parmi les testsde niveau α, soit UPP(α), si et seulement si φ est de niveau α et si pour tout test ψde niveau α, on a

∀θ ∈ Θ1, Eθψ ≤ Eθφ.

63

Page 64: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8 Tests du rapport de vraisemblance et theorie de Neyman-Pearson

8.2 Cas de deux hypotheses simples

On etudie le cas ou Θ0 = θ0 et Θ1 = θ1. Soit µ une mesure dominant Pθ0 et Pθ1 ,

et notons f0 =dPθ0dµ et f1 =

dPθ1dµ .

Rappelons la notion de tests du rapport de vraisemblance (TRV). On l’avait definicomme valant 1 lorsque f1(X) > Cαf0(X), avec

Cα = inf C : Pθ0(f1(X) > Cf0(X)) ≤ α .

Rappeler pourquoi cet ensemble de C est de la forme [Cα,+∞[.

Lorsque le test est a valeurs dans 0, 1 cela suffit a le definir. Il vaut alors 0 surl’evenement complementaire.On generalise la notion de test du rapport de vraisemblance en disant que c’est un testtel que : il existe un reel sα tel que

— Le test vaut 1 sur l’evenement ”supθ∈Θ1fθ(X) > sα supθ∈Θ0

fθ(X),— Le test vaut 0 sur l’evenement ”supθ∈Θ1

fθ(X) < sα supθ∈Θ0fθ(X),

— Et sur l’evenement ”supθ∈Θ1fθ(X) = sα supθ∈Θ0

fθ(X), le test vaut γ(X) ∈ [0, 1].

Proposition 8.2.1. Pour tout α ∈]0, 1[, il existe un test du rapport de vraisemblancede taille α pour tester H0 :”θ = θ0” contre H1 :”θ = θ1” qui est

φα = 1f1(X)>Cαf0(X) + γ1f1(X)=Cαf0(X)

avec γ = 0 si Pθ0(f1(X) = Cαf0(X)) = 0 et

γ =α− Pθ0(f1(X) > Cαf0(X))

Pθ0(f1(X) = Cαf0(X))∈ [0, 1]

si Pθ0(f1(X) = Cαf0(X)) > 0.

Preuve : On a Pθ0(f1(X) > Cαf0(X)) ≤ α, et si C < Cα, Pθ0(f1(X) > Cf0(X)) > α.Donc en faisant tendre C vers Cα, on obtient

Pθ0(f1(X) ≥ Cαf0(X)) ≥ α,

c’est a direPθ0(f1(X) > Cαf0(X)) + Pθ0(f1(X) = Cαf0(X)) ≥ α,

ce qui prouve que γ ∈ [0, 1]. Puis

Eθ0 [φα] = Pθ0(f1(X) > Cαf0(X)) + γPθ0(f1(X) = Cαf0(X))

= Pθ0(f1(X) > Cαf0(X)) + α− Pθ0(f1(X) > Cαf0(X)) = α.

64

Page 65: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8.2 Cas de deux hypotheses simples

Lemme 8.2.1 (Lemme de Neyman-Pearson). Soit α ∈]0, 1[. Alors φ est UPP(α) pourtester H0 :”θ = θ0” contre H1 :”θ = θ1” si et seulement si φ est un test du rapport devraisemblance de taille α. On dit alors que φ est NP(α).

Preuve : Soit ψ un test de niveau α. On a toujours (le verifier region par region)

(ψ − φα) (f1 − Cαf0) ≤ 0

donc en integrant ∫(ψ − φα) (f1 − Cαf0) dµ ≤ 0

soitEθ1 (ψ − φα) ≤ CαEθ0 (ψ − φα) ≤ 0

car Eθ0ψ ≤ α et Eθ0φα = α, et donc Eθ1ψ ≤ Eθ1φα, et donc φα est UPP(α).Supposons maintenant que ψ est UPP(α). Alors Eθ1ψ = Eθ1φα, et donc

CαEθ0 (ψ − φα) ≥ 0

et donc CαEθ0 (ψ − φα) = 0. Du coup∫f1>Cαf0

(ψ − 1) (f1 − Cαf0) dµ+

∫f1<Cαf0

(ψ) (f1 − Cαf0) dµ = 0,

ce qui montre que ψ = 1 sur l’evenement ”f1(X) > Cαf0(X)” et ψ = 0 sur l’evenement”f1(X) < Cαf0(X)”, donc ψ est un test du rapport de vraisemblance de taille α.

Exemple : modele gaussien. Ici Pθ = N (µ, 1)⊗n, θ = µ et Θ = R. Soient µ0 et µ1

deux reels. On montre facilement (le faire !) que :

Si µ1 > µ0, le TRV(α) pour tester H0 : ”µ = µ0” contre H1 : ”µ = µ1” est

φα = 1X−µ0>u1−α/√n

en notant X = 1n

∑ni=1Xi et avec u1−α le quantile d’ordre 1− α de N (0, 1).

De meme si µ1 < µ0, le TRV(α) pour tester H0 : ”µ = µ0” contre H1 : ”µ = µ1” est

ψα = 1X−µ0<uα/√n

On remarque que ces tests ne dependent de µ1 qu’a travers le signe de µ1 − µ0. Onpeut alors montrer que :

φα est UPP(α) pour tester H0 : ”µ = µ0” contre H1 : ”µ > µ0”,

ψα est UPP(α) pour tester H0 : ”µ = µ0” contre H1 : ”µ < µ0”,

65

Page 66: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8 Tests du rapport de vraisemblance et theorie de Neyman-Pearson

et il n’existe pas de test UPP(α) pour tester H0 : ”µ = µ0” contre H1 : ”µ 6= µ0”.

(Ecrire la preuve de ces affirmations !).Si l’on veut tester H0 : ”µ = µ0” contre H1 : ”µ 6= µ0”, on peut considerer le test

hα = 1X−µ0>u1−α/2/√n + 1X−µ0<uα/2/

√n.

Faire la representation graphique des courbes de puissance des trois tests φα, ψα ethα. On pourra commencer par ecrire les fonctions puissance de chacun des tests a l’aidede la fonction de repartition de N (0, 1), et alors montrer que la fonction puissance deφα est croissante et celle de ψα est decroissante.

8.3 Tests d’hypotheses multiples

On ne suppose plus que Θ0 et Θ1 sont reduits a un point. Existe-t-il alors un testUPP(α) ? On vient de voir que non en general, mais que si l’on pouvait ecrire le rap-port de vraisemblance d’une certaine maniere monotone on pouvait montrer que le testUPP(α) pour des hypotheses simples le restait pour un test unilatere. On va generaliserl’exemple gaussien.

On se place dans le cadre ou : Θ est un intervalle de R, le modele est domine par unemesure µ, et on note, pour tout θ, fθ = dPθ

dµ .

Definition 8.3.1. On dit que la famille fθ, θ ∈ Θ est une famille a rapport mono-tone si et seulement si il existe une statistique T (X), c’est a dire T : X → R mesurabletelle que : pour tout (θ1, θ0) ∈ Θ2 tel que θ1 > θ0, il existe une fonction Ψθ1,θ0 croissantede R dans R telle que pour tout x tel que fθ0(x) > 0 ou fθ1(x) > 0 :

fθ1fθ0

(x) = Ψθ1,θ0 (T (x)) .

Remarquons que quitte a considerer −T (X), on ne perd pas en generalite en neconsiderant que des fonctions croissantes. Noter aussi que si θ1 < θ0,

fθ1fθ0

(x) =1

Ψθ0,θ1 (T (x))

qui est une fonction decroissante de T (x).

Theoreme 8.3.1. Soit α ∈]0, 1[ et fθ, θ ∈ Θ une famille a rapport monotone. Soitθ0 ∈ Θ et soit θ′ ∈ Θ tel que θ′ > θ0. Alors

1. Le TRV(α) de H0 : ”θ = θ0” contre H1 : ”θ = θ′” ne depend pas de θ′.On peut lenoter φθ0,α.

2. La fonction θ 7→ Eθ[φθ0,α] est croissante.

66

Page 67: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8.3 Tests d’hypotheses multiples

3. Le test φθ0,α est UPP(α) pour tester H0 : ”θ ≤ θ0” contre H1 : ”θ > θ0.

Si maintenant θ′ ∈ Θ est tel que θ′ < θ0, alors1bis. Le TRV(α) de H0 : ”θ = θ0” contre H1 : ”θ = θ′” ne depend pas de θ′.On peut

le noter ψθ0,α.2bis. La fonction θ 7→ Eθ[ψθ0,α] est decroissante.3bis. Le test ψθ0,α est UPP(α) pour tester H0 : ”θ ≥ θ0” contre H1 : ”θ < θ0.

Preuve : Montrons 1. Soit φ un TRV(α) de H0 : ”θ = θ0” contre H1 : ”θ = θ′”. Alors,il existe sα tel que :

— φ(X) = 1 si fθ′(X) > sαfθ0(X),— φ(X) = 0 si fθ′(X) < sαfθ0(X),— Eθ0 [φ(X)] = α.

Maintenant, comme fθ, θ ∈ Θ est une famille a rapport monotone, il existe un reel cαet un reel γ tel que

φ = 1T (X)>cα + γ1T (X)=cα

est un TRV(α) de H0 : ”θ = θ0” contre H1 : ”θ = θ′”. On peut par exemple choisir

cα = infc : Pθ0(T (X) > c) ≤ α,

puis γ = 0 si Pθ0(T (X) = cα) = 0 et

γ =α− Pθ0(T (X) > cα)

Pθ0(T (X) = cα)

si Pθ0(T (X) = cα) > 0. cα et γ ne dependent que de θ0 et α. On a donc montre 1.

Montrons maintenant 2. Soient θ1 et θ2 deux elements de Θ tels que θ1 < θ2. Alorsφθ0,α est un test du rapport de vraisemblance de H0 : ”θ = θ1” contre H1 : ”θ = θ2”(dire pourquoi) de taille

a = Pθ1(T (X) > cα) + γPθ1(T (X) = cα) = Eθ1 [φθ0,α(X)].

Donc il est NP(a) et UPP(a) pour tester H0 : ”θ = θ1” contre H1 : ”θ = θ2”, et donc ilest plus puissant que le test constant egal a a, donc Eθ2 [φθ0,α(X)] ≥ a, soit

Eθ1 [φθ0,α(X)] ≤ Eθ2 [φθ0,α(X)]

et on a ainsi montre 2.Montrons enfin 3. Tout d’abord, pour tout θ ≤ θ0, Eθ[φθ0,α(X)] ≤ Eθ0 [φθ0,α(X)] = α etdonc φθ0,α est un test de taille α pour tester H0 : ”θ ≤ θ0” contre H1 : ”θ > θ0. Soit φun test de niveau α pour tester H0 : ”θ ≤ θ0” contre H1 : ”θ > θ0. Alors, si θ′ > θ0, φest un test de niveau α pour tester H0 : ”θ = θ0” contre H1 : ”θ = θ′. Mais φθ0,α estUPP(α) pour tester H0 : ”θ = θ0” contre H1 : ”θ = θ′, donc Eθ′ [φ(X)] ≤ Eθ′ [φθ0,α(X)].Ceci etant vrai pour tout θ′ > θ0, on a montre que φθ0,α est UPP(α) pour tester H0 :”θ ≤ θ0” contre H1 : ”θ > θ0.

67

Page 68: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8 Tests du rapport de vraisemblance et theorie de Neyman-Pearson

Les preuves de 1bis, 2bis, 3bis sont analogues.

Revenons maintenant a la question concernant le test bilatere. On a vu dans le casgaussien qu’il n’existait pas de test UPP(α). Par les memes arguments, pour une famillea rapport monotone, pour tout θ0, il n’existe pas de test UPP(α) de ”θ = θ0” contre”θ 6= θ0”. On va neanmoins montrer, dans le cas gaussien, qu’en se restreignant aux testsdont la puissance est au moins egale a la taille, on a un test optimal.

Definition 8.3.2. On dit que le test φ de H0 : ”θ ∈ Θ0” contre H1 : ”θ ∈ Θ1” est untest sans biais si et seulement si

supθ∈Θ0

Eθ[φ(X)] ≤ infθ∈Θ1

Eθ[φ(X)].

Proposition 8.3.1. Un test UPP est sans biais.

Preuve : car il est plus puissant que le test constant egal a sa taille.

Definition 8.3.3. Le test φ est dit uniformement le plus puissant parmi les testssans biais de niveau α, soit UPPB(α), pour tester H0 contre H1 si et seulement siφ est un test sans biais et de niveau α pour tester H0 contre H1 tel que, si ψ est un testsans biais de niveau α pour tester H0 contre H1, alors Eθ1φ ≥ Eθ1ψ.

Revenons au modele gaussien, et considerons le test de H0 : ”µ = µ0” contre H1 :”µ 6= µ0” donne par

hα = 1X−µ0>u1−α/2/√n + 1X−µ0<uα/2/

√n.

On a pour tout µ, en notant π(µ) = Eµ(hα), F la fonction de repartition de N (0, 1) etu = u1−α/2 = −uα/2 :

π(µ) = F (−u−√n(µ− µ0)) + 1− F (u−

√n(µ− µ0))

(Le demontrer), et donc la derivee de π est (faire le calcul !)

π′(µ) =

√n√2π

(exp[−1

2(u−

√n(µ− µ0))2]− exp[−1

2(u+

√n(µ− µ0))2]

),

et donc (le verifier) π′(µ) ≤ 0 pour µ ≤ µ0 et π′(µ) ≥ 0 pour µ ≥ µ0, donc π estminimum en µ = µ0 et donc hα est un test sans biais de H0 : ”µ = µ0” contre H1 :”µ 6= µ0”.

Proposition 8.3.2. Le test hα est UPPB(α) pour tester H0 : ”µ = µ0” contre H1 :”µ 6= µ0”.

68

Page 69: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8.3 Tests d’hypotheses multiples

Preuve :Tout d’abord, quitte a considerer θ = µ− µ0, on peut considerer que µ0 = 0 sans pertede generalite.Soit φ un test sans biais pour tester H0 : ”µ = 0” contre H1 : ”µ 6= 0”. On a alors

E0[φ] ≤ α et ∀µ ∈ R, Eµ[φ] ≥ α.

Mais la fonction µ 7→ Eµ[φ(X)] est derivable, de derivee∫φ(x1, . . . , xn)pµ(x1, . . . , xn)dx1 · · · dxn,

ou l’on note pµ(x1, . . . , xn) la densite deN (µ, 1)⊗n par rapport a Lebesgue et pµ(x1, . . . , xn)sa derivee par rapport a µ. (Demontrer cette affirmation). La fonction µ 7→ Eµ[φ(X)]ayant un minimum en 0, sa derivee s’y annule, et donc pour tout test φ sans biais deH0 : ”µ = 0” contre H1 : ”µ 6= 0” on a∫

φ(x1, . . . , xn)p0(x1, . . . , xn)dx1 · · · dxn = 0. (8.1)

En particulier, E0[φ] = α par continuite.

On va maintenant montrer que pour tout reel µ, il existe des reels k1 > 0 et k2 > 0tels que

hα(x1, . . . , xn) = 0⇐⇒ pµ(x1, . . . , xn)− k1p0(x1, . . . , xn)− k2p0(x1, . . . , xn) ≤ 0. (8.2)

Notons tout d’abord que

hα(x1, . . . , xn) = 0⇐⇒∣∣∣∣∑n

i=1 xi√n

∣∣∣∣ ≤ u.Soit µ un reel fixe, et notons f(x; k1, k2) la fonction telle que

pµ(x1, . . . , xn)−k1p0(x1, . . . , xn)−k2p0(x1, . . . , xn) = p0(x1, . . . , xn)f

(∑ni=1 xi√n

; k1, k2

).

On a

f(x; k1, k2) = exp(√

nµx− n

2µ2)− k1 + k2

√nx,

dont la derivee (en tant que fonction de x) est

f ′(x; k1, k2) =√nµ exp

(√nµx− n

2µ2)

+ k2

√n.

On voit que si µ et k2 sont non nuls et de signe contraire, alors f est decroissante puiscroissante, et pour que (8.2) soit verifie, il suffit que u et −u soient les deux zeros de f .Autrement dit, il suffit de trouver k1 et k2 tels que f(u; k1, k2) = 0 et f(−u; k1, k2) = 0et k2 de signe contraire de µ. Or, f(u; k1, k2) = 0 et f(−u; k1, k2) = 0 si et seulement si

k1 − k2

√nu = exp

(√nµu− n

2µ2)

69

Page 70: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

8 Tests du rapport de vraisemblance et theorie de Neyman-Pearson

etk1 + k2

√nu = exp

(−√nµu− n

2µ2)

qui a une solution unique (k1, k2) qui verifie bien le fait que k2 est de signe contraire deµ. (Faire le calcul pour le verifier). Par ailleurs, k1 > 0. (Faire le calcul pour le verifier).Maintenant, si φ est un test sans biais de H0 : ”µ = 0” contre H1 : ”µ 6= 0” on a danstous les cas

(hα − φ) (pµ − k1p0 − k2p0) ≥ 0,

et donc en utilisant (8.1)

Eµ[hα − φ] ≥ k1E0[hα − φ] = 0,

et donc Eµ[hα] ≥ Eµ[φ].Ceci etant vrai pour tout reel µ, on a bien montre que hα est UPPB(α).

70

Page 71: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

Soit le modele (X ,A, (Pθ)θ∈Θ), et X l’observation.Soit g une fonction de Θ dans Rk.On va s’interesser aux estimateurs sans biais U(X) de g(θ), c’est-a-dire qui verifient

∀θ ∈ Θ, Eθ[U(X)] = g(θ).

9.1 Exhaustivite et estimateurs UVMB

On cherche a resumer l’information sur le modele contenue dans l’observation parune statistique T (X), i.e. a voir si il existe une telle statistique telle que toute bonneprocedure d’estimation ou de test soit fonction de cette statistique. (Se rappeler lesmethodes vues precedemment).

9.1.1 Exemple du modele de Bernoulli

Ici le modele est donne par X = 0, 1n, Pθ = B(θ)⊗n, θ ∈ [0, 1], X = (X1, . . . , Xn).Toutes les procedures que l’on a vues pour estimer ou tester θ etaient fonction deT (X) =

∑ni=1Xi.

Soit U(X) un estimateur, pour obtenir a partir de U un estimateur T (X)-mesurable,on peut considerer

V (X) = Eθ[U(X)|T (X)].

Mais alors, puisque ce calcul d’esperance est fait sous Pθ, le resultat peut ne pas etre lememe si l’on le fait avec θ = θ0 que si on le fait avec θ = θ1 pour un θ1 6= θ0. Disonsdonc que l’on fixe θ = θ0 et donc que

V (X) = Eθ0 [U(X)|T (X)].

Si U(X) est un estimateur sans biais de g(θ), alors V (X) verifie Eθ0 [V (X)] = g(θ0)( l’ecrire). SI l’on veut que V (X) soit sans biais, il faut que pour tout θ, Eθ[V (X)] = g(θ).Or,

Eθ[V (X)] = Eθ (Eθ0 [U(X)|T (X)]) .

Il n’y a aucune raison que Eθ (Eθ0 [U(X)|T (X)]) soit egal a g(θ), sauf si V (X) ne dependpas de θ, ce qui n’a a priori aucune raison d’etre vrai en general.

71

Page 72: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

Ici, pour calculer V (X), on peut proceder a l’aide de la loi conditionnelle comme vuau chapitre precedent (Rappeler pourquoi/comment). On a, pour tout (x1, . . . , xn) ∈ X ,pour tout k ∈ 0, . . . , n (Le demontrer) :

Pθ ((X1, . . . , Xn) = (x1, . . . , xn)|T (X) = k) =

0 si

∑ni=1 xi 6= k

1 nk

si∑n

i=1 xi = k

On obtient alors que Eθ[U(X)|T (X)] ne depend pas de θ.On peut alors conclure que, si U(X) est un estimateur sans biais de g(θ), alors V (X) =Eθ[U(X)|T (X)] est un estimateur sans biais de g(θ). De plus, pour le risque quadratique,V (X) est aussi bon que U(X), et meilleur que U(X) si U(X) n’est pas T (X)-mesurable(Le demontrer).

On va maintenant construire un cadre qui generalise cette situation.

9.1.2 Exhaustivite

On va maintenant construire un cadre qui generalise cette situation. On suppose main-tenant que le modele est domine. Soit µ une mesure dominante.

Definition 9.1.1. Une statistique T (X) est dite statistique exhaustive si, pour toutensemble mesurable A, il existe une version de Eθ (1A(X)|T (X)) qui ne depend pas deθ.Autrement dit, pour tout ensemble mesurable A, il existe une fonction φA telle que

∀θ ∈ Θ, Eθ (1A(X)|T (X)) = φA (T (X)) Pθ − p.s.

Cette notion est intrinseque au modele et ne depend pas de ce que l’on cherche aestimer.Si on peut definir une loi de X conditionnelle a T (X), et que cette loi conditionnelle nedepend pas de θ, alors T (X) est une statistique exhaustive.

Dans cette definition, il se pourrait que l’evenement sur lequel l’egalite est verifiee (etqui est de mesure 1 pour Pθ) depende de θ. Mais on va montrer qu’il n’y a en fait aucunedependence en θ.Pour cela, on considere une dominante privilegiee P comme on a construit au chapitre2, c’est a dire une probabilite P qui s’ecrit

P =∑θ∈D

αθPθ (9.1)

ou D est une partie au plus denombrable de Θ, et ou les αθ sont > 0 et de sommetotale egale a 1, telle que P domine tous les Pθ et telle que pour tout evenement A,P (A) = 0⇐⇒ ∀θ ∈ Θ, Pθ(A) = 0.Alors, ”pour tout θ, Pθ-p.s. equivaut a P -p.s.”.

72

Page 73: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.1 Exhaustivite et estimateurs UVMB

Lemme 9.1.1. Si T (X) est une statistique exhaustive, et P dominante privilegiee deforme (9.1), alors pour tout ensemble mesurable A

∀θ ∈ Θ, Eθ (1A(X)|T (X)) = EP (1A(X)|T (X)) P − p.s.

Preuve : Pour tout ensemble mesurable A, notons φA la fonction telle que

∀θ ∈ Θ, Eθ (1A(X)|T (X)) = φA (T (X)) Pθ − p.s..

Pour toute fonction h mesurable bornee on a

EP (φA(T (X))h(T (X))) =∑θ∈D

αθEθ (φA(T (X))h(T (X)))

=∑θ∈D

αθEθ (1A(X)h(T (X)))

= EP (1A(X)h(T (X)))

On va maintenant montrer que l’exhausitivite se lit sur la vraisemblance. Pour celaon va avoir besoin de l’outil general suivant.

Lemme 9.1.2 (Lemme de changement de loi). Soient P et Q deux probabilites definiessur un meme espace probabilisable et telles que Q << P . Soit Y une variable aleatoireQ-integrable. Alors

1. On a

EQ(Y ) = EP

(YdQ

dP

),

2. Et pour toute variable aleatoire T ,

EQ(Y |T ) =EP

(Y dQdP |T

)EP

(dQdP |T

) 1EP ( dQdP |T)>0

.

Preuve :Pour le point 1., on ecrit EQ(Y ) =

∫ydQ(y) =

∫y dQdP (y)dP (y) = EP

(Y dQdP

).

Montrons maintenant le point 2. Notons alors

φ(T ) =EP

(Y dQdP |T

)EP

(dQdP |T

) 1EP ( dQdP |T)>0

.

Commencons par montrer que φ(T ) est Q-integrable. En utilisant le point 1. on a

EQ(|Y ]) = EP

(|Y |dQ

dP

)

73

Page 74: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

puis

EQ(|Y ]) = EP

[EP

(|Y |dQ

dP|T)]

≥ EP

[|EP

(YdQ

dP|T)|]

≥ EP

[|φ(T )|EP

(dQ

dP|T)]

= EP

[|φ(T )|dQ

dP

]= EQ(|φ(T )|).

On va maintenant montrer que pour toute fonction mesurable bornee h, EQ(h(T )φ(T )) =EQ(Y h(T ).Soit donc h une fonction mesurable bornee quelqconque.On a en utilisant le point 1

EQ(h(T )φ(T )) = EP

(h(T )φ(T )

dQ

dP

).

Puis

EQ(h(T )φ(T )) = EP

[EP

(h(T )φ(T )

dQ

dP|T)]

= EP

EPh(T )

EP

(Y dQdP |T

)EP

(dQdP |T

) 1EP ( dQdP |T)>0

dQ

dP|T

= EP

h(T )EP

(Y dQdP |T

)EP

(dQdP |T

) 1EP ( dQdP |T)>0

EP

(dQ

dP|T)

= EP

[h(T )EP

(YdQ

dP|T)1EP ( dQdP |T)>0

]= EP

[h(T )Y

dQ

dP1EP ( dQdP |T)>0

]= EQ

[h(T )Y 1

EP ( dQdP |T)>0

]en utilisant de nouveau le point 1. Mais

EQ

[1EP ( dQdP |T)>0

]= EP

[dQ

dP1EP ( dQdP |T)>0

]= EP

[EP

(dQ

dP|T)1EP ( dQdP |T)>0

]= EP

[EP

(dQ

dP|T)]

= 1,

74

Page 75: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.1 Exhaustivite et estimateurs UVMB

et donc

1EP ( dQdP |T)>0

= 1 Q− p.s.

On a donc

EQ

[h(T )Y 1

EP ( dQdP |T)>0

]= EQ [h(T )Y ]

et l’on a bien montre que EQ(h(T )φ(T )) = EQ(Y h(T ).

Theoreme 9.1.1 (Theoreme de factorisation). Soit T (X) une statistique et P domi-nante privilegiee de forme (9.1). Les trois assertions suivantes sont equivalentes

— (i) T (X) est une statistique exhaustive.— (ii) Pour tout θ, dPθ

dP est T (X)-mesurable.— (iii) Il existe une fonction mesurable ` et pour tout θ, une fonction mesurable hθ

tel que

∀θ ∈ Θ,dPθdµ

(x) = hθ(T (x))`(x).

Preuve :Montrons (ii) =⇒ (iii). La dominante privilegiee P verifie P << µ, et donc

dPθdµ

=dPθdP

dP

dµ.

Montrons maintenant (iii) =⇒ (i). Supposons donc qu’il existe une fonction mesurable` et pour tout θ, une fonction mesurable hθ tel que

∀θ ∈ Θ,dPθdµ

(x) = hθ(T (x))`(x).

On commence par construire ν une probabilite telle que µ << ν. (Proposer une telleconstruction). On a alors, en notant ˜(x) = `(x)dµdν (x),

∀θ ∈ Θ,dPθdν

(x) = hθ(T (x))˜(x).

Soit A un ensemble mesurable quelconque. Par le lemme de changement de loi, on a

Eθ (1A(X)|T (X)) =Eν

(dPθdν 1A(X)|T (X)

)Eν

(dPθdν |T (X)

) 1Eν(dPθdν|T (X)

)>0

=Eν

(˜(X)1A(X)|T (X)

)Eν

(˜(X)|T (X)

) 1hθ(T (X))Eν(˜(X)|T (X))>0.

Mais

Pθ(hθ(T (X)) = 0) ≤ Pθ(dPθdν

= 0

)=

∫dPθdν

=0

dPθdν

dν = 0,

75

Page 76: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

et donc Pθ(hθ(T (X)) > 0) = 1, et donc Pθ-p.s.

Eθ (1A(X)|T (X)) =Eν

(˜(X)1A(X)|T (X)

)Eν

(˜(X)|T (X)

) 1Eν(˜(X)|T (X))>0

et donc

Eθ (1A(X)|T (X)) =Eν

(˜(X)1A(X)|T (X)

)Eν

(˜(X)|T (X)

) 1Eν(˜(X)|T (X))>0 P − p.s.

Montrons enfin (i) =⇒ (ii). On suppose que T (X) est une statistique exhaustive. Soit Aun ensemble mesurable quelconque. On a

Pθ(A) = Eθ(Eθ(1A|T (X)))

= EP

(dPθdP

Eθ(1A|T (X))

)= EP

(dPθdP

EP (1A|T (X))

)car T (X) est une statistique exhaustive. Mais

EP

(dPθdP

EP (1A|T (X))

)= EP

(EP (

dPθdP|T (X))1A

).

On a donc montre que pour tout ensemble mesurable A,

Pθ(A) = EP

(EP (

dPθdP|T (X))1A

),

ce qui montre quedPθdP

= EP (dPθdP|T (X))

c’est-a-dire que dPθdP est T (X)-mesurable.

Proposition 9.1.1. Si T (X) est une statistique exhaustive et U(X) une variable aleatoirePθ-integrable, alors Eθ[U(X)|T (X)] ne depend pas de θ.

Preuve : Par le theoreme de factorisation, pour tout θ, dPθdP est T (X)-mesurable et

donc il existe une fonction mesurable hθ telle que

∀θ ∈ Θ,dPθdP

(x) = hθ(T (x)).

Par le lemme de changement de loi, on a

Eθ (U(X)|T (X)) =EP

(dPθdP U(X)|T (X)

)EP

(dPθdP |T (X)

) 1EP

(dPθdP|T (X)

)>0

= EP (U(X)|T (X))1hθ(T (X))>0.

76

Page 77: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.1 Exhaustivite et estimateurs UVMB

Mais

Pθ(hθ(T (X)) = 0) ≤ Pθ(dPθdP

= 0

)=

∫dPθdP

=0

dPθdP

dP = 0,

et donc Pθ(hθ(T (X)) > 0) = 1, et donc Pθ-p.s.

Eθ (U(X)|T (X)) = EP (U(X)|T (X))

et doncEθ (U(X)|T (X)) = EP (U(X)|T (X)) P − p.s.

Theoreme 9.1.2. On considere une fonction de perte L donnee par L(u, v) = ψ(u −v) ou ψ est une fonction convexe. Si T (X) est une statistique exhaustive et U(X) unestimateur de g(θ), alors

∀θ ∈ Θ, R(θ, U) ≥ R(θ,Eθ[U |T ]),

et si ψ est strictement convexe et si U(X) n’est pas T (X)-mesurable, alors

∀θ ∈ Θ, R(θ, U) > R(θ,Eθ[U |T ]).

On en deduit que V (X) = Eθ[U |T ] est un estimateur de g(θ) aussi bon que U , etmeilleur que U si ψ est strictement convexe et si U(X) n’est pas T (X)-mesurable.

Preuve : Par l’inegalite de Jensen,

∀θ ∈ Θ, Eθ[ψ(U − g(θ))|T ] ≥ ψ(Eθ[U − g(θ)|T ]),

et l’on obtient la premiere inegalite du theoreme en prenant l’esperance de cette inegalite.Dans l’inegalite de Jensen, on a egalite si et seulement si

U − g(θ) = Eθ[U − g(θ)|T ] Pθ − p.s.

9.1.3 Estimateurs UVMB

On suppose ici que g(θ) est un reel, que la perte est la perte quadratique, i.e. L(u, v) =(u− v)2. On a alors pour tout estimateur U(X), par la decomposition biais/variance :

R(θ, U) = V arθ(U) + (Eθ(U)− g(θ))2 .

Definition 9.1.2. Un estimateur U(X) de g(θ) est dit Uniformement de VarianceMinimale parmi les estimateurs sans Biais (UVMB) si et seulement si il est sansbiais, et aussi bon que tout estimateur sans biais, c’est-a-dire :

∀θ ∈ Θ, Eθ(U) = g(θ)

et si V (X) est un estimateur sans biais de g(θ), alors

∀θ ∈ Θ, R(θ, U) ≤ R(θ, V ).

77

Page 78: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

Remarquons qu’il n’existe pas toujours d’estimateur sans biais. Par exemple, si Θ =R∗+ et Pθ est la loi exponentielle de parametre θ, dire que U est un estimateur sans biaisde θ signifie

∀θ > 0,

∫ +∞

0U(x)θe−θxdx = θ

soit

∀θ > 0,

∫ +∞

0U(x)e−θxdx = 1.

Si l’on pose pour θ > 0, h(θ) =∫ +∞

0 U(x)e−θxdx, on a |h(θ)| ≤∫ +∞

0 |U(x)|e−θxdx. ParBeppo-Levi, on a

limθ→+∞

∫ +∞

0|U(x)|e−θxdx = 0,

donc limθ→+∞ h(θ) = 0.

Si U(X) est un estimateur sans biais de g(θ) et que T (X) est une statistique exhaus-tive, alors Eθ(U |T ) (qui ne depend pas de θ) est un estimateur sans biais de g(θ) aussibon que U (de risque quadratique majore par celui de U). Est-il UVMB ?

Definition 9.1.3. On suppose Θ ⊂ Rd, pas necessairement avec d = 1.Une statistique T (X) est une statistique complete si, pour toute fonction mesurableφ a valeurs dans R telle que φ(T (x)) ∈ L1(Pθ) pour tout θ ∈ Θ, verifiant

∀θ ∈ Θ, Eθ[φ(T (X))] = 0,

on a

∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.

Proposition 9.1.2. Si T (X) est une statistique exhaustive et complete, alors il existeau plus un estimateur de g(θ) qui soit sans biais et fonction de T (X).

Preuve : Soient U1 et U2 des estimateurs sans biais de g(θ) qui sont fonction de T (X).Alors U1 − U2 est fonction de T (X), donc il existe une fonction mesurable φ telle queU1 − U2 = φ(T (X)). Mais

∀θ ∈ Θ, Eθ[φ(T (X))] = Eθ(U1)− Eθ(U2) = g(θ)− g(θ) = 0

car U1 et U2 sont des estimateurs sans biais de g(θ), et donc

∀θ ∈ Θ, φ(T (X)) = 0 Pθ − p.s.

car T (X) est complete, et donc

∀θ ∈ Θ, U1 = U2 = Eθ(U1|T (X)) Pθ − p.s.

ne depend pas de θ car T (X) est exhaustive.

78

Page 79: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.1 Exhaustivite et estimateurs UVMB

Theoreme 9.1.3. On suppose que T (X) est une statistique exhaustive et complete, etqu’il existe un estimateur sans biais de g(θ) U(X). Alors V = Eθ[U |T ] est l’uniqueUVMB de g(θ).

Preuve : Soit U ′ un estimateur sans biais de g(θ). Alors par le Theoreme 9.1.2, on a

∀θ ∈ Θ, R(θ, U ′) ≥ R(θ,Eθ[U′|T ]).

Mais par la proposition precedente, V = Eθ[U |T ] est l’unique estimateur sans biais deg(θ) donc Eθ[U

′|T ] = Eθ[U |T ] et donc

∀θ ∈ Θ, R(θ, U ′) ≥ R(θ, V ).

9.1.4 Modele exponentiel

On considere le modele donne par

dPθdµ

(x) = h(x) exp 〈Q(θ), T (x)〉 − ψ(θ)

ou Q : Θ→ Rk, T : X → Rk est mesurable, et

∀θ ∈ Θ, ψ(θ) = log

[∫h(x) exp 〈Q(θ), T (x)〉 dµ(x)

].

Quitte a poser dν = hdµ, on peut supposer sans perte de generalite que h(x) = 1,autrement dit que

dPθdµ

(x) = exp 〈Q(θ), T (x)〉 − ψ(θ) (9.2)

et

∀θ ∈ Θ, ψ(θ) = log

[∫exp 〈Q(θ), T (x)〉 dµ(x)

]. (9.3)

On a

Theoreme 9.1.4. Dans le modele donne par (9.2), si Q(Θ) est d’interieur non vide,alors T (X) est une statistique exhaustive et complete.

Preuve : Tout d’abord, T (X) est une statistique exhaustive par le Theoreme defactorisation.Puis, soit φ une fonction mesurable telle que pour tout θ ∈ Θ, φ(T (x)) ∈ L1(Pθ), et que

∀θ ∈ Θ, Eθ[φ(T (X))] = 0.

On a alors

∀θ ∈ Θ,

∫Xφ(T (x))+ exp 〈Q(θ), T (x)〉 − ψ(θ) dµ(x) =

∫Xφ(T (x))− exp 〈Q(θ), T (x)〉 − ψ(θ) dµ(x)

79

Page 80: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

et donc

∀θ ∈ Θ,

∫Xφ(T (x))+ exp 〈Q(θ), T (x)〉 dµ(x) =

∫Xφ(T (x))− exp 〈Q(θ), T (x)〉 dµ(x).

On note µ+T la mesure positive de densite φ+ par rapport a la mesure image de µ par T ,

et µ−T la mesure positive de densite φ− par rapport a la mesure image de µ par T . On aalors

∀θ ∈ Θ,

∫Rk

exp 〈Q(θ), t〉 dµ+T (t) =

∫Rk

exp 〈Q(θ), t〉 dµ−T (x).

Par le lemme 9.1.3 qui suit, comme Q(Θ) est d’interieur non vide, on obtient µ+T = µ−T ,

donc φ(T (x))+ = φ(T (x))− µ-p.p., soit φ(T (x)) = 0 µ-p.p., et donc φ(T (x)) = 0 Pθ-p.s.pour tout θ ∈ Θ, et T (X) est une statistique exhaustive et complete.

Lemme 9.1.3. Soient µ et ν deux mesures positives sur Rk. On suppose qu’il existe unouvert A de Rk tel que

∀s ∈ A,∫

exp 〈s, x〉 dµ(x) =

∫exp 〈s, x〉 dν(x).

Alors, µ = ν.

Preuve : Soit s0 un point de A, et δ > 0 tel que la boule centree en s0 et de rayon2δ soit incluse dans A. Tout d’abord, on a∫

exp 〈s0, x〉 dµ(x) =

∫exp 〈s0, x〉 dν(x) = C0,

donc en notant P la probabilite de densite exp 〈s0, x〉 /C0 par rapport a µ et Q laprobabilite de densite exp 〈s0, x〉 /C0 par rapport a ν, on a pour tout u ∈ Rk tel que‖u‖ ≤ 2δ, ∫

exp 〈u, x〉 dP (x) =

∫exp 〈u, x〉 dQ(x).

Soit t ∈ Rk quelconque non nul. On note h la fonction de la variable complexe z definiepar z 7→

∫exp z〈t, x〉 dP (x). Alors la fonction h est holomorphe sur le domaine z ∈

C : |Re(z)| ≤ δ/‖t‖ (Le demontrer !). De meme, si g est la fonction de la variablecomplexe z definie par z 7→

∫exp z〈t, x〉 dQ(x), la fonction g est holomorphe sur le

domaine z ∈ C : |Re(z)| ≤ δ/‖t‖. Par ailleurs, h et g coincident sur l’ensemble des zreels dans ]−δ/‖t‖ δ/‖t‖[. Donc h = g sur le domaine z ∈ C : |Re(z)| < δ/‖t‖, et doncen particulier sur l’ensemble des imaginaires purs, et donc en particulier pour z = i, etdonc ∫

exp i〈t, x〉 dP (x) =

∫exp i〈t, x〉 dQ(x).

Ceci est vrai pour tout t ∈ Rk, donc P et Q ont meme fonction caracteristique, doncP = Q et donc µ = ν.

Exemples : dans chacun des cas suivant montrer qu’il s’agit d’un modele exponentiel,identifier θ, Q(θ), T (X), dire si il s’agit d’une statistique exhaustive complete.

80

Page 81: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.1 Exhaustivite et estimateurs UVMB

— Modele de Bernoulli— Modele de Poisson— Modele lineaire gaussien

Reponses

Modele de Bernoulli : observation X1, . . . , Xn, modele (B(θ)⊗n)θ∈]0,1[.Le modele est domine par µ = (δ0 + δ1)⊗n et l’on a

dPθdµ

(x1, . . . , xn) = θ∑ni=1 xi(1− θ)n−

∑ni=1 xi = exp

[n∑i=1

xi log

1− θ

)+ n log(1− θ)

].

Avec Q(θ) = log(

θ1−θ

)et ψ(θ) = −n log(1 − θ), on a un modele exponentiel de statis-

tique exhaustive T (X1, . . . , Xn) = X1 + . . .+Xn, et comme Q(]0, 1[) = R est d’interieurnon vide, T (X1, . . . , Xn) = X1 + . . .+Xn est exhaustive complete.

Modele de Poisson : observation X1, . . . , Xn, modele (P(λ)⊗n)λ∈]0,+∞[.Le modele est domine par µ = (

∑j≥0 δj)

⊗n et l’on a

dPλdµ

(x1, . . . , xn) =λ∑ni=1 xi∏n

i=1(xi)!e−nλ =

1∏ni=1(xi)!

exp

[n∑i=1

xi log λ− nλ

].

Avec Q(λ) = log λ et ψ(λ) = nλ, on a un modele exponentiel de statistique exhaustiveT (X1, . . . , Xn) = X1 + . . . + Xn, et comme Q(]0,+∞[) = R est d’interieur non vide,T (X1, . . . , Xn) = X1 + . . .+Xn est exhaustive complete.

Modele lineaire gaussien : observation Y , modele (N (m,σ2In)m∈V,σ2∈]0,+∞[, ou(N (Xβ, σ2In)β∈Rp,σ2∈]0,+∞[.Le modele est domine par µ =Lebsgue⊗n, et l’on a :• avec θ = (m,σ2) :

dPθdµ

(y) =1

(2πσ2)n/2exp

[−‖y −m‖

2

2σ2

]=

1

(2π)n/2exp

[〈(y,−‖y‖2); (

m

σ2,−1

2σ2)〉 − n

2log σ2 − ‖m‖

2

2σ2

]Avec Q(m,σ2) = (m

σ2 ,−12σ2 ) et ψ(m,σ2) = n

2 log σ2 + ‖m‖2

2σ2 , on a un modele exponentiel destatistique exhaustive (Y,−‖Y ‖2), et comme Q(V × R+) = V × R− est d’interieur nonvide, T (Y ) = (Y,−‖Y ‖2) est exhaustive complete.• avec θ = (β, σ2) :

dPθdµ

(y) =1

(2πσ2)n/2exp

[−‖y −Xβ‖

2

2σ2

]=

1

(2π)n/2exp

[〈(XT y,−‖y‖2); (

β

σ2,−1

2σ2)〉 − n

2log σ2 − ‖Xβ‖

2

2σ2

].

Avec Q(β, σ2) = ( βσ2 ,

−12σ2 ) et ψ(β, σ2) = n

2 log σ2 + ‖Xβ‖2

2σ2 , on a un modele exponentiel destatistique exhaustive (XTY,−‖Y ‖2), et comme Q(Rp × R+) = Rp × R− est d’interieurnon vide, T (Y ) = (XTY,−‖Y ‖2) est exhaustive complete. Ou bien, T (Y ) = (Y,−‖Y ‖2)est une statistique exhaustive complete, elle est en bijection avec (XTY,−‖Y ‖2).

81

Page 82: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

9.2 Efficacite

9.2.1 Score et information de Fisher

Soit (X ,A, (Pθ)θ∈Θ), Θ ⊂ Rk, un modele domine et µ une mesure dominante. On notefθ = dPθ

dµ . On suppose :— (S) : ∀θ ∈ Θ, ∀x ∈ X , fθ(x) > 0.Sous cette hypotheses, les probabilites Pθ sont equivalentes (= mutuellement absolu-

ment continues).On peut alors definir

`θ = log fθ.

Si pour tout x ∈ X , θ 7→ fθ(x) est differentiable, on pose

˙θ =

(∂`θ∂θ1

; · · · ; ∂`θ∂θk

)Tle vecteur gradient, que l’on appelle fonction score ou simplement score.

Remarquons que le score ne depend pas de la mesure dominante : si P est une domi-nante privilegiee, P est absolument continue par rapport a µ, donc

`θ = logdPθdP

+ logdP

et donc le score est, pour toute mesure dominante µ, le gradient de log dPθdP .

Par ailleurs, on a, en notant fθ le gradient (vecteur des derivees partielles) de fθ parrapport a la variable θ,

˙θ =

fθfθ.

On a donc, si ˙θ ∈ L1(Pθ),

Eθ[ ˙θ(X)] =

∫fθ(x)dµ(x).

Comme la fonction θ 7→∫fθ(x)dµ(x) est une fonction constante (egale a 1), on voit que si

on peut echanger derivation et integration (deriver sous le signe somme), Eθ[ ˙θ(X)] = 0

(le score est centre).

Definition 9.2.1. On suppose (S), que Eθ[ ˙θ(X)] = 0 et que Eθ[‖ ˙

θ(X)‖2] <∞. Alorsla matrice de variance de ˙

θ est appelee information de Fisher en θ et notee Iθ, ona, comme le score est centre,

Iθ = Eθ[ ˙θ(X) ˙T

θ (X)].

C’est une matrice k × k.

Remarquons que, comme toute matrice de variance, Iθ est semi-definie positive.

82

Page 83: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.2 Efficacite

9.2.2 Inegalite de Cramer-Rao

On considere maintenant que l’on veut estimer g(θ) ou g est une fonction de Θ dans R.

Si U(X) est un estimateur sans biais de g(θ), on a pour tout θ ∈ Θ, Eθ(U(X)) =g(θ) =

∫U(x)fθ(x)dµ(x). Pour simplifier, regardons le cas ou k = 1, et supposons g

derivable. Si on peut deriver sous le signe somme, on ag′(θ) =

∫U(x)fθ(x)dµ(x) =

∫U(x) ˙

θ(x)fθ(x)dµ(x) = Eθ[U(X) ˙θ(X)]. Comme ˙

θ(X)est centre, on a aussi g′(θ) = Eθ[(U(X)− g(θ)) ˙

θ(X)], et par Cauchy-Schwarz,(g′(θ)

)2 ≤ V arθ (U(X)) Iθ,

et donc, si Iθ > 0, V arθ (U(X)) ≥ (g′(θ))2 /Iθ.On peut generaliser cela en dimension k quelconque. On note ∇g(θ) le vecteur gradientde g(θ).

Theoreme 9.2.1 (Inegalite de Cramer-Rao). On suppose que Θ est un ouvert de Rk,et on suppose (S). On suppose que pour tout x ∈ X , θ 7→ fθ(x) est differentiable, et quepour tout θ ∈ Θ

— Eθ[ ˙θ(X)] = 0,

— Eθ[‖ ˙θ(X)‖2] <∞,

— l’information de Fisher Iθ est inversible.On suppose que θ 7→ g(θ) est differentiable, et que U(X) est un estimateur sans biais deg(θ) tel que pour tout θ ∈ Θ, ∇g(θ) = Eθ[U(X) ˙

θ(X)]. Alors

∀θ ∈ Θ, V arθ(U(X)) ≥ ∇g(θ)T I−1θ ∇g(θ).

Preuve : Soit a ∈ Rk tel que a 6= 0. On a

∇g(θ)Ta = Eθ[(U(X) ˙θ(X))Ta]

= Eθ[(U(X) ˙θ(X))Ta]− g(θ)Eθ[ ˙

θ(X)Ta]

= Eθ[(U(X)− g(θ)) ˙θ(X)Ta]

car le score est centre. Donc par Cauchy-Schwarz,(∇g(θ)Ta

)2 ≤ V arθ(U(X))Eθ[( ˙θ(X)Ta)2].

MaisEθ[( ˙

θ(X)Ta)2] = aT Iθa > 0

(Dire pourquoi) car Iθ inversible. On a donc montre

∀a ∈ Rk : a 6= 0, V arθ(U(X)) ≥(∇g(θ)Ta

)2aT Iθa

et en prenant a = I−1θ ∇g(θ) le theoreme s’en deduit.

On peut montrer que l’on a obtenu la meilleur borne inferieure possible, c’est a direque le supremum en a de la borne inferieure est atteint en a = I−1

θ ∇g(θ) en appliquantle lemme suivant avec S = Iθ et v = ∇g(θ).

83

Page 84: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

Lemme 9.2.1. Si S est une matrice k × k symetrique definie positive et si v est unvecteur de Rk, alors

supa∈Rk,a 6=0

(vTa)2

aTSa= vTS−1v.

Preuve : On commence par montrer que a 7→ x = S1/2a est une bijection de Rk dansRk de sorte que l’on obtient

supa∈Rk,a6=0

(vTa)2

aTSa= sup

x∈Rk,x 6=0

xTAx

xTx

avec A = S−1/2vvTS−1/2, de sorte que le supremum recherche est la plus grande valeurpropre de A. Mais en posant

w =S−1/2v

‖S−1/2v‖,

on voit que

A = ‖S−1/2v‖2wwT .

wwT est la matrice de projection orthogonale sur la droite engendree par w, donc de plusgrande valeur propre 1, donc la plus grande valeur propre de A est ‖S−1/2v‖2 = vTS−1v.

Definition 9.2.2. L’estimateur sans biais U(X) est dit efficace si

∀θ ∈ Θ, V arθ(U(X)) = ∇g(θ)T I−1θ ∇g(θ).

9.2.3 Cas des modeles produit

On considere le modele (X n,An, (P⊗nθ )θ∈Θ).On suppose que le modele (X ,A, (Pθ)θ∈Θ) satisfait aux hypotheses du Theoreme del’inegalite de Cramer-Rao, avec score ˙

θ et information de Fisher Iθ.

Alors, dans le modele (X n,An, (P⊗nθ )θ∈Θ), le score est

˙θ,n(x1, . . . , xn) =

n∑i=1

˙θ(xi),

on a Eθ[ ˙θ,n(X1, . . . , Xn)] = 0 et la matrice de variance de ˙

θ,n(X1, . . . , Xn), sous Pθ, estnIθ (Demontrer ces affirmations).On a donc, si U(X1, . . . , Xn) est un estimateur sans biais de g(θ) tel que ∇g(θ) =Eθ[U(X1, . . . , Xn) ˙

θ(X1, . . . , Xn)],

V arθ(U(X1, . . . , Xn)) ≥ 1

n∇g(θ)T I−1

θ ∇g(θ).

84

Page 85: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.3 Limites des estimateurs sans biais et de l’efficacite

9.2.4 Modeles exponentiels

On considere le modele exponentiel ecrit sous forme canonique, c’est a dire avec θchoisi de sorte que

dPθdµ

(x) = exp〈θ, T (x)〉 − ψ(θ), (9.4)

avec T : X → Rk mesurable, θ ∈ Θ, sous-ensemble de Rk defini par

Θ =

θ ∈ Rk :

∫exp〈θ, T (x)〉dµ(x) < +∞

et ψ : Θ→ R donnee par

ψ(θ) = log

∫exp〈θ, T (x)〉dµ(x).

On a

Proposition 9.2.1. La fonction θ 7→ log∫

exp〈θ, T (x)〉dµ(x) est indefiniment derivablesur l’interieur de Θ et se derive sous le signe somme.

Preuve : La faire.

On peut alors montrer que sur l’interieur de Θ, ∇ψ(θ) = Eθ[T (X)], le score estT −∇ψ(θ) et est centre, l’information de Fisher est

Iθ = V arθ[T (X)] = D2ψ(θ),

la matrice hessienne de ψ en θ. T (X) est une statistique exhaustive complete, qui estimesans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R.Donc dans le modele avec n observations i.i.d. d’un modele canonique, c’est 1

n

∑ni=1 T (Xi)

qui estime sans biais ∇ψ(θ), et en est un UVMB et un estimateur efficace si Θ ⊂ R.(Demontrer toutes ces affirmations).

Exemples : : ecrire sous forme canonique le modele de Bernoulli, le modele de Pois-son, le modele lineaire gaussien, et voir comment se traduisent ces affirmations.

Si l’on reprend le modele exponentiel sous sa forme generale (9.2) et Q deux foisderivable, calculer score, information de Fisher — dans le cas k = 1–, et montrer que,si Q′(θ) 6= 0, 1

n

∑ni=1 T (Xi) est un estimateur sans biais de ψ′(θ)/Q′(θ), et en est un

UVMB et un estimateur efficace.

9.3 Limites des estimateurs sans biais et de l’efficacite

Il n’existe pas toujours d’estimateur sans biais (voir l’exemple du modele des lois ex-ponentielles).

85

Page 86: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9 Etude des estimateurs sans biais

Il n’existe pas toujours d’estimateur efficace ou UVMB : par exemple, dans le modeleN (m,σ2)⊗n, il n’existe pas d’estimateur efficace de σ2 (voir T.D.).

On peut parfois gagner sur le risque quadratique en autorisant un biais. Consideronspar exemple le modele N (0, σ2)⊗n dans lequel on veut estimer σ2. Il s’agit d’un modeleexponentiel,

∑ni=1X

2i est une statistique exhaustive complete, et

σ2 =1

n

n∑i=1

X2i

est un estimateur sans biais UVMB de σ2. Son risque quadratique est

R(σ2, σ2) := Eσ[(σ2 − σ2)2

]=

2σ4

n.

Si l’on considere maintenant l’estimateur

Tλ = λσ2,

son risque quadratique est, par la decomposition biais-variance :

R(σ2, Tλ) = V arσ(Tλ) +(Eσ(Tλ)− σ2

)2= σ4

(2λ2

n+ (λ− 1)2

).

L’etude de la fonction λ 7→ 2λ2

n + (λ − 1)2 montre qu’elle admet un minimum strict en1/(1 + 2

n), et que

∀σ > 0, R(σ2, T1/(1+ 2n

)) < R(σ2, σ2).

L’estimateur σ2 n’est pas admissible, T1/(1+ 2n

) est meilleur que σ2.

Enfin, sous des hypotheses faibles, si un modele admet un estimateur efficace T de g(θ),pour θ ∈ Θ, Θ intervalle de R, alors le modele est un modele exponentiel de statistiqueexhaustive complete T , ce qui restreint l’existence d’estimateurs efficaces essentiellementaux modeles exponentiels, et pour estimer l’esperance de la statistique exhaustive uni-quement.Montrons cela. On suppose donc que les hypotheses du Theoreme de l’inegalite deCramer-Rao sont verifiees pour le modele et pour T , et que

∀θ ∈ Θ, Eθ(T ) = g(θ), V arθ(T ) =g′(θ)2

Iθ.

Comme

g′(θ) = Eθ((T − g(θ)) ˙θ),

on a (Covθ(T, ˙

θ))2

= V arθ(T )V arθ( ˙θ)

86

Page 87: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

9.3 Limites des estimateurs sans biais et de l’efficacite

et donc, pour tout θ, ou bien T = Eθ(T ), ou bien il existe λθ tel que ˙θ = λθ(T −Eθ(T )).,

Pθ-p.s.Si il existe θ0 tel que T = Eθ0(T ) Pθ0-p.s., alors T est constant µ-p.p., donc T = Eθ(T )Pθ-p.s. pour tout θ, et g(θ) est constant, cas peu interessant.Sinon, pour tout θ ∈ Θ, il existe λθ tel que ˙

θ = λθ(T − Eθ(T )), Pθ-p.s. On a donc, θ0

etant un point fixe de Θ

∀θ ∈ Θ, log fθ = log fθ0 +

∫ θ

θ0

λs(T − Es(T ))ds,

soit

∀θ ∈ Θ, logfθfθ0

= T

∫ θ

θ0

λsds−∫ θ

θ0

λsEs(T )ds,

c’est-a-dire∀θ ∈ Θ, fθ = fθ0 exp[Q(θ)T − ψ(θ)]

avec

Q(θ) =

∫ θ

θ0

λsds, ψ(θ) =

∫ θ

θ0

λsEs(T )ds.

87

Page 88: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver
Page 89: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

La borne de Cramer-Rao nous dit que, si T (X) est un estimateur sans biais de g(θ),

alors pour tout θ, Eθ[(T (X)− g(θ)]2 ≥ (g′(θ))2

I(θ) . Mais si T a un biais, que dit la borne de

Cramer-Rao ? Si on note b(θ) = Eθ(T (X))− g(θ), comme T estime sans biais b(θ) + g(θ)et que le risque quadratique est la somme de la variance et du carre du biais, on a

Eθ([(T (X)− g(θ)]2

)≥ b2(θ) +

(b′(θ) + g′(θ))2

I(θ).

Mais ceci n’est pas une borne intrinseque puisqu’elle depend de T (par l’intermediairede b).Par ailleurs, la notion d’efficacite stricte concerne exclusivement les modeles exponen-tiels.Ceci dit, on a vu que l’on pouvait obtenir des minorations intrinseques, en considerantnon pas le risque ponctuel, mais le risque maximum (theoreme de Le Cam).

On se demande si on peut obtenir des analogues asymptotiques de l’efficacite, dans lecontexte des suites d’observations i.i.d.. Par exemple, peut-on garantir que, pour tout θ,si θn est une suite d’estimateurs de θ,

lim infn→+∞

[n(θn − θ)2

]≥ 1

I(θ)?

La reponse est non, mais en renforcant legerement, on obtient quelque chose comme

limc→+∞

lim infn→+∞

sup|θ−θ0|≤ c√

n

[n(θn − θ)2

]≥ 1

I(θ0).

Cela fait partie de ce que l’on etudie en M2.

On se demande alors si, sans supposer le modele exponentiel, il est possible de trouver

une suite d’estimateurs θn de θ tels que limn→+∞Eθ

[n(θn − θ)2

]= 1

I(θ) , ou bien tels

que√n(θn − θ) converge en loi sous Pθ vers N (0, 1

I(θ)) ? La reponse est oui, et c’estl’estimateur du maximum de vraisemblance qui le permet.

10.1 Etude asymptotique de l’estimateur du maximum devraisemblance

L’objectif ici est de montrer que sous de bonnes hypotheses, moins restrictives que dese trouver dans un modele exponentiel, l’estimateur du maximum de vraisemblance θn

89

Page 90: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

verifie que√n(θn− θ) converge en loi sous Pθ vers N (0, 1

I(θ)). Revenons tout d’abord aucadre du modele exponentiel en dimension 1.

Soit Θ ouvert de R, µ une mesure sur R et (Pθ)θ∈Θ tel que dPθdµ (x) = exp(θT (x)−ψ(θ)),

Pθ la loi d’une suite de variables aleatoires reelles i.i.d. de loi Pθ, g(θ) = ψ′(θ) = EθT (X).Tn = 1

n

∑ni=1 T (Xi) est un estimateur efficace de g(θ) et UVMB. Sa variance est V arθ(Tn) =

(ψ′′(θ)2

nI(θ) = ψ′′(θ)n . Par le theoreme de limite centrale,

√n(Tn − ψ′(θ)) converge en loi sous

Pθ vers N (0, (ψ′′(θ)2

I(θ) ). Qu’en est-il pour l’estimateur du maximum de vraisemblance θn ?La log-vraisemblance est

`n(θ) = θ(T (X1) + · · ·+ T (Xn))− nψ(θ).

ψ est strictement convexe, car ψ′′ > 0 (c’est la variance d’une variable aleatoire nonconstante), donc `n est strictement concave et admet donc un unique maximum. ψ′ eststrictement croissante, et si le maximum de `n est atteint a l’interieur de Θ, il annule laderivee, donc Tn = ψ′(θn). Pour simplifier, on va supposer que ψ′(Θ) = R, et alors

θn = (ψ′)−1(Tn).

Pour obtenir la convergence en loi, on va utiliser la methode delta.

Theoreme 10.1.1. Soit (Tn)n≥1 une suite de variables aleatoires a valeur dans I in-tervalle de R et telle que

√n(Tn −m) converge en loi vers N (0;σ2). Soit g : I → R une

fonction derivable. Alors√n(g(Tn)− g(m)) converge en loi vers N (0; g′(m)2σ2).

On applique le theoreme 10.1.1 avec g(x) = (ψ′)−1(x). g est derivable de deriveeg′(x) = 1

ψ′′((ψ′)−1(x)). On a m = ψ′(θ), donc g(m) = θ.

g′(m)2 (ψ′′(θ))2

I(θ)= g′(m)2ψ′′(θ) =

(1

ψ′′(θ)

)2

ψ′′(θ) =1

ψ′′(θ)=

1

I(θ),

donc√n(θn − θ) converge en loi sous Pθ vers N (0, 1

I(θ)). Et en appliquant une nouvelle

fois le theoreme 10.1.1, si φ : Θ→ R est derivable,√n(φ(θn)−φ(θ)) converge en loi sous

Pθ vers N (0, (φ′(θ))2

I(θ) ).

Preuve du Theoreme 10.1.1 (rappel) : on ecrit le developpement de Taylor

g(x) = g(m) + (x−m)g′(m) + (x−m)α(x−m),

ou α(·) est une fonction qui verifie α(u) = o(1) au voisinage de 0. On a alors

√n(g(Tn)− g(m)) =

√n(Tn −m)g′(m) +

√n(Tn −m)α(Tn −m).

Puis Tn −m tend en probabilite vers 0 : en effet, pour tout ε > 0, P(|Tn −m| ≥ ε) =P(|√n(Tn −m)| ≥

√nε) ≤ P(|

√n(Tn −m)| ≥ M) des que n ≥ (Mε )2. Donc si F est la

fonction de repartition de la gaussienne centree reduite, lim supn→+∞ P(|Tn−m| ≥ ε) ≤

90

Page 91: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10.1 Etude asymptotique de l’estimateur du maximum de vraisemblance

2(1−F (M)) et ceci pour tout M , donc en faisant tendre M vers l’infini, limn→+∞ P(|Tn−m| ≥ ε) = 0. Ensuite, on en deduit que α(Tn − m) converge en probabilite vers 0 :en effet, pour tout ε > 0 il existe δ > 0 tel que |u| < δ implique |α(u)| < ε, soit|α(u)| ≥ ε implique |u| ≥ δ, donc P(|α(Tn − m)| ≥ ε) ≤ P(|Tn − m| ≥ δ) et donclimn→+∞ P(|α(Tn −m)| ≥ ε) = 0. Puis

√n(Tn −m)α(Tn −m) converge en probabilite

vers 0 : en effet, pour tout ε > 0 et pour tout M , comme, si |√n(Tn−m)α(Tn−m)| ≥ ε

et |√n(Tn −m)| < M alors M |α(Tn −m)| ≥ ε,

P(|√n(Tn −m)α(Tn −m)| ≥ ε) ≤ P(|

√n(Tn −m)| ≥M) + P(|α(Tn −m)| ≥ ε

M),

et donc lim supn→+∞ P(|√n(Tn−m)α(Tn−m)| ≥ ε) ≤ 2(1−F (M)), donc lim supn→+∞ P(|

√n(Tn−

m)α(Tn−m)| ≥ ε) = 0 en faisant tendre M vers l’infini. Enfin,√n(Tn−m)g′(m) converge

en loi vers N (0; g′(m)2σ2), et on termine par le lemme de Slutzky.

On peut maintenant enoncer un theoreme de convergence en loi du maximum devraisemblance dans un cadre plus general. On considere un modele domine Pθ, θ ∈ Θ,ou Θ est un intervalle de R. On note fθ la densite de Pθ par rapport a la mesuredominante, et Pθ la loi d’une suite de variables aleatoires reelles i.i.d. de loi Pθ. Onnote Θ l’interieur de Θ et on se place dans le cadre ou l’on a defini fonction score etinformation de Fisher :

— (A1) ∀θ ∈ Θ, ∀x ∈ X , fθ(x) > 0,— (A2) ∀x ∈ X , θ 7→ fθ(x) est derivable sur Θ , et on note ˙

θ(x) la fonction score(derivee par rapport a θ de log fθ(x)),

— (A3) ∀θ ∈ Θ, Eθ ˙θ(X) = 0 et Eθ‖ ˙

θ(X)‖2 < +∞. On note I(θ) l’information deFisher (matrice de variance de ˙

θ(X)).

Theoreme 10.1.2. On suppose (A1), (A2) et (A3). Soit θn l’estimateur du maximumde vraisemblance obtenu avec n observations X1, . . . , Xn. On suppose :

— ∀θ ∈ Θ, I(θ) > 0,

— ∀x ∈ X , θ 7→ fθ(x) est de classe C2 sur Θ et ∀θ ∈ Θ, Eθf ′′θfθ

(X) = 0,— ∀θ ∈ Θ, il existe V , voisinage de θ et hθ ∈ L1(Pθ) tels que

∀s ∈ V, | ∂2

∂θ2(log fs)| ≤ hθ

— ∀θ ∈ Θ, θn converge en Pθ probabilite vers θ.Alors, pour tout θ dans Θ,

√n(θn − θ) converge en loi sous Pθ vers N (0, 1

I(θ)).

Preuve du Theoreme 10.1.2.Soit θ dans Θ. Puisque θn converge en Pθ probabilite vers θ, avec une probabilite quitend vers 1, θn ∈ Θ, et θn annule la derivee de la log-vraisemblance. On va noter Anl’evenement “θn ∈ Θ”. Sur An, on a

n∑i=1

˙θn

(Xi) = 0.

91

Page 92: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

Par ailleurs, le developpement de Taylor s’ecrit (en notant `′′θ la derivee seconde de log fθ)pour tout x ∈ X et s ∈ Θ :

˙s(x)− ˙

θ(x) = (s− θ)∫ 1

0`′′θ+t(s−θ)(x)dt.

Donc pour tout s ∈ Θ :

n∑i=1

˙s(Xi)−

n∑i=1

˙θ(Xi) = (s− θ)

(n∑i=1

`′′θ(Xi) + nRn(s)

)avec

Rn(s) =

∫ 1

0

1

n

n∑i=1

(`′′θ+t(s−θ)(Xi)− `′′θ(Xi))dt.

Donc en utilisant cela avec s = θn, sur An,

− 1√n

n∑i=1

˙θ(Xi) =

√n(θn − θ)

[1

n

n∑i=1

`′′θ(Xi)

]+√n(θn − θ)Rn(θn).

Calcul et loi des grands nombres montrent que 1n

∑ni=1 `

′′θ(Xi) converge en Pθ-probabilite

vers −I(θ).Par le theoreme de limite centrale, sous Pθ, 1√

n

∑ni=1

˙θ(Xi) converge en loi versN (0, I(θ)).

Enfin,Rn(θn) converge en Pθ-probabilite vers 0. En effet, si l’on note r(ε, x) = sup|s−θ]≤ε |`′′s(x)−`′′θ(x)|, pour ε suffisamment petit (tel que l’intervalle centre en θ et de largeur 2ε soitdans V ), on a 0 ≤ r(ε, x) ≤ hθ(x), et limε→0 r(ε, x) = 0, donc par convergence domineelimε→0Eθr(ε,X) = 0. Puis pour tout δ > 0 et tout ε > 0,

Pθ(|Rn(θn)| ≥ δ) ≤ Pθ(|θn − θ| ≥ ε) + Pθ(1

n

n∑i=1

r(ε,Xi) ≥ δ)

car sup|s−θ|≤ε |Rn(s)| ≤ 1n

∑ni=1 r(ε,Xi). Par l’inegalite de Markov, Pθ( 1

n

∑ni=1 r(ε,Xi) ≥

δ) ≤ Eθr(ε,X)δ , et donc lim supn→+∞ Pθ(|Rn(θn)| ≥ δ) ≤ Eθr(ε,X)

δ , et en prenant la limite

quand ε tend vers 0 on obtient limn→+∞ Pθ(|Rn(θn)| ≥ δ) = 0. Recapitulons :

Zn

[√n(θn − θ)

]= Un1An + Zn

[√n(θn − θ)

](1− 1An),

avec Zn qui converge en Pθ-probabilite vers −I(θ) et Un qui converge en loi sous Pθ vers

N (0, I(θ)). Par ailleurs, 1An converge vers 1 en Pθ-probabilite, et donc Zn

[√n(θn − θ)

](1−

1An) converge vers 0 en Pθ-probabilite (car pour tout ε > 0, Pθ(|Zn[√

n(θn − θ)]

(1 −1An)| ≥ ε) ≤ Pθ(1An = 0) tend vers 0 quand n tend vers l’infini). On termine en utilisantle lemme de Slutzky.

92

Page 93: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10.2 Amelioration d’un estimateur√n-consistant

10.2 Amelioration d’un estimateur√n-consistant

Comment calculer l’estimateur du maximum de vraisemblance ? Algorithme d’annu-lation du gradient : et si beaucoup de maxima locaux, et donc beaucoup de zeros dugradient ? Partir d’un bon point initial et faire ensuite l’algorithme de Newton ?

On dispose d’une suite d’estimateurs Tn tels que pour tout θ,√n(Tn − θ) converge

en loi sous Pθ vers N (0, σ2(θ)), avec σ2(θ) > 1I(θ) . On se dit que Tn n’est pas loin de

l’estimateur du maximum de vraisemblance qui annule la fonction s 7→∑n

i=1˙s(Xi).

On peut alors chercher a ameliorer l’estimation en cherchant le zero de la fonction parl’algorithme de Newton partant de Tn. En faisant un pas de cet algorithme, c’est a direen se deplacant sur la droite tangente en Tn au graphe de la fonction, jusqu’au point oucette tangente traverse l’axe des abscisses (qui annule l’ordonnee) [voir sur un dessin],on obtient un nouvel estimateur :

θn = Tn −∑n

i=1˙Tn(Xi)∑n

i=1 `′′Tn

(Xi). (10.1)

On se place dans le meme cadre que pour le Theoreme 10.1.2. On obtient alors

Theoreme 10.2.1. On suppose (A1), (A2) et (A3). On suppose aussi que pour toutθ ∈ Θ,

√n(Tn − θ) converge en loi sous Pθ. Alors, pour tout θ ∈ Θ,

√n(θn − θ)

converge en loi sous Pθ vers N (0, 1I(θ)), avec θn defini par (10.1).

Preuve du Theoreme 10.2.1.Soit θ dans Θ. On a avec les notations de la preuve du Theoreme 10.1.2

n∑i=1

˙Tn(Xi) =

n∑i=1

˙θ(Xi) + (Tn − θ)

n∑i=1

`′′θ(Xi) + n(Tn − θ)Rn(Tn)

=

n∑i=1

˙θ(Xi) + n(Tn − θ)Wn

ou Wn converge en Pθ-probabilite vers −I(θ) (comme dans la preuve du Theoreme10.1.2). Aussi, Zn = 1

n

∑ni=1 `

′′Tn

(Xi) converge en probabilite vers −I(θ). En effet,

Zn =1

n

n∑i=1

`′′θ(Xi) +1

n

n∑i=1

(`′′Tn(Xi)− `′′θ(Xi)),

et si |Tn − θ| ≤ ε, alors | 1n∑n

i=1(`′′Tn(Xi) − `′′θ(Xi))| ≤ 1n

∑ni=1 r(ε,Xi). Mais Tn − θ

converge en Pθ-probabilite vers 0, donc pour tout ε > 0 et tout δ > 0,

Pθ(|1

n

n∑i=1

(`′′Tn(Xi)− `′′θ(Xi))| ≥ δ) ≤ Pθ(|Tn − θ| ≥ ε) + Pθ(1

n

n∑i=1

r(ε,Xi) ≥ δ)

≤ Pθ(|Tn − θ| ≥ ε) +Eθ(r(ε,X1))

δ

93

Page 94: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

par Markov, et donc en prenant la limite quand n tend vers l’infini, puis quand ε tendvers 0, on obtient limn→+∞ Pθ(| 1n

∑ni=1(`′′Tn(Xi)− `′′θ(Xi))| ≥ δ) = 0. On a donc :

√n(θn − θ) =

√n(Tn − θ)−

1√n

∑ni=1

˙θ(Xi) +

√n(Tn − θ)Wn

Zn

=√n(Tn − θ)

(1− Wn

Zn

)+

1

Zn

(1√n

n∑i=1

˙θ(Xi)

).

Par Slutzky,√n(Tn−θ)

(1− Wn

Zn

)converge en Pθ-probabilite vers 0, et 1

Zn

(1√n

∑ni=1

˙θ(Xi)

)converge en loi sous Pθ vers N (0, 1

I(θ)). Donc encore par Slutzky,√n(θn − θ) converge

en loi sous Pθ vers N (0, 1I(θ)).

10.3 Consistance de l’estimateur du maximum devraisemblance

Il s’agit ici de voir comment realiser la consistance de l’estimateur du maximum devraisemblance (hypothese des theoremes de loi asymptotique), et de voir que les hy-potheses qui permettent de l’obtenir ne sont plus locales mais globales.

Si on note `n(θ) la log-vraisemblance, et si log fθ(x) ∈ L1(Pθ), alors par la loi desgrands nombres 1

n`n(θ) converge en probabilite sous Pθ vers Eθ[log fθ(X1)], et pour touts ∈ Θ, si log fs(x) ∈ L1(Pθ),

1n [`n(θ)− `n(s)] converge en probabilite sous Pθ vers∫

log

(fθ(x)

fs(x)

)dPθ(x) = K (Pθ, Ps) .

Maximiser en s `n(s) c’est minimiser en s 1n [`n(θ)− `n(s)], et l’on souhaite que asymp-

totiquement le maximum soit en θ, donc que le minimum de s 7→ K (Pθ, Ps) soit atteintpour s = θ. Or K (Pθ, Ps) est la divergence de Kullback entre Pθ et Ps, donc on sait quepour tout s, K (Pθ, Ps) ≥ 0 et que K (Pθ, Ps) = 0 si et seulement si Ps = Pθ. On va doncdemander que cela implique s = θ, autrement dit que le modele soit identifiable, c’est adire que la fonction θ 7→ Pθ soit injective.

Theoreme 10.3.1. On suppose le modele (Pθ)θ∈Θ domine, et l’on note θn l’estimateurdu maximum de vraisemblance obtenu avec X1, . . . , Xn i.i.d. On suppose de plus que :

— le modele est identifiable,— Θ est un sous-ensemble compact de Rk,— pour tout x ∈ X , la fonction θ 7→ log fθ(x) est continue (fθ est la densite de Pθ

par rapport a la mesure dominante), et si l’on note h(x) = sups∈Θ | log fs(x)|, pourtout θ ∈ Θ, h ∈ L1(Pθ).

Alors θn est consistant, c’est a dire que pour tout θ ∈ Θ, θn converge en probabilite sousPθ vers θ.

94

Page 95: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10.3 Consistance de l’estimateur du maximum de vraisemblance

Remarquer que si θ 7→ log fθ(x) est continue a fortiori fθ(x) 6= 0.Preuve du Theoreme 10.3.1.

Notons, pour tout x ∈ X et α > 0,

g(α, x) = sup‖θ1−θ2‖≤α

| log fθ1(x)− log fθ2(x)|.

Fixons θ ∈ Θ. On a alors g(α, x) ≤ 2h(x) et g(α, ·) ∈ L1(Pθ). De plus, θ 7→ log fθ(x) estuniformement continue sur le compact Θ, donc pour tout x ∈ X , limα→0 g(α, x) = 0, etpar convergence dominee,

limε→0

Eθg(α,X1) = 0.

Soit ε > 0 quelconque. L’ensemble Aε = s ∈ Θ : ‖s− θ‖ ≥ ε est compact (ferme dansun compact), donc pour tout α > 0, on peut le recouvrir par un nombre fini Nα de boulesde rayon α, centrees en θi, i = 1, . . . , Nα. Pour tout s ∈ Aε, il existe i ∈ 1, . . . , Nα telque ‖s− θi‖ ≤ α, et | log fs(x)− log fθi(x)| ≤ g(α, x). On a alors

sups∈Aε

`n(s) ≤ max`n(θi), i = 1, . . . , Nα+

n∑i=1

g(α,Xi).

Donc

Pθ(‖θn − θ‖ ≥ ε

)≤ Pθ

(sups∈Aε

`n(s) ≥ `n(θ)

)≤ Pθ

(max 1

n`n(θi), i = 1, . . . , Nα+

1

n

n∑i=1

g(α,Xi) ≥1

n`n(θ)

)Maintenant, max`n(θi) − `n(θ), i = 1, . . . , Nα converge en probabilite sous Pθ versmax−K (Pθ, Pθi) , i = 1, . . . , Nα (car nombre fini de variables aleatoires),et max−K (Pθ, Pθi) , i = 1, . . . , Nα ≤ − infs∈Aε K (Pθ, Ps). Par ailleurs, s 7→ K (Pθ, Ps)est continue (par convergence dominee) et atteint son minimum sur le compact Aε enun point, donc par identifiabilite, infs∈Aε K (Pθ, Ps) = δε > 0. On a alors

Pθ(‖θn − θ‖ ≥ ε

)≤ Pθ

(max 1

n(`n(θi)− `n(θ)), i = 1, . . . , Nα ≥ −

δε2

)+ Pθ

(1

n

n∑i=1

g(α,Xi) ≥δε2

)

≤ Pθ(

max 1

n(`n(θi)− `n(θ)), i = 1, . . . , Nα ≥ −

δε2

)+

2Eθg(α,X1)

δε.

Mais

limn→+∞

Pθ(

max 1

n(`n(θi)− `n(θ)), i = 1, . . . , Nα ≥ −

δε2

)= 0

car −max−K (Pθ, Pθi) , i = 1, . . . , Nα − δε2 ≥

δε2 . Donc

lim supn→+∞

Pθ(‖θn − θ‖ ≥ ε

)≤ 2Eθg(α,X1)

δε

et en faisant tendre α vers 0, on obtient limn→+∞ Pθ(‖θn − θ‖ ≥ ε

)= 0.

95

Page 96: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

10.4 Asymptotique du test du rapport de vraisemblance

On veut tester H0 : “θ = θ0” contre H1 : “θ 6= θ0” avec le test du rapport de vraisem-blance. Ce test s’ecrit

ϕn = 1supθ∈Θ `n(θ)−`n(θ0)≥s

pour un seuil s a determiner, de sorte que lim supn→+∞Eθ0φn ≤ α, niveau donne. Pourfixer le seuil, il s’agit donc de determiner la loi asymptotique de supθ∈Θ `n(θ)− `n(θ0).

Theoreme 10.4.1. On suppose (Pθ)θ∈Θ domine, Θ ⊂ R, on note fθ la densite de Pθpar rapport a la mesure dominante, et l’on suppose que pour tous x et θ, fθ(x) > 0. Onnote θn l’estimateur du maximum de vraisemblance. Soit θ0 ∈ Θ. On suppose que :

— θn converge en Pθ0 probabilite vers θ0.

— ∀x ∈ X , θ 7→ fθ(x) est de classe C2 en θ0, Eθ0f ′′θ0fθ0

(X) = 0, Eθ0f ′θ0fθ0

(X) = 0 et

Eθ0

(f ′θ0fθ0

(X)

)2

< +∞ (ou l’on note f ′θ0(x) et f ′′θ0(x) les derivees de fθ(x) par

rapport a θ en θ0).— I(θ0) > 0,— Il existe V , voisinage de θ0 et h ∈ L1(Pθ0) tels que

∀θ ∈ V, | ∂2

∂θ2(log fθ)| ≤ h.

Alors 2[`n(θn)− `n(θ0)] converge en loi sous Pθ0 vers χ2(1) (loi du chi-deux a un degrede liberte).

Preuve du Theoreme 10.4.1En reprenant le Theoreme 10.1.2 on a

√n(θn − θ0) =

1

I(θ0)· 1√

n

n∑i=1

˙θ0(Xi) + εn (10.2)

ou εn tend en Pθ0-probabilite vers 0. θ 7→ `n(θ) est de classe C2 en θ0, on a donc

`n(θn) = `n(θ0) + (θn − θ0)∂

∂θ`n(θ0) +

(θn − θ0)2

2

∂2

∂θ2`n(θn) (10.3)

pour un θn ∈ (θ0; θn). Noter que θn est aleatoire. Comme dans la preuve du Theoreme10.1.2, on obtient que

1

n

∂2

∂θ2`n(θn) = −I(θ0) + Un (10.4)

96

Page 97: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10.5 Generalisations multidimensionnelles

ou Un tend en Pθ0-probabilite vers 0. En reportant (10.2) et (10.4) dans (10.3), on obtient

`n(θn)− `n(θ0) =1

I(θ0)

(1√n

n∑i=1

˙θ0(Xi) + εn

)(1√n

n∑i=1

˙θ0(Xi)

)

+1

2I(θ0)2

(1√n

n∑i=1

˙θ0(Xi) + εn

)2

(−I(θ0) + Un)

=1

2I(θ0)

(1√n

n∑i=1

˙θ0(Xi)

)2

+εn(1 + Un − I(θ0))

I(θ0)

(1√n

n∑i=1

˙θ0(Xi)

)

+ε2n

2I(θ0)(−I(θ0) + Un) .

Par Slutzky, εn(1+Un−I(θ0))I(θ0)

(1√n

∑ni=1

˙θ0(Xi)

)+ ε2n

2I(θ0) (−I(θ0) + Un) tend en Pθ0-probabilite

vers 0. Par ailleurs,

1

I(θ0)

(1√n

n∑i=1

˙θ0(Xi)

)2

=

(1√n

n∑i=1

˙θ0(Xi)√I(θ0)

)2

,

1√n

∑ni=1

˙θ0

(Xi)√I(θ0)

converge en loi sous Pθ0 vers une gaussienne centree reduite par le

theoreme de limite centrale, donc par image continue,

(1√n

∑ni=1

˙θ0

(Xi)√I(θ0)

)2

converge en

loi sous Pθ0 vers χ2(1) et le theoreme s’en suit par Slutzky.

On a alors, si u1−α/2 est le quantile d’ordre 1−α/2 de la loi gaussienne centree reduite,u2

1−α/2 est le quantile d’ordre 1 − α de la loi χ2(1) (car P (U2 ≥ u2) = P (|U | ≥ u)), etdonc le test

ϕn = 1supθ∈Θ `n(θ)−`n(θ0)≥u21−α/2

est de niveau asymptotique α pour tester H0 : “θ = θ0” contre H1 : “θ 6= θ0”.

10.5 Generalisations multidimensionnelles

On va ecrire les resultats que l’on obtient dans le cas ou Θ ⊂ Rk, les preuves sederoulent de maniere analogue au cas k = 1 (le faire en exercice !).Soit (Pθ)θ∈Θ un modele domine, Θ ⊂ Rk, on note fθ(x) la densite de Pθ par rapport ala mesure dominante, et Pθ la loi d’une suite de variables aleatoires i.i.d. de loi Pθ.On note θn l’estimateur du maximum de vraisemblance obtenu avec n observationsX1, . . . , Xn.Soit θ0 ∈ Θ. On suppose que :

— θn converge en Pθ0 probabilite vers θ0.

97

Page 98: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

— ∀x ∈ X , θ 7→ fθ(x) est de classe C2 en θ0, Eθ0D2fθ0fθ0

(X) = 0, Eθ0∇fθ0fθ0

(X) = 0 et

Eθ0

∥∥∥∇fθ0fθ0(X)

∥∥∥2< +∞ (ou l’on a note ∇fθ0(x) le gradient de fθ(x) par rapport a

θ en θ0et D2fθ0(x) la matrice hessienne de fθ(x) par rapport a θ en θ0).

— I(θ0) est definie positive (I(θ0) est la matrice de variance de∇fθ0fθ0

(X1) sous Pθ0 ,

— Il existe V , voisinage de θ0 et h ∈ L1(Pθ0) tel que pour tous i, j = 1, . . . , k,

∀θ ∈ V, | ∂2

∂θi∂θi(log fθ)| ≤ h.

Alors√nI(θ0)

(θn − θ0

)− 1√

n

n∑i=1

∇fθ0fθ0

(Xi)

converge en Pθ0-probabilite vers 0,√n(θn − θ0

)converge en loi sous Pθ0 vers Nk(0, I(θ0)−1), et

2

[n∑i=1

log fθn

(Xi)−n∑i=1

log fθ0(Xi)

]

converge en loi sous Pθ0 vers un χ2(k) (loi du chi-deux a k degres de liberte).

10.6 Constructions de regions de confiance asymptotiques

A partir d’estimateurs asymptotiquement efficaces : soit Tn tel que pour tout θ,√n (Tn − θ) converge en loi sous Pθ versNk(0, I(θ)−1),. On a donc siBk est un borelien de

Rk tel que, si U suit la loiNk(0, Ik), alors P (U ∈ Bk) = α, alorsθ ∈ Rk :

√nI(θ)1/2 (Tn − θ) ∈ Bk

est une region de confiance pour θ asymptotiquement de niveau de confiance 1−α. MaisI(θ) depend de θ inconnu, et il n’est pas forcement facile de determiner cet ensemble(voir sur des exemples).Une solution est d’estimer l’information de Fisher. Si In est un estimateur consistant deI(θ), alors par Slutzky,

√nI

1/2n (Tn − θ) converge en loi sous Pθ vers Nk(0, Ik), et

Rn =θ ∈ Rk :

√nI1/2

n (Tn − θ) ∈ Bk

est une region de confiance pour θ asymptotiquement de niveau de confiance 1 − α. Sik = 1, on peut choisir B1 = [−u1−α/2;u1−α/2], ou u1−α/2 est le quantile d’ordre 1− α/2de la loi gaussienne centree reduite, et si k = 1,

Rn =

Tn − u1−α/2√n

√In

;Tn −u1−α/2√n

√In

est un intervalle de confiance pour θ asymptotiquement de niveau de confiance 1− α.On peut par exemple choisir :

98

Page 99: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10.7 Retour sur le test du chi-deux d’ajustement

— In = I(Tn) (plug-in), consistant des que θ 7→ I(θ) est continue,— In = 1

n

∑ni=1

˙Tn

˙TTn

, consistant sous les hypotheses du Theoreme 10.1.2 par exemple.

On peut aussi utiliser le test du rapport de vraisemblance. Si on note ϕθ0n le test durapport de vraisemblance de H0 : “θ = θ0” contre H1 : “θ 6= θ0” asymptotiquement deniveau α, alors θ0 : ϕθ0n = 0 est une region de confiance pour θ asymptotiquement deniveau de confiance 1−α. Donc en utilisant la version multidimensionnelle du Theoreme10.4.1,

Sn =

θ0 ∈ Rk : 2 sup

θ∈Θ`n(θ)− `n(θ0) ≤ χ2

k,1−α

est une region de confiance pour θ asymptotiquement de niveau de confiance 1− α.

10.7 Retour sur le test du chi-deux d’ajustement

On revient sur le modele ou X = 1, . . . , k,

Θ =

θ = (θ1, . . . , θk−1) ∈ Rk−1, θj ≥ 0, j = 1, . . . , k,

k−1∑j=1

θj ≤ 1

,

et Pθ est la loi sur X donnee par : Pθ(X = j) = θj , j = 1, . . . , k − 1 et Pθ(X = k) =

1−∑k−1

j=1 θj , que l’on notera alors θk.

Soient X1, . . . , Xn i.i.d., on note pour j = 1, . . . , k

Nj =

n∑i=1

1Xi=j .

La log-vraisemblance est `n(θ) =∑k

j=1Nj log θj , et l’estimateur du maximum de vrai-

semblance est θn tel que (θn

)j

=Nj

n, j = 1, . . . , k.

On a vu que si pour tout j, θj > 0 et si l’on note

Tn = n

k∑j=1

(Njn − θj

)2

θj,

alors sous Pθ, Tn converge en loi quand n tend vers l’infini vers un χ2(k − 1). On l’ademontre en utilisant : le theoreme de limite centrale et le theoreme de Cochran.Peut-on relier ce resultat au Theoreme 10.4.1 ?

Proposition 10.7.1. On suppose que pour tout j = 1, . . . , k, θj > 0. Alors

2[`n(θn)− `n(θ)

]= Tn + εn

ou εn converge en Pθ-probabilite vers 0.

99

Page 100: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

Preuve de la Proposition 10.7.1.On a

2[`n(θn)− `n(θ)

]= 2

k∑j=1

Nj log

(Nj

nθj

)

= 2k∑j=1

Nj log

[1 +

(Njn − θjθj

)]

= 2

k∑j=1

Nj

(Njn − θjθj

)−

k∑j=1

Nj

(Njn − θjθj

)2

+ Zn

en utilisant log(1 + u) = u − u2

2 + u2ε(u), ou ε(u) tend vers 0 quand u tend vers 0, etavec

Zn = 2k∑j=1

Nj

(Njn − θjθj

)2

ε

(Njn − θjθj

).

On a

Tn = n

k∑j=1

Nj

n

(Njn − θjθj

)− n

k∑j=1

θj

(Njn − θjθj

)=

k∑j=1

Nj

(Njn − θjθj

),

car∑k

j=1Nj = n et∑k

j=1 θj = 1, et

k∑j=1

Nj

(Njn − θjθj

)2

= nk∑j=1

(Nj

nθj

) (Njn − θj

)2

θj= Tn + Un

avec

Un =

k∑j=1

(Nj

nθj− 1

) (√n(Njn − θj)

)2

θj.

On a alors2[`n(θn)− `n(θ)

]= Tn + Zn − Un.

Mais par Slutzky, Un converge en Pθ-probabilite vers 0, et par Slutzky et image continue,

Zn = 2

k∑j=1

(Nj

n

)(√n

(Njn − θjθj

))2

ε

(Njn − θjθj

).

converge en Pθ-probabilite vers 0.

On considere maintenant que l’on veut tester un sous-modele decrit ainsi. Soit Θ ⊂ Rq,avec q < k − 1, et π : Θ→ Rk−1, π(θ) = (π1(θ), . . . , πk−1(θ)) de sorte que Pθ(X = j) =

100

Page 101: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10.7 Retour sur le test du chi-deux d’ajustement

πj(θ), j = 1, . . . , k − 1. Si l’on note p = (P (X = 1), . . . , P (X = k − 1)), on veut donc

tester H0 :“p ∈ π(Θ)” contre H1 :“p /∈ π(Θ)”. On va donc regarder l’ecart entre (Njn )j et

(πj(θ))j pour un estimateur de θ consistant sous H0. Considerons par exemple l’estima-

teur du maximum de vraisemblance θn. Regardons quand les theoremes asymptotiquess’appliquent.

Comme X est un ensemble fini, les hypotheses d’integrabilite et de domination sontverifiees des que les quantites sont finies. On note comme tout a l’heure πk(θ) = 1 −∑k−1

j=1 πj(θ). Donc pour la consistance, il suffit de supposer que— (H1) π est injective, continue sur Θ qui est compact, et pour tout j = 1, . . . , k,

infθ∈Θ πj(θ) > 0.Pour la normalite asymptotique, on a besoin de plus que— (H2) Pour tout j = 1, . . . , k, θ 7→ π(θ) est de classe C2, et l’information de Fisher

I(θ) est inversible.

Theoreme 10.7.1. On suppose (H1) et (H2). On note

Tn = n

k∑j=1

(Njn − πj(θn)

)2

πj(θn).

Alors si p ∈ π(Θ), Tn converge en loi sous Pp vers un χ2(k − 1− q).

La consequence de ce theoreme est que le test qui rejette H0 lorsque Tn ≥ χ2k−1−q;1−α

est asymptotiquement de niveau α. Il est aussi asymptotiquement de puissance 1 pourtout p /∈ π(Θ). En effet, dans ce cas, Tn converge en probabilite vers +∞ (l’ecrire).

Preuve du Theoreme 10.7.1.On note Zn le vecteur de Rk de coordonnees

Zn,j =√n

(Njn − πj(θ)√

πj(θ)

), j = 1, . . . , k

et Yn le vecteur de Rk de coordonnees

Yn,j =√n

(πj(θn)− πj(θ)√

πj(θ)

), j = 1, . . . , k.

Si on note Dn la matrice diagonale desπj(θ)

πj(θn), on a

Tn = ‖Dn (Zn − Yn)‖2 ,

et par Slutzky, la consistance de l’e.m.v., et le theoreme de Cochran, il suffit donc demontrer que Zn − Yn converge en loi sous Pθ vers Nk(0, Ik − R) ou R est la matrice deprojection orthogonale sur un sous-espace de Rk de dimension q + 1.

101

Page 102: Statistiques - Notes de cours - M1gassiat/M1Stat.pdf · En probabilit e, on etudie les propri et es de variables al eatoires connaissant leur loi. En statistique, on cherche a trouver

10 Elements de statistique asymptotique

Notons ∆ la matrice diagonale k× k des πj(θ), dπ la matrice k× q qui possede en lignesles ∇πj . Noter que si l’on note 1k le vecteur de Rk dont toutes les coordonnees sontegales a 1, dπT1k = 0 puisque la somme des πj(θ) est constante egale a 1. Soit π levecteur de Rk des πj(θ),

√π le vecteur de Rk des

√πj(θ).

Comme pour i = 1, . . . , q,

( ˙θ(x))i =

k∑j=1

1x=j1

πj(θ)

∂πj(θ)

∂θi,

pour i,m = 1, . . . , q

I(θ)i,m =

k∑j=1

1

πj(θ)

∂πj(θ)

∂θi

∂πj(θ)

∂θm,

I(θ) = (dπ)T∆−1(dπ), et dire que I(θ) est inversible c’est dire que les q vecteurs

de Rk ( 1√πj(θ)

∂πj(θ)∂θi

)1≤j≤k, pour i = 1, . . . , q, sont lineairement independants. On a

(generalisation multidimensionnelle de la preuve du Theoreme 10.1.2) :

√n(θn − θ

)=

I(θ)−1

√n

n∑i=1

˙θ(Xi) + εn

= I(θ)−1(dπ)T∆−1 N√n

+ εn

= I(θ)−1(dπ)T∆−1√n(N

n− π

)+ εn

ou εn tend en Pθ-probabilite vers 0, et ou l’on a note N le vecteur de Rk de coordonneesNj .

Par la methode delta, on obtient

√n(π(θn)− π(θ)

)= dπ

√n(θn − θ

)+ εn

= dπI(θ)−1(dπ)T∆−1√n(N

n− π

)+ εn

ou εn et εn tendent en Pθ-probabilite vers 0. En multipliant a gauche par ∆−1/2 onobtient

Yn = ∆−1/2dπI(θ)−1(dπ)T∆−1/2Zn + Un

ou Un tend en Pθ-probabilite vers 0. Donc Zn − Yn = (Ik − Q)Zn − Un avec Q =

∆−1/2dπI(θ)−1(dπ)T∆−1/2, et Zn converge en loi sous Pθ vers Nk(0, Ik−√π√πT

). DoncZn − Yn converge en loi sous Pθ vers Nk(0,Σ) avec

Σ = (Ik −Q)(Ik −

√π√πT)

(Ik −Q)T = Ik −(Q+

√π√πT)

car Q est une matrice de projection orthogonale de rang q (le rang de dπ) (QT = Q, Q2 =

Q) telle que Q√π√πT

= 0, et Q +√π√πT

est une matrice de projection orthogonalesur un espace de dimension q + 1.

102