Bornes d'estimation Cours 1a 3 : Introduction, Modeles …cappe/2006-2007/cours1-3_2pp.pdf · 2008....
Transcript of Bornes d'estimation Cours 1a 3 : Introduction, Modeles …cappe/2006-2007/cours1-3_2pp.pdf · 2008....
-
Première partie I
Cours 1 à 3 : Introduction, Modèles statistiques,Bornes d’estimation (version corrigée, 27 fév. 2007)
Introduction
MAP433 Statistique
L’équipe enseignante
Cours Olivier Cappé, laboratoire traitement etcommunication de l’information, CNRS — ENST
Petites classes
Randal Douc, département de mathématiquesappliquées, Ecole PolytechniqueGabriel Lang, laboratoire Gestion du Risque enSciences de l’Eau, ENGREFStéphane Grégoir, Centre de Recherche enÉconomie et Statistique, INSEE
-
Introduction
MAP433 Statistique
Le cours
Amphis & PC Vendredi 2 février, 9 février, 16 février, 2 mars,9 mars, 16 mars, 30 mars, 6 avril, 20 avril
Les transparents du cours sont disponibles àpartir dehttp://www.catalogue.polytechnique.fr/Les codes scilab utilisées pour illustrer le courssont également disponibles (même adresse)
Tutorat Le mardi à 17h30, à partir du 27 fév. (informationsauprès de la scolarité)
Projet facultatif Les sujets seront présentés le 9 mars, s’incrirepour le 30 mars, à rendre pour le 1er juin(impérativement)
CC Mercredi 2 mai (attention : date modifiée)
Introduction
1 IntroductionIntroduction à la statistiqueUn exemple élémentaireStatistiques descriptives
2 Modélisation statistique
3 Bornes d’estimation
-
Introduction Introduction à la statistique
La statistique
A pour but de fournir un ensemble de méthodes permettant, àpartir d’observations,
d’analyser (de décrire) les données observées,mais également d’en déduire des traitements(modèles/interprétations) :aide à la décision, mise en évidence de facteurs explicatifs,prédiction du comportement futur, . . .
Repose sur la modélisation probabiliste des observations
Introduction Introduction à la statistique
Exemples
Prédire le résultat d’une élection, à partir de sondage(s)
Dire si la qualité de l’air s’est ou non améliorée suite à unaménagement routier, à partir de données de pollution
Analyser les résultats d’un vote, à partir de questionnaires
Analyser les facteurs d’échec scolaire, à partir de donnéessociologiques recueillies lors de recensements
Valider l’efficacité d’un traitement médicamenteux, sur la based’essais cliniques
Mesurer l’impact d’un site web, à partir de mesure deconnectivité (analyse des liens hypertextes)
Détecter automatiquement des courriels non-sollicités, à partirde corpus d’exemples
Optimiser une stratégie de gestion de portefeuille, à partir dedonnées historiques
-
Introduction Introduction à la statistique
Les observations sont vues comme des réalisations de variablesaléatoires définies sur un espace probabilisable (Ω,F)
Probabilités
Statistique
ObservationsLoi de probabilité
La théorie des probabilités vise à évaluer le comportement desobservations (espérance, moments, probabilités dedépassement, comportement de sommes, . . .) étantdonné la loi de probabilité P
La statistique fournit des méthodes pour résoudre le problèmeinverse dit d’inférence statistique : caractériser P auvu des observations
Introduction Introduction à la statistique
En général, l’objectif de déterminer complètement P à partird’observations est trop ambitieux et il est nécessaire
1 de faire des hypothèses plus restrictives sur la loi P ; ceshypothèses reflètent nos connaissances a priori sur leprocessus qui génère les données (cf. cours suivant)
2 de considérer des observations dont la structure probabilisteest raisonnablement simple
Modèle statique ou d’échantillonnage
Dans ce cours, on considérera uniquement le cas d’observationsY1, . . . , Yn indépendantes et, le plus souvent, de même loi
-
Introduction Un exemple élémentaire
Modèle d’échantillonnage de Bernoulli
On suppose que les observations Y1, . . . , Yn sont des variablesindépendantes et de même loi (ou IID) à valeur dans {0, 1}
Le modèle statistique le plus simple, néanmoins rencontré dans denombreuses applications (tests de qualité, questionnaires . . .)
1 La loi des observations est entièrement déterminée par
θdef=P(Yi = 1)*
2 L’inférence statistique, (( déterminer θ à partir desobservations )), est un objectif raisonnable du fait de la loi desgrands nombres
1n
n∑i=1
Yip.s.−→ θ
*Un petit souci de notation ici (cf. cours suivant)Introduction Un exemple élémentaire
Dans ce modèle particulièrement simple, on sait égalementquantifier les performances de l’inférence statistique à l’aide derésultats
Asymptotiques comme le théorème de la limite centrale
√n
(1n
n∑i=1
Yi − θ
)L−→N (0, θ(1− θ))
c’est à dire
P
[√n
θ(1− θ)
∣∣∣∣∣ 1nn∑i=1
Yi − θ
∣∣∣∣∣ > ε]→ 2 (1− Φ(ε))
Non-asymptotiques comme l’inégalité d’Hoeffding
P
[∣∣∣∣∣ 1nn∑i=1
Yi − θ
∣∣∣∣∣ > ε]≤ 2 exp
(−2nε2
)
-
Introduction Un exemple élémentaire
n0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
0.65
0.70
0.75
0.80
0.85
0.90
0.95
1.00
Fig.: 1/n∑n
i=1 Yi(θ = 0.9, 10 réalisations)
n = 10
−3 −2 −1 0 1 2 30.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0n = 100
−3 −2 −1 0 1 2 30.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50n = 1000
−3 −2 −1 0 1 2 30.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
Fig.: Histogrammes et QQ-plots de1/√nθ(1− θ)
∑ni=1(Yi − θ)
(θ = 0.9, 100 réalisations)
quantiles empiriques
Introduction Un exemple élémentaire
Approcher θ par 1n∑n
i=1 Yi constitue un exemple d’estimation : θest un paramètre et 1n
∑ni=1 Yi un estimateur
On peut également s’intéresser
aux tests, par ex., (( les données sont-elles compatibles avecl’hypothèse θ = θ0 ? ))aux régions de confiance (( au vu des données, quelles sont lesvaleurs de θ qui sont crédibles ? ))
-
Introduction Un exemple élémentaire
Une réponse possible (via Hoeffding)
P
[∣∣∣∣∣ 1nn∑i=1
Yi − θ
∣∣∣∣∣ >√
log(1/α)2n
]≤ 2α
Si∣∣ 1n
∑ni=1 Yi − θ0
∣∣ est supérieur à √ log(1/α)2n , par exemplepour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable
Les valeurs de θ situées au delà de 1n∑n
i=1 Yi ±√
log(1/α)2n
sont peu crédibles
Introduction Un exemple élémentaire
n0 50 100 150 200 250 300
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Fig.: 1/n∑n
i=1(Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 réalisations)comparé à
√log(1/α)/2n pour α = 0.025
-
Introduction Un exemple élémentaire
Plus généralement
Au delà ce cas très simple
L’inférence statistique est-elle toujours un objectifraisonnable ?
Quel type de modélisation utiliser pour la loi des observations ?
Comment systématiser l’intuition basée sur la loi des grandsnombres ?
Peut-on traiter les cas où la loi des observations dépend defaçon plus complexe des paramètres θ ?
Comment quantifier les performances de l’estimation ?
Le comportement en n observé précédemment est-ilgénéralisable ?
Peut-on rationaliser et généraliser les constructions de test etde région de confiance ?
Introduction Statistiques descriptives
Un peu de terminologie
L’échantillon désigne l’ensemble des données observées Y1, . . . , Yn
Une statistique est une fonction des observations :par exemple, Sn =
∑ni=1 Yi et
Rn = max{Yi} −min{Yi} sont des statistiques ; lesestimateurs sont des statistiques bien choisies enfonction d’un objectif
Les statistiques sont des variables aléatoires . . .
Les moments empiriques
Moyenne 1/n∑n
i=1 YiVariance 1/n
∑ni=1 Y
2i − (1/n
∑ni=1 Yi)
2
= 1/n∑n
i=1
(Yi − 1/n
∑nj=1 Yj
)2Les quantiles empiriques
Médiane Xi tel que∑n
j=1 1{Xj ≥ Xi} = bn/2cQuartiles médianes de {Xj : Xj ≤ médiane} et{Xj : Xj ≥ médiane} QQ-plot
-
Introduction Statistiques descriptives
Représentations graphiques
−50 −40 −30 −20 −10 0 10 20 30 40 500.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :Données, histogramme, moyenne, quartiles
Introduction Statistiques descriptives
Nous considérerons souvent des données multivariées
latitude
temperature
25 30 35 40 45 50−20
−15
−10
−5
0
5
10
15
20
Fig.: Températures relevées aux Etats-Unis : Température en fonction dela latitude
-
Modélisation statistique
1 Introduction
2 Modélisation statistiqueModèles statistiquesModèles conditionnelsProblèmes statistiques
3 Bornes d’estimation
Modélisation statistique Modèles statistiques
Modèle statistique, modèle dominé [Définitions 1.1, 1.6]
Famille de lois de probabilité P = {Pθ, θ ∈ Θ} sur un espace YUn modèle est dit dominé lorsque pour tout θ ∈ Θ, Pθ admet unedensité notée `(y; θ) par rapport à une mesure de domination µfixe*
Classes de modèles statistiques
Modèle paramétrique
P = {Pθ, θ ∈ Θ ⊂ Rp}, θ est le paramètre du modèle
Exemple (Modèle de Bernoulli pour des réponses binaires)Y = {0, 1}, Pθ(Y = 1) = θ, θ ∈ [0, 1]
*On note Pθ la probabilité, Eθ l’espérance, Vθ la variance (ou matrice devariance-covariance) pour une valeur de θ donnée
-
Modélisation statistique Modèles statistiques
Classes de modèles statistiques (suite)
Modèle paramétrique avec paramètre(s) de nuisance (ou nonidentifiable)
P = {Pθ, θ ∈ Θ ⊂ Rp}, g(θ) est le paramètre d’intérêt
Exemple (Modèle de dispersion gaussien)
Y = R, `(y;µ, σ) = 1√2πσ
exp[−(y − µ)
2
2σ2
], µ ∈ R, σ ∈ R+
Modélisation statistique Modèles statistiques
Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas unsous ensemble d’un espace vectoriel de dimension finie
Exemple (Estimation d’une loi discrète) Y = N, F estl’ensemble des probabilités sur N
Modèle semi-paramétrique
P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le paramètre d’intérêt
Exemple (Modèle de translation) Y = R, Θ = R,`(y; θ) = f(y − θ) où f est une densité de probabilité symétrique(inconnue) sur R
-
Modélisation statistique Modèles statistiques
Modèle à variable latente
L’observation Y est une fonction d’une variable aléatoire Z, dontla loi dépend de θ, et qui n’est pas totalement observable
Exemples
Données censurées Y = min(Y ∗, τ)avec Y = R, Y ∗ ∼ Pθ, τ ∈ RDonnées bruitées Y = Y ∗ + Uoù Y ∗ ∼ Pθ et U et Y sont indépendantsDonnées corrompues (par des valeurs aberrantes)
Y =
{Y ∗1 si U > ε
Y ∗2 sinon
avec Y ∗1 ∼ Pθ, Y ∗2 ∼ Q, U ∼ Uniforme([0, 1]) (Y ∗1 , Y ∗2 et Uindépendants) et ε ∈]0, 1[
Modélisation statistique Modèles conditionnels
Modèle conditionnel [Section 2.2]
Les observations sont formées de couples X,Y tels que
La famille de lois conditionnelles Pθ,x (ou de densitésconditionnelles `(y|x; θ) pour un modèle dominé) dépend duparamètre θ ∈ Θ ⊂ Rp
X est de loi marginale inconnue, ne dépendant pas de θ
Dans le cadre de ce cours, on considérera uniquement les modèlesstatiques (ou M.C.S.) dans lesquels les couples (Xi, Yi) observéssont indépendants et de même loi
Y est dite variable endogène ou de réponse
X est dite variable exogène ou explicative
-
Modélisation statistique Modèles conditionnels
Modèle de régression linéaire [Section 2.2.2]
Y = R, X = Rp, β ∈ Rp,
Eθ[Y |X] = X ′β ou, de façon équivalente Y = X ′β + U
avec Eθ[U |X] = 0
C’est toujours un modèle semi-paramétrique (si on ne spécifie pasla loi de X), mais conditionnellement, il sera dit
1 Paramétrique Si la loi conditionnelle de U sachant X estspécifiée (par ex. U |X ∼ N (0, σ2Id) — modèle gaussien ounormal)
2 Semi-paramétrique Si on suppose juste, par exemple, queEθ[‖U‖2|X]
-
Modélisation statistique Modèles conditionnels
Dans le polycopié une grande partie des résultats sont donnéesdans le cas (plus général) où X est aléatoire, mais on s’intéresseaussi souvent au cas ou X est déterministe
Exemple (Données de durée du jour)
année
ms
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
FIG. : Variation dela durée du jour enms (mesuresjournalières sur 10ans)
Modélisation statistique Modèles conditionnels
NotationEX espérance par rapport à la loi des variables exogènes
Principales propriétés de l’espérance conditionnelle
1 Soit h et g des fonctions (Eθ|h(Y )|
-
Modélisation statistique Problèmes statistiques
Les grandes classes de problèmes statistiques [Section 1.2]
Estimation Déterminer la valeur du paramètre θ, ou de g(θ) (oùg n’est pas nécessairement injective) ; réponse :valeur estimée θ̂ ∈ Θ
Test Déterminer si θ (ou g(θ)) est ou non élément deG ⊂ Θ ; réponse : décision binaire ∈ {0, 1}
Région de confiance Déterminer un ensemble G ⊂ Θ contenant θ ;réponse : Ĝ ⊂ Θ
Dans les trois cas, on souhaite fournir, en plus du résultat, unefaçon de quantifier sa fiabilité
Remarque : Les observations étant aléatoires, les résultats del’inférence statistiques le sont aussi. Il existe donc toujours uneprobabilité non nulle de fournir un résultat (( incorrect )). On peutnéanmoins s’attendre à ce que cette probabilité deviennearbitrairement faible lorsque le nombre d’observations augmente
Bornes d’estimation
1 Introduction
2 Modélisation statistique
3 Bornes d’estimationRisque quadratique, biais, varianceConditions de régularitéInformation de FisherBorne de Cramer-Rao (Inégalité d’information)Modèles exponentiels
-
Bornes d’estimation Risque quadratique, biais, variance
Risque quadratique (cas scalaire) [Section 4.1]
Pour quantifier la performance d’un estimateur θ̂ = δ(Y )
On définit une fonction de perte l(ϕ; θ) à valeur dans R+ quireprésente la pénalité liée à l’approximation de θ par ϕ
Pour un paramètre θ réel, le choix le plus courant est la pertequadratique l(ϕ; θ) = (ϕ− θ)2
Le risque mesure, en moyenne, la perte liée à l’estimation de θpar l’estimateur θ̂
Dans le cas de la perte quadratique, on obtient le risquequadratique :
r(θ̂; θ) = Eθ(δ(Y )− θ)2
Bornes d’estimation Risque quadratique, biais, variance
Décomposition biais/variance
r(θ̂; θ) = Vθ(δ(Y )) + b2(θ̂; θ)
où
b(θ̂; θ) def=Eθ[δ(Y )]− θ est le biais,Vθ[θ̂] = Eθ (δ(Y )− Eθ[δ(Y )])2 est la variance de l’estimateur
Preuve
(δ(Y )− θ)2 = {[δ(Y )− Eθ(δ(Y ))] + [Eθ(δ(Y ))− θ]}2
Puis développer le carré et prendre l’espérance
-
Bornes d’estimation Risque quadratique, biais, variance
Exemple (Estimateur à rétrécissement)
Soit θ̂ un estimateur sans biais de θ de variance υ(θ)
L’estimateur γθ̂,avec γ ∈ [0, 1], apour risquequadratique :
(γ − 1)2θ2︸ ︷︷ ︸biais2
+ γ2υ(θ)︸ ︷︷ ︸variance 0
θ2
θ2
θ2+υ(θ)
θ2υ(θ)θ2+υ(θ)
1
υ(θ)
Si |θ| est suffisamment faible, en particulier si |θ| ≤√υ(θ), γθ̂ est
préférable à θ̂ ; l’inverse est vrai pour les grandes valeurs de |θ|
En général, le risque quadratique ne permet pas d’ordonnertotalement les estimateurs
Bornes d’estimation Risque quadratique, biais, variance
Risque quadratique (cas vectoriel) [Proposition 4.2]
Dans le cas vectoriel, on définit le risque matriciel d’un estimateurθ̂ = δ(Y ) par
r(θ̂; θ) = Eθ[(δ(Y )− θ)(δ(Y )− θ)′
]Comme dans le cas scalaire,
r(θ̂; θ) = (Eθ[δ(Y )]− θ)︸ ︷︷ ︸biais
(Eθ[δ(Y )]− θ)′ + Vθ[δ(Y )]︸ ︷︷ ︸matrice decovariance
Si r(θ̃; θ) � r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même àθ fixé, il s’agit d’une relation d’ordre partiel)
-
Bornes d’estimation Risque quadratique, biais, variance
Les bornes d’estimationOn cherche à répondre à la question (( quelles sont les meilleuresperformances envisageables en terme de risque quadratique ? ))
Intuitivement, la réponse à cette question est liée à la sensibilité dela vraisemblance `(·; θ) vis à vis de θ :
θθ+∆θθ−∆θ
θθ+∆θθ−∆θ
Bornes d’estimation Conditions de régularité
Modèle régulier [Section 3.3.1]
Le modèle {Pθ, θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp estdominé par une mesure µ avec des densités de probabilités{`(y, θ), θ ∈ Θ} telles queC1 `(y; θ) > 0 (modèle homogène)C2 `(y; θ) est deux fois différentiable en θ
C3 Eθ∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥2
-
Bornes d’estimation Information de Fisher
Information de Fisher [Définition 3.7]
Pour un modèle régulier, la matrice d’information de Fisher* estdéfinie par
IF (θ) = Vθ
[∂ log `(Y ; θ)
∂θ
]où, pour un paramètre vectoriel, Vθ désigne la matrice decovariance
Propriété [Théorème 3.8]
IF (θ) = −Eθ[∂2 log `(Y ; θ)
∂θ∂θ′
]
*Ronald A. Fisher (1890 – 1962)Bornes d’estimation Information de Fisher
Preuve
− Eθ[∂2 log `(Y ; θ)
∂θ∂θ′
]=
− Eθ[
1`(Y ; θ)
∂2`(Y ; θ)∂θ∂θ′︸ ︷︷ ︸R ∂2`(y;θ)
∂θ∂θ′ µ(dy)
− 1`2(Y ; θ)
∂`(Y ; θ)∂θ
∂`(Y ; θ)∂θ′︸ ︷︷ ︸
∂ log `(Y ;θ)∂θ
∂ log `(Y ;θ)
∂θ′
]
= Vθ
[∂ log `(Y ; θ)
∂θ
]En notant que
∫`(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que
Eθ[∂ log `(Y ;θ)
∂θ
]et∫ ∂2`(y;θ)
∂θ∂θ′ µ(dy) sont nuls
-
Bornes d’estimation Information de Fisher
Propriétés de l’information de Fisher
IF (θ) = 0 ssi∥∥∥∂ log `(Y ;θ)∂θ ∥∥∥ = 0 avec Pθ probabilité 1
Si X et Y sont indépendants, IX,YF (θ) = IXF (θ) + I
YF (θ)
en particulier, si Y1, . . . , Yn sont IID,
IY1,...,YnF (θ) = nIY1F (θ)
De façon générale, IX,YF (θ) � IXF (θ), avec égalité uniquementsi la loi conditionnelle de Y sachant X ne dépend pas de θ,avec Pθ probabilité 1 [Section 3.2]
Dans un modèle conditionnel,
IF (θ) = E
{−Eθ
[∂2 log `(Y |X; θ)
∂θ∂θ′
∣∣∣∣X]︸ ︷︷ ︸information conditionnelle
}
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Borne de (Fréchet-Darmois)-Cramér-Rao* [Théorème 4.9]
Si le modèle est régulier et IF (θ) est définie positive pour toutθ ∈ Θ ⊂ Rp ; pour tout estimateur régulier θ̂ = δ(Y ) sans biais deθ
Vθ[δ(Y )] � I−1F (θ)
Remarque M1 �M2 ⇐⇒ ∀α ∈ Rp, αM1α′ ≥ αM2α′, d’où
Vθ
(p∑
k=1
αkθ̂k
)≥ αI−1F (θ)α
′
(pour tout vecteur α ∈ Rd), en particulier Vθ(θ̂k) ≥(I−1F (θ)
)kk
*Maurice Fréchet (1878 – 1973), Georges Darmois (1888 – 1960)Harald Cramér (1893 – 1985), Calyampudi R. Rao (1920)
-
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Preuve (Cas d’un paramètre scalaire)∫d log `(y; θ)
dθ`(y; θ)µ(dy) =
d∫`(y; θ)µ(dy)
dθ= 0 (1)
∫δ(y)
d log `(y; θ)dθ
`(y; θ)µ(dy) =d
θ︷ ︸︸ ︷∫δ(y)`(y; θ)µ(dy)
dθ= 1 (2)
d’où ∫(δ(y)− θ)d log `(y; θ)
dθ`(y; θ)µ(dy) = 1
et par application de l’inégalité de Cauchy-Schwarz
12 ≤∫
(δ(y)− θ)2`(y; θ)µ(dy)︸ ︷︷ ︸Vθ(θ̂)
∫ (d log `(y; θ)
dθ
)2`(y; θ)µ(dy)︸ ︷︷ ︸
IF (θ)
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Preuve (Cas d’un paramètre vectoriel) En procédant commeprécédemment
∫(δ(y)− θ)︸ ︷︷ ︸
a(y)
∂ log `(y; θ)∂θ′︸ ︷︷ ︸b′(y)
`(y; θ)µ(dy)︸ ︷︷ ︸λ(dy)
= Id def=
1 . . .1
Puis
∫a(y)b′(y)λ(dy) = Id et M def=
∫b(y)b′(y)λ(dy) � 0 implique∫ (
a(y)−M−1b(y)) (a(y)−M−1b(y)
)′λ(dy)︸ ︷︷ ︸R
a(y)a′(y)λ(dy)−M−1
� 0
c’est à dire ∫a(y)a′(y)λ(dy) �M−1
-
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Exemple (Modèle d’échantillonnage de Poisson)
Y1, . . . , Yn sont indépendants de loi
Pθ(Y = y) = e−θθy
y!pour y ∈ N
(Eθ[Y ] = θ, Vθ[Y ] = θ)0 2 4 6 8 10 12 14 16 18 20
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.5 5 10
IY1F (θ) = Vθ(−1 + Y1θ
)= 1θ , d’où I
Y1,...,YnF (θ) =
nθ et
Vθ(θ̂n) ≥θ
n
pour tout estimateur θ̂n non biaisé
θ̂n = 1n∑n
i=1 Yi atteint la borne, il est dit estimateur efficacede θ
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Remarque En examinant la preuve de l’inégalité de FDCR (casscalaire), on obtient un critère d’efficacité puisque cette dernièrecorrespond au cas d’égalité dans l’inégalité de Cauchy-Schwarz,c’est à dire au cas où
∃C ∈ R : δ(y)− θ = Cd log `(y; θ)dθ
(Pθ presque partout)
La fonction s(y; θ) = d log `(y;θ)dθ est dite fonction de score (nousavons en particulier montré que Eθ[s(Y ; θ)] = 0)
Dans le cas du modèle de Poisson s(y; θ) = −1 + Y/θ, ce quimontre l’efficacité
Le critère se généralise au cas multidimensionnel
-
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Généralisation [Théorème 4.9]
Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr
Vθ(δ(Y )) �∂g(θ)∂θ′
I−1F (θ)∂g′(θ)∂θ
(voir la preuve dans le polycopié)
Remarque (1) Dans le cas où ϕ = g(θ) correspond à unereparamétrisation (g bijective), on a
IF (ϕ) =(∂g′(θ)∂θ
)−1IF (θ)
(∂g(θ)∂θ′
)−1=∂(g−1(ϕ)
)′∂ϕ
IF (θ)∂g−1(ϕ)∂ϕ′
(où θ = g−1(ϕ))
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Remarque (2) Si θ̂ est un estimateur biaisé de θ, c’est unestimateur non biaisé de g(θ) = b(θ) + θ d’où
Vθ(θ̂) �(
Id +∂b(θ)∂θ′
)I−1F (θ)
(Id +
∂b′(θ)∂θ
)
Remarque (3) La borne n’est pas nécessairement atteignable[Example 4.10]
Dans un modèle régulier, la variance d’un estimateur θ̂n régulierdécrôıt (au mieux) à la vitesse 1/n
-
Bornes d’estimation Modèles exponentiels
Modèle exponentiel [Définition 3.20]
Un modèle statistique est dit exponentiel sous forme naturelle si
`(y; θ) = C(θ)h(y) exp[θ′T (y)
]où T (y) est la statistique canonique (vectorielle) et θ le paramètrenaturel du modèle
Exemples
Loi exponentielle f(y; θ) = θ exp(−θy)Loi gaussienne à variance connue
f(y;µ) =1√2πσ
exp[−(y − µ)
2
2σ2
]=
1√2πσ
exp[− µ
2
2σ2
]exp
[− y
2
2σ2
]exp
[µy
σ2
]Bornes d’estimation Modèles exponentiels
Exhaustivité de la statistique naturelle [Proposition 3.21]
La statistique T (y) est exhaustive, ce qui implique en particulierque I
T (Y )F (θ) = I
YF (θ)
Modèle d’échantillonnage de Bernoulli
Si Y1, . . . , Yn ∈ {0, 1} sont IID de loi Pθ(Yi = 1) = θ,
`n(Y1, . . . , Yn; θ) =n∏i=1
f(Yi; θ) =
n∏i=1
θYi (1− θ)Yi−1 =n∏i=1
11− θ
(θ
1− θ
)Yi=
n∏i=1
11− θ
exp
[Yi log
(θ
1− θ
)︸ ︷︷ ︸
paramètre naturel β
]=(1 + eβ
)nexp
(β
n∑i=1
Yi
)
-
Bornes d’estimation Modèles exponentiels
Information dans le modèle exponentiel [Proposition 3.22]
IF (θ) = Vθ [T (Y )]
On montre de plus que les conditions de régularité du modèle seramènent au fait que la matrice de covariance Vθ [T (Y )] soitdéfinie positive (pour tout θ)
Bornes d’estimation Modèles exponentiels
Preuve `(y; θ) = C(θ)h(y) exp [θ′T (y)] implique que
∂ log `(y; θ)∂θ
=∂ logC(θ)
∂θ+ T (y)
Par ailleurs, C(θ) =(∫h(y) exp [θ′T (y)]µ(dy)
)−1, donc
∂ logC(θ)∂θ
= −∫T (y)C(θ)h(y) exp
[θ′T (y)
]µ(dy)︸ ︷︷ ︸
Eθ[T (Y )]
D’où
IF (θ) = Eθ[(T (y)− Eθ [T (Y )]) (T (y)− Eθ [T (Y )])′
]= Vθ [T (Y )]