Econometrie Applique Cours

download Econometrie Applique Cours

of 253

Transcript of Econometrie Applique Cours

  • 8/3/2019 Econometrie Applique Cours

    1/253

    Econometrie lineaire appliquee

    Bruno Crepon Nicolas Jacquemet

    Septembre 2006

  • 8/3/2019 Econometrie Applique Cours

    2/253

    2

  • 8/3/2019 Econometrie Applique Cours

    3/253

    Sommaire

    Sommaire 3

    1 Introduction 1

    1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3

    1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2 Lestimateur des moindres carres ordinaires 11

    2.1 Definition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2 Modele et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20

    2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    3 Les MCO sous lhypothese de normalite des perturbations 21

    3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.2 Ecart-types estimes, tests et intervalles de confiance . . . . . . . . . . . . . . . . 23

    3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29

    3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4 Estimation sous contraintes lineaires 31

    4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 344.3 Esperance et variance de bmcc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.4 Estimateur de la variance des residus 2 . . . . . . . . . . . . . . . . . . . . . . . 36

    4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37

    4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39

    4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40

    4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    5 Proprietes asymptotiques de lestimateur des MCO 47

    5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49

    5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    3

  • 8/3/2019 Econometrie Applique Cours

    4/253

    4 Sommaire

    Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    6 Evaluation : Les estimateurs de difference 61

    6.1 Le Modele causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    6.2 Lestimateur des Differences de Differences . . . . . . . . . . . . . . . . . . . . . . 66

    7 Le modele lineaire sans lhypothese dhomoscedasticite 71

    7.1 Le modele heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77

    7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82

    Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    8 Le modele heteroscedastique en coupe 85

    8.1 Inference robuste a lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 868.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89

    8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95

    Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    9 Correlation des observations 99

    9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99

    9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104

    9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 1069.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111

    Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

    10 Evaluation : Regressions a variables de controle 123

    10.1 Independance conditionnelles a des observables . . . . . . . . . . . . . . . . . . . 123

    10.2 Le modele de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134

    11 Variables instrumentales 143

    11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 14411.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146

    11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152

    11.4 Interpretation de la condition : lim rangE(zixi) = K + 1 . . . . . . . . . . . . . . 15511.5 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

    11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161

    11.7 I llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

    12 La Methode des moments generalisee 169

    12.1 Modele structurel et contrainte identifiante : restriction sur les moments . . . . . 169

    12.2 Definir un modele par le biais de conditions dorthogonalite . . . . . . . . . . . . 171

    12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

  • 8/3/2019 Econometrie Applique Cours

    5/253

    Sommaire 5

    12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178

    12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

    12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181

    12.7 Test de specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    12.8 I llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

    12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

    13 Variables dependantes limitees 197

    13.1 Modele dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

    13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

    13.3 Estimation des modeles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202

    13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206

    13.5 Selectivite : le modele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

    13.6 Estimation du modele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

    13.7 Modeles de choix discrets : le Modele Logit Multinomial . . . . . . . . . . . . . . 224

    13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

    A Rappels de statistiques 229

    A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

    A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

    Liste des Graphiques 235

    Liste des Tableaux 237

    Liste des Applications 239

    Table des Matieres 241

  • 8/3/2019 Econometrie Applique Cours

    6/253

    6 Sommaire

  • 8/3/2019 Econometrie Applique Cours

    7/253

    Chapitre 1

    Introduction

    A la difference de la statistique, qui est une branche des mathematiques, leconometrie estune branche de leconomie, destinee a developper des outils danalyse des donnees permettant de

    nourrir la reflexion theorique. Au dela de la terminologie, cette difference distingue de facon fon-

    damentale les elements qui seront traites ici de lanalyse statistique des donnees. Cette difference

    se traduit, notamment, par le fait que lanalyse econometrique repose sur une modelisation du

    probleme auquel on sinteresse et qui servira au traitement des donnees dont on dispose.

    1.1 Analyse econometrique : presentation

    Lanalyse econometrique dun ensemble de donnees a, dans la grande majorite des cas,

    pour objectif de tester la validite et devaluer lampleur des explications fournies par lanalyseeconomique. A ce titre, elle sinteresse donc a leffet dun ensemble de variables dites va-

    riables explicatives et notees x sur une ou plusieurs autres appelees variables expliquees,

    y. Le choix de ces variables et leur role dans le modele econometrique est deduit de lanalyse

    economique du probleme auquel on sinteresse. Une meme variable peut ainsi jouer le role de va-

    riable expliquee dans un modele econometrique donne par exemple, leducation dans un modele

    dinvestissement en capital humain et le role de variable explicative dans un modele different

    leducation dans un modele de formation des salaires. La theorie suggere ainsi une relation

    de causalite specifique au probleme considere entre les variables auxquelles on sinteresse. Pour

    cette raison, la variable expliquee est egalement souvent qualifiee de dependante ou endogene,

    au sens ou une relation causale la lie aux variables explicatives considerees ; et les variables ex-plicatives qualifiees de variables independantes ou exogenes, au sens ou leur niveau peut etre

    considere comme une donnee dans le cadre du probleme auquel on sinteresse.

    1.1.1 Modele econometrique

    Un modele econometrique est constitue de plusieurs ingredients. Lanalyse empirique de

    la relation qui lie les variables explicatives a la (aux) variable(s) expliquee(s) passe dabord

    par la specification dune fonction telle que : y = f(x). Cette fonction reflete la relation cau-

    sale quentretiennent les variables. Il est cependant impossible pour un observateur exterieur

    de connatre et dobserver parfaitement lensemble des determinants dun phenomene social. Lemoral des menages est ainsi souvent presente comme un determinant important du compor-

    tement de consommation. Dans le cadre dune analyse empirique du comportement individuel

    1

  • 8/3/2019 Econometrie Applique Cours

    8/253

    2 Chapitre 1. Introduction

    de consommation, il est cependant inimaginable de pouvoir observer de fa con certaine cette va-

    riable (chaque lecteur de ce manuel constitue ou appartient a un menage : pouvez-vous mesurer

    votre moral ?). Il convient donc de distinguer dans lanalyse lensemble des elements observables,

    contenus dans la liste des variables explicatives, des determinants qui echappent a lobservation ;

    soit par meconnaissance du probleme, soit, le plus souvent, en raison des difficultes a les mesurer.

    Ces elements inobservables ecartent la variable y du niveau que laissent attendre les variables

    observees x. Lampleur de cette erreur ne peut pas, par definition, etre caracterisee. Elle est

    donc consideree comme une variable aleatoire, notee u, qui sajoute au modele : y = f(x, u).

    Les variations de u ainsi que la fonction f elle meme se combinent pour expliquer les va-

    riations de la (les) variable(s) expliquee(s). Un certain nombre de parametres inconnus inter-

    viennent dans cette combinaison. Le multiplicateur dinvestissement keynesien relie par exemple

    linvestissement I et le PIB, Y, selon une relation lineaire telle que : Y = I. Lintensite de cette

    relation, mesuree par , est inconnue et nest pas observable directement dans la vie economique.

    Les parametres qui definissent la fonction f, notes b, doivent donc etre estimes, cest a dire etre

    deduits des observations disponibles dans les donnees en sappuyant sur le modele. Pour ce faire,

    il est necessaire dimposer un certain nombre dhypotheses sur la fonction f et sur le terme

    derreur u. Comme nous le verrons plus bas (Section ??), les hypotheses retenues determient

    de facon importante les outils qui pourront etre mobilises ainsi que les proprietes de lanalyse.

    Au total, un modele econometrique se definit ainsi comme (i) une relation causale

    entre des variables, (ii) perturbee par un ensemble delements inobservables, (iii)

    determinee par des parametres inobservables (iv) et (v) sur laquelle sont imposees

    un certain nombre dhypotheses necessaires a lestimation.

    1.1.2 Le modele lineaire

    Une hypothese particulierement concerne la forme imposee a la fonction f. Bien quil soit

    possible de definir un modele econometrique en conservant une forme generale a la fonction on

    parle alors de modele non parametrique le procede le plus courant consiste a imposer une

    forme fonctionnelle pour f. On defini alors un modele parametrique. Lensemble des choix pos-

    sibles est extremement vaste. On pourrait ainsi utiliser une forme exponentielle, logarithmique,

    un ratio de polynomes ou toute combinaison imaginable de ces fonctions. Le modele a la fois

    le plus simple et le plus etudie est le modele qui impose une forme lineaire a cette relation. Le

    modele econometrique considere secrit alors :

    y = + 1x1 + + KxK + u = xb + uOn retrouve ici les elements qui definissent un modele econometrique : une variable ex-

    pliquee, K variables explicatives (qui sont toutes observees), K + 1 parametres (a estimer) et

    un terme derreur (inobservable). Il convient detre tres vigilant quant au critere qui caracterise

    la linearite du modele. La forme fonctionnelle utilisee est en effet qualifiee en fonction de la

    position quoccupent les parametres et non les variables dans le modele.

    Definition 1.1 Un modele econometrique est dit lineaire si la relation entre les variables

    explicatives et la (les) variable(s) expliquee(s) est lineaire dans les parametres.

    Le modele econometrique qui consiste a expliquer le salaire par une fonction lineaire de lage

    pris au carre (ou toute autre transformation non lineiare de cette variable) sera ainsi considere

  • 8/3/2019 Econometrie Applique Cours

    9/253

    1.2. Principales etap es de lanalyse econometrique 3

    comme un modele lineaire. A lexception du dernier chapitre, les resultats presentes dans cet

    ouvrage se concentrent sur ce modele. Plusieurs facteurs expliquent son succes et la quantite des

    travaux qui lui sont consacres.

    En raison de sa simplicite, dabord, le modele lineaire est historiquement a lorigine de

    lanalyse econometrique. Les developpements ulterieurs de lanalyse et notamment lanalyse non

    lineaire qui sera introduite a la fin de cet ouvrage sappuient donc naturellement sur les

    resultats obtenus dans le cadre du modele lineaire. Leur connaissance est ainsi indispensable a

    une bonne comprehension de themes plus avances, et toute formation a leconometrie commence

    dailleurs, pour cette raison, par une presentation de leconometrie lineaire. Cette simplicite

    explique egalement le succes de ce modele parmi les praticiens (professionnels, chercheurs, . . . )

    de leconomie appliquee. Comme nous le verrons au cours de louvrage, une part tres importante

    des travaux realises dans ce domaine repose en effet sur lanalyse lineaire, et peut par consequence

    etre comprise en se limitant au elements presentes dans cet ouvrage. Une derniere raison, plus

    fondamentale, tient a ce que de tres nombreux modeles peuvent etre exprimes sous forme lineaire.

    Il sagit de la premiere etape de lanalyse econometrique, dont un certain nombre dexemples

    sont presentes ci-dessous.

    1.2 Principales etapes de lanalyse econometrique

    Le passage de la theorie economique a un modele econometrique consistue en effet la premiere

    etape de lanalyse. Le modele peut ensuite etre mis en uvre a condition de disposer dobsevation

    sur le phenomene considere et ses determinants. Il sagit alors de proceder a lestimation du

    modele, et ce a des fins de validation, devaluation ou de prevision.

    1.2.1 Dou vient le modele ? - 1 de la theorie economique

    Comme nous lavons vu, cest la theorie economique qui suggere une relation de causalite

    entre la (les) variable(s) expliquee(s) et les variables explicatives. Il faut cependant entendre le

    terme theorie economique au sens large. Bien que preferable, il nest pas indispensable, en

    effet, de disposer dun modele economique au sens propre du terme pour mettre en uvre un

    modele econometrique. Les quelques exemples proposes ci-dessous illustrent les divers degres

    dintimite qui peuvent exister entre la theorie et la specification dun modele econometrique.1

    (i) Fonction de production

    Dans sa variation la plus simple, lanalyse economique du processus de production considere

    le niveau du produit, Y, qomme le resultat de la combinaison de deux facteurs : le capital, K,

    et le travail, L :

    Y = F (K, L)

    Un modele non parametrique de production consisterait a conserver la forme generale de

    F(). Seuls sont consideres dans cet ouvrage les modeles parametriques qui imposent une forme

    particuliere a la fonction dinteret. On se restreint alors a un ensemble de fonctions de productions

    ne dependant que dun nombre fini de parametres. Une specification frequemment retenue est la

    fonction de production Cobb-Douglas. Imposer une forme fonctionnelle nest jamais neutre sur le

    1Certains de ces exemples seront developpes au cours de louvrage.

  • 8/3/2019 Econometrie Applique Cours

    10/253

    4 Chapitre 1. Introduction

    phenomene etudie. La fonction de production Cobb-Douglas impose par exemple une restriction

    forte sur les possibilites de substitution entre facteurs :

    Y = AKL

    et sont des parametres a estimer. On remarque immediatement que le modele ainsi

    specifie nest pas lineaire au sens de la Definition 1.1. Une simple operation algebrique permet

    cependant de se ramener a ce cadre :

    log(Y) = log(AKL)

    y = a + k + l

    La seconde equation definit ainsi un modele lineaire dans les parametres. Loperation a

    necessitre un changement de variables : on sinteresse desormais au logarithme du produity = log(Y) comme des facteurs (k = log(K) et l = log(L)). La quantite a correspond a une

    quantite inobservee, qui sinterprete comme le logarithem du parametre dechelle de la fonction

    de production. Suivant les cas, on pourrra donc la considerer comme un parametre a estimer

    (constant) ou comme le terme derreur du modele. Lorsque lon sinteresse a la fonction d epro-

    duction de differentes entrprises, le niveau de la technologie est ainsi susceptible de varier dune

    entrprise a lautre et il paratra alors naturelle de considerer cette quantite comme lerreur du

    modele. Pour les autres coefficients, en revacnhe, le modele specifie impose une homogeneite du

    processus de production dans la population dentreprises.

    (ii) Demande de facteursLa theorie economique a montre que la demande de facteurs qui emane des entreprises

    se deduit directement de la fonction de cout associee au processus de production. En toute

    generalite, cette fonction secrit : C(Q, pX , u), ou Q est le niveau de production, pX le vecteur

    des prix des facteurs X et u le niveau de la technologie. La demande pour un facteur donne Xdoest donnee par le Lemme de Shephard :

    Xd0 =C(Q, pX , u)

    pX0

    Comme dans le cas precedent on se restreint en general a une forme parametrique de la

    fonction de cout. Une specification standard est la fonction de cout translog avec deux facteurs :le capital de cout exp(c) et travail de cout exp(w) :

    log(C) = a + c + w + 0.5c c2 + w,c cw + 0.5w w

    2 + log(Q) log(u)

    Par application du lemme de Shephard, ce type de specification conduit a des fonctions de

    demande specifiant la part optimal de chaque facteur dans le cout global. Pour la demande de

    travail, on a par exemple :wL

    Q= + w,cc + ww

    Dans cette specification, la perturbation na pas dinterpretation aussi naturelle que dans lecas precedent. Il faut considerer que soit le parametre est heterogene, soit la part observee

    secarte de la part theorique pour des raisons non expliquees.

  • 8/3/2019 Econometrie Applique Cours

    11/253

    1.2. Principales etap es de lanalyse econometrique 5

    Le modele peut aussi provenir dune relation moins structurelle entre les variables. Par

    exemple un type dequations tres souvent estime est lequation de Mincer qui fait dependre le

    salaire du nombre dannees detude et de lexperience. Par exemple :

    log(wi) = a0 + assi + aeei + ui

    ou as represente le gain lie a une annee detude supplementaire et ae le gain lie a une annee

    dexperience supplementaire. Les parametres economiques auxquels on sinteresse alors sont le

    rendement de leducation ou le rendement de lexperience. La modelisation sous-jacente est

    celle du capital humain : le capital humain saccumule dabord durant la periode des etudes

    puis durant la vie active par lexperience, en apprenant sur le tas. Si on fait lhypothese dun

    marche du travail concurrentiel, les differences de remunerations entre les agents traduiront des

    differences dans le capital humain. On peut remarquer concernant cette equation que lon ne

    sinteresse pas seulement a expliquer les differences moyennes de revenus entre les agents maisque lon souhaite aussi parvenir a une estimation plus ambitieuse qui puisse conduire a une

    interpretation causale : si on augmente la duree des etudes de un an dun individu quel sera son

    gain en terme de remuneration ?

    Un autre exemple dans lequel le modele entretient des rapports encore plus tenus avec des

    parametres structurels mais possede une interpretation causale est celui de lincidence de la

    taille dune classe sur le taux de reussite des eleves de la classe. On peut legitimement se poser

    la question de savoir si la reduction de la taille des classes conduit a une amelioration du taux

    de reussite scolaire. On peut ainsi considerer un modele du type :

    i = a0 + attaillei + xiax + ui

    ou i represente le taux de reussite dune classe. Dans cette specification que lon pourrait appeler

    fonction de production scolaire, on introduit un ensemble dautres variables. En effet on se doute

    bien que de nombreux facteurs affectent la reussite dune classe. Par exemple lenvironnement

    scolaire est certainement un facteur important. On pourrait se dire que comme on ne sinteresse

    pas a la variable denvironnement on ne la met pas dans la regression. Dun cote on y gagne car

    on na pas a faire leffort de mesurer cette variable, mais dun autre cote cette variable contribue

    aussi a determiner la taille de la classe. Il est possible que dans certains milieux defavorises la

    taille des classes soit plus petites. Si on ignore le role de lenvironnement scolaire et quon ne

    lintegre pas dans la regression, on risque de mesurer un effet de la taille de la classe qui soit unmixte de leffet propre de la taille et de leffet de lenvironnement. Il donc important dans ce type

    de modele, entretenant des rapports larges avec la theorie, dintroduire des facteurs annexes qui

    permettront disoler leffet propre de la taille de la classe. On cherche a controler pour un certain

    nombre de facteurs exterieurs.

    Enfin, on peut avoir une approche descriptive des donnees. Il est important de remarquer

    que dans ce cas les parametres nont pas dinterpretation structurelle.

    1.2.2 Les donnees

    Les donnees constituent le cur de leconometrie. Leur recueil et leur examen descriptifconstituent aussi en general une part importante de tout travail econometrique. Il y a principa-

    lement trois grands types de donnees :

  • 8/3/2019 Econometrie Applique Cours

    12/253

    6 Chapitre 1. Introduction

    1. Donnees temporelles ou longitudinales. Elles sont indicees par le temps t. On dispose ainsi

    de series dites temporelles : yt, xt, par exemple les series trimestrielles de la consommation

    et du revenu, de linflation... En general le nombre dobservation T est assez reduit, de

    lordre de la cinquantaine. On note en general y le vecteur T1 (y1, . . . , yT) et x la matriceT (K+ 1) : (x1, . . . , xT) ou xt est le vecteur ligne forme des valeurs des differentesvariables explicatives (dont la constante) a la date t.

    2. Donnees en coupe. yi, xi. Leur indice correspond a lidentifiant dun individu ou dune

    entreprise. Ces donnees peuvent representer par exemple le salaire dun individu pour y

    et son diplome, son experience... pour les variables explicatives. Les echantillons dont on

    dispose sont en general de beaucoup plus grande taille : le nombre dobservation N depasse

    le plus souvent la centaine et peut aller jusqua plusieurs dizaines de milliers. On note la

    encore en general y le vecteur N1 (y1, . . . , yN) et x la matrice N(K + 1) : (x1, . . . , xN)

    ou xi est le vecteur ligne forme des valeurs des differentes variables explicatives (dont laconstante) pour lindividu i.

    3. Donnees a double indice, dites de panel : yit, xit. On dispose dinformations sur des indivi-

    dus i = 1, . . . , N que lon suit sur plusieurs periodes, t = 1, . . . , T . Les N T observations zitcorrespondent a N observations vectorielles individuelles zi1, . . . ziT. On note en general

    yi

    le vecteur T1 (yi1, . . . , yiT) et xi la matrice T(K+ 1) : (xi1, . . . , xiT) et y le vecteurN T 1

    y

    1, . . . , y

    N

    et x la matrice N T (K+ 1) : (x1, . . . , xN) ou xi est la matrice

    formee des valeurs des differentes variables explicatives (dont la constante) pour lindividu

    i aux differentes dates.

    1.2.3 Lestimation

    Estimer le modele cest trouver une fonction des observations y et x

    b = b y, xdont on souhaite quelle verifie certaines conditions. Par exemple lestimateur peut etre choisi

    tel

    quil soit sans biais Eb = b y, x fy, x dydx = b

    quil satisfasse un critere : minimisation de la somme des carres des residusb = arg min (y xb)2 ;

    maximisation de la log-vraisemblance b = arg max log l (y, x) quil soit de variance minimale

    quil soit convergent, cest a dire quil se rapproche de la vraie valeur du parametre lorsque

    le nombre dobservations devient grand.

    1.2.4 Pourquoi estimer le modele ?

    tester lexistence dun effet, i.e. verifier quune variable x a un effet specifique sur une va-

    riable y. Par exemple on peut sinterroger sur leffet des taux dinteret sur linvestissement,

    cest a dire sur lexistence dun canal monetaire de la politique monetaire. Dans le cadre

    dun modele accelerateur profit standard, I = Qt + + r + v, on peut sinterrogersur le fait que le coefficient du taux dinteret soit nul ou non. On sinteresse donc a

    lhypothese H0 : = 0, et on souhaite que les donnees permettent de repondre a cette

  • 8/3/2019 Econometrie Applique Cours

    13/253

    1.2. Principales etap es de lanalyse econometrique 7

    question. De facon similaire, dans le cas de la fonction de production scolaire on peut

    sinterroger sur lexistence dun effet de la taille de la classe sur le taux de reussite. On

    va alors sinteresser a lhypothese H0 : at = 0, et la aussi on souhaite que les donnees

    nous permettent de choisir entre oui ou non. Lestimation du modele et la confrontation

    du parametre a zero est la voie la plus naturelle pour prendre cette decision. La question

    est ici de savoir si le parametre est significatif au sens statistique du terme.

    quantifier cet effet, ce qui est utile a des fins de simulations. Par exemple dans les deux

    cas precedents on est aussi interesse par donner un ordre de grandeur de leffet a attendre

    dune variation de la variable. Si on voulait par exemple prendre une decision de politique

    economique consistant a baisser la taille des classes, ce qui est tres couteux, on est interesse

    certes a savoir si cela aura un effet non nul mais aussi a savoir lordre de grandeur de cet

    effet. Sil est tres faible on ne prendra pas alors aussi facilement la decision de reduire la

    taille des classes. Lordre de grandeur du parametre est aussi important. La question est

    ici de savoir si le parametre est significatif au sens economique du terme.

    prevoir. Dans le modele yt = xt+ ut, le parametre peut etre estime sur les observations

    t = 1, . . . , T : . Connaissant xT+1 on calcule la prevision de y a la date T + 1 : yT+1 =xT+1

    1.2.5 Dou vient le modele ? - 2 de relations stochastiques

    Le modele provient aussi de relations stochastiques entre les variables. Lecriture de la relation

    y = xb + u

    ne constitue pas en fait un modele econometrique. Comme on la vu il sagit dune relation plus

    ou moins fondee. Si on ladmet fondee, le parametre b a un sens en lui-meme. Il a une definition

    economique, par exemple lelasticite de la production au capital. Pour que ce modele soit un

    modele econometrique il faut lui adjoindre une restriction stochastique. Une facon naturelle de

    proceder est de specifier la loi jointe des observations l (y, x; b) . Ceci revient a specifier la loi du

    residu sachant les variables explicatives : l (u |x ) . La situation de base est celle dans laquellecette loi est choisie comme une loi normale ne dependant pas des variables x. On impose donc

    dans ce cas une restriction stochastique essentielle pour lanalyse econometrique

    l (u

    |x ) = l (u) = (u/) /

    ou est la densite de la loi normale. Imposer cette restriction permet de definir la densite des

    observations

    l (y, x; b) = l (y |x; b ) l (x) = ((y xb) /) l (x) /et donc destimer les parametres en appliquant par exemple la methode du maximum de vraisem-

    blance. Lestimateur auquel on parvient est alors celui des moindres carres ordinaires. On peut

    aussi faire des hypotheses sur la loi de u sachant x qui soient moins fortes que la specification

    de la loi complete. Par exemple on peut se contenter de specifier :

    E(u |x ) = E(u) = 0

    Cette propriete est satisfaite si on specifie la loi conditionnelle de u sachant x comme une loi

    normale independante de x. Linverse est faux et cette specification est donc moins exigeante que

  • 8/3/2019 Econometrie Applique Cours

    14/253

    8 Chapitre 1. Introduction

    la precedente. Elle permet, elle aussi, destimer le modele. Elle implique en effet des restrictions

    du type E(x (y xb)) = 0 appelees intuitivement conditions dorthogonalite dont on verraquelles sont suffisantes pour estimer les parametres du modele. On remarque a ce stade que

    dans cette specification il y a dores et deja un parametre de moins : la variance des residus

    nintervient plus.

    Ces restrictions stochastiques definissent un parametre statistique. On pourrait ainsi definir

    autant de parametres b quil y a de restrictions stochastiques envisageables, cest a dire une

    infinite. On pourrait par exemple considerer le parametre bZ associe a des restrictions stochas-

    tiques E(z (y xbZ)) = 0 dont on verra quelles aussi peuvent etre utilisees souvent pourconduire a une estimation du parametre. Il nest pas certain que le parametre statistique associe

    a une restriction stochastique concide avec le parametre economique. Lestimation peut ainsi

    etre non convergente, cest a dire que la valeur du parametre estimee ne se rapprochera pas

    de la vraie valeur (economique) du parametre lorsque le nombre dobservation augmente, ouetre biaisee, cest a dire que lesperance du parametre nest pas la vraie valeur (economique) du

    parametre. Une partie importante de leconometrie, qui passe par une reflexion sur le modele,

    les donnees et les methodes consiste a rechercher des conditions dans lesquelles le parametre

    statistique concide avec le parametre economique. La question est-ce que p limb = b0, la vraievaleur economique du parametre, est en dernier ressort la question la plus centrale et la plus

    importante de leconometrie, et assez naturelle : est-ce que jai bien mesure ce que je voulais ?

    Cest beaucoup moins facile quil ny parat, car de nombreux facteurs affectent les decisions

    individuelles et il est difficile disoler leffet dune unique cause.

    1.3 Plan de louvrage

    Le cours debute dans le chapitre 2 par lestimateur des moindres carres, cest a dire le vecteur

    des coefficients de la projection orthogonale de y sur lespace vectoriel engendre par les variables

    explicatives. On presente dabord les proprietes algebriques de cet estimateur et ses proprietes

    statistiques sous des hypotheses minimales telles que lindependance et lequidistribution des ob-

    servations (Theoreme de Frish-Waugh, Theoreme de Gauss-Markov, estimation des parametres

    du second ordre, le R2 et lanalyse de la variance). On montre ensuite dans le chapitre 3 comment

    la specification de la loi des residus comme une loi normale permet de completer lanalyse en

    particulier en permettant dobtenir la loi des estimateurs, etape incontournable pour proceder a

    des tests dhypotheses simples (test de Student) ou definir des intervalles de confiance pour les

    parametres. On examine ensuite dans le chapitre 4 et dans le meme cadre ou la loi des residus

    est supposee normale, le cas important des estimations sous contraintes lineaires (dans les pa-

    rametres). On presente alors les tests dhypotheses lineaires sur les parametres par le biais des

    tests de Fisher. Ces resultats sont obtenus sous des hypotheses fortes :

    Independance des residus et des variables explicatives : l (u |x ) = l (u) Homoscedasticite V (u |x ) = 2I Specification de la loi des residus : l (u) normale.

    Les chapitres suivants vont progressivement revenir sur chacune de ces hypotheses. On va

    dabord examiner dans un cadre tres proche la loi asymptotique des estimateurs, cest a direlorsque le nombre dobservations devient grand. On va chercher a developper le meme genre de

    proprietes permettant de faire de linference mais sans specifier la loi des residus. Les resultats

  • 8/3/2019 Econometrie Applique Cours

    15/253

    1.3. Plan de louvrage 9

    seront obtenus sous les hypotheses :

    Absence de correlation entre les residus et les variables explicatives E(ux) = 0 Homoscedasticite V (u

    |x ) = 2I

    Le comportement asymptotique des estimateurs est examine dans le chapitre 5.

    Dans le chapitre 6 on revient sur les hypotheses dindependance et dequidistribution des

    parametres. On presente lestimateur des moindres carres generalisee ainsi que differentes facons

    de traiter la situation dite dheteroscedasticite, i.e. situation dans laquelle la variance des residus

    depend des variables explicatives. On aborde aussi succinctement la question des donnees de

    panel et de lestimation de modeles faisant intervenir des systemes dequations. Le cadre dans

    lequel on se situe est juste base sur

    Absence de correlation entre les residus et les variables explicatives E(ux) = 0Les chapitres 7, 8 et 9 utilisent la methode des moindres carres generalises en sappuyant sur

    une connaissance a priori de la structure de correlation des residus. Le chapitre 7 sinteresse plusparticulierement au cas des regressions empilees. Dans le chapitre 8, on considere le cas dune

    regression en coupe dans laquelle on a heteroscedascticite du residu, ce qui peut etre le cas par

    exemple pour une equation de salaire, la variance du residu etant generalement croissante avec

    le revenu. Dans le chapitre 9, on considere le cas destimations ou le residu peut etre modelise

    comme une serie temporelle de comportement connu. On construit lestimateur les moindres

    carres quasi-generalises en sappuyant sur la connaissance de la forme de lautocorrelation du

    residu.

    Dans le chapitre 10, on considere la situation dans laquelle E(ux) = 0. On aborde la ques-tion de lidentification, fondamentale en econometrie. On montre comment a laide de variables

    exterieures z, dites instrumentales, il est possible destimer le parametre dinteret. On revientdonc en partie sur certains aspects des generalisations precedentes pour mieux se concentrer sur

    lhypothese didentification. Les resultats sont obtenus sous les hypotheses

    Absence de correlation entre les residus et des variables z : E(uz) = 0, Rg (zx) = dim x Homoscedasticite V (u |x, z ) = 2IOn presente aussi deux tests importants : le test dexogeneite et le test de suridentification

    qui sont des guides importants dans le choix des variables instrumentales.

    Dans le chapitre 11 on presente une generalisation importante de la methode a variable

    instrumentale et qui englobe la plupart des methodes econometriques standards. Il sagit de la

    methode des moments generalisee et on montre en particulier comment elle permet detendre lamethode a variables instrumentales au cas dans lequel les perturbations sont heteroscedastiques

    et a dautres cas tels que celui de leconometrie des donnees de panel ou lestimation de systemes

    dequations. Les hypotheses secrivent un peu differemment ce qui souligne le caractere general

    de cette methode

    E(g (z, )) = 0

    ou z represente lensemble des variables du modele, cest a dire inclus les y et les x.

    Dans le chapitre 12, on presente succinctement certains modeles non lineaires proches des

    modele lineaires. On sinteresse ainsi au modeles dits probit pour lesquels la variable a expliquer

    na plus un support continu sur R mais prend ses valeurs dans {0, 1} . La modelisation sous-jacente consiste a introduire une variable latente, i.e. non observee completement

    I = zc + u

  • 8/3/2019 Econometrie Applique Cours

    16/253

    10 Chapitre 1.

    et dont les realisations gouvernent lobservation de la variable I :

    I = 1

    I > 0

    On aborde egalement dautres situations importantes permettant daborder la questions de

    la selectivite des echantillons, cest a dire la situation dans laquelle on nobserve la variable

    dependante que sous une condition liee par ailleurs a la variable dependante elle-meme :

    y = xb + u

    I = zc + u

    les realisations de I gouvernent lobservation de la variable I et de la variable y :

    I > 0 I = 1y = yI 0 I = 0

    Ce type de modele appele modele Tobit est souvent utilise, en particulier pour aborder len-

    dogeneite de variables explicatives prenant la valeur 0 ou 1 dans des modeles a coefficients

    variables

    yi = iIi + vi

    Ce type de modele est souvent utilise pour aborder levaluation des effets microeconomiques des

    politiques de lemploi comme les stages de formations.

    Dans le chapitre 13, on sinteresse a levaluation des politiques publiques. On introduit no-tamment lestimateur par difference de differences qui sapplique a une experience naturelle. On

    parle dexperience naturelle lorsquune partie de la population a fait lobjet dune nouvelle poli-

    tique, tandis quune autre partie de la population na pas fait lobjet de cette politique et donc

    peut servir de population temoin. On ne peut observer le comportement des individus touches

    par une mesure sils navaient pas ete touches, on verra comment on peut neanmoins construire

    des estimateurs evaluant limpact dune nouvelle politique.

    Exercices

    1. Linearite. Pour chacune des relations suivantes, proposer une transformation qui rendele modele lineaire.

    Yi =1

    1 + 2.Xi(1.1)

    Yi =Xi

    1 + 2.Xi(1.2)

    Yi =1

    1 + e1+2.Xi(1.3)

  • 8/3/2019 Econometrie Applique Cours

    17/253

    Chapitre 2

    Lestimateur des moindres carres

    ordinaires

    Lestimateur des moindres carres ordinaires reste lun des estimateurs les plus frequemment

    utilises. Il a de nombreux usage. On peut lutiliser par exemple pour proceder a une descrip-

    tion des donnees : quelles sont les variables rendant compte le mieux de la variabilite dune

    variable dinteret. On peut aussi lutiliser dans de nombreuses autres situations pour estimer un

    parametre auquel on donne un sens causal : que se passerait-il si on faisait varier une variable

    donnee dun montant donne. Il est base sur lhypothese essentielle que les residus et les variables

    explicatives sont orthogonaux. Il faut dautres hypotheses pour deriver les principales proprietes

    de lestimateur. On verra dabord les proprietes algebriques puis les proprietes statistiques. Une

    partie du cours correspondra a lextension et la reformulation des proprietes de lestimateur desmco lorsque lon remet en cause ces hypotheses. On generalise ou adapte le plus souvent les

    proprietes de lestimateur a la condition que lhypothese centrale dabsence de correlation entre

    perturbations et variables explicatives soit maintenue.

    On va voir dans ce chapitre la definition de lestimateur des mco et son interpretation

    algebrique comme vecteur des coefficients de la pro jection orthogonale de la variable dependante

    sur les variables explicatives. On va egalement obtenir deux proprietes importantes de cet esti-

    mateur qui sont : la propriete de sans biais et une propriete doptimalite concernant la variance

    de lestimateur, connue sous le nom de Theoreme de Gauss-Markov.

    2.1 Definition et proprietes algebriques

    2.1.1 Definition

    On considere une variable dinteret y appelee variable dependante et un ensemble de K

    variables dites explicatives auquel on adjoint une constante. On dispose de N observations. On

    note y = (y1, . . . , yN) lempilement des N observations de la variable dependante. On definit

    de meme les vecteurs x1, . . . , xK et x la matrice des variables explicatives a laquelle on adjoint

    le vecteur constant e = (1, . . . , 1) : x =

    e, x1, . . . , xK

    est donc une matrice de dimension

    N (K+ 1).

    Definition 2.1 Lestimateur des moindres carres ordinaires est defini comme le vecteur b de

    dimension K + 1, b = (b0, . . . , bK) , des coefficients de la combinaison lineaire de e, x1, . . . , xK

    11

  • 8/3/2019 Econometrie Applique Cours

    18/253

    12 Chapitre 2. Lestimateur des moindres carres ordinaires

    realisant le minimum de la distance de y a lespace vectoriel de RN engendre par e, x1, . . . , xK,

    pour la norme euclidienne :

    bmco = arg min

    y xb

    2

    Proposition 2.1 Sous lhypotheseH1 : les vecteurs e, x1, . . . , xK sont independants,

    lestimateur des moindres carres existe, est unique et a pour expressionbmco = xx1 xyDemonstration Lobjectif a minimiser est Ob (b) =

    y xb2 = y xb y xb . La condition du premierordre secrit

    dOb

    db= 2x y xb = 0

    et la condition du second ordred2Ob

    dbdb= 2xx definie positive

    Lhypothese dindependance de e, x1, . . . , xK revient a faire lhypothese que xx est definie positive. La condition

    du second ordre est ainsi satisfaite et la condition du premier ordre admet une solution

    2.1.2 Interpretation geometrique

    On associe deux grandeurs importantes a lestimateur des moindres carres :

    1. Le vecteur predit y = xb2. Le vecteur residuel u = y yOn voit immediatement compte tenu de la definition de lestimateur des moindres carres

    ordinaires que le vecteur residuel est orthogonal aux variables explicatives et donc aussi au

    vecteur predit :

    xu = 0yu = 0y sinterprete donc comme la projection orthogonale de y sur lespace engendre par e, x1, . . . , xK

    et lestimateur des moindres carres ordinaires comme le vecteur des coefficients de cette projec-

    tion.

    Remarque 2.1 Comme la constante appartient a lensemble des regresseurs, on a immediatement

    e

    u = 0, soit

    u = 1N

    ui = 0 : la moyenne du vecteur residuel est nulle.

    Les vecteurs predits et residuels peuvent secrire directement a partir du vecteur y. On a en

    effet

    y = xb = x xx1 xy = Pxyu = y y = IN Px y = MxyLes matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivement lespace

    engendre par

    e, x1, . . . , xK

    et son orthogonal. Comme on le verifie directement on a en effet

    P2x = Px

    M2x = Mx

    Px + Mx = IN

    et en outre

    Pxv = v tq v = x

  • 8/3/2019 Econometrie Applique Cours

    19/253

    2.1. Definition et proprietes algebriques 13

    2.1.3 Theoreme de Frish-Waugh

    Le theoreme de Frish-Waugh est une propriete algebrique de lestimateur des moindres carres

    qui explicite linterdependance des coefficients de differentes variables dans une regression. Ilpermet de repondre a la question : dans quel cas est-il necessaire dintroduire toutes les variables

    dun modele dans la liste des regresseurs ?

    Proposition 2.2 (Theoreme de Frish-Waugh). Dans la regression de y sur un ensemble de

    variables explicatives x, si x se decomposent en deux sous-ensembles x1 et x2 : x =

    x1, x2

    , les

    coefficients des variables x1 peuvent etre obtenus indirectement en regressant les residus Mx2y

    de la regression de la variable dependante y sur les variables explicatives x2, sur les residus

    Mx2x1 des regressions des variables x1 sur les variables explicatives x2 :

    b1 = Mx2x1 Mx2x11 Mx2x1 Mx2yon peut alors retrouver les coefficients des variables x2 en regressant la partie inexpliquee yx1b1sur x2 : b2 = x2x21 x2 y x1b1avec Mx2 = IN x2

    x2x21

    x2

    Demonstration Les coefficients de la regression de y sur x =

    x1, x2

    satisfont

    x1

    y x1

    b1 x2

    b2

    = 0

    x2 y x1b1 x2b2 = 0De la deuxieme equation on tire directement la deuxieme partie du theoreme

    b2 = x2x21 x2 y x1b1Lorsque lon reintroduit cette expression dans la premiere equation il vient

    x1

    y x1b1 x2 x2x21 x2 y x1b1 = 0soit

    x1Mx2

    y x1

    b1

    = 0

    x1

    Mx2 Mx2y Mx2x1b1 = 0compte tenu de M2x2 = Mx2 . Dou lexpression de

    b1 Remarque 2.2 La caracteristique importante est dutiliser les residus des regressions de x1sur x2. Il nest pas necessaire dutiliser aussi les residus de la regression de y sur x2.

    Applications du Theoreme de Frish-Waugh

    1. Dans la regression de y sur x1 et x2 on peut regresser separement y sur x1 et y sur x2lorsque x1 et x2 sont orthogonaux.

    2. Donnees de panel. Lorsque la regression introduit des indicatrices specifiques a chaqueindividu (donc N variables, specification dite a effets fixes) en plus dun ensemble de

    regresseurs dinteret x1, on peut dabord regresser les variables dinteret et la variable

  • 8/3/2019 Econometrie Applique Cours

    20/253

    14 Chapitre 2. Lestimateur des moindres carres ordinaires

    dependante sur les variables indicatrices puis utiliser les residus des regressions correspon-

    dantes. Dans ces operations puisque les variables indicatrices sont orthogonales les unes

    aux autres on peut effectuer les regressions sur les indicatrices separement. On verifie

    aisement que le coefficient de la regression dune variable sur une variable indicatrice din-

    dividu est la moyenne des observations pour cet individu. Les residus des regressions sont

    donc les ecarts aux moyennes individuelles des differentes variables dinteret. Lestimateur

    obtenu en regressant les ecarts des variables explicatives aux moyennes individuelles sur

    la quantite analogue pour la variable dependante est tres populaire et connu sous le nom

    destimateur Within (ou Intra).

    3. Pour obtenir les coefficients de x1 dans la regression de y sur x1 et x2, on peut regresser

    y sur x1 et la prevision de x1 par x2 : Px2x1.

    2.2 Modele et proprietes statistiques

    Lestimateur des moindres carres ordinaires a une definition mathematique. Il sagit du vec-

    teur des coefficients de la pro jection orthogonale de la variable dependante sur les variables ex-

    plicatives. Dans le cadre de leconometrie on sinteresse neanmoins a lestimation des parametres

    dun modele econometrique. On considere ainsi le modele lineaire suivant :

    y = b0 + b1x1 + + bKxK + u

    Pour lequel on dispose de N observations. Le modele secrit aussi sous forme matricielle :

    y = xb + u

    On sinteresse aux proprietes statistiques de lestimateur des mco : quelle est son esperance,

    sa variance... Comme lestimateur est une fonction des observations, ses proprietes statistiques

    dependent de la loi des observations l (y, x). On les caracterise a partir dhypotheses sur la

    loi conditionnelle de y sachant x, cest a dire dans le cadre du modele precedent comme des

    hypotheses concernant la loi de la perturbation u conditionnellement aux variables explicatives.

    2.2.1 Quand lestimateur des mco est-il sans biais ?

    On sinteresse dabord aux conditions sous lesquelles lesperance de lestimateur des mco

    concide avec la vraie valeur du parametre. On dit alors que lestimateur est sans biais.

    Definition 2.2 On dit quun estimateurb y, x est sans biais lorsque : Eb y, x = b.Dans cette definition E

    b y, x = b y, x fy, x dydx ou fy, x represente la densite jointe des variables explicatives et dependantes.

    Proposition 2.3 Sous lhypothese

    H2 : E(un |x ) = 0 nlestimateur des mco est sans biais.

  • 8/3/2019 Econometrie Applique Cours

    21/253

    2.2. Modele et proprietes statistiques 15

    Demonstration Lestimateur des mco secrit

    bmco =

    xx

    1

    xy

    = xx1 x (xb + u)= b +

    xx1

    xu

    on sinteresse a Eb y, x |x . On a clairement Eb y, x |x = b + (xx)1 xE(u |x ) . Comme E(u |x ) = 0

    par hypothese on a bien Eb y, x |x = b. On en deduit immediatement Eb y, x = EEb y, x |x = b

    Lhypothese H2 est extemement forte, puisquelle signifie que lorsque les residus changent,

    les variables explicatives ne changent pas. Dans de nombreuses situations cette hypotheses ne

    peut pas etre tenu. Cest par exemple le cas si on prend un modele offre-demande dans lequel

    on observe les prix et les quantites. Si on considere lequation de demande par exemple, elle

    correspond a lexistence dune relation decroissante entre la variable dependante, la quantite, etla variable explicative, le prix. Si il y a un choc de demande, le desequilibre sur le marche va

    se resoudre par une hausse de la quantite echangee et une hausse du prix. Dans ce modele on

    ne peut donc pas tenir lhypothese H2 par nature meme du modele auquel on sinteresse. Dans

    dautres cas la situation peut etre plus favorable. Par exemple dans le cas de la taille de la classe

    et du taux de reussite scolaire, il est vrai que lon peut contester le fait que E(u |taille ) = 0,mais il est possible quil existe un ensemble de variables explicatives x tel que lon ait u =

    xc + v et E(v |taille, x ) = 0. Autrement dit, on peut identifier, mesurer et introduire dansla regression les sources de variabilite communes a la taille et au residu. Le modele devient

    tx = a0 + attaille + xb + v.

    2.2.2 Quelle est la precision de lestimateur des mco ?

    Le fait que la propriete dabsence de biais soit satisfaite est tres interessant mais on a be-

    soin dinformations plus precises. On souhaite savoir si la vraie valeur peut se trouver loin de

    lestimateur. Une telle information est donnee par la precision de lestimateur et on letudie en

    considerant la variance :

    Proposition 2.4 sous les hypotheses H1, H2,

    H3 : V (un |x ) = 2 nH4 : E(unum

    |x ) = 0

    n, m

    la variance de lestimateur des mco conditionnellement au variables explicatives est donnee

    par

    Vbmco |x = 2 xx1

    La variance non conditionnelle est donnee par

    Vbmco = 2Exx1

    Demonstration La variance conditionnelle est definie comme

    V

    bmco |x

    = E

    bmco E

    bmco |x

    bmco E

    bmco |x |x

    Comme Ebmco |x = b et bmco b = (xx)1 xu,Vbmco |x = xx1 xEuu |x x xx1

  • 8/3/2019 Econometrie Applique Cours

    22/253

    16 Chapitre 2. Lestimateur des moindres carres ordinaires

    La matrice E(uu |x ) a pour elements n,m E(unum |x ) . On deduit directement des hypotheses que E(uu |x ) =2IN

    La matrice de variance a deux composantes : 2 et E(xx)1 . Plus 2, i.e. la varianceresiduelle, est grande, moins lestimateur est precis. Ceci implique que lon peut accrotre la

    precision des estimateurs de variables dinteret en introduisant des variables additionnelles, sa-

    tisfaisant les hypotheses du modele lineaire H1 H4, des lors quelles contribuent a reduirela variance residuelle. La matrice xx joue un role central dans la variance de lestimateur. Onpeut lecrire a partir des observations individuelles comme xx =

    n x

    nxn. On voit quune

    ecriture plus adaptee est xx = N

    1N

    n x

    nxn

    . Dans le cas du modele lineaire simple avec une

    unique variable explicative centree la matrice

    1N

    n x

    nxn

    1secrit simplement comme 1/x2 =

    1/V (x). On voit que dans ce cas la variance de lestimateur secrit V

    b

    = 2/ (N V (x)) . Les-

    timateur est donc dautant plus precis que le nombre dobservations est grand. On sinteresse en

    general a lecart-type des parametres estimes. La formule precedente implique que lecart type

    decrot comme

    N. Lorsque la taille de lechantillon est multipliee par 4 lecart-type nest divise

    que par 2. On imagine donc bien que dans un echantillon de petite taille la precision de lesti-

    mateur est un probleme important. On voit aussi que dans de grands echantillons de plusieurs

    centaines de milliers dobservations, la precision des estimations sera tres grande. La formule

    precedente montre aussi que lestimateur est dautant plus precis que la variance de la variable

    explicative est importante. Cest parce que lon observe des situations differentes au regard des

    variables explicatives qui ne soient pas correlees avec les residus du modele economique que lon

    peut identifier leffet de ces variables. Enfin un dernier cas permettant dillustrer les implications

    de la formule precedente est le cas dans lequel il y a deux variables explicatives par exemple de

    meme variance 2 et ayant un coefficient de correlation . Dans ce cas on calcule simplement1

    N

    n

    xnxn

    1=

    1

    2x (1 2)

    1

    1

    On voit que dans ce cas la precision de lestimateur est dautant plus faible que les variables

    sont correlees. Au total, on voit que si les variables sont presque colineaires la precision de

    lestimateur sera faible.

    2.2.3 Lestimateur des mco est-il le plus precis : le theoreme de Gauss-

    Markov

    On sinteresse naturellement a la question de loptimalite de lestimation du parametre b. Ce

    parametre, comme on la vu, est sans biais et il est en outre defini comme une fonction lineaire

    des observations. Ceci forme une classe destimateurs. La question a laquelle repond le theoreme

    de Gauss-Markov est celle de loptimalite (au sens de la precision) de lestimateur dans la classe

    des estimateurs lineaires sans biais.

    Definition 2.3 Un estimateur b1 est optimal dans une classe destimateurs b si toute esti-mation dune combinaison lineaire du parametre est estimee plus precisement avec

    b1 quavec

    nimporte quel estimateur de la classe consideree :

    , V

    b1 V b

  • 8/3/2019 Econometrie Applique Cours

    23/253

  • 8/3/2019 Econometrie Applique Cours

    24/253

    18 Chapitre 2. Lestimateur des moindres carres ordinaires

    On a donc

    E

    u

    u |x

    = E

    T r

    Mxuu

    |x

    = T r

    E

    Mxuu

    |x

    = T r MxEuu |x = 2T r (Mx)et Mx = IN x (xx)1 x dou

    T r (Mx) = T r

    IN x

    xx1

    x

    = N T r

    x

    xx1

    x

    = N T r

    xx1

    xx

    = N K 1

    Exemple 1 Application a la prevision. On considere le modele yn = xnb + un pour lequel on a

    n = 1, . . . , N observations et satisfaisant les hypotheses H1 a H5. Connaissant xN+1 et faisant

    lhypothese que le modele reste valide pour cette observation, on souhaite estimer yN+1.

    Dire que le modele reste valide signifie que non seulement la relation entre yn et xn peutetre etendue a lobservation N + 1 : yN+1 = xN+1b + uN+1 mais encore que les hypotheses

    stochastiques peuvent etre etendues a linclusion de lobservationN+1 en particulier ceci impose

    E(uN+1 |x, xN+1 ) = 0, V (uN+1 |x, xN+1 ) = 2, E(uN+1un |x, xN+1 ) = 0.La prevision de yN+1 est yN+1 = xN+1bmco

    Conditionnellement aux variables explicatives la prevision est sans biais :

    E(

    yN+1 yN+1 |x, xN+1 ) = E

    xN+1

    bmco b

    uN+1 |x, xN+1

    = 0

    yN+1 est le meilleur estimateur sans biais de yN+1, lineaire dans les observations y1, . . . , yN. Ceciconstitue une application directe du Theoreme de Gauss Markov : si on considere un estimateur

    lineaire sans biais yN+1 de yN+1. La variance de lerreur de prevision secrit E(yN+1 yN+1 |x, xN+1 )2 =E(xN+1b + uN+1 yN+1 |x, xN+1 )2 = E(xN+1b yN+1 |x, xN+1 )2 + Eu2N+1 |x, xN+1 puisquelestimateur est lineaire en y et que y nest pas correle a uN+1 conditionnellement aux observa-

    tions de x. Le probleme se resume donc a chercher lestimateur lineaire sans biais de variance

    minimale de la combinaison lineaire xN+1b du parametre b. Le theoreme de Gauss-Markov in-

    dique quil sagit de xN+1bmcoLa variance de lerreur de prevision est

    E(yN+1 yN+1)2 = 2 xN+1 xx1

    xN+1 + 12.2.5 Analyse de la variance

    Lanalyse de la variance est fondee sur lorthogonalite entre le vecteur des residus estimes et

    de la variable predite.

    y = y +uLes regressions que lon considere ayant un terme constant on a y = y dont on tire :

    y ye =

    y

    ye +

    u

    compte tenu de lorthogonalite on peut donc ecrire lequation dite equation danalyse de la

    variance n

    (yn y)2 =

    n

    yn y2 +nun2

  • 8/3/2019 Econometrie Applique Cours

    25/253

    2.2. Modele et proprietes statistiques 19

    ou encore

    V (y) = V (

    y) + V (

    u)

    La variance totale est la somme de la variance expliquee et de la variance residuelle. On introduitune quantite tres couramment utilisee qui mesure la part de la variance expliquee par le modele.

    R2 =

    y ye2y ye2 = 1

    u2y ye2

    0 1

    Le R2 est frequemment utilise pour mesurer la qualite de lajustement. Neanmoins deux precautions

    doivent etre prises :

    Le R2 depend du calibrage des observations. Par exemple si on considere une fonction de

    production

    y = + l + k + ulestimation va fournir un R2 beaucoup plus important que celui obtenu avec le modele

    identique mais expliquant la productivite

    y l = + ( 1) l + k + u

    On montre facilement que plus on etend lensemble des variables explicatives plus le R2

    est grand. Ce nest donc pas necessairement un bon critere de choix de modele. Pour cette

    raison on a introduit une quantite proche mais pas directement reliee qui est le R2 ajuste.

    Il est defini dune facon tres voisine du R2

    R2a = 1 2V (y) = 1 u2 / (N K 1)y ye2 /N 1 = 1 1 R2 N 1N K 1Remarque 2.3 Cette equation danalyse de la variance permet de preciser lexpression de la

    variance de chacune des composantes de lestimateur. Dans la formule generale Vbmco |x =

    2 (xx)1 , la variance de la kieme composante de lestimateur des mco correspond au kiemeelements diagonal. Si on utilise les formules dinversion par bloc

    A =

    A11 A12A21 A22

    , A1 =

    A11 A12

    A21 A22

    , A11 =

    A11 A12A122 A21

    1

    Si on considere une variable xk particuliere, alors, quitte a reorganiser lordre des variables

    explicatives : x = (xk, xk), ou xk represente lensemble des variables explicatives autres quela kieme,

    xx =

    xk

    xk xkxkxkxk x

    kxk

    et on a donc (xx)111 = xkxk xkxk

    xkxk

    1xkxk = xk

    Mxkxk = (N.V (xk |xk ))1 .V (xk |xk ) est la variance residuelle de la variable xk une fois pris en compte la part de lavariance de la variable xk expliquee par les autres variables explicatives du modele. La variance

    de chacune des composante de lestimation du parametre secrit donc

    Vbk = 2/ (N V (xk |xk )) = 2/NVk|k

  • 8/3/2019 Econometrie Applique Cours

    26/253

    20 Chapitre 2. Lestimateur des moindres carres ordinaires

    2.3 Variable omise et regresseur additionnel

    2.4 Resume1. On a vu dans ce chapitre la definition algebrique de lestimateur des mco comme vecteur des

    coefficients de la projection orthogonale de la variables dependante sur lespace engendre

    par les variables explicatives.

    2. Cet estimateur existe est unique sous lhypothese H1 que les vecteurs des variables expli-

    catives soient lineairement independant.

    3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du pa-

    rametre economique b dans le modele lineaire y = xb + u. : Il sagit de lhypothese H2 que

    lesperance des residus conditionnellement aux variables observables est nulle.

    4. Sous les hypotheses H3 et H4 que dans ce modele les perturbations sont conditionnelle-ment aux variables explicatives des variances identiques et sont non correlees les unes avec

    les autres, on peut donner lexpression classique de la matrice de variance de lestimateur

    Vb |x = 2 (xx)1 .

    5. Sous ces meme hypotheses lestimateur des mco est le meilleur estimateur lineaire sans

    biais, au sens de la minimisation de la variance.

    6. Linterpretation de cette formule conduit a la conclusion que plus le nombre dobservations

    est grand, plus la variance residuelle 2 est faible, plus les variables explicatives presentent

    de variabilite propre, plus lestimateur est precis.

    7. Le parametre du second ordre 2 peut etre estime sans biais comme la moyenne des carres

    des residus tenant compte des degres de liberte : 2 = u2n (N K 1) .8. Le R2 est une mesure de la qualite de lajustement du modele aux donnees : il mesure la

    part de la variance totale expliquee par le modele.

    Ces resultats sont importants : ils etablissent les conditions sous lesquelles les estimateurs

    sont sans biais et ils permettent de determiner la precision des estimations. Ils sont neanmoins

    insuffisants pour donner des intervalles de confiance sur les parametres estimes et realiser des

    tests dhypothese. Pour aller plus loin il faut faire des hypotheses supplementaires. On peut

    proceder de deux facons :

    1. Lorsque le nombre dobservations est faible, on peut specifier la loi des observations condi-

    tionnellement aux variables explicatives. Ceci est fait dans la majeure partie des cas enspecifiant les residus comme suivant une loi normale. On peut alors caracteriser la loi de

    lestimateur. On peut aussi dans ce cas estimer le modele par maximum de vraisemblance.

    On peut alors tester des hypotheses dites simples (nullite dun parametre). Ces tests sont

    appeles test de Student. Ce cas est examine dans le chapitre 3. On peut aussi sur la base de

    cette hypothese estimer le modele en imposant des contraintes lineaires sur les parametres

    et tester lhypothese que ces contraintes sont acceptees. Les tests mis en oeuvres sont alors

    des test dits de Fisher. Ces aspects sont presentes dans le chapitre 4.

    2. La deuxieme facon est detudier les proprietes asymptotiques de lestimateur, cest a dire

    lorsque le nombre dobservations devient grand. On montre dans le chapitre 5 que sans

    specifier la loi des residus mais en faisant des hypotheses suffisamment fortes sur lepaisseurdes queues de distribution des residus, on peut specifier la loi asymptotique de lestimateur.

  • 8/3/2019 Econometrie Applique Cours

    27/253

    Chapitre 3

    Les MCO sous lhypothese de

    normalite des perturbations

    Dans ce chapitre on examine les proprietes de lestimateur des mco lorsque lon fait lhy-

    pothese de normalite des perturbations. Plus precisement on fait lhypothese Hn suivante.

    Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de

    moyenne nulle et de matrice de variance 2IN.

    l (u |x ) = 1

    2Nu2n/22

    u |x N

    0, 2INRemarque 3.1 Cette hypothese est plus forte que les hypotheses H2 H4 puisquelle impliqueque le moment dordre 1 de u conditionnellement a x est nul. cest a dire lesperance

    On va voir que dans ce cas on peut preciser la loi de lestimateur du parametre ainsi que celle

    de lestimateur de la variance des residus. On va aussi obtenir un resultat central, le theoreme

    de Cochrane, a la base de tous les tests effectues a partir de lestimateur des mco.

    3.1 Normalite de lestimateur des mco

    Proposition 3.1Sous lhypothese H

    n, on peut specifier la loi jointe de lestimateur des mco et

    de lestimateur de la variance des residus conditionnellement aux variables explicatives :

    1. Lestimateur du parametre des mcobmco est distribue comme une loi normale de moyenneb, la vraie valeur du parametre, et de matrice de variance 2 (xx)1 :bmco Nb, 2 (xx)1

    2. Lestimateur2, convenablement normalise, est distribue suivant une loi du 2[N (K+ 1)] 2

    2 2 (N (K+ 1))

    3.

    bmco et

    2 sont independants (Theoreme de Cochran)

    Demonstration Le resultat concernant la normalite de lestimateur est immediat. Il provient du fait que les-timateur des mco est lineaire dans les observations de la variable dependante. Comme conditionnellement a x la

    variable dependante est normale, lestimateur des mco est une combinaison lineaire de variables normales et est

    21

  • 8/3/2019 Econometrie Applique Cours

    28/253

    22 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations

    donc lui meme un vecteur normal, caracterise par ces deux premiers moments : son esperance dont on a vu quelle

    etait egale a la vraie valeur du parametre, et sa matrice de variance dont on a donne lexpression au chapitre

    precedent, sous des hypotheses plus generales que celle de la loi normale.

    De meme, les residus estimes sont eux memes normaux. On a en effet u = Mxy = Mxu. Par ailleurs, on a aussidirectement b b = (xx)1 xu. Finalement on peut specifier la loi jointe des residus estimes et de lestimateurdes mco : b bu

    =

    (xx)

    1x

    Mx

    u

    On en deduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne visiblement nulle et dont on

    peut preciser la variance :

    V

    b bu x

    =

    (xx)

    1x

    Mx

    V

    b bu x

    (xx)1

    x

    Mx

    = 2

    (xx)1

    x

    Mx

    x (xx)1

    Mx

    = 2

    (xx)

    1xx (xx)

    1x (xx)

    1Mx

    Mxx (xx)

    1Mx

    Comme Mxx = 0, on en deduit

    V

    b bu x

    = 2

    (xx)1

    0

    0 Mx

    Dont on deduit

    1. lexpression de la variance de lestimateur des mco

    2. lestimateur des mco et les residus estimes sont independants (car etant tous les deux normaux et non

    correles). Lestimateur des mco et lestimateur de la variance2 = u

    u/ (N K 1) sont donc independants.3. Les residus estimes suivent une loi normale de matrice de variance 2Mx.Rappel :

    Si Z N(0, IL) , alors par definitionZ2 = ZZ = Ll=1 Z2l 2 (L)

    Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z

    P Z 2 (L1) (Voir annexe)On applique ce resultat a Z = u/ N(0, IN) et P = Mx. On a : (u/) (u/) = (u/) MxMx (u/) =

    (u/) Mx (u/) . On en deduit que uu/2 2 (N K 1) , puisque Mx est le projecteur orthogonal surlorthogonal de lespace vectoriel engendre par les x donc de dimension N K 1. Finalement, comme uu =(N K 1)2, [N (K+ 1)] 2

    2 2 (N (K+ 1))

    On rappelle quune loi du 2 (L) a L degres de libertes a pour premier et second moments

    E2 (L) = L, V 2 (L) = 2L. On verifie donc que E[N (K+ 1)] 2

    2 = N K 1.On verifie donc que lon a bien E2 = 2 : lestimateur de la variance est sans biais. Onapprend maintenant, grace a la specification normale la distribution de lestimateur de la variance

    des residus et donc sa variance : on a V

    [N (K + 1)] 22

    = 2 (N K 1), soit V 2 =

    24/ (N K 1) . On voit donc que comme pour lestimateur des mco, lorsque le nombredobservations devient grand la variance de lestimateur tend vers zero. Le rythme de convergence

    est en outre identique a celui de lestimateur des mco. On remarque en revanche une specificite

    de lestimateur de la variance : plus la dispersion des residus est importante, plus lestimateur

    est imprecis.

    Lestimation de la variance des residus peut etre interessante pour elle-meme, mais elle nous

    interesse en premier lieu car cest un parametre important de la matrice de variance de lesti-mateur du parametre de premier interet b. En effet, on a vu que bmco |x Nb, 2 (xx)1 ,mais ce resultat reste insuffisant dans la mesure ou on ne connat pas la variance des residus.

  • 8/3/2019 Econometrie Applique Cours

    29/253

    3.2. Ecart-types estimes, tests et intervalles de confiance 23

    3.2 Ecart-types estimes, tests et intervalles de confiance

    3.2.1 Ecart-type

    La formule de la matrice de variance de lestimateur est utile Vbmco |x = 2 (xx)1 ,

    mais elle nest pas directement exploitable car on ne connat pas la variance des residus 2.

    Un estimateur naturel de cette matrice consiste a remplacer la quantite inconnue 2 par un

    estimateur. V bmco |x = 2 xx1On a immediatement le resultat que V bmco |x est un estimateur sans biais de la matrice devariance de lestimateur mco du parametre.

    On sinteresse en fait plus specifiquement a la variance de chaque composante de lestimateur

    2

    k = V bk = 2 (xx)1kk = 2xkk ou dans cette notation xkk est le kieme element diagonalde (xx)1 . Dans le chapitre precedent on a vu que ce kieme element etait en fait linverse de lavariance residuelle de la projection de xk sur les autres variables du modele (la variance propre

    de la kieme variable) divisee par le nombre dobservations. Un estimateur naturel de 2k est

    2k = 2xkkLa quantite k = 2k est systematiquement associe a nimporte quelle estimation par les mco.Grace aux resultats portant sur la loi de

    2 on peut directement donner la loi de

    2k :

    Proposition 3.2 Sous lhypothese Hn lestimateur de la variance de la kieme composante du

    vecteur des parametre suit, convenablement normalisee une loi du 2 (N K 1) :

    [N (K + 1)] 2k2k

    2 (N (K+ 1))

    et est independant de lestimateur des mco bmco.3.2.2 Un resultat central

    On sinteresse a lobtention dintervalles de confiance et a des tests dhypothese simple du

    type H0 : bk = b0k pour une valeur donnee de b

    0k. Un cas tres frequemment examine est par

    exemple celui de la nullite dun parametre (b0k = 0). Pour obtenir des intervalles de confiance oupour effectuer des tests, on a besoin dobtenir une fonction des estimateurs qui ne depende pas

    des parametres.

    Proposition 3.3 Sous lhypothese de normalite des perturbations Hn, pour une composante

    donnee k du parametre on a

    bk bk

    k

    Student (N K 1)

    Demonstration Ce resultat decoule directement de la definition des lois de Student : Si X1 suit une loi normale

    N(0, 1) et X2 suit une loi du 2

    (H) a H degres de liberte, et si X1 et X2 sont independants alors

    S =X1

    X2/H Student (H)

  • 8/3/2019 Econometrie Applique Cours

    30/253

    24 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations

    Ici bk Nbk, 2k . On en deduit donc que bk bk /k N(0, 1) . En outre le resultat precedent etablitque [N (K+ 1)] 2k

    2k

    2 (N (K + 1)) et est independant de

    bk. On a donc par application directe de la

    definition bk bk /k[N (K+ 1)] 2k

    2k

    / [N (K+ 1)]

    =bk bkk Student (N K 1)

    Les lois de Student sont des lois symetriques de moyenne nulle et de variance H/ (H 2)ou H est le nombre de degres de liberte. Plus H est faible, plus les queues de distribution sont

    epaisses. On voit quil y a un nombre minimal de degres de liberte pour que le moment dordre

    2 existe : H > 2.

    3.2.3 Intervalle de confianceDefinition 3.1 Un intervalle de confiance pour le parametre bk au niveau est un intervalle

    [a, a] tq P (bk [a, a]) = 1 .

    Lemme 1 Soit z une variable aleatoire dont la distribution f est symetrique autour de zero,

    croissante pour z < 0, continue et de fonction de repartition F, tout intervalle [z, z] tel que

    P (z [z, z]) = p0 donne, de longueur minimale est symetrique.Demonstration Ce resultat se montre tres facilement. La symetrie de la distribution secrit f(z) = f(z)et implique F (z) = 1 F (z). On a F(z) F (z) = p0, donc la longueur de lintervalle est L = z z =F1 (F (z) +p0) z. La derivee de la longueur de lintervalle par rapport a z est dL/dz = f(z) /f(z) 1. Sif(z) < f(z) , alors dL/dz < 0. On pourra diminuer la longueur de lintervalle en augmentant z. Comme f estcroissante dans le domaine negatif accrotre z conduit a accrotre f(z) /f(z) 1. Lextremum de la longueur,obtenu pour f(z) /f(z) 1 = 0 est donc bien un minimum.

    Pour trouver un intervalle de confiance pour le parametre bk on applique directement les

    resultats du lemme :

    Proposition 3.4 Sous les hypotheses Hn, soitbk la kieme composante de lestimateur des mcoetk = 2k lestimateur de son ecart-type, alors lintervalle de confiance de longueur minimaledu parametre bk au niveau est

    bk k tNK1 (1 /2) , bk +k tNK1 (1 /2)ou tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student a N K 1 degres deliberte.

    Le quantile dordre 1 /2 dune loi de Student a NK1 degres de liberte est la quantitet telle que pour une variable S suivant une loi de Student a N K 1 degres de liberte,P (S < t) = 1 /2, et de facon similaire P (S > t) = /2Demonstration Par application des resultats precedents, on a immediatement que S =

    bkbkk Student (N K 1).Comme la loi de Student est symetrique, on en deduit que lintervalle de longueur minimale auquel S appartienne

    avec probabilite 1 estP (S [tNK1 (1 /2) , tNK1 (1 /2)]) = 1

    dont on deduit immediatement lexpression des bornes de lintervalle de confiance.

  • 8/3/2019 Econometrie Applique Cours

    31/253

    3.2. Ecart-types estimes, tests et intervalles de confiance 25

    Remarque 3.2 Ce resultat setend directement au cas dans lequel on cherche un intervalle de

    confiance pour une combinaison lineaire donnee des parametres : b. En effet, on trouve directe-ment la loi de lestimateur de la combinaison lineaire bmco : bmco Nb, 2 (xx)1 .En notant b =

    2 (xx)1 et b = 2 (xx)1 , on verifie aisement que lintervalle

    de confiance pour la combinaison lineaire donnee des parametres est

    bmco b tNK1 (1 /2) ,bmco +3.2.4 Tests de la forme b =

    On rappelle dabord des elements basiques concernant les tests. On se refere pour cela a

    Gourieroux-Monfort. Les notions importantes sont celles dhypothese nulle, notee H0, et dhy-

    pothese alternative, notee H1. Elles correspondent a une partition de lensemble des lois possibles

    des observations. Ici compte tenu du fait quon se situe dans un cadre parametrique (la loi des

    observations est specifiee integralement), lensemble des lois possibles est decrit par lensemble

    des valeurs possibles de tous les parametres : b, 2. Les hypotheses que lon va considerer ici

    portent sur la valeur dune composante du parametre ou dune combinaison lineaire du pa-

    rametre : bk = b0k pour une valeur donnee de b

    0k, un cas tres frequent etant celui de la nullite,

    b0k = 0. On examinera dans le chapitre suivant des hypotheses portant sur plusieurs parametres,

    mais les rappels que lon effectue ici valent pour lune et lautre situation. Dune fa con generale,

    elles vont secrire sous la forme H0 : 0 et H1 : 1.Un test pur est une regle de decision pure cest a dire une fonction des observations conduisant

    a choisir entre la decision d0 : H0 est vraie, et d1 : H1 est vraie. A un test pur est associe une

    region critique, en general notee W definie comme lensemble des realisations des observations

    conduisant a prendre la decision d1. Les tests peuvent aussi en theorie etre mixtes. Dans ce cas la

    regle de decision est mixte. Il sagit alors dune fonction des observations associant a la decision d1une probabilite : compte tenu des observations y on accepte lhypothese H1 avec une probabilite

    (y). Il y a trois grandeurs essentielles associees a un test : le risque de premiere espece, le

    risque de deuxieme espece et la puissance du test. Le risque de premiere espece correspond a

    la probabilite de de rejeter H0 alors que H0 est vraie (i.e. rejeter H0 a tort). Pour un test pur

    caracterise par une region critique W, il sagit de la fonction P (W) definie sur 0 Pour un test

    aleatoire, elle est definie par E ( (y)). On la note (, ) . Dans cette notation, represente

    le test et la valeur du parametre. Le risque de deuxieme espece est a linverse la probabilite

    daccepter a tort lhypothese nulle (i.e. la probabilite de rejeter H1

    alors que H1

    est vraie. Il est

    defini comme 1 E ( (y)) pour 1 et dans le cas dun test pur par 1 P (W). On noteen general cette quantite (, ) Enfin la puissance du test represente la probabilite de rejeter

    a raison lhypothese nulle. On la note (, ). Cette fonction est definie sur 1 et etroitement

    liee a la fonction de risque de deuxieme espece (, ) = 1 (, ). On prefererait des testspour lesquels les risques de premieres et seconde espece soient les plus faibles possibles. Cest a

    dire quun test est prefere a un autre si les fonctions de risque de premiere et seconde espece

    sont plus faibles. Il existe clairement des tests minimisant separement chacun des risques (le test

    correspondant au rejet systematique de H1 minimise le risque de premiere espece). Neanmoins

    on montre facilement quil ny a pas de test annulant simultanement les deux risques : il est

    donc necessaire de se referer a un principe permettant de selectionner un test. Le principe retenuest celui de Neyman qui consiste a privilegier la minimisation du risque de seconde espece. On

    considere des classes de tests caracterises par un seuil (ou encore niveau) donne . Ces tests

  • 8/3/2019 Econometrie Applique Cours

    32/253

    26 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations

    sont tels que le risque de premiere espece soit uniformement inferieur a . Parmi ces tests,

    on souhaiterait selectionne ceux maximisant la puissance. Cest ce que lon appelle des tests

    uniformement plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la

    puissance pour toute valeur du parametre correspondant a lhypothese alternative. De tels tests

    nexiste en general pas et on adjoint dautres proprietes : tests sans biais, tests invariants... qui

    permettent de restreindre encore la classe des tests examines. La propriete de tests sans biais

    au niveaux correspond pour les tests de niveau au fait que la puissance du test pour toute

    valeur du parametre sous lhypothese alternative soit superieure a . On considere le test de

    lhypothese nulle

    H0 : bk = b0k

    contre lhypothese

    H1 : bk = b0kOn a alors le resultat suivant

    Proposition 3.5 Considerant la statistique

    S =bk b0kkle test defini par la region critique

    W = SS < tNK1 (1 /2) SS > tNK1 (1 /2)ou tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student a N K 1 degres deliberte est un test uniformement plus puissant sans biais au niveau de lhypothese H0 contre

    H1.

    On verifie aisement que ce test est un test au niveau . En effet sous lhypothese nulle on a

    vu quebkb0kk suit une loi de Student a N K 1 degres de liberte. La probabilite de rejeter

    lhypothese nulle (la probabilite de la region critique) dans ce cas est donc bien . Montrer

    la propriete de sans biais et la propriete concernant la puissance est plus complique (voir les

    resultats dans Gourieroux et Monfort sur le modele exponentiel). On peut aussi definir la region

    critique par W = SS > tNK1 (1 /2)Mise en oeuvre du test : on calcule la statistique de Student

    bkb0kk . Suivant les valeurs prisespar cette statistique, on accepte ou rejette lhypothese nulle. Si la statistique prend des valeurs

    extremes on rejette lhypothese, sinon on laccepte. Le seuil de rejet dependent du niveau du

    test. On considere en general des tests au seuil de 5%. Le quantile dordre 97, 5% = 1 2, 5%dune loi de Student depend du nombre de degres de liberte. lorsque ce nombre devient grand,

    ce quantile est 1.96. On sera donc amene a rejeter au seuil de 5% une hypothese des lors que la

    statistique de Student en valeur absolue est superieur a 1.96. Lorsque le nombre de degres de

    liberte est plus faible, cest a dire lorsque le nombre de variables explicatives est plus important

    ou lorsque le nombre dobservations est plus faible, le seuil augmente. Par exemple pour 5 degresde liberte, le seuil de la region critique est de 2,56 ; pour 500 degres de liberte de 1,96 (voire

    figure 3.1)

  • 8/3/2019 Econometrie Applique Cours

    33/253

    3.3. Un exemple 27

    Fig.3.1 Distribution de Student pour 5 et 500 degr es de liberte

    0

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    -5 -3 -1 1 3 5

    Ce test est parfois caracterise par ce que lon appelle la p-value. Il sagit a contrario du

    niveau du test pour lequel la statistique observee serait le seuil. Elle est donc definie par la

    quantite p value = P|S| > S = 21 FS lorsque S suit une loi de Student a N-K-1 degres de liberte. On acceptera lhypothese nulle pour un test au niveau si la p valueest superieure a . En effet compte tenu du fait que F (tNK1 (1 /2)) = 1 /2, on a2 (1

    F (tN

    K

    1 (1

    /2))) =

    p value > S < tNK1 (1 /2)Un test systematiquement mis en oeuvre est le test dit de significativite des parametres. Il

    correspond a lhypothese nulle bk = 0. La statistique de Student associee a ce test, nommee t

    de Student est definie par bk/k. En general nimporte quelle estimation dun modele lineairefait par defaut lhypothese de normalite des residus. Elle produit la valeur estimee du parametre

    la valeur estimee de lecart-type, la valeur du t de Student (correspondant a lhypothese de

    significativite du parametre) et la p-value correspondant a ce test.

    3.3 Un exemple

    Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du test

    lorsque la vraie valeur du parametre varie. On va considerer un modele a une unique variable

    y = 1 + xb0 + u

    et on va simuler ce modele pour differente vraie valeur du parametre, allant de 0 a 2. On va

    sinteresser au test de lhypothese H0 : b = 1. Pour calculer la fonction de puissance en un point

    donne b0, on utilise des simulations. On titre un echantillon Ech1 avec b0 comme vraie valeur

    du parametre. Sur cet echantillon on applique le test. On retient la decision d1 = 1 si on rejetteet d1 = 0 sinon. On replique cette operation avec la meme vraie valeur sur M echantillons, avec

    M grand. On a ainsi un ensemble de valeur (di)iM . On approxime la valeur de la fonction de

  • 8/3/2019 Econometrie Applique Cours

    34/253

    28 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations

    puissance par (b0) = di. Cest bien un estimateur du nombre de fois ou on a rejete a raison

    lhypothese. Bien sur, lorsque b0 = 1, la quantite calculee nest pas la puissance mais le risque

    de premiere espece. On peut proceder ainsi pour differentes taille dechantillons. On considere

    le cas dans lequel il ny a que 20 observations, puis on augmente progressivement ce nombre.

    On considere respectivement N = 50, 100, 500, 2000. La figure 3.2 montre le resultat de ces

    estimations. On voit que le graphe de la fonction de puissance a une forme de vasque. Si on

    se situe au niveau de la valeur testee b0 = 1, on trouve bien que la proportion de rejet est de

    5%, correspondant au risque de premiere espece, et ce quelque soit le nombre dobservations.

    Lorsque lon secarte de la vraie valeur on voit que la courbe crot : on rejette de plus en plus

    souvent le parametre. La croissance est tres vive lorsque le nombre dobservation est grand : si

    la vraie valeur est de 0.95, on va rejeter lhypothese dans 60% des cas. Par contre, dans le cas

    de 20 observations, il faut que la vraie valeur secarte de plus de 0.5 pour que lon atteigne des

    taux de rejet similaire. Ce resultat merite detre note : avec un petit nombre dobservations,

    on est amene a accepter a tort lhypothese dans 40% des cas meme lorsque la vraie valeur est

    assez eloignee. Lorsque lecart a la valeur testee augmente, la probabilite de rejet tend vers 1.

    Cette valeur est tres rapidement atteinte lorsque le nombre dobservations est grand, pour des

    nombres plus petits il faut des ecarts plus importants.

    Remarque 3.3 Dans le cas ou la variance des residu