Download - Ch11 Tests Basés Sur La régression de Gauss-Newton

Transcript
Page 1: Ch11 Tests Basés Sur La régression de Gauss-Newton

Chapitre 11

Tests Bases sur la

Regression de Gauss-Newton

11.1 Introduction

Dans la Section 6.4, nous avons montre que la regression de Gauss-Newtonoffrait un moyen simple de tester des contraintes sur les parametres d’unefonction de regression des que l’on disposait des estimations convergentes autaux n1/2 de ces parametres qui satisfont les contraintes. Dans la plupartdes cas, elles correspondent aux estimations par moindres carres du modelecontraint. Dans la Section 10.8, nous avons montre que l’on pouvait executerles tests pour a peu pres tous les genres de correlations en serie grace a desvariantes de la GNR. Au cours de ce chapitre, nous discuterons de nombreuxtests complementaires bases sur la GNR qui peuvent se reveler d’une grandeutilite dans les etudes econometriques appliquees. Ces tests sont:

(i) des tests d’egalite de deux (ou plus) ensembles de parametres;

(ii) des tests d’hypotheses de modeles non emboıtes, pour lesquels un modelede regression est teste contre un ou plusieurs modeles alternatifs nonemboıtes;

(iii) des tests bases sur la comparaison de deux ensembles d’estimations, dontl’un est generalement convergent sous des conditions moins fortes quel’autre;

(iv) des tests d’heteroscedasticite dont la forme est connue.

Dans la derniere section du chapitre, nous aborderons un materiau tresimportant et qui sera traite en detail dans le Chapitre 16. La regressionde Gauss-Newton n’est valable que sous l’hypothese d’homoscedasticite desaleas, une hypothese qui est quelquefois trop forte. Dans cette dernieresection, nous discuterons d’une regression artificielle qui peut etre utiliseepour calculer des statistiques de test a chaque fois que l’on peut utiliserla GNR, mais qui a la propriete avantageuse de fournir des statistiquesde test asymptotiquement valables meme lorsque les aleas manifestent unphenomene d’heteroscedasticite dont la forme est inconnue. Nous presentonscette regression artificielle parce qu’il s’agit d’un prolongement logique de la

394

Page 2: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.2 Tests d’Egalite de Deux Vecteurs de Parametres 395

regression de Gauss-Newton, et parce qu’elle peut etre tres utile dans la pra-tique.

11.2 Tests d’Egalite de Deux Vecteurs de Parametres

L’un des problemes classiques en econometrie consiste a savoir si les coeffi-cients d’un modele de regression (le plus souvent un modele lineaire) sontidentiques si l’on prend deux (ou quelquefois davantage) sous-echantillonsdistincts. Dans le cadre des series temporelles, les sous-echantillons cor-respondraient generalement a des periodes differentes, et ces tests sont souventappeles tests de changement de regime. Parfois nous desirons savoir si les co-efficients sont identiques au cours de deux ou de plusieurs periodes dans lebut de tester la bonne specification du modele. Dans de telles circonstances,les ensembles de donnees temporelles peuvent etre divises en deux periodes,la periode actuelle et la periode passee, de facon assez arbitraire pour les be-soins du test. C’est une attitude legitime, mais de tels tests sont beaucoupplus interessants lorsqu’il existe une raison de croire que les sous-echantillonscorrespondent a des conjonctures economiques bien distinctes, telles que lesmodifications de taux de change ou de regimes politiques.1 Dans le cadre desdonnees en coupe transversale, une division arbitraire n’est presque jamaispertinente; au lieu de cela, les sous-echantillons representeraient des groupespotentiellement differents tels que les multinationales et les PME, les paysdeveloppes et les pays du tiers-monde, ou encore les hommes et les femmes.Dans ces cas, les resultats du test sont souvent interessants en eux-memes.Par exemple, un economiste specialise dans le marche du travail peut etreinteresse par les fonctions determinant le salaire pour tester si ce sont lesmemes pour les hommes et pour les femmes, ou pour deux groupes ethniquesdifferents.2

Un traitement traditionnel de ce probleme prend ses sources dans lalitterature statistique consacree a l’analyse de la variance (Scheffe, 1959). Eneconometrie, c’est a G. C. Chow (1960) que l’on doit un article novateur ettres influent, et par la suite le test en F habituel pour l’egalite de deux ensem-bles de coefficients dans les modeles de regression lineaire est souvent appelele test de Chow. Fisher (1970) fournit un expose plus clair de la procedure dutest de Chow classique. Dufour (1982) fournit un expose plus geometrique et

1 Lorsqu’il n’y a pas de raison de croire a une modification des parametres aune date quelconque, il peut etre pertinent d’utiliser une procedure qui ne faitreference a aucune date. On utilisera par exemple les procedures CUSUM etCUSUM des carres, de Brown, Durbin, et Evans (1975).

2 Une fonction determinant le salaire etablit un lien entre les salaires et une seriede variables explicatives telles que l’age, la formation, et l’experience. Pourdes exemples d’utilisation de tests en F pour l’egalite de deux ensembles decoefficients dans ce contexte, consulter Oaxaca (1973, 1974).

Page 3: Ch11 Tests Basés Sur La régression de Gauss-Newton

396 Tests Bases sur la Regression de Gauss-Newton

fait une generalisation du test pour manipuler n’importe quel nombre de sous-echantillons, dont certains peuvent avoir un nombre d’observations inferieurau nombre de regresseurs.

La maniere habituelle de poser le probleme consiste a partitionner lesdonnees en deux ensembles, c’est-a-dire a partitionner le vecteur y a n com-posantes de la variable dependante en deux vecteurs y1 et y2, respectivementde dimensions n1 et n2, et a partitionner la matrice X des observations surles regresseurs de dimension n × k en deux matrices X1 et X2, qui sont re-spectivement de dimensions n1× k et n2× k. Cette partition necessitera bienevidemment que les donnees soient ordonnees. Ainsi l’hypothese maintenuepeut s’ecrire comme

[y1

y2

]=

[X1 00 X2

][β1

β2

]+

[u1

u2

], E(uu>) = σ2 I, (11.01)

ou β1 et β2 sont des vecteurs a k parametres qu’il faut estimer. L’hypothesenulle que l’on teste est β1 = β2 = β. Sous cette hypothese nulle, l’equation(11.01) se reduit a

y ≡[

y1

y2

]=

[X1

X2

]β +

[u1

u2

]≡ Xβ + u, E(uu>) = σ2 I. (11.02)

Lorsqu’a la fois les tailles n1 et n2 sont superieures au nombre deparametres k, ce qui est le cas le plus courant, il est aise de tester (11.01)contre (11.02) en faisant usage d’un test en F ordinaire tel que celui dontnous avons discute a la Section 3.5. La somme des residus au carre noncontrainte qui resulte de l’estimation de (11.01) est

USSR = y1>M1y1 + y2

>M2y2 = SSR1 + SSR2,

ou Mi ≡ I −Xi

(Xi>Xi

)−1Xi> pour i = 1, 2. Ainsi USSR correspond simple-

ment a la somme de deux SSR correspondant respectivement aux regressionsde y1 sur X1 et de y2 sur X2. La SSR contrainte qui decoule de l’estimationde (11.02) est

RSSR = y>MXy,

ou MX ≡ I−X(X>X)−1X>. Ainsi la statistique F ordinaire est(y>MXy − y1

>M1y1 − y2>M2y2

)/k(

y1>M1y1 + y2

>M2y2

)/(n− 2k)

=(RSSR− SSR1 − SSR2)/k

(SSR1 + SSR2)/(n− 2k). (11.03)

Ce test comporte k et n − 2k degres de liberte. Il y a k contraintes parceque le modele contraint a k parametres alors que le modele non contraint enpossede 2k.

La statistique de test (11.03) est ce que de nombreux praticiens eneconometrie croient etre le test de Chow. Trois limites immediates a ce test

Page 4: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.2 Tests d’Egalite de Deux Vecteurs de Parametres 397

se presentent. La premiere limite est que l’on ne peut pas l’appliquer lorsquemin(n1, n2) < k, puisqu’alors au moins l’une des deux regressions portantsur les sous-echantillons ne peut plus etre calculee. L’article initiateur deChow (1960) reconnaissait ce probleme et proposait un test alternatif pour letraiter. Notre traitement fonde sur la GNR eclaircira la relation entre le testordinaire (11.03) et le test alternatif. La deuxieme limite est que (11.03) n’estcompatible qu’avec des modeles de regression lineaire. Il est envisageable deconstruire l’analogue non lineaire, ce qui necessite de realiser deux estimationsnon lineaires supplementaires (une pour chaque sous-echantillon). Cependantnotre traitement base sur la GNR offrira un moyen plus simple de manipulerle cas non lineaire.

La troisieme limitation relative a (11.03) est que, comme les tests en Fplus conventionnels, il s’agit d’un test qui est valable sous l’hypothese assezforte que E(uu>) = σ2 I. Cette hypothese peut s’averer assez irrealiste lorsquel’on teste l’egalite de deux ensembles de parametres, puisque si le vecteur deparametres β differe entre les deux regimes, la variance σ2 est aussi surementdifferente. Un certain nombre d’articles a ete consacre a cette eventualite,et les nombreux auteurs sont Toyoda (1974), Jayatissa (1977), Schmidt etSickles (1977), Watt (1979), Honda (1982), Phillips et McCabe (1983), Aliet Silver (1985), Ohtani et Toyoda (1985), Toyoda et Ohtani (1986), Weera-handi (1987), Buse et Dastoor (1989), et Thursby (1992). Tous ces articlesconsiderent le cas ou la variance des aleas est σ2

1 dans le premier regimeet σ2

2 dans le second. Une approche qui est souvent plus simple et qui serevele valable plus souvent consiste a utiliser une statistique de test robustea l’heteroscedasticite de forme inconnue (MacKinnon, 1989). C’est plus tard,au cours de la Section 11.6, que nous discuterons d’une regression artificiellequi produit de telles statistiques de test robustes a l’heteroscedasticite danstous les cas ou la GNR s’applique. Il sera souvent sage de calculer ces testsrobustes a l’heteroscedasticite en plus des tests de Chow ordinaires ou destests bases sur la GNR, a moins que l’hypothese d’homoscedasticite soit al’evidence une hypothese raisonnable.

Considerons desormais le test de changement de regime dans un modelede regression non lineaire. Par souci de simplicite, nous supposerons quel’echantillon qui doit etre partitionne ne doit l’etre qu’en deux groupesd’observations; le prolongement de l’analyse au cas d’un nombre de groupesplus important est evident. Nous definissons tout d’abord un vecteur δ ≡[δ1 · · · δn]>, en posant δt = 0 si l’observation t appartient au premier groupe,et δt = 1 si elle appartient au second. Supposons que l’hypothese nulle soit

H0 : yt = xt(β) + ut, E(uu>) = σ2 I,

ou, comme d’habitude, les fonctions xt(β) sont supposees satisfaire les con-ditions de regularite exposees dans le Chapitre 5. L’hypothese alternativepourrait s’exprimer comme

H1 : yt = xt

(β1(1− δt) + β2δt

)+ ut, E(uu>) = σ2 I.

Page 5: Ch11 Tests Basés Sur La régression de Gauss-Newton

398 Tests Bases sur la Regression de Gauss-Newton

Ainsi, lorsque l’observation t appartient au groupe 1, de sorte que δt = 0, lafonction de regression est xt(β1), alors que lorsqu’elle appartient au secondgroupe, de sorte que δt = 1, la fonction de regression devient xt(β2).

On peut reformuler l’hypothese alternative H1 comme

yt = xt

(β1 + (β2 − β1)δt

)+ ut = xt(β1 + γδt) + ut,

ou γ ≡ β2 − β1. Il est clair que H0 est equivalente a l’hypothese nulleγ = 0. Puisque cette derniere hypothese nulle correspond simplement a unensemble de contraintes de nullite portant sur les parametres d’une fonctionde regression non lineaire, on peut clairement utiliser une regression de Gauss-Newton pour la tester. Cette GNR est

yt − xt(β) = Xt(β)b + δtXt(β)c + residu, (11.04)

ou β designe les estimations NLS de β sur l’echantillon entier. On peut ecrirela GNR (11.04) sous une forme plus compacte comme

u = Xb + δ∗Xc+ residus, (11.05)

ou u est compose de l’element type yt−xt(β), et X est composee de l’elementtype Xt(β). Le symbole ∗ designe ici le produit direct de deux matrices.Puisque δtXti(β) est un element type de δ∗X, δt ∗Xt = Xt lorsque δt = 1et δt ∗Xt = 0 lorsque δt = 0. Afin d’executer le test, il faut simplementestimer le modele avec l’echantillon entier, et regresser les residus de cetteestimation sur la matrice des derivees X et sur la matrice dont les lignes quicorrespondent aux observations du groupe 1 sont composees de zeros. Il estinutile d’ordonner les donnees. Comme d’habitude, on dispose de plusieursstatistiques de test asymptotiquement valables, la meilleure etant surementla statistique F ordinaire pour l’hypothese nulle c = 0. Dans le cas le pluscourant ou k est plus petit que min(n1, n2), cette statistique de test aura kdegres de liberte au numerateur et n− 2k degres de liberte au denominateur.

Notons que la SSR de la regression (11.05) est egale a la SSR de la GNR

u = Xb + residus (11.06)

executee sur les observations 1 a n1 plus la SSR de la regression (11.05)executee sur les observations n1 + 1 a n. Cette SSR correspond a la SSR noncontrainte pour le test en F de c = 0 dans (11.05). La SSR contrainte pource test est tout simplement la SSR de (11.06) calculee sur les n observations,qui est identique a la SSR de l’estimation non lineaire de l’hypothese nulleH0. Ainsi le test de Chow ordinaire pour la GNR (11.06) sera numeriquementidentique au test en F de c = 0 dans (11.05). Cette propriete fournit le moyenle plus aise de calculer la statistique de test.

Page 6: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.2 Tests d’Egalite de Deux Vecteurs de Parametres 399

Comme nous l’avons mentionne plus haut, le test de Chow ordinaire(11.03) ne s’applique pas lorsque min(n1, n2) < k. L’usage de la structure dela GNR montre clairement pourquoi c’est le cas. Sans perte de generalite,puisque la numerotation des deux groupes d’observations est arbiraire, sup-posons que n2 < k et n1 > k. Alors, la matrice δ∗X, qui a k colonnes,possedera n2 < k lignes qui ne sont pas uniquement composees de zeros etpar consequent aura un rang au plus egal a n2. Ainsi, lorsque l’on estimel’equation (11.05), au plus n2 elements de c seront identifies, et les residuscorrespondant a toutes les observations du second groupe seront nuls. Parconsequent le nombre de degres de liberte au numerateur de la statistique Fest au plus egal a n2. En realite, il sera egal au rang de [X δ ∗X] moinscelui de X, ce qui pourrait donner un resultat inferieur a n2 dans certainscas. Le nombre de degres de liberte pour le denominateur correspondra aunombre d’observations pour lesquelles les residus de (11.05) sont nuls, c’est-a-dire n1, moins le nombre de regresseurs associes a ces memes obsevations,c’est-a-dire k, soit un total de n1−k. Ainsi nous pouvons utiliser la GNR quemin(n1, n2) < k soit verifie ou pas, a condition d’utiliser le nombre de degresde liberte adequat pour le numerateur et le denominateur du test en F .

Il devrait etre clair que lorsque xt(β) = Xtβ et min(n1, n2) > k, le testen F base sur la GNR (11.05) est numeriquement identique au test de Chow(11.03). Cette propriete decoule du fait que la somme des residus au carre de(11.05) sera alors egale a SSR1 + SSR2, la somme des deux SSR provenantdes estimations separees de la regression sur les deux groupes d’observations.La demonstration de l’identite numerique entre le test “alternatif” de Chow(1960) et le test correspondant base sur la GNR (qui a n2 et n1− k degres deliberte dans les cas reguliers) lorsque xt(β) = Xtβ et min(n1, n2) < k, seraitun bon exercice.

Quelquefois, nous voudrons tester l’egalite d’un sous-ensemble de para-metres du modele sur deux sous-echantillons, plutot que l’ensemble entier.Il est tres aise de modifier les tests dont nous venons de discuter pourapprehender cette situation. Les hypotheses nulle et alternative peuventdesormais s’ecrire

H0 : yt = xt(α, β) + ut, E(uu>) = σ2 I, et (11.07)

H1 : yt = xt

(α, β1(1− δt) + β2δt

)+ ut, E(uu>) = σ2 I,

ou α est un vecteur de l parametres qui sont supposes etre identiques dansles deux sous-echantillons, et β est un vecteur a m composantes dont on veuttester la constance. La GNR est alors

u = Xαa + Xβb + δ∗Xβc + residus,

ou Xα est une matrice de dimension n× l, dont l’element type est la deriveepartielle ∂xt(α, β)/∂αi, evaluee en (α, β), les estimations de (11.07); et ou

Page 7: Ch11 Tests Basés Sur La régression de Gauss-Newton

400 Tests Bases sur la Regression de Gauss-Newton

Xβ est une matrice de dimension n×m dont l’element type est ∂xt(α, β)/∂βj ,egalement evalue en (α, β). A condition que m soit inferieur a min(n1, n2),la statistique de test aura m et n − l − 2m degres de liberte. Meme dans lecas ou xt(α,β) est lineaire, il n’est pas encore possible de calculer un testa la maniere du test de Chow classique (11.03). Parce que le vecteur deparametres α est suppose etre constant sur les deux sous-echantillons, on nepeut pas obtenir la SSR non contrainte grace a une estimation separee desdeux sous-echantillons.

La discussion precedente se focalisait sur le contexte de l’estimation parmoindres carres. Lorsque l’on effectue une estimation par variables instru-mentales, il y a une legere complication relative au choix des instruments autiliser lors de l’estimation du modele nul et du modele alternatif. D’apresles resultats de la Section 7.7, l’equivalent IV de (11.05) est

u = PWXb + PW δ∗Xc + residus, (11.08)

ou u et X sont evalues avec les estimations β des IV (generalises) sousl’hypothese nulle. Comme d’habitude, de nombreuses statistiques de test sontdisponibles.

Bien que l’estimation de la regression (11.08) semble immediate, unprobleme demeure. En faisant usage simplement de la matrice des instru-ments W qui a permis l’estimation du modele originel, il est fort possibleque la matrice [PWX PW δ∗X] ne soit pas de plein rang. Pour estimer lemodele contraint, W doit avoir au moins k colonnes, alors que pour effectuerla regression (11.08) elle doit en avoir au moins 2k. Si W possede moins de 2kcolonnes, la statistique de test aura un nombre de degres de liberte inferieura k, et testera en realite H0 contre une hypothese alternative moins generaleque H1. Une solution immediate consiste a doubler le nombre des instrumentspar l’usage de la matrice

W ∗ ≡[

W1 00 W2

](11.09)

au lieu de W dans la GNR (11.08). Cela permet aux relations entre lesregresseurs endogenes et les instruments de differer dans les deux sous-echantillons, ce qui paraıt raisonnable. Meme s’il faut utiliser un test LM,c’est-a-dire un test base sur la somme des carres expliques de la regression(11.08), il faut etre prudent et utiliser W ∗ pour l’estimation du modele con-traint. Toutefois, ainsi que nous en avons discute au cours de la Section 7.7,cela n’est pas necessaire lorsque l’on utilise un test C(α), c’est-a-dire un testpseudo-F pour c = 0 dans la regression (11.08).

Il est sans doute utile d’enumerer les etapes qu’il faut franchir si l’ondesire tester H0 contre H1 avec des estimations IV:(i) Estimer le modele H0 grace a une matrice W adequate composee d’au

moins k instruments, et de preference de plus que k, comprenant toutesles variables exogenes et predeterminees dans les fonctions de regression.

Page 8: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.3 Tests de Modeles de Regression Non Emboıtes 401

(ii) Elaborer une nouvelle matrice d’instruments W ∗ comme dans (11.09).Puis, afin d’obtenir la SSR contrainte, estimer la GNR

u = PW∗Xb + residus

sur l’echantillon entier, avec u et X evalues avec les estimations IVobtenues en l’etape (i).

(iii) Pour obtenir la SSR non contrainte, executer la GNR

uj = PWjXjb + residus

sur les deux sous-echantillons separement et additionner les deux sommesdes residus au carre. Ici uj , Wj , Xj designent le sous-vecteur u et lessous-matrices W, et X qui correspondent aux deux sous-echantillons.

(iv) Calculer un test C(α), ou un test pseudo-F base sur les residus desregressions obtenues en (ii) et (iii), suivant la procedure decrite dansla Section 7.7.Une procedure alternative consisterait a estimer a la fois le modele con-

traint et le modele non contraint avec W ∗ comme matrice d’instruments,mais cela serait considerablement plus difficile dans le cas non lineaire. Pourle modele non contraint, cela impliquerait l’estimation par IV de chaque sous-echantillon separement, en utilisant Wj pour chaque sous-echantillon j. Alorsil serait possible de calculer n’importe quelle statistique de tests basee surles estimations contraintes et non contraintes dont nous avons discute a laSection 7.7.

La litterature consacree aux tests de changement de regime est impor-tante, et trop etendue pour que nous en discutions dans cette section. Uncertain nombre de contributions recentes a ce domaine, ainsi qu’une biblio-graphie utile se retrouvent chez Kramer (1989).

11.3 Tests de Modeles de Regression Non Emboıtes

Tous les tests que nous avons etudies jusqu’a present impliquaient des modelesemboıtes. Cela signifie que le modele que l’on teste, represente par l’hypothesenulle, est un cas particulier du modele alternatif contre lequel il est teste. Parexemple, un modele de regression avec des aleas non autocorreles est un casparticulier du modele alternatif dont les aleas sont AR(1), et le modele dontles coefficients sont constants sur un echantillon entier est un cas particulierdu modele alternatif dont les coefficients varient entre deux sous-echantillons.Bien que des modeles alternatifs emboıtes apparaissent frequemment, il existeaussi de nombreux cas ou les deux modeles (ou davantage) qui s’excluentne sont pas emboıtes. La litterature consacree aux tests d’hypotheses nonemboıtees a rendu envisageable la manipulation de telles situations au sein dela structure de la regression de Gauss-Newton.

Page 9: Ch11 Tests Basés Sur La régression de Gauss-Newton

402 Tests Bases sur la Regression de Gauss-Newton

Bien que notre traitement se fasse dans un contexte de regressions artifi-cielles, ce n’est pas le cas de la majeure partie des premiers articles consacresaux tests des hypotheses non emboıtees. Les references classiques sont lesdeux articles de Cox (1961, 1962) et les deux articles d’Atkinson (1969, 1970).Les idees de base de Cox furent adaptees aux modeles de regression lineairepar Pesaran (1974) et aux modeles de regression non lineaire par Pesaran etDeaton (1978). L’approche par la regression artificielle est due a Davidson etMacKinnon (1981a).

Supposons que deux theories economiques concurrentes (ou deux concre-tisations d’un meme modele theorique de base) qui pretendent toutes deuxavoir un pouvoir explicatif sur la meme variable dependante, produisent lesdeux modeles de regression non lineaire:

H1 : y = x(β) + u1, E(u1u1>) = σ2

1 I, et

H2 : y = z(γ) + u2, E(u2u2>) = σ2

2 I,

ou β et γ sont des vecteurs de dimensions respectives egales a k1 et k2. Cesmodeles sont dits non emboıtes s’il est en general impossible de trouver descontraintes sur β telles que, pour un γ donne, x(β) egale z(γ), et impossiblede trouver des contraintes sur γ telles que, pour un β donne, z(γ) egalex(β). Ainsi, il ne doit exister aucune application, disons g, definie sur l’espaceparametrique entier sur lequel γ est defini, telle que z(γ) = x

(g(γ)

). De facon

similaire, il ne doit exister aucune application h telle que x(β) = z(h(β)

).

Il est necessaire, dans le cas des modeles de regression lineaire, que cha-cune des deux fonctions de regression comprenne au moins un regresseur quel’on ne trouve pas dans l’autre. Par exemple, les deux fonctions de regressionsuivantes sont non emboıtees:

xt(β) = β0 + β1Xt1 + β2Xt2 et (11.10)

zt(γ) = γ0 + γ1Xt1 + γ3Xt3. (11.11)

Toutefois, si l’on ajoutait Xt2 a (11.11) pour aboutir a la nouvelle fonction deregression

z∗t (γ) = γ0 + γ1Xt1 + γ2Xt2 + γ3Xt3, (11.12)

(11.10) serait emboıtee dans (11.12), puisqu’en annulant γ3 on rendrait (11.12)equivalente a (11.10).

Les tests non emboıtes les plus faciles a mettre en œuvre sont ceux basessur l’emboıtement artificiel. L’idee generale est qu’il faut combiner les deuxfonctions de regression concurrentes pour en construire une plus generale ettester un ou les deux modeles initiaux contre cette nouvelle fonction. Con-siderons le modele artificiel compose

HC : y = (1− α)x(β) + αz(γ) + u, (11.13)

Page 10: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.3 Tests de Modeles de Regression Non Emboıtes 403

ou α est un parametre qui a ete introduit afin d’emboıter H1 et H2 au seinde HC ; lorsque α = 0, HC se reduit a H1, et lorsque α = 1, HC se reduit aH2. Le probleme reside dans le fait que, dans la plupart des cas, il ne serapas possible d’estimer le modele artificiel (11.13), parce que les parametres α,β, et γ ne seront pas identifiables separement. Par exemple, en conservant(11.10) et (11.11), HC aura sept parametres en tout (les trois βi, les troisγi, et α) mais ne pourra en identifier et en estimer en realite que quatre (laconstante et les trois coefficients de X1, X2, et X3).

Une solution a ce probleme dont l’initiative revient a Davidson et Mac-Kinnon (1981a), consiste a remplacer HC par un modele ou les parametresinconnus du modele qui n’est pas teste sont remplaces par des estimationsde ces parametres qui seraient convergentes si le DGP appartenait en realiteau modele dans lequel ils sont definis. Supposons que l’on veuille tester H1.Alors il faut remplacer γ dans (11.13) par une estimation convergente sousH2. Il y a plusieurs manieres d’y parvenir, puisqu’il existe plusieurs manieresd’obtenir des estimations convergentes de γ, mais la plus simple et celle quia les proprietes asymptotiques les plus interessantes consiste a prendre γ,l’estimation NLS de γ. Ainsi HC devient

H ′C : y = (1− α)x(β) + αz + u, (11.14)

ou z ≡ z(γ). Le nouveau modele compose H ′C ne possede plus que k1 + 1

parametres a estimer, soit un de plus que H1. A condition que H1 et H2 soientveritablement non emboıtees et que H1 soit identifiee asymptotiquement, a lafois α et β doivent etre identifiables asymptotiquement. Il est alors possiblede tester H1 en testant l’hypothese nulle α = 0, grace a n’importe quel testhabituel. Davidson et MacKinnon (1981a) ont suggere deux eventualites pource genre de test. Le test en J utilise le t de Student pour α = 0 a partir del’estimation non lineaire de (11.14). Il porte le nom de test en J parce que αet β sont estimes conjointement. Etant donne que cela pourrait etre difficilelorsque x(β) est non lineaire, les deux auteurs ont propose une procedurealternative, appelee test en P . Il faut utiliser le t de Student pour a = 0 dansla regression de Gauss-Newton

y − x = Xb + a(z − x) + residus, (11.15)

ou x ≡ x(β) et X ≡ X(β), ou X(β) designe la matrice de dimension n× k1

des derivees de x(β) par rapport a β et β designe l’estimation NLS de β sousH1. Le regresseur de test z − x est obtenu, comme d’habitude, en prenant laderivee partielle de la fonction de regression du modele H ′

C par rapport a αet en l’evaluant en α = 0, β = β.3

3 Remarquons que le test en P pourrait egalement etre utilise dans des situations

ou l’on dispose des estimations β et γ convergentes au taux n1/2 mais pas desestimations par moindres carres. C’est une simple applications des resultats dela Section 6.7

Page 11: Ch11 Tests Basés Sur La régression de Gauss-Newton

404 Tests Bases sur la Regression de Gauss-Newton

Au vu des resultats generaux sur les regressions de Gauss-Newton duChapitre 6, il est evident que les tests en J et en P sont asymptotiquementequivalents sous H1. Ainsi, si l’un de ces tests est valable asymptotiquement,l’autre doit l’etre aussi. Cependant, il n’est pas immediatement evident quel’un des tests soit en realite valable, puisque z, qui depend de y, apparaıtdans le membre de droite de (11.14). L’intuition de la validite asymptotiqueest toutefois assez simple. A condition que, sous H1, le vecteur γ convergeasymptotiquement vers un quelconque vecteur constant, disons γ1, alors levecteur z ≡ z(γ) dois egalement converger vers un vecteur z(γ1). Il est doncasymptotiquement valable de traiter le vecteur z comme s’il s’agissait d’unvecteur d’observations sur une variable predeterminee.

Lorsque x(β) = Xβ, le modele soumis au test est lineaire. Dans cecas, la regression du test en J (11.14) doit produire exactement les memesresultats que la regression du test en P (11.15). Parce que x = Xβ, il estclair que S(X, z) est exactement identique a S(X, z − x). Ainsi, les deuxregressions doivent posseder le meme pouvoir explicatif et par consequentdoivent produire des statistiques de test identiques.

Il est aussi juste de tester H2 contre HC que de tester H1 contre HC , et laregression artificielle est essentiellement la meme que la precedente, mais H1

prend maintenant la place de H2 et vice versa. Ainsi la regression equivalentea (11.14) pour le test en J est

y = (1− φ)z(γ) + φx + u,

et la regression equivalente a (11.15) pour le test en P est

y − z = Zc + p(x− z) + residus.

Remarquons qu’il ne serait pas pertinent d’utiliser (11.14) ou meme (11.15)pour tester H2.

Lorsque l’on effectue un couple de tests de modeles non emboıtes, il ya quatre resultats possibles, puisque aussi bien H1 que H2 peut etre rejeteeou non. Si, par exemple, H1 est rejetee et H2 ne l’est pas, alors il paraıtraisonnable de conserver H2 comme le modele le plus adequat. Mais il estaussi possible que les deux modeles soient rejetes ou qu’aucun d’entre eux nele soit. Lorsque l’on rejette les deux modeles, il nous faut conclure qu’aucunn’est satisfaisant, ce qui est une eventualite peu plaisante mais qui nous sti-mulera pour developper des modeles plus complets. Lorsqu’aucun n’est re-jete, il nous faut conclure que les modeles s’ajustent aux donnees apparem-ment avec la meme qualite et qu’aucun n’assure avec evidence que l’autreest mal specifie. Sans doute, soit les deux modeles sont tres similaires, soitl’ensemble des donnees porte peu d’information. Le fait qu’une paire de testsd’hypotheses non emboıtees ne nous permette pas en general de choisir unmodele plutot qu’un autre peut etre considere comme une deficience de cestests. C’est le cas si l’on interprete mal leur nature. Les tests d’hypotheses

Page 12: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.3 Tests de Modeles de Regression Non Emboıtes 405

non emboıtees sont des tests de specification, et puisqu’il n’y a presque ja-mais aucune raison a priori de croire qu’un des modeles a en realite genereles donnees, il est pertinent que les tests non emboıtes, tout comme les autrestests de specification d’un modele, nous enseignent qu’aucun des modeles n’estcompatible aux donnees.

Il est important d’insister sur le fait que l’objet des tests non emboıtesn’est pas de choisir le “meilleur” modele parmi un ensemble fixe de modeles.Ceci constitue l’objet d’un pan entierement different de la litterature econo-metrique, qui traite les criteres d’une selection de modele. Nous n’entameronspas de debat sur la litterature assez importante consacree a la selection demodele a travers cet ouvrage. Deux etudes utiles sont dues a Amemiya (1980)et Leamer (1983), et un interessant article recent a ete ecrit par Pollak et Wales(1991).

Il est interessant d’examiner plus en detail le cas ou les deux modeles sontlineaires, c’est-a-dire x(β) = Xβ et z(γ) = Zγ. Cela nous donnera l’occasionde comprendre pourquoi les tests en J et en P (qui sont identiques dans ce casprecis) sont asymptotiquement valables et aussi pourquoi ces tests peuvent nepas toujours etre performants lorsque les echantillons sont finis. La regressiondu test en J pour tester H1 contre H2 est

y = Xb + αPZy + residus, (11.16)

ou PZ = Z(Z>Z)−1Z> et b = (1 − α)β. L’usage du Theoreme FWL nouspermet de voir que l’estimation de α dans (11.16) sera identique a l’estimationde α dans la regression

MXy = αMXPZy + residus. (11.17)

Ainsi, si s designe l’estimation OLS de σ a partir de (11.17), le t de Studentde α = 0 sera

y>PZMXy

s(y>PZMXPZy)1/2. (11.18)

Tout d’abord, remarquons que lorsqu’une seule colonne de Z, disons Z1,n’appartient pas a S(X), alors

S(X, PZy) = S(X,Z) = S(X, Z1).

Par consequent, la regression du test en J (11.16) doit produire exactementla meme SSR que la regression

y = Xb + δZ1 + residus. (11.19)

Ainsi, dans ce cas particulier, le test en J est egal en valeur absolue au t deStudent de l’estimation de δ dans (11.19).

Page 13: Ch11 Tests Basés Sur La régression de Gauss-Newton

406 Tests Bases sur la Regression de Gauss-Newton

Lorsque deux ou plus de deux colonnes de Z n’appartiennent pas aS(X), ce resultat particulier n’est plus valable. Si les donnees sont reellementgenerees par H1, nous pouvons remplacer y dans le numerateur de (11.18)par Xβ + u. Puisque MXXβ = 0, ce numerateur devient

β>X>PZMXu + u>PZMXu. (11.20)

Les deux termes de (11.20) sont de natures differentes. Le premier terme estune somme ponderee des elements du vecteur u, dont chacun est d’esperancenulle. Ainsi, sous les conditions de regularite adequates, il est aise de voir que

n−1/2β>X>PZMXua∼ N

(0, plim

n→∞

(n−1σ2

1β>X>PZMXPZXβ))

.

Le premier terme est donc O(n1/2). Par contraste, le second terme est O(1),puisque

plimn→∞

(u>PZMXu

)= plim

n→∞

(u>PZu− u>PZPXu

)

= σ21k2 − σ2

1 Tr(

limn→∞

PZPX

),

et la trace de PZPX est O(1). Ainsi, seul le premier terme de (11.20) gardeun interet asymptotiquement.

De facon similaire, sous H1, le facteur entre parentheses dans le denomi-nateur de (11.18) est egal a

β>X>PZMXPZXβ + 2β>X>PZMXPZu + u>PZMXPZu. (11.21)

Avec des arguments comparables a ceux utilises pour le numerateur, on pour-rait montrer que le premier des trois termes de (11.21) est O(n), que ledeuxieme est O(n1/2), et que le troisieme est O(1). Ainsi, sous H1, la statis-tique de test (11.18) tend asymptotiquement vers la variable aleatoire

β>X>PZMXu

σ1

(β>X>PZMXPZXβ

)1/2,

dont on peut montrer qu’elle suit asymptotiquement une N(0, 1).Cette analyse ne montre pas seulement pourquoi les tests en J et en

P sont valables asymptotiquement mais elle indique egalement pourquoi ilspeuvent mal se comporter avec des echantillons finis. Lorsque la taille del’echantillon est faible ou que Z contient plusieurs regresseurs qui n’appartien-nent pas a S(X), la quantite u>PZMXu, qui est negligeable asymptotique-ment, peut en realite etre importante et positive. Par consequent, dansde telles circonstances, la statistique de test du test en J (11.18) peut etred’esperance substantiellement superieure a zero.

Page 14: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.3 Tests de Modeles de Regression Non Emboıtes 407

De nombreux moyens de reduire ou d’eliminer ce biais ont ete proposes.Le plus simple d’entre eux, dont l’initiative revient a Fisher et McAleer (1981)et qui a ete etudie plus tard par Godfrey (1983), consiste a remplacer γ dansles regressions du test en J et du test en P par γ, qui est l’estimation de γobtenue par la minimisation de

(x− z(γ)

)>(x− z(γ)).

Ainsi γ est l’estimation NLS de γ obtenue lorsque l’on utilise les valeursajustees x au lieu de la variable dependante y. Dans le cas lineaire, celasignifie que la regression du test en J (11.16) est remplacee par la regression

y = Xb + αPZPXy + residus. (11.22)

Cette regression produit ce que l’on appelle le test en JA parce que Fisher etMcAleer en ont attribue l’initiative a Atkinson (1970). En utilisant un resultatde Milliken et Graybill (1970), Godfrey (1983) montra que le t de Student del’estimation de α a partir de (11.22) obeit reellement a la distribution deStudent avec des echantillons finis sous les conditions habituelles qui font quele t de Student suit cette distribution (u normalement distribue, independancede y a l’egard de X et de Z). L’intuition de ce resultat est relativementsimple. Le vecteur de valeurs ajustees PXy ne contient que la partie de yqui appartient a S(X). Il doit donc etre independant de MXy, qui est ceque seraient les residus de (11.22) si α = 0. Par consequent, il est possible detraiter PZPXy (ou n’importe quel autre regresseur qui ne depend de y qu’atravers PXy) comme s’il s’agissait d’un regresseur fixe.4 Le test en PA est autest en P ce que le test en JA est au test en J .

Malheureusement, les tests en JA et en PA sont dans de nombreuses cir-constances beaucoup moins puissants que les tests en J et en P ordinaires;consulter Davidson et MacKinnon (1982) et Godfrey et Pesaran (1983). Alorssi, par exemple, le test J rejette l’hypothese nulle alors que le test en JA nele fait pas, il est difficile de savoir si c’est parce que le premier est tres enclina commettre une erreur de premiere espece ou parce que le second est aucontraire tres enclin a commettre une erreur de deuxieme espece.

Une seconde approche consiste a estimer l’esperance de u>MXPZu, ala soustraire de y>MXPZy, et a diviser la quantite qui en resulte par uneestimation de la racine carree de la variance afin d’obtenir une statistique detest qui obeirait asymptotiquement a une N(0, 1). Cette approche a ete pro-posee par Godfrey et Pesaran (1983) sous une forme quelque peu compliquee;on trouvera une version plus simple dans le “Reply” de MacKinnon (1983).Cette seconde approche est beaucoup plus difficile a mettre en œuvre que letest en JA, puisqu’elle implique des calculs matriciels qui ne peuvent pas etre

4 Avec le meme argument, le test RESET dont nous avons discute a la Section 3.5est exact avec des echantillons finis toutes les fois qu’un test en t ordinaire l’est.

Page 15: Ch11 Tests Basés Sur La régression de Gauss-Newton

408 Tests Bases sur la Regression de Gauss-Newton

realises avec une succession de regressions, et elle ne produit pas un test exact.De plus elle necessite l’hypothese de normalite. Cependant, il semble qu’ellegenere un test dont les proprietes en echantillons finis sont bien meilleures quecelles du test en J sous l’hypothese nulle, et dont la puissance, du moins danscertains cas, sera superieure a celle du test en JA.

Le vecteur γ est interessant de plein droit. Le test de Cox originel utilisaitle fait que, sous H1,

plimn→∞

(γ)

= plimn→∞

(γ).

Il est possible d’elaborer un test base directement sur la difference entre γ et γ.Un tel test, propose pour la premiere fois par Dastoor (1983) et developpeplus tard par Mizon et Richard (1986), determine si oui ou non la valeur deγ predite par le modele H1 (c’est-a-dire γ) est la meme que la valeur obtenuepar l’estimation directe de H2 (c’est-a-dire γ). On appelle ces tests les testsd’enveloppement parce que si H1 explique effectivement la realisation de H2,on peut dire qu’elle l’enveloppe; voir Mizon (1984). Le principe sur lequel ilsreposent est quelquefois appele principe d’enveloppement.

Il y a quelques difficultes pratiques avec les modeles de regression nonlineaire, et par consequent nous ne discuterons pas de ces tests dans cet ou-vrage. Toutefois, dans le cas lineaire, le test est a la fois simple et attrayant.Lorsque les deux modeles sont lineaires, les deux estimations de γ sont

γ =(Z>Z

)−1Z>y et

γ =(Z>Z

)−1Z>PXy.

Ainsi la difference entre les deux est(Z>Z

)−1Z>y − (

Z>Z)−1

Z>PXy =(Z>Z

)−1Z>MXy. (11.23)

Le facteur (Z>Z)−1 est a l’evidence sans pertinence dans la constructionde n’importe quelle statistique de test. Le vecteur Z>MXy sera en generalcompose d’elements nuls, chacun de ces elements correspondant a chaquecolonne de Z qui appartient a S(X). Posons Z∗ la matrice composee descolonnes restantes de Z. Alors il devrait etre clair a partir de (11.23) quece que nous voulons reellement tester, c’est si le vecteur Z∗>MXy, qui doitetre egal a Z∗>MXu sous H1 et doit donc avoir une esperance nulle, l’estvraiment.5 Une forme quadratique de ce vecteur permet de construire unestatistique de test qui obeit a une loi du χ2, mais on remarque que n’importequelle statistique asymptotiquement equivalente a

1σ2

1

u>MXZ∗(Z∗>MXZ∗)−1Z∗>MXu

5 SiX ou Z est composee de variables dependantes retardees, alors nous sommesinteresses par l’esperance asymptotique de n−1/2Z∗>MXy plutot que parl’esperance asymptotique de Z∗>MXy.

Page 16: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.3 Tests de Modeles de Regression Non Emboıtes 409

le permet egalement. Mais cette statistique de test est bien sur equivalente aun test en F ordinaire pour γ∗ = 0 dans la regression lineaire

y = Xβ + Z∗γ∗ + u. (11.24)

Ainsi il apparaıt que, dans ce cas, le test d’enveloppement n’est rien de plusqu’un test en F ordinaire de H1 contre l’hypothese alternative (11.24). Un teltest est facile a mettre en œuvre et sera exact sous les conditions habituelles.

Les merites relatifs des tests a degre de liberte unique comme le test en Jet des tests a degres de liberte multiples comme le test d’enveloppement ont etelargement developpes dans la litterature; consulter Pesaran (1982) et l’articlede synthese de MacKinnon (1983), tout particulierement les commentairesdes nombreux intervenants. Le test en J et les tests equivalents seront pluspuissants que les tests a degres de liberte multiples lorsque les donnees ont etereellement generees par H2 mais peuvent etre moins puissants lorsqu’elles sontgenerees par un tout autre modele. Nous verrons les raisons de tout cela aucours du Chapitre 12, lorsque nous discuterons des elements qui determinentla puissance d’un test.

Dans la suite de cette section, nous discuterons de deux cas particuliers.Le premier concerne les modeles de regression dont les aleas sont autocorreles.Meme si un modele de regression est lineaire a l’origine, sa transformation pourprendre en compte un processus AR(1) ou tout autre processus suivi par lesaleas en fait un modele non lineaire, ainsi que nous l’avons vu au cours duChapitre 10. Supposons donc que les deux modeles concurrents soient

H1 : yt = Xtβ + u1t, u1t = ρ1u1,t−1 + ε1t, et

H2 : yt = Ztγ + u2t, u2t = ρ2u2,t−1 + ε2t.

La maniere la plus simple de proceder consiste a transformer ces modeles endes modeles de regression non lineaire tels que

H1 : yt = ρ1yt−1 +(Xt − ρ1Xt−1

)β + ε1t et

H2 : yt = ρ2yt−1 +(Zt − ρ2Zt−1

)γ + ε2t,

valables pour les observations allant de l’observation 2 a l’observation n. Alorson peut faire usage des tests en P ou en PA pour tester H1 contre H2, ou viceversa.

Remarquons que pour disposer des estimations (γ, ρ2) necessaires au testen PA de H1 contre H2, il faut executer la regression non lineaire

ρ1yt−1 +(Xt − ρ1Xt−1

)β = ρ2yt−1 +

(Zt − ρ2Zt−1

)γ + ε2t. (11.25)

Cette etape serait franchie grace a un algorithme general d’estimation parNLS, puisque les algorithmes qui realisent les procedures de Cochrane-Orcutt

Page 17: Ch11 Tests Basés Sur La régression de Gauss-Newton

410 Tests Bases sur la Regression de Gauss-Newton

ou de Hildreth-Lu utilisent ρ1yt−1 +(Xt − ρ1Xt−1

)β retarde une fois plutot

que yt−1 dans le membre de droite de (11.25). Bernanke, Bohn, et Reiss (1988)et McAleer, Pesaran, et Bera (1990) ont discute des nombreuses proceduresde test des modeles non emboıtes avec autocorrelation et les ont compareesen utilisant des simulations par la methode de Monte Carlo.

Le second cas particulier qui nous interesse concerne les modeles deregression estimes par variables instrumentales. Ericsson (1983) et Godfrey(1983) discutent des moyens nombreux et varies de manipuler de tels modeles.L’approche la plus simple, suggeree par MacKinnon, White, et Davidson(1983), consiste simplement a modifier les tests en J et en P de facon ales rendre adaptes a ce cas. La regression du test en P (11.15) devient

y − x = PWXb + aPW (z − x) + residus, (11.26)

ou x, X, et z sont desormais evalues avec les estimations IV β et γ. Lamaniere la plus facile d’obtenir une statistique de test est simplement deregresser y − x sur X et z − x par une procedure IV ou W est la matricedes instruments. La statistique pseudo-t de l’estimation de a sera alors unestatistique de test valable asymptotiquement, pourvu que W soit l’ensembledes instruments avec lesquels on a estime H1 par IV et que les conditionshabituelles de regularite pour l’estimation par IV non lineaire soient satisfaites(consulter la Section 7.6).

Cela complete notre discussion sur les tests d’hypotheses non emboıtespour les modeles de regression. A l’evidence, nous n’avons pas discute detous les aspects de ce probleme. Les aspects dont nous n’avons pas parlesont traites dans deux articles de MacKinnon, White, et Davidson (1983),qui adaptent les tests en J et en P aux modeles qui impliquent des transfor-mations de la variable dependante, et de Davidson et MacKinnon (1983b),qui adaptent ces memes tests aux modeles de regression non lineaire multi-variee (voir Chapitre 9). Les etudes de MacKinnon (1983) et McAleer (1987)fournissent de nombreuses autres references.

11.4 Tests Bases sur Deux Estimations Comparees

Dans la Section 7.9, nous avons introduit une classe de tests, que nous avonsappeles tests de Durbin-Wu-Hausman, ou tests DWH, et qui peuvent etreutilises pour savoir si les estimations par moindres carres sont convergenteslorsque certains regresseurs peuvent etre correles aux termes d’erreur. Cestests ont ete developpes par Durbin (1954), Wu (1973), et Hausman (1978).Il y a eu un important travail realise sur les tests DWH au cours des anneesrecentes; voir l’article de synthese de Ruud (1984). Dans cette section, nousmontrons que les tests DWH peuvent se reveler utiles dans un grand nombrede circonstances non relatives a l’estimation IV, bien que l’on reste dans lecontexte des modeles de regression.

Page 18: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.4 Tests Bases sur Deux Estimations Comparees 411

L’idee de base des tests DWH est de construire un test sur un vecteurde contraste, c’est-a-dire la difference entre deux ensembles d’estimations,dont l’un sera convergent sous des conditions moins restrictives que l’autre.Supposons simplement que le modele qu’il faut tester est

y = Xβ + u, u ∼ IID(0, σ2I), (11.27)

ou il y a n observations et k regresseurs. Dans ce contexte, le principe de testDWH suggere de comparer l’estimateur OLS

β =(X>X

)−1X>y (11.28)

avec un autre estimateur lineaire

β =(X>AX

)−1X>Ay, (11.29)

ou A est une matrice symetrique de dimension n × n qui est supposee, poursimplifier, avoir un rang au moins egal a k (autrement, on ne pourrait pasestimer toutes les composantes de β, et nous ne pourrions comparer que lapartie estimee de β au sous-vecteur correspondant de β; voir la discussion surles tests de specification des derivees qui suit). Dans le cas etudie au cours dela Section 7.9, β est l’estimateur IV

β ≡ (X>PWX

)−1X>PW y.

Ainsi, dans ce cas la matrice A correspond a PW, la matrice qui projetteorthogonalement sur S(W ), ou W est la matrice des instruments.

Si les donnees avaient ete generees en realite par le modele (11.27), avecβ = β0, les deux estimations (11.28) et (11.29) devraient avoir la meme limiteen probabilite. Pour s’en rendre compte, observons que

plimn→∞

β = plimn→∞

(1−nX>AX

)−1(

plimn→∞

(1−nX>AX

)β0 + plim

n→∞

(1−nX>Au

)),

qui est egal a β0 a condition que plim(n−1X>Au

)= 0. Ainsi, si β et β

different d’une quantite superieure a ce que l’on peut raisonnablement at-tribuer a une variation aleatoire, on peut conclure que les donnees n’ont pasete generees par le modele (11.27).

Pour un modele de regression tel que (11.27), il est aise de calculer untest DWH au moyen d’une regression artificielle. Nous avons vu des exem-ples similaires a la Section 7.9 et nous discuterons d’exemples plus eloignesplus tard. Cependant, il existe une autre facon de calculer des tests DWH, etcette autre facon peut etre plus pratique dans certains cas. Pour un modelequelconque qui n’est pas forcement un modele de regression, supposons queθ designe un estimateur efficace des parametres du modele et que θ designe

Page 19: Ch11 Tests Basés Sur La régression de Gauss-Newton

412 Tests Bases sur la Regression de Gauss-Newton

un estimateur moins efficace mais convergent sous des conditions moins re-strictives que celles du modele. Notons e le vecteur de contraste entre θ et θ.Alors nous avons vu que

n1/2(θ − θ0)a= n1/2(θ − θ0) + n1/2e, (11.30)

ou n1/2e est asymptotiquement non correle avec n1/2(θ−θ0). Ce resultat a etedemontre pour les modeles estimes par maximum de vraisemblance, dans laSection 8.8; l’equivalent avec un echantillon fini pour les modeles de regressionlineaire a ete demontre en tant qu’element de demonstration du Theoremede Gauss-Markov a la Section 5.5. Parce que les deux termes du membre dedroite de (11.30) sont asymptotiquement non correles, la matrice de covarianceasymptotique du membre de gauche correspond a la somme des deux matricesde covariance asymptotique de ces deux termes. Par consequent, on obtient

limn→∞

V(n1/2(θ − θ0)

)= lim

n→∞V

(n1/2(θ − θ0)

)+ lim

n→∞V (n1/2e),

qui, en utilisant une notation simplifiee, nous permet de deduire la matricede covariance asymptotique du vecteur de contraste:

V ∞(θ − θ) = V ∞(θ)− V ∞(θ). (11.31)

Autrement dit, la matrice de covariance asymptotique de la difference en-tre θ et θ egale la difference de leurs matrices de covariance asymptotiquerespectives. On doit ce resultat important a Hausman (1978).

On peut faire usage du resultat (11.31) pour construire des tests DWHde la forme

(θ − θ)>(V (θ)− V (θ)

)−1(θ − θ), (11.32)

ou V (θ) et V (θ) designent les estimations des matrices de covariance res-pectives de θ et θ. La statistique de test (11.32) sera asymptotiquementdistribuee suivant une loi du χ2(r) dont le nombre de degres de liberte corre-spond au rang de V ∞(θ)− V ∞(θ). Notons qu’il faudra remplacer l’inversedans (11.32) par une inverse generalisee si, comme c’est souvent le cas, lerang de V ∞(θ)− V ∞(θ) est inferieur au nombre de parametres de θ; voirHausman et Taylor (1982). Il peut survenir des difficultes d’ordre pratiqueavec (11.32) si V (θ)− V (θ) n’est pas semi-definie positive ou si le rang deV (θ)− V (θ) differe de celui de V ∞(θ)− V ∞(θ). C’est pour ces raisons quenous insistons sur l’approche basee sur les regressions artificielles.

Dans le cas de la regression lineaire (11.27), ou les deux estimateurs sont(11.28) et (11.29), le test DWH est base sur le vecteur de contraste

β − β =(X>AX

)−1X>AMXy. (11.33)

Cette expression ressemble justement a (7.59), avec A en lieu et place dePW , et peut etre derivee exactement de la meme maniere. Le premier facteur

Page 20: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.4 Tests Bases sur Deux Estimations Comparees 413

dans (11.33), (X>AX)−1, est simplement une matrice de dimension k × k deplein rang, qui sera sans influence sur les statistiques de test que l’on pourraitcalculer. Par consequent, ce que nous desirons reellement tester, c’est si levecteur

n−1/2X>AMXy (11.34)

a une esperance nulle, asymptotiquement. Ce vecteur est compose de kelements, mais meme si AX est de plein rang, tous les elements ne sontpas des variables aleatoires, parce que MX peut annuler certaines colonnesde AX. Supposons que k∗ est le nombre de colonnes de AX lineairementindependantes qui ne sont pas annulees par MX. Alors le test de (11.34) estequivalent au test de nullite asymptotique de l’esperance de

n−1/2X∗>AMXy (11.35)

ou X∗ est la matrice des k∗ colonnes de X telles qu’aucune colonne de AX∗

n’est annulee par MX.

Considerons a present la regression artificielle

y = Xβ + AX∗δ + residus. (11.36)

On montre aisement grace au Theoreme FWL que l’estimation OLS de δ est

δ =(X∗>AMXAX∗)−1

X∗>AMXy,

et il est evident que, en general, plim(δ) = 0 si et seulement si (11.35) estexacte. Le F de Fisher ordinaire pour δ = 0 dans (11.36) est

y>PMXAX∗y/k∗

y>MX, MXAX∗y/(n− k − k∗), (11.37)

ou PMXAX∗ est la matrice qui projette orthogonalement sur S(MXAX∗), etMX, MXAX∗ est la matrice qui projette orthogonalement sur S⊥(X, MXAX∗).Si (11.27) a reellement genere les donnees, la statistique (11.37) sera certaine-ment valable asymptotiquement, puisque le denominateur sera une estimationconvergente de σ2. Elle sera exactement distribuee suivant une F (k∗, n−k−k∗)avec des echantillons finis si les aleas dans (11.27) sont normalement dis-tribuees et si X et A peuvent etre considerees comme fixes. La regression(11.36) et l’expression (11.37) sont pour l’essentiel les memes que la regression(7.62) et l’expression (7.64), respectivement; ces dernieres ne sont que des casparticuliers des premiers.

Le type de test DWH le plus frequent est celui que nous avons examinea la Section 7.9, qui permet de savoir si des estimations par moindres carressont convergentes lorsque quelques regresseurs peuvent etre correles aux aleas.

Page 21: Ch11 Tests Basés Sur La régression de Gauss-Newton

414 Tests Bases sur la Regression de Gauss-Newton

Cependant, il existe de nombreuses autres eventualites. Par exemple, β pour-rait etre l’estimateur OLS de β pour le modele

y = Xβ + Zγ + u, (11.38)

ou Z est une matrice de dimension n× l composee de regresseurs qui ne sontpas dans l’espace engendre par les colonnes de X. L’usage du Theoreme FWLnous montre que

β =(X>MZX

)−1X>MZy,

expression dans laquelle MZ joue le role de A. Cette forme du test DWHpermet ainsi de savoir si les estimations β, lorsque Z est incluse dans lemodele, different de facon significative des estimations β lorsque Z ne l’estpas. Ceci est un exemple simplifie du cas examine par Holly (1982), dans uncontexte beaucoup plus general. Il apparaıt donc que cette version du testDWH est equivalente a un test en F ordinaire pour γ = 0, a condition quek ≥ l et qu’une certaine matrice soit de plein rang, mais ne l’est pas sinon.On peut voir cela a partir de la regression (11.36), qui est dans ce cas

y = Xβ + MZXδ + residus (11.39)

= X(β + δ)− PZXδ + residus. (11.40)

Il est evident a partir de (11.40) que chaque fois que la matrice Z>X sera derang l, la regression (11.39) aura exactement le meme pouvoir explicatif quela regression (11.38), puisque X et PZX = Z(Z>Z)−1Z>X engendrerontconjointement le meme sous-espace que X et Z. Le test en F pour δ = 0dans (11.39) sera ainsi identique au tes en F pour γ = 0 dans (11.38), ce quiest le resultat obtenu par Holly dans le cas tres particulier de la regressionlineaire. Une condition necessaire, mais pas suffisante, pour que Z>X soit derang l, est que k ≥ l. Pour de plus amples details sur la relation entre les testsDWH et les tests d’hypotheses classiques, consulter Holly et Monfort (1986)et Davidson et MacKinnon (1989).

Il y a une relation interessante entre la variante d’“exogeneite” du testDWH et la variante “variables omises”. Dans la premiere, A = PW etPWX∗ est composee de toutes les colonnes de PWX qui n’appartiennentpas a l’espace engendre par les colonnes de X. Ainsi la regression du test est

y = Xβ + PWX∗δ + residus. (11.41)

Dans cette derniere, MZX∗ = MZX, pourvu que la matrice [X Z] soit deplein rang. Supposons desormais que l’on developpe Z de maniere a la rendreegale a W, ce qui signifie qu’elle comprend au moins autant de variablesque X, et parmi elles certaines variables qui n’appartiennent pas a l’espaceengendre par X. Evidemment, X∗ sera alors composee de ces colonnes de X

Page 22: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.4 Tests Bases sur Deux Estimations Comparees 415

qui n’appartiennent pas a l’espace engendre par W, et la regression de testsera

y = Xβ + MWX∗δ + residus. (11.42)Parce que les matrices [X PWX] et [X MWX] engendrent le meme sous-espace, les regressions (11.41) et (11.42) auront exactement le meme pouvoirexplicatif. Cela signifie que le test que l’on interprete comme un test deconvergence en presence d’une endogeneite eventuelle et le test que l’on in-terprete comme un test de convergence des estimations des parametres lorsquecertaines variables ont ete omises sont en realite exactement les memes. Ruud(1984) detaille davantage la discussion.

L’ultime exemple des tests DWH dont nous allons discuter est le test despecification des differences qui a ete propose par Plosser, Schwert, et White(1982). L’idee de base de ce test est de construire un test de specificationfonde sur la comparaison des estimations en niveau et des estimations auspremieres differences. Notre traitement fait suite a celui de Davidson, God-frey, et MacKinnon (1985), qui montre la maniere de calculer le test a l’aided’une regression artificielle.

Comme d’habitude, l’estimation OLS en niveau est β = (X>X)−1X>y.L’estimation OLS utilisant les donnees differentiees une fois est

β =(X>X

)−1X>y,

ou y et X designent le vecteur et la matrice dont les lignes types respectivessont yt = yt − yt−1 et Xt = Xt −Xt−1. Pour l’instant nous ne nous soucionspas du fait que si X comprend une constante, X possedera une colonnecomposee de zeros. Nous ignorons egalement le fait que l’on ne peut pascalculer X1 et y1 sans recourir a des hypotheses arbitraires si X0 et y0 nesont pas disponibles.

Le resultat crucial qui rend possible le calcul du test de differentiationau moyen d’une regression artificielle, est que, si X designe la matrice dontla ligne type est Xt+1 − 2Xt + Xt−1 (c’est-a-dire la matrice des differencessecondes de X, avancees d’une periode), alors

βa=

(−X>X)−1(−X>y

)=

(X>X

)−1X>y. (11.43)

Pour demontrer cela, considerons les elements types des matrices qui appa-raissent dans (11.43). Supposons que r designe n’importe quelle colonne deX et s designe la meme colonne ou n’importe quelle autre colonne de X,ou eventuellement y. Par consequent n’importe quel element de X>X, oude X>y, peut etre ecrit r>s, alors que n’importe quel element de X>X, oude X>y, peut etre ecrit r>s. Nous voulons montrer que r>s a= −r>s. Pardefinition

r>s =n∑

t=1

(rt − rt−1

)(st − st−1

)

=n∑

t=1

(rtst + rt−1st−1 − rtst−1 − rt−1st

).

(11.44)

Page 23: Ch11 Tests Basés Sur La régression de Gauss-Newton

416 Tests Bases sur la Regression de Gauss-Newton

De facon similaire

− r>s = −n∑

t=1

(rt+1 − 2rt + rt−1

)st

=n∑

t=1

(2rtst − rt+1st − rt−1st

).

(11.45)

Soustraire (11.45) a (11.44) entraıne

r0s0 − rnsn − r1s0 + rn+1sn.

Cette expression est evidemment O(1), alors que des quantites telles que X>Xet X>X sont O(n). Toute difference entre r>s et −r>s doit par consequentetre asymptotiquement negligeable, ce qui demontre le resultat (11.43).6

Grace a ce resultat et au fait que y = PXy + MXy = Xβ + MXy, nousapercevons que

β − βa=

(X>X

)−1X>y − (

X>X)−1

X>y

=(X>X

)−1X>(Xβ + MXy)− β

=(X>X

)−1X>MXy.

Ainsi le test de specification des differences est vraiment un test de l’hypotheseque le vecteur n−1/2X>MXy a une esperance nulle asymptotiquement. Parun argument similaire a celui qui conduit a la regression artificielle (11.36), ilest aise de montrer que cette hypothese peut etre testee grace a un test en Fordinaire pour δ = 0 dans la regression artificielle

y = Xβ + Xδ + residus. (11.46)

De plus, d’apres la definition de X nous voyons que S(X, X) = S(X,C), ouC est une matrice dont la ligne type est Xt−1+Xt+1. Ainsi le test pour δ = 0dans (11.46) sera numeriquement identique au test pour η = 0 dans

y = Xβ + Cη + residus. (11.47)

La regression (11.47) permet de voir la maniere de traiter la constante ettout regresseur appartenant a X qui, apres avoir pris les differences premieres,empeche la matrice X d’etre de plein rang. Si un tel regresseur est inclus dansla fonction de regression, la matrice [X C ] ne sera pas de plein rang. Il faut

6 On peut egalement demontrer ce resultat a l’aide d’une matrice de differences,disons D, telle que X = DX et X−1 = D2X. Une telle demonstration seraitplus concise mais sans doute moins facile a saisir.

Page 24: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.4 Tests Bases sur Deux Estimations Comparees 417

donc eliminer de C toutes les colonnes qui empechent [X C ] d’etre de pleinrang. Le nombre de degres de liberte pour la statistique de test correspondraalors au nombre de colonnes restantes de C.

La regression (11.47) montre egalement que le test de specification de ladifferentiation est en realite un test curieux. Les regresseurs supplementairesdans C sont les sommes des valeurs avancees et retardees des regresseursoriginels. Bien qu’il soit aise de justifier le test de l’inclusion eventuelle desvaleurs retardees de X dans le modele de regression, il est plus delicat dejustifier le test de l’inclusion des valeurs avancees de X. Dans de nombreuxcas, on ne s’attend pas a ce que l’ensemble des informations qui conditionney contienne des valeurs avancees de X. Assurement le test sera non pertinentsi X peut dependre des valeurs retardees de u, puisque dans ce cas ut peutetre correle a Xt+1.

Il existe de nombreuses autres applications du test DWH aux modeles deregression lineaire et non lineaire. Consulter Boothe et MacKinnon (1986),Breusch et Godfrey (1986), Godfrey (1988), et Ruud (1984). Nous avonsdiscute des tests de la difference entre des estimations IV et moindres carresdes modeles de regression non lineaire dans la Section 7.9, et la majeurepartie des arguments est valable pour les autres applications du test DWHaux modeles de regression non lineaire.

On affirme souvent que les tests DWH peuvent etre utilises a profit lorsquel’hypothese nulle n’est pas que les donnees ont ete generees par (11.27) maissimplement que les estimations OLS β de (11.27) sont convergentes. Bien quecela soit vrai jusqu’a un certain point, il existe une difficulte reelle lorsquel’on essaye d’utiliser ces tests dans cette optique. Ainsi que nous l’avonsvu, les tests DWH ne testent pas directement l’hypothese selon laquelle lesparametres sont estimees de facon convergente. Au lieu de cela, ils testentla nullite de certaines combinaisons lineaires des parametres sur certainesvariables omises, parce que si c’etait effectivement le cas, cela impliquerait queles parametres de l’hypothese nulle sont estimes de facon convergente. Parconsequent, il y a des situations ou tous les parametres seront estimes de faconconvergente et malgre cela les tests DWH rejetteront presque invariablementl’hypothese nulle.

Pour apercevoir la maniere dont cela peut survenir, considerons le castres simple suivant. Supposons que le modele contraint soit

y = Xβ + u (11.48)

et que le modele non contraint soit

y = Xβ + γz + u, (11.49)

avec X une matrice aleatoire de dimension n × k, z et u deux vecteursaleatoires a n elements distribues de telle sorte que plim

(n−1X>z

)= 0 et

Page 25: Ch11 Tests Basés Sur La régression de Gauss-Newton

418 Tests Bases sur la Regression de Gauss-Newton

plim(n−1X>u

)= 0. Il est clair que l’estimation OLS de (11.48) entraınera

des estimations convergentes de β meme si le DGP est (11.49) ou γ 6= 0.Considerons a present le test DWH qui pourrait etre base sur la regression

y = Xβ + z(z>z

)−1z>x∗δ + residus, (11.50)

ou x∗ est l’une des colonnes de X. A moins que z>x∗ ne soit numeriquementnul, auquel cas on ne peut pas calculer le test, un test en t pour δ = 0 sera iden-tique numeriquement a un test en t pour γ = 0 dans (11.49). Ainsi, si γ 6= 0et si l’echantillon est suffisamment large, le test DWH rejettera l’hypothesenulle avec une probabilite egale a l’unite, meme dans le cas ou β est en realiteconvergent. La raison de ce probleme embarrassant en apparence est que nousavons calcule un test DWH avec un echantillon fini qu’il aurait ete impossiblede calculer asymptotiquement, parce que le regresseur z(z>z)−1z>x∗ seraitalors une colonne de zeros. Malheureusement, on peut souvent calculer cetest. Dans de telles circonstances, il est clair que les resultats des tests DWH,avec des echantillons finis, peuvent etre mal interpretes.

11.5 Tests d’Heteroscedasticite

Tous les tests bases sur la regression de Gauss-Newton dont nous avonsdiscute jusqu’a present sont concus pour tester des aspects varies de laspecification des fonctions de regression. Cependant, des variantes de laGNR peuvent egalement etre utilisees pour tester certains aspects de laspecification des aleas, en particulier l’hypothese d’une variance constante.Dans cette section, nous allons montrer comment on peut deriver certainstests d’heteroscedasticite tres repandus, comme des applications de la GNR.Nous discuterons des tests d’heteroscedasticite supplementaires au cours duChapitre 16.

Un modele d’heteroscedasticite plausible est

E(u2t ) = h(α + Ztγ), (11.51)

ou h(·) est une fonction eventuellement non lineaire qui doit produire desvaleurs positives, Zt est un vecteur dont les q composantes sont des obser-vations sur des variables exogenes ou predeterminees, α est un scalaire, γun vecteur de q parametres. L’equation (11.51) indique que l’esperance del’alea ut au carre est h(α + Ztγ). Comme nous l’avons vu a la Section 9.2,la fonction h(·) est appelee fonction scedastique. Si tous les elements duvecteur γ sont nuls, h(α + Ztγ) se reduit a h(α), qui est simplement uneconstante. On peut imaginer que cette constante est σ2. Ainsi nous pour-rions tester l’hypothese nulle d’homoscedasticite contre l’hypothese alterna-tive d’heteroscedasticite (11.51) en testant la contrainte γ = 0.

Page 26: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.5 Tests d’Heteroscedasticite 419

Definissons desormais et comme la difference entre u2t et son esperance.

Cela nous permet d’ecrire une equation pour u2t :

u2t = h(α + Ztγ) + et. (11.52)

L’equation (11.52) est un modele de regression. Bien que l’on ne puisse pass’attendre a ce que l’alea et ait un comportement aussi regulier que la plupartdes aleas des modeles de regression, puisque la distribution de u2

t sera engeneral inclinee a droite, il doit avoir une esperance nulle par definition, et noussupposerons qu’il a une variance finie et constante. Cette hypothese seraitprobablement excessivement forte si γ etait non nul (on pourra la relacheren faisant usage des techniques discutees dans la prochaine section). Sousl’hypothese nulle que γ = 0 cependant, il ne paraıt pas deraisonnable desupposer que la variance de et est constante.

Supposons pour debuter que l’on observe reellement ut. Alors on peutsurement estimer (11.52) a la maniere habituelle par NLS. Sous l’hypothesenulle que γ = 0, l’estimation NLS de α est la valeur α qui verifie l’equation

h(α) = 1−n

n∑t=1

u2t ≡ σ2.

Ainsi il suffit d’estimer la moyenne d’echantillonnage des u2t , σ2. On pourrait

ensuite tester l’hypothese que γ = 0 au moyen d’une regression de Gauss-Newton. Cette GNR serait

u2t − σ2 = h′(α)a + h′(α)Ztc + residu, (11.53)

ou h′(α) est la derivee de h(·) par rapport a son unique argument, evalueeen α = α et γ = 0. Puisque h′(α) est une constante, (11.53) se simplifie etdevient

v − ισ2 = ιa + Zc + residus, (11.54)

ou v est un vecteur dont les n elements sont les u2t , ι est un vecteur dont

chaque composante egale 1, et Z est une matrice de dimension n× q dont laligne type est Zt. Puisque ni la fonction h(·) ni ses derivees n’apparaissentdans (11.54), un test base sur cette regression artificielle ne dependra pasde la forme fonctionnelle de h(·). La raison est que tous les modeles de laforme (11.52) sont des alternatives localement equivalentes. Nous avons vuun exemple plus tot a la Section 10.8; consulter Godfrey (1981) et Godfrey etWickens (1982).

Comme d’habitude, la statistique de test de la GNR pour γ = 0 est soitun test en F pour c = 0 dans (11.54) soit un nR2 de cette regression. Puisqueι apparaıt dans les deux membres de (11.54) , la regression peut etre encoresimplifiee pour donner

v = ιa∗ + Zc + residus. (11.55)

Page 27: Ch11 Tests Basés Sur La régression de Gauss-Newton

420 Tests Bases sur la Regression de Gauss-Newton

Le R2 centre de (11.55) sera identique a la fois au R2 centre et au R2 non centrede (11.54), qui sont les memes quantites parce que la regressande de (11.54)est d’esperance nulle par construction. La statistique F pour c = 0, qui estrapporte par presque tous les progiciels de regression, sera bien evidemmentidentique pour les deux regressions.

Dans la pratique bien sur, les aleas ut apparaissent dans un modele deregression comme y = x(β)+u, et nous n’avons pas l’occasion de les obserververitablement. Toutefois, comme nous observons y et tous les regresseursqui nous semblent expliquer y, on peut obtenir facilement les residus desestimations par moindres carres u. Le modele qu’il faut estimer peut etrelineaire ou non; la forme exacte est sans importance. Ainsi que nous l’avonsvu a la Section 5.6, la convergence des estimations des parametres par NLSimplique que u

a= u. Par consequent, la regression

v = ιa∗ + Zc + residus, (11.56)

ou u2t est l’element type de v, generera des statistiques de test qui ont les

memes proprietes asymptotiques que les statistiques de test generees par(11.55). Comme auparavant, un test en F ordinaire pour c = 0 sera asymp-totiquement valable, autant que n fois le R2 centre.

Il peut paraıtre etonnant que l’on puisse remplacer v par v sans rienfaire pour tenir compte du fait que β doit etre estime pour obtenir u, carlorsque nous utilisons une GNR pour un test de specification de la fonctionde regression, il nous faut justement en tenir compte. L’explication de cettedifference devrait apparaıtre clairement a partir des deux exemples suivants.Premierement, considerons les modeles de regression

y = Xβ + u et (11.57)

y = Xβ + γz + u. (11.58)

Pour tester (11.57) contre (11.58), nous utiliserions normalement un t de Stu-dent, dont le numerateur serait

z>u = z>MXu = z>u− z>PXu.

Puisqu’a la fois z>u et z>PXu sont O(n1/2), il serait clairement errone detraiter z>u comme une quantite asymptotiquement equivalente a z>u. C’est laraison pour laquelle on peut calculer une statistique de test asymptotiquementvalable en regressand u sur X et z mais pas en regressand u sur z seulement.

Supposons maintenant que l’on veuille savoir si les aleas au carre de(11.57) sont correles avec z. Souvenons-nous que v est le vecteur des aleasau carre et v est le vecteur des residus au carre. Si nous utilisons v commeun representant de v et le regressons sur la constante et sur z, comme dans(11.56), le numerateur de ce t de Student est

z>Mιv = z>Mιv − 2z>Mι

((PXu)∗u)

+ z>Mι

((PXu)∗(PXu)

)

= z>Mιv + z>Mι

((PXu)∗(PXu− 2u)

),

(11.59)

Page 28: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.5 Tests d’Heteroscedasticite 421

ou Mι est la matrice qui calcule les ecarts a la moyenne, et ∗ designe le produitdirect de deux vecteurs. Il est aise de voir que le premier terme de la secondeligne de (11.59) est O(n1/2); c’est simplement la somme de n termes, dontchacun est d’esperance nulle a cause de la presence de Mι. Le second terme,par contre, est O(1), ce qui signifie qu’il est asymptotiquement negligeable parrapport au premier. Ainsi z>Mιv est asymptotiquement equivalent a z>Mιv,et l’on peut ignorer la distinction entre v et v lorsque l’on calcule des testsd’heteroscedasticite.

Une autre facon de considerer le probleme est de se rappeler que, commenous l’avons vu a la Section 8.10 lorsque nous avons discute des modelesde regression non lineaire dans le contexte de l’estimation par maximum devraisemblance, la matrice de covariance des estimations des parametres d’untel modele est bloc-diagonale entre les parametres de la fonction de regression(dans ce cas β) et les parametres de la fonction scedastique (dans ce cas αet γ). Cette propriete de bloc-diagonalite implique que l’on peut traiter lespremiers parametres comme connus dans le but de tester les seconds, et viceversa, meme si on les estime en realite.

Bien que la famille des tests que nous avons esquissee semble etre uneapplication naturelle de la regression de Gauss-Newton, ce n’est pas de cettefacon qu’elle a ete developpee dans la litterature econometrique. Godfrey(1978c) et Breusch et Pagan (1979) ont propose des statistiques de testqui, bien que fondees sur une legere modification de la regression artificielle(11.56), n’etaient pas les memes que celles que nous suggerons ici. Ces au-teurs supposerent explicitement que les aleas ut etaient normalement dis-tribues. Cela leur permit de deriver leurs tests comme des tests du multipli-cateur de Lagrange en utilisant la theorie du maximum de vraisemblance, etils obtinrent des statistiques de test quelque peu differentes qui restent val-ables meme asymptotiquement, uniquement sous l’hypothese de normalite.Koenker (1981) fit remarquer cette faiblesse des tests Godfrey/Breusch-Paganet suggera le test du nR2 base sur la regression (11.56) comme alternative.Le test en F pour c = 0 base sur la meme regression est aussi valable asymp-totiquement, et presente de nombreux attraits avec des echantillons finis.Malheureusement, les tests en F et nR2 peuvent souvent etre moins puis-sants que les tests LM bases sur l’hypothese de normalite. Honda (1988) arecemment montre la facon d’obtenir des versions modifiees de ces dernierset qui possedent de meilleures proprietes avec des echantillons finis. Voir laSection 16.5 et Godfrey (1988, Section 4.5) pour une discussion plus completede tous ces tests.

Au lieu de (11.51), on pourrait debuter avec le modele plus general

E|ut|p = h(α + Ztγ).

Glejser (1969) considera le cas p = 1 et proposa un test base sur une regressionartificielle similaire a (11.56) mais ou la regressande est egale aux valeursabsolues des residus. Dans l’article de Newey et Powell (1987), il est montre

Page 29: Ch11 Tests Basés Sur La régression de Gauss-Newton

422 Tests Bases sur la Regression de Gauss-Newton

que le test de Glejser peut gagner considerablement en puissance par rapportau test habituel, base sur les carres des residus, dans le cas ou les aleas ontdes queues de distribution plus epaisses que celles de la distribution normale.Cela suggere qu’il peut etre souvent tres sage d’employer les deux types detests.

11.6 Une GNR Robuste a L’Heteroscedasticite

Dans de nombreux cas, nous savons, ou du moins nous supposons, que les aleasassocies a un modele de regression manifestent de l’heteroscedasticite, maisnous ne connaissons pas du tout la forme qu’elle prend. En particulier lorsquel’on travaille sur des donnees en coupe transversale, on presume que les aleassont probablement heteroscedastiques. Cela devrait nous mettre mal a l’aisesur l’usage des tests bases sur la regression de Gauss-Newton, ou sur l’usage den’importe quel autre test dont nous avons discute jusqu’ici puisqu’ils ne sontvalables que sous l’hypothese d’homoscedasticite. En realite, il se trouve qu’ilest assez simple de deriver une regression artificielle que l’on peut utilisercomme une GNR et qui produit des inferences asymptotiquement valablesmeme en presence d’heteroscedasticite dont la forme est inconnue. Dans cettesection, nous discuterons de cette procedure, brievement. Dans le Chapitre 16,nous offrirons un traitement plus complet sur ce sujet et sur les themes quis’y rattachent.

Comme nous l’avons vu, une regression de Gauss-Newton typique pourles tests de contraintes peut s’ecrire comme

u = Xb + Zc + residus, (11.60)

ou X est une matrice de dimension n×k composee des derivees de la fonctionde regression x(β) evaluees en β, les estimations qui satisfont les contrainteset qui sont convergentes au taux n1/2, et Z est une matrice de dimensionn × r composee des regresseurs de test. Dans la plupart des cas que nousexaminons, β est egal a β, le vecteur des estimations NLS contraintes, auquelcas u>X = u>X = 0. Cependant, comme il n’y a aucun avantage pourl’interet de cette section a faire l’hypothese la plus forte, nous ne supposeronspas que β=β

Le numerateur du F de Fisher pour c = 0 est egal a la somme des carresexpliques de la regression

MX u = MXZc + residus. (11.61)

Si s2 est l’estimation OLS de la variance de (11.60), la statistique de test est1/r fois

1s2

u>MXZ(Z>MXZ

)−1Z>MX u. (11.62)

Page 30: Ch11 Tests Basés Sur La régression de Gauss-Newton

11.6 Une GNR Robuste a L’Heteroscedasticite 423

Le second facteur est ici la somme des carres expliques de (11.61). L’expression(11.62) montre clairement que ce que nous testons en realite, c’est la nulliteasymptotique du vecteur a r composantes,

n−1/2Z>MX u. (11.63)

Si E(uu>) = σ2 I, la matrice de covariance asymptotique de ce vecteur est

σ2 plimn→∞

(1−n

Z>MXZ). (11.64)

Puisque (11.62) est une forme quadratique du vecteur (11.63), mais egalementune quantite qui donne une estimation convergente de sa matrice de cova-riance, il est aise de voir qu’elle aura une distribution asymptotique du χ2(r)sous l’hypothese nulle.

Considerons a present ce qu’il advient en presence d’heteroscedasticite.En particulier, supposons que

E(uu>) = Ω, (11.65)

ou Ω est une matrice diagonale dont les elements diagonaux sont des ω2t qui

satisfont la conditionω2

min < ω2t < ω2

max ∀t,ou ω2

min et ω2max sont des bornes inferieure et superieure positives finies. Cette

condition elimine la possibilite d’une croissance ou d’une decroissance infiniesde ω2

t lorsque t → ∞. Il est evident que si nous n’avons aucune informationsur les ω2

t , il nous sera impossible d’en donner une estimation convergente,puisqu’il y aura un ω2

t a estimer pour chaque observation. Neanmoins, il restepossible d’obtenir des estimations convergentes de quantites telles que

plimn→∞

(1−n

W>ΩW), (11.66)

ou W est une matrice composee de n lignes qui satisfait la condition necessairea l’existence de (11.66). Le moyen le plus simple d’obtenir de telles estimationsest de faire usage de l’estimateur

1−n

W>ΩW,

ou Ω est une matrice diagonale dont l’element diagonal t est u2t . Ce resultat

fondamental est du a Eicker (1963, 1967) et White (1980). Il permet d’obtenirdes matrices de covariance estimees et des statistiques de test qui sont va-lables malgre une heteroscedasticite de forme inconnue. Nous demontreronsce resultat et discuterons des estimateurs de matrice de covariance robustesa l’heteroscedasticite, ou HCCME, au cours du Chapitre 16. Pour l’instant,

Page 31: Ch11 Tests Basés Sur La régression de Gauss-Newton

424 Tests Bases sur la Regression de Gauss-Newton

nous en faisons seulement un usage pour construire des statistiques de testbasees sur une regression artificielle.

Si la matrice de covariance de u est donnee par (11.65), la matrice decovariance asymptotique du vecteur (11.63) sera

plimn→∞

(1−n

Z>MXΩMXZ). (11.67)

Grace au resultat d’Eicker et White, on peut l’estimer de facon convergentepar

1−n

Z>MXΩMXZ = 1−n

Z>MXUUMXZ,

ou U est une matrice diagonale de dimension n × n avec ut comme t ieme

element diagonal. Par consequent, la statistique de test

u>MXZ(Z>MXUUMXZ

)−1Z>MX u

= ι>UMXZ(Z>MXUUMXZ

)−1Z>MXU>ι,

(11.68)

ou, comme d’habitude, ι est un vecteur dont chaque composante egale 1,doit etre asymptotiquement distribuee selon le χ2(r) sous l’hypothese nulle.On peut calculer la valeur de cette statistique comme la somme des carresexpliques de la regression artificielle

ι = UMXZc + residus, (11.69)

c’est-a-dire n moins sa SSR. Nous nous refererons a cette regression en tantque regression de Gauss-Newton robuste a l’heteroscedasticite, ou HRGNR,puisque la statistique de test (11.68) est une statistique de test robuste al’heteroscedasticite.

Bien evidemment, personne ne calcule en realite la matrice U dans la pra-tique, dans le but d’executer une HRGNR. Au lieu de cela, on peut procedercomme suit:(i) Regresser chaque colonne de Z sur X et conserver la matrice des residus

MXZ.(ii) Multiplier l’element t de chaque vecteur de residus par ut.(iii) Regresser le vecteur ι sur les r regresseurs crees en (ii). Cela correspond

a la regression (11.69).(iv) Calculer la statistique de test, n − SSR. Elle sera asymptotiquement

distribuee selon une loi du χ2(r) sous H0.Il se revele donc etre remarquablement simple de calculer un test robuste al’heteroscedasticite que l’on peut employer dans les memes circonstances queles statistiques de test basees sur la GNR. Pour plus de precisions, consul-ter Davidson et MacKinnon (1985b), Wooldridge (1990a, 1990b, 1991a), et

Page 32: Ch11 Tests Basés Sur La régression de Gauss-Newton

Termes et Concepts 425

MacKinnon (1992). Nous discuterons de la HRGNR plus amplement dans leChapitre 16.

On devrait mettre l’accent, bien sur, sur le fait que les resultats theoriquessur lesquels la statistique de test (11.68) repose ne sont vrais qu’asymptotique-ment. Bien que cela reste valable egalement pour les statistiques de test baseessur la GNR, il est presque certainement plus difficile d’estimer la matrice decovariance (11.67) que la matrice de covariance (11.64). Ainsi il faut s’attendrea ce que les tests robustes a l’heteroscedasticite se comportent moins bien queles tests ordinaires, avec un echantillon fini. Cependant, il y a quelques preuvesque les tests bases sur la HRGNR tendent a rejeter l’hypothese nulle trop peusouvent, en particulier avec le niveau d’erreur de premiere espece 0.01; voirDavidson et MacKinnon (1985b).

Dans la pratique, il est sage d’utiliser des tests bases a la fois sur laGNR et sur la HRGNR. Si des tests contre la meme hypothese alternativeproduisent des resultats similaires, on peut surement leur faire confiance. Sice n’est pas le cas, on desirera sans doute tester, et peut-etre transformer lemodele pour en tenir compte, des formes plausibles de l’heteroscedasticite. Onne devrait jamais avoir confiance en des tests bases sur la GNR si la HRGNRproduit des resultats vraiment differents.

11.7 Conclusion

Au cours de ce chapitre, comme dans les Chapitres 6 et 10, nous avons vu quela regression de Gauss-Newton et sa variante robuste a l’heteroscedasticiteoffrent des moyens tres simples de tester un grand nombre d’aspects de laspecification d’un modele pour les modeles de regression. Cependant, nousn’avons rien dit sur la maniere d’interpreter les resultats de ces tests et d’autrestests de specification. C’est le sujet du prochain chapitre.

Termes et Concepts

changement de regimeemboıtement artificielestimateur de la matrice de covariance

robuste a l’heteroscedasticite(HCCME)

fonction scedastiquematrices des differencesmodeles emboıtesmodeles non emboıtesproduit directregression de Gauss-Newton robuste a

l’heteroscedasticite (HRGNR)selection de modele

test de Chowtest de specification de la

differentiationtest en Jtest en JA test en Ptest en PA test robuste a

l’heteroscedasticitetests d’heteroscedasticitetests d’hypotheses non emboıteestests DWHvariables instrumentales (IV) (tests de

modeles estimes par)vecteur de contraste