Econometrics
description
Transcript of Econometrics
-
INGE 1221
CONOMTRIE
Christian M. Hafner
Louvain Shool of Statistis, Biostatistis, and Atuarial Sienes
Universit atholique de Louvain
Louvain-la-Neuve
Belgique
Anne aadmique 2014/15
-
Chapitre 1
Le modle de rgression linaire
La rgression linaire modlise l'esprane onditionnelle de la variable
dpendante Y par rapport une ou plusieurs variables expliatives notesX1, . . . , XK . Pour le as d'une seule variable expliative, on parle de la r-gression linaire simple, tandis que le as de plusieurs variables expliatives
est appel la rgression linaire multiple.
1.1 Introdution et dnition gnrale
La plupart des problmes onomiques font intervenir plusieurs variables
expliatives an d'expliquer le omportement moyen de la variable dpen-
dante Y . On est don amen tudier le modle pour l'esprane ondition-nelle
E(Y |X1, X2, . . . , XK) = 1X1 + . . .+ KXK (1.1)Les variablesX1, X2, . . . , XK reprsentent K variables expliatives direnteset, nouveau, nous avons suppos ii que l'esprane onditionnelle de Ypossde une forme trs partiulire donne par une ombinaison linaire des
paramtres 1, . . . , K .Notons que, pour des raisons de notation qui failiteront la suite du syl-
labus, le modle (1.1) ne ontient plus de terme onstant. Si nous souhaitons
modliser un terme onstant dans la rgression, il faut alors supposer que
l'une des variables expliatives est onstante. Dans e as, nous onsidrons
que X1 = 1 et le modle devient
E(Y |X1, X2, . . . , XK) = 1 + 2X2 + . . .+ KXK .
Exemple
-
INGE1221 1.1 Introdution et dnition gnrale 2
Un exemple traditionnel en onomie est l'tude de la relation entre la onsom-
mation des mnages (variable dpendante) et des variables expliatives omme,
par exemple, leur revenu orrespondant. Si Y reprsente la onsommation desmnages, un modle possible est donn par
E (Y |X2, X3, X4) = 1 + 2X2 + 3X3 + 4X4 (1.2)o X2 reprsente le revenu des mnages, X3 est la taille de la famille et X4pourrait tre le patrimoine nanier du mnage. Pour trouver une forme ex-
pliative pertinente, on peut se fonder sur la thorie onomique. Cependant,
mme ave une trs bonne intuition onomique, il y a bien souvent plusieurs
hoix possibles et nous ne sommes pas ertains, en ajoutant une nouvelle va-
riable X5, si nous gagnons eetivement quelque hose dans la modlisationde l'esprane onditionnelle. Ce hapitre ore une rponse quantitative e
type de problme.
Exemple
Un autre exemple est donn par l'tude du lien pouvant exister entre le
salaire d'un individu (variable dpendante) et son niveau d'tudes (variable
expliative). Ce dernier exemple est illustr la gure 1.1, dans laquelle on
reprsente un hantillon de 1289 individus pour lesquels ont t relevs le
niveau d'duation, mesur en nombre d'annes de solarit, et le salaire,
mesur en dollars par heure
1
. Dans ette gure, nous avons pla la variable
d'duation en absisse et la variable de salaire en ordonne. Chaque point
de ette gure orrespond don un travailleur pour lequel ont t mesures
es deux variables.
Cet hantillon peut bien entendu tre utile pour vrier empiriquement
s'il existe une relation entre les deux variables en prsene, duation et
revenu. Plusieurs observations doulent de ette gure. Tout d'abord, la
variabilit des salaires n'est pas identique pour tous les niveaux d'duation.
D'autre part, les plus hauts salaires semblent rservs aux individus ayant un
niveau d'duation lev (16 annes d'duation).
En appliquant des transformations sur les variables en prsene, on peut
avoir une toute autre vision de la liaison pouvant exister entre es variables.
A titre d'exemple, la Figure 1.2 reprsente les mmes donnes, mais sur une
autre helle. La gure 1.2(a) reprsente le logarithme du revenu en fontion
de l'duation. La gure 1.2(b) reprsente le logarithme du revenu en fon-
tion du arr de l'duation. Ces gures montrent qu'il serait aussi pertinent
d'analyser le modle linaire
E (Y |X1, X2) = 1 + 2X2 + 3X3dans lequel Y reprsente le logarithme du revenu (log(Re)), X2 est la variableduation (Ed) et X3 est le arr de l'duation (Ed
2). Un modle possibleest don donn par
E(log(Re)|Ed,Ed2) = 1 + 2Ed+ 3Ed2 . (1.3)
1. Soure : Current Population Survey of the U. S. Census Bureau (Mars 1995) et Ruud
(2000).
-
INGE1221 1.1 Introdution et dnition gnrale 3
0 5 10 15 20
010
2030
4050
60
Niveau deducation
Sala
ire (p
ar he
ure)
Figure 1.1: Graphique du nombre d'annes d'tudes de 1289
individus en fontion de leur revenu en dollars amriains. Les
erles vides reprsentent les moyennes onditionnelles.
Dans e dernier exemple, il est important de remarquer que la linarit
du modle fait rfrene une linarit de l'esprane onditionnelle par
rapport aux paramtres i et non par rapport aux variables exognes Xi. Unedisussion plus ne sur l'impliation de la non linarit des variables exognes
est propose dans la setion 1.3 de e hapitre.
Dans la suite, nous utiliserons une riture simplie du modle multiple
en reourant aux notations vetorielles et matriielles. Notons
X =
X1
X2.
.
.
XK
et =
1
2.
.
.
K
les veteurs de variables exognes et des paramtres respetivement. Ave es
onventions, le modle multiple s'rit sous forme abrge
E(Y |X) = X
-
INGE1221 1.1 Introdution et dnition gnrale 4
0 5 10 15 20
01
23
4
Niveau deducation
Log d
u sala
ire ho
raire
(a) Log du salaire en fontion du niveau
d'duation
0 100 200 300 400
01
23
4
Carr du niveau deducationLo
g du s
alaire
horai
re(b) Log du salaire en fontion du arr
du niveau d'duation
Figure 1.2: Eet de la transformation des variables niveau
d'duation et revenu pour les 1289 individus de l'han-
tillon. Les erles reprsentent ii enore les moyennes ondition-
nelles.
o il est sous-entendu par le ontexte que X et sont des veteurs olonnesde dimension K.
Ce modle de population peut s'rire sous la forme d'un modle ave
erreur. En dnissant := Y E(Y |X), nous pouvons rire
Y = X +
en supposant l'hypothse d'exognit strite E(|X) = 0.Ii enore, le modle d'hantillonnage pour l'observation des variables Y
et X est suppos alatoire simple (ou iid). L'hantillon onsiste don en desreprodutions indpendantes de variables alatoires
(Yi, Xi)
o
X i =
X1i
X2i.
.
.
XKi
-
INGE1221 1.1 Introdution et dnition gnrale 5
est le veteur olonne des variables expliatives de l'individu i. Le modlelinaire sur l'hantillon s'rit don
Yi = 1X1i + 2X2i + . . .+ KXKi + i
pour tout individu i = 1, . . . , n. En utilisant nouveau une notation veto-rielle, on peut rire
Y1
Y2.
.
.
Yn
=
X11 X21 XK1X12 X22 XK2.
.
.
.
.
.
.
.
.
.
.
.
X1n X2n XKn
1
2.
.
.
K
+
1
2.
.
.
n
ou, de faon quivalente,
Y =X +
o Y reprsente le veteur d'observations n 1, X = (X1, . . . , Xn) est unematrie alatoire nK d'observation des variables exognes, est le veteurde paramtres K 1 et est le veteur d'erreurs n 1.
Nous pouvons prsent donner la dnition gnrale du modle de r-
gression linaire multiple.
Definition 1.1. L'hantillon iid (Yi, Xi), i = 1, . . . , n suit un modle dergression linaire multiple si les onditions suivantes sont respetes pour
tout i :
(RLM1) Il existe K oeients rels 1, . . . K tels que
Y =X + ,
(RLM2) Les variables sont telles que E(|X) = 0.(RLM3) Le rang de la matrie X est K ave une probabilit gale 1.
De plus,
(RLM4) Ce modle est variane onditionnelle homosdastique s'il existe
un nombre rel stritement positif tel que Var(|X) = 2In, o Inreprsente la matrie identit n n.
La ondition (RLM2) utilise la onvention que 0 reprsente un veteur n1 de nombres nuls. Elle reprsente l'hypothse d'exognit strite impliquantune struture stohastique trs partiulire de l'erreur. En partiulier, ette
hypothse implique :
E() = 0 et Cov(X i, i) = 0 .
-
INGE1221 1.1 Introdution et dnition gnrale 6
Elle entrane galement une absene de orrlation onditionnelle des erreurs :
Cov(ij |X) = 0 pour tout i 6= j.La dmonstration de ette dernire proprit est laisse titre d'exerie
utile.
La ondition (RLM3) s'appelle absene de olinarit (ou de multioli-
narit) et nessite des expliations. Rappelons qu'en algbre, le rang d'une
matrie est gal au nombre de olonnes linairement indpendantes de la ma-
trie. La ondition de la dnition exprime don qu'auune des K olonnesde la matrie X ne peut tre exprime omme une ombinaison linaire des
autres olonnes deX. Comme ette matrie est alatoire, la dnition prise
que ette ontrainte est respete ave une probabilit gale 1.
An de omprendre la raison pour laquelle nous imposons la ondition
(RLM3), prenons un exemple.
Exemple
Considrons le modle linaire
Y = 0 + 1X1 + 2X2 + .
Supposons que la variable X2 puisse s'rire omme la ombinaison linaired'autres variables du modle, par exemple X2 = 1 + 2X1. Dans e as,si l'on remplae X2 dans le modle de rgression par 1 + 2X1, on trouve(aprs aluls)
Y = 0 + 1X1 +
o 0 = 0+12 et 1 = 1+22. Ce dernier systme ontient deux para-
mtres 0 et 1 pouvant tre estims par OLS. partir de es estimateurs,
on souhaite trouver des estimateurs des paramtres 0, 1, 2 dans le modleinitial. On voit don ii le problme qui se pose, ar les valeurs de 0 et
1
ne permettent pas de dduire les valeurs de 0, 1 et 2 sans ambiguit (aril faut rsoudre un systme indtermin de deux quations linaires trois
inonnues !).
On voit dans et exemple que la prsene d'une olinarit dans le mo-
dle ne permet pas d'interprter sans ambiguit les paramtres du modlede rgression linaire. On dit alors que ette ondition onstitue une ondi-
tion d'identiation du modle. Cependant, il existe des situations pratiques
dans lesquelles une olinarit struturelle n'est pas aussi vidente que dans
l'exemple prsent. Des variables expliatives peuvent tre prohes de la oli-
narit dans l'hantillon tudi. Ce as de gure sera trait dans le hapitre
suivant.
Remarquons enn que la ondition (RLM3) implique que n > K, 'est--dire que la taille de l'hantillon est suprieure au nombre de rgresseurs.
-
INGE1221 1.2 Estimation par moindres arrs 7
La dernire ondition de la dnition, (RLM4), gnralise le onept d'er-
reur homosdastique au as de la rgression multiple. Dans ette dnition,
I reprsente la matrie identit n n.
1.2 Estimation des paramtres par moindres
arrs
1.2.1 Drivation des estimateurs
Supposons que l'on observe un hantillon (Y1, X1), . . . (Yn, Xn) de taillen. Pour haque valeur possible du paramtre , on dnit les rsidus de largression linaire par le veteur n 1
e() := Y X .
La somme des rsidus au arr (RSS) est dans e as
RSS() := e()e()
= (Y X)(Y X) .
Le prinipe des moindres arrs hoisit le veteur minimisant la fontionRSS :
= argminRSS() .
L'ide qui sous-tend la onstrution de et estimateur est de trouver la
valeur des paramtres qui livrent le plus petit rsidu possible pour les observa-
tions donnes. La proposition suivante drive es estimateurs expliitement.
Proposition 1.1. L'estimateur par moindres arrs de dans le modlede rgression linaire multiple est
= (X X)1X Y .
Dmonstration. An de rsoudre e problme de minimisation, l'ide la plus
simple onsiste mettre zro les premires drives partielle de la fontion
RSS() par rapport haune de ses variables i. En utilisant la notationvetorielle usuelle
RSS() :=(
1RSS(), . . . ,
KRSS()
),
-
INGE1221 1.2 Estimation par moindres arrs 8
la preuve onsiste don rsoudre RSS() = 0. Cette rsolution est fai-lite si l'on rrit la fontion RSS() de la faon suivante :
RSS() = (Y X)(Y X)= (Y X )(Y X) (ar (X) = X )= Y Y X Y Y X + X X= Y Y 2Y X + X X (ar X Y est un salaire,
don gal son transpos)
= Y Y 2a + A (o a :=X Y et A :=X X)
Le terme Y Y ne dpendant pas du paramtre , il peut tre ignor dans ladirentiation de RSS(). On vrie failement que
(a) = a et ( A) = 2A si A est symtrique.Par onsquent, RSS() = 2a+2A. En mettant ette quation zro,et en remplaant a et A par leur dnition, nous trouvons
XX =X Y . (1.4)
Cette dernire identit est une galit entre K quations qui sont appelesles quations normales de problme de minimisation. L'estimateur OLS de
la proposition se dduit immdiatement de e systme d'quations. Il faut
ependant enore s'assurer que la solution propose est bien le minimum de
la fontion RSS() et non pas un maximum. Cette ondition se vrie enmontrant que la matrie Hessienne
2
de la fontion RSS est dnie positive.Puisque nous avons driv RSS() = 2a+2A, la Hessienne de RSS()est 2A = 2X X et est don bien dnie positive par la ondition (RLM3)de la dnition
3
. La proposition est don dmontre.
L'estimateur OLS nessite l'inversion de la matrieX X. Ainsi que nousl'avons argument dans la dmonstration i-dessus, une onsquene de l'ab-
sene de olinarit (ondition (RLM3) de la dnition du modle de rgres-
sion linaire), ette matrie est dnie positive et don inversible. On voit
ainsi que l'absene de olinarit est galement importante pour garantir une
inversion stable de la matrie X X, et don pour obtenir des estimateurs de.
2. Pour rappel, la matrie Hessienne de la fontion 7 RSS() est la matrie K Kdont l'lment (i, j) est gal 2RSS()/ij
3. Exerie utile.
-
INGE1221 1.2 Estimation par moindres arrs 9
L'estimateur OLS de la variane onditionnelle 2 s'obtient partir desrsidus aprs estimation
e := Y X (1.5)et de la somme des rsidus arrs aprs estimation
RSS = ee .
Cet estimateur est donn par
2 :=RSS
nK =ee
nK . (1.6)
La division par n K provient du alul de l'esprane de l'estimateurqui sera ralis i-dessous. Cette normalisation par nK est elle qui permetd'obtenir un estimateur sans biais pour 2. Remarquons que ette dnitionutilise que n > K ainsi que nous l'avons driv de la ondition (RLM3).
Le nombre n K est parfois appel le degr de libert. La raison estdonne par la proprit d'orthogonalit suivante : On peut montrer que les
rsidus aprs estimation par OLS des paramtres sont tels que
Xe = 0 ,
e qui peut enore s'rire
ni=1
X iei = 0 ouni=1
Xkiei = 0 pour tout k = 1, . . . , K.
La demonstration de ette proprit est laisse titre d'exerie. On voit
dans e rsultat que le veteur des rsidus e est orthogonal l'hantillon(Xk1, . . . , Xkn) de haune des variables expliatives Xk. Cette propritmontre galement que tout veteur de rsidus e doit obir es K ontrainteslinaires. Tout veteur de taille n n'est don pas un veteur de rsidus va-lable en e sens qu'il doit se ontraindre es K onditions. C'est pourquoil'on dit que e veteur possde nK degrs de libert (la taille n laquelleon soustrait le nombre de ontraintes linaires que le veteur doit subir).
1.2.2 Esprane et variane des estimateurs
Les estimateurs que nous avons dnis possdent des proprits impor-
tantes en terme de biais et variane. Nous montrons dans la proposition
suivante que l'estimateur est sans biais, et nous alulons sa variane.
-
INGE1221 1.2 Estimation par moindres arrs 10
Proposition 1.2. L'estimateur par moindres arrs de dans le modlede rgression linaire multiple est tel que
E(|X) =
et
Var(|X) = 2(X X)1 .
Dmonstration. Nous pouvons tout d'abord rrire l'estimateur ommesuit :
= (X X)1X Y
= (X X)1X (X + ) (par dnition du modle)
= + (X X)1X (ar (X X)1X X = I) (1.7)
L'esprane onditionnelle de l'estimateur est don
E(|X) = E(|X) + E((X X)1X |X)= + (X X)1X E(|X)= (hypothse d'exognit strite)
e qui montre que l'estimateur est sans biais. Pour la variane, nous alulons
diretement
Var(|X) = E( |X) (ar est sans biais pour )= E(AA|X) (Par (1.7), exognit strite,
et en posant A := (X X)1X )
= AE(|X)A= 2AA (par (RLM4))
Le rsultat nal s'obtient en observant queAA = (X X)1X X(X X)1 =(X X)1.
La variane des estimateurs est don
diretement proportionnelle 2, la variane du terme d'erreur dumodle,
inversment proportionnelle la dispersion des variables expliatives, inversment proportionnelle la taille de l'hantillon n.
-
INGE1221 1.2 Estimation par moindres arrs 11
L'estimateur de la variane onditionnelle dni plus haut est galement
un estimateur sans biais pour 2, ainsi que montr dans la proposition sui-vante.
Proposition 1.3. L'estimateur par moindres arrs 2 de 2 dans le modlede rgression linaire multiple est tel que
E(2|X) = 2 .Dmonstration. Remarquons tout d'abord que la proposition revient mon-
trer E(ee) = (nK)2. Par dnition de e, on peut riree = Y X(X X)1X Y=[I X(X X)1X ]Y
= (I P )Y (ave P :=X(X X)1X ).La matrie P est la matrie de projetion sur l'espae vetoriel engendr
par les olonnes de X (Pour le vrier, il faut montrer que ette matrie
symtrique est telle que PX =X). On a don
ee = (I P )Y 2o x2 reprsente la norme eulidienne du veteur x. En utilisant la dni-tion du modle linaire, on vrie en utilisant la dnition de P que
(I P )Y = (I P )(X + )= (I P )
et (I P )2 = (I P ) ar P est une matrie de projetion. Finalement, onpeut rrire ee omme
ee = (I P ) .La preuve s'ahve en deux tapes : on montre tout d'abord que E((I P )|X) = 2tr(IP ) o tr() est la trae d'une matrie. On montre ensuiteque tr(I P ) = nK.
Montrons tout d'abord E((I P )|X) = 2tr(I P ). Si mij repr-sente l'lment (i, j) de la matrie I P , nous pouvons dvelopper la formequadratique (I P ) pour obtenir :
E((I P )|X)
=ni=1
nj=1
mijE(ij |X) (ar les mij sont des fontions de X)
=
ni=1
mii2
(par hypothse d'exognit strite)
= 2tr(I P )
-
INGE1221 1.2 Estimation par moindres arrs 12
Calulons prsent ette trae. En utilisant que la trae est une fontion
linaire, on a
tr(I P ) = tr(I) tr(P ) = n tr(P )et
tr(P ) = tr [X(X X)X ] (par dnition de P )
= tr [(X X)X X] (ar tr(AB) = tr(BA))
= tr(IK) = K (o IK est la matrie identit K K)
e qui montre que tr(I P ) = nK.
1.2.3 Le thorme de Gauss-Markov
Ce thorme fournit un rsultat d'optimalit de l'estimateur OLS que
nous allons expliquer i-dessous. Nous nonons tout d'abord e rsultat.
Theorem 1.1. L'estimateur de moindres arrs est eae dans la lasse
des estimateurs linaires non biaiss. Cela signie que, pour tout estimateur
linaire non biais du veteur de paramtres , la matrie
Var(|X) Var(|X) o est l'estimateur OLSest semi-dnie positive
4
.
La dmonstration ette proposition peut se trouver, par exemple, dans
Hayashi (2000) (hapitre 1).
Tout d'abord, si la matrie Var(|X) Var(|X) est semi-dnie posi-tive, nous pouvons rire, pour tout veteur x de dimension K :
xVar(|X)x > xVar(|X)xEn partiulier, on peut hoisir le veteur
x = (0, 0, . . . , 0, 1, 0, 0, . . . , 0)
o le 1 apparat l'lment k du veteur. Pour e hoix partiulier dex, la forme quadratique xAx se rduit l'lment (k, k) de la matrie A.L'lment (k, k) de la matrie Var(|X) tant gal la variane du oeientk, Var(k|X), on voit don que le thorme de Gauss-Markov implique que
Var(k|X) > Var(k|X) pour tout k = 1, 2, . . . , K .4. Rappelons qu'une matrie A est semi-dnie positive si xAx > 0 pour tout veteur
x de dimension K.
-
INGE1221 1.3 Eet marginal et lastiit 13
Ce raisonnement montre que, pour tout oeient de la rgression, l'estima-
teur OLS n'a jamais une variane plus grande que la variane de tout autre
estimateur linaire sans biais.
Remarquons que e thorme n'none pas que l'estimateur OLS a une
plus petite variane que n'importe quel autre estimateur. Ce thorme ne
ompare l'estimateur OLS qu'ave tous les estimateurs linaires en Y etsans biais. Pour ette raison, on dit parfois que et estimateur est BLUE (de
l'anglais Best Linear Unbiased Estimator).
1.3 Forme fontionnelle, eet marginal et las-
tiit
Nous avons remarqu que l'hypothse d'exognit strite E(|X) nouspermet d'interprter la rgression omme un modle linaire sur l'esprane
onditionnelle :
E(Y |X) = 1X1 + 2X2 + . . .+ KXK .Cette ondition est en ralit une hypothse entrale permettant d'interpr-
ter les oeients du modle de rgression. Ainsi, le oeient k mesurele hangement espr dans la variable Y si la variable Xk hange et que lesautres variables expliatives demeurent inhanges. Cei s'exprime math-
matiquement par la drive partielle
E(Y |X)Xk
= k
appele eet marginal de la variable Xk.
Exemple
Dans le modle de onsommation donn au dbut de e hapitre, quation
(1.2), 2 reprsente l'eet marginal du revenu du mnage sur la onsomma-tion. Dans e modle, un a
roissement de 200 euros du revenu du mnage
implique don un a
roissement de 2002 euros dans l'esprane ondition-nelle des dpenses de onsommation.
Dans ette drive partielle, il est important de noter que les variables
autres que Xk sont onsidres omme des onstantes. Cette ondition estparfois appele eteris paribus
5
. Or, il n'est pas toujours pertinent de main-
tenir onstantes les autres variables du modle, ainsi que le montre l'exemple
suivant.
5. Toutes hoses gales par ailleurs.
-
INGE1221 1.4 Estimation d'intervalles 14
Exemple
Dans le modle revenu-duation (1.3), il n'est pas possible faire varier la
variable Ed sans faire varier la variable Ed2. Dans e modle,
E(Re|Ed,Ed2)Ed
= 2 + 23Ed .
L'eet marginal de l'duation sur le revenu n'est don pas onstant mais
dpend linairement de l'duation.
Ce dernier exemple montre don que l'eet marginal dpend de la forme
fontionnelle du modle que nous tudions. Mais, dans tous les as, l'eet
marginal reprsente l'eet de l'a
roissement d'une unit de la variable Xksur la valeur attendue E(Y |X).
Dans bien des situations, il est pourtant plus intuitif de travailler ave une
mesure relative plutt qu'une mesure absolue. C'est la raison pour laquelle
on s'intresse plus souvent aux lastiits que nous allons maintenant dnir,
plutt qu'aux eets marginaux.
L'lastiit par rapport la variableXk est la variation relative de E(Y |X)mesure suite une variation en pourentage d'une variable expliative.
L'lastiit s'rit mathmatiquement
k :=E(Y |X)Xk
XkE(Y |X) .
L'lastiit prend une forme simple dans les modles linaires dont les
variables sont prises en logarithme. Considrons le modle
E(log Y |X) = log(X)o log(X) est un abus de notation pour rprsenter le veteur
(logX1, logX2, . . . , logXK).
Dans e modle on alule (exerie faile) failement l'lastiit k :
k = k .
En d'autres termes, l'lastiit est ii onstante et xe par les oeients
du modle.
1.4 Estimation d'intervalles dans le modle Nor-
mal
L'estimation d'intervalles dans le modle linaire, ou la onstrution de
tests d'hypothses sur les oeients de la rgression passent ii enore par
-
INGE1221 1.4 Estimation d'intervalles 15
une dnition plus strite du modle de rgression linaire dans laquelle une
hypothse de distribution est formule sur l'erreur .
Definition 1.2. L'hantillon iid (Yi, Xi), i = 1, . . . , n suit un modle dergression linaire multiple Normal si les onditions suivantes sont respetes
pour tout i :
(RLM1) Il existe un veteur = (1, . . . K)de dimension K tel que
Y =X + ,
(RLM3) Le rang de la matrie X est K ave une probabilit gale 1,
(RLM5) |X N (0, 2I).La ondition (RLM5) implique en partiulier l'hypothse d'exognit
strite (RLM2) et l'hypothse de variane homosdastique (RLM4).
Cette dnition permet d'rire la distribution d'hantillonnage de l'es-
timateur .
Proposition 1.4. Dans le modle de rgression linaire multiple Normal,
l'estimateur OLS est tel que
|X N (0, 2(X X)1)et l'estimateur de la variane est tel que
(nK) 2
2 2nK .
Cette proposition permet en partiulier de tester des hypothses sur les
oeients k. Considrons par exemple le test
H0 : k = b ontre H1 : k 6= b .o b est une valeur xe que le herheur souhaite tester sur le oeient bk(k est x). Une statistique de test valide pour e test est donne par
T =k b
2 ((X X)1)kkEn eet, la dernire proposition permet de trouver la distribution de T sil'hypothse H0 est vraie :
T |X tnK .On peut onstruire un intervalle de onane pour l'estimateur k au
niveau . Celui-i est donn par[k t(/2)nK
2 ((X X)1)kk; k + t
(/2)nK
2 ((X X)1)kk
].
o t(/2)nK reprsente le quantile /2 de la loi de Student tnK .
-
INGE1221 1.5 Outils d'ajustement 16
1.5 Outils d'ajustement
Une fois qu'un modle onomtrique a t onstruit et que ses paramtres
ont t estims, une tape importante de la modlisation onsiste vrier
si le modle nal s'ajuste orretement aux donnes observes. Pour mesu-
rer la qualit de et ajustement, l'ide est de vrier si le modle explique
susament bien la variabilit de la variable dpendante Y .Intuitivement, une droite de rgression s'ajuste bien aux donnes lorsque
les rsidus aprs estimation dnis i-dessus sont ngligeables. Il s'agit pr-
isment de l'ide qui a prsid la onstrution des estimateurs OLS. la
limite, un ajustement parfait serait aratris par la situation dans laquelle
les observations se trouvent exatement sur la droite de rgression estime.
En pratique, on tente de vrier partir des rsidus si les observations se
trouvent le plus prs possible de ette droite. Si e n'est pas la as, on dit
que le modle n'a pas expliqu toute la variabilit de la variable dpendante,
et on peut mettre des doutes sur la validit du modle ajust aux donnes.
Rappelons la onstrution des rsidus aprs estimation
ei = Yi Yi pour i = 1, . . . , nave la onvention
Yi :=Xi pour i = 1, . . . , n .
Yi reprsente la prdition ralise par le modle ajust.Une mesure de la variabilit de Yi est donne par la somme du arr
de la direne entre Yi et sa moyenne empirique Y n. Ave les notationsprdentes et un peu d'algbre, on peut rire
Variabilit de Yi =
ni=1
[Yi Y n
]2=
ni=1
[(Yi Y n) + ei
]2=
ni=1
(Yi Y n)2 +ni=1
e2i + 2
ni=1
(Yi Y n)ei
=
ni=1
(Yi Y n)2 +ni=1
e2i (1.8)
La dernire galit utilise la proprit
ni=1
(Yi Y n)ei = 0
-
INGE1221 1.5 Outils d'ajustement 17
dont la dmonstration est laisse titre d'exerie utile (en s'aidant par
exemple des quations normales).
La domposition (1.8) s'interprte de la faon suivante :
La sommeni=1(YiY n)2 mesure la variabilit totale de l'hantillonYi autour de sa moyenne Y n.
La sommeni=1(Yi Y n)2 reprsente la variabilit de l'hantillon Yiexplique par le modle de rgression
La somme ni=1 e2i est la variabilit de Yi qui n'est pas explique parle modle de rgression.
Cette domposition permet don de mesurer si le modle ajust explique
susament bien la variabilit dans les donnes. En pratique, on travaille
ave une mesure relative donne par le rapport
R2 :=
ni=1(Yi Y n)2ni=1(Yi Y n)2
=Variabilit explique par le modle ajust
Variabilit de l'hantillon Yi
appel oeient de dtermination (ou simplement R2). Cet indie possdeles proprits suivantes :
R2 est toujours positif, R2 est born par 1, don : 0 6 R2 6 1 Sini=1 e2i = 0, alorsR2 = 1 (situation parfaite dans laquelle le modleajust explique toute la variabilit des donnes)
Si ni=1(Yi Y n)2 = 0, alors R2 = 0 (le modle n'explique rien enterme de variabilit de l'hantillon).
Ave es interprtations, on voit don que R2 mesure la qualit d'ajustementdu modle aux donnes. Il est alul par tous les programmes de statistique
ou d'onomtrie. Idalement un modle ajust doit avoir un R2 aussi levque possible, mais nous verrons plus loin qu'il ne s'agit pas du ritre unique
pour juger de l'ajustement du modle.
Une diult du oeient R2 dans le modle multiple est que e oef-ient augmente haque fois que l'on ajoute une variable expliative dans le
modle. L'exemple suivant drit ette situation.
Exemple
-
INGE1221 1.5 Outils d'ajustement 18
Dans le modle de salaire trait plus haut, supponsons que nous avons notre
disposition les variables expliatives de niveau d'duation (Ed) et d'exp-riene (Ex). Ajustons su
essivement les modles suivants :
Modle 1 : E(logRe|Ed,Ex) = 1Modle 2 : E(logRe|Ed,Ex) = 1 + 2EdModle 3 : E(logRe|Ed,Ex) = 1 + 2Ed+ 3ExModle 4 : E(logRe|Ed,Ex) = 1 + 2Ed+ 3Ex+ 4(Ex)2
Pour haun de es modles, nous rsumons les rsultats de l'estimation dans
la table suivante :
Coeients estims
Const. 2.34 1.12 0.71 0.58
Ed 0.93 0.10 0.10
Ex 0.01 0.04
(Ex)2 0.00
SSR 442.1 354.0 319.9 307.0
R2 0.20 0.28 0.31
R2
0.19 0.27 0.26
Table 1.1: Estimation OLS dans plusieurs modles embots
pour la variable dpendent logarithme du salaire (logRe).SSR est l'estimateur de
e2i .
Cette table montre que le R2 rot haque ajout de variable dans lemodle. Il n'est ependant pas ertain que les variables ainsi ajoutes soient
pertinentes, ou apportent une expliation signiative de la variabilit de
log(Re). Remarquons au passage que l'estimation des oeients est modied'un modle l'autre. Par exemple, l'estimateur de 2 dans le modle 2 n'estgnralement pas gal l'estimateur de e paramtre dans les modles 3 ou
4.
Le oeient de dtermination R2 augmente haque ajout d'une va-riable dans le modle, mais les variables ajoutes su
essivement ne sont pas
forment utiles pour expliquer la variabilit de la variable dpendente Y .Pour ette raison, les logiiels alulent souvent le oeient R2 ajust, not
R2, et dni par
R2:= 1
ni=1 e
2i /(nK)n
i=1(Yi Y n)2/(n 1).
Cette mesure ne rot pas forment quand on ajoute des variables dans le
modle, ar le nombre de variables K est pris en ompte dans le numrateur
-
INGE1221 1.6 Test de restrition 19
de la fration. Quand K augmente, 1/(n K) augmente et don R2 peutdiminuer, et ei dpend du omportement de e2i . Cette division par n Kpnalise don par la omplexit du modle onsidr.
Exemple
Dans la Table 1.1, le R2est galement indiqu.
1.6 Test de restrition
Nous avons vu plus haut omment il est possible d'eetuer un test sur
la valeur d'un oeient donn du modle de rgression multiple. Ce test se
base sur la distribution de l'estimateur OLS donne la Proposition 1.4.
Cependant, il est souvent nessaire de ontruire un test impliquant plu-
sieurs oeients du modle, ainsi que l'illustrent les exemples suivants. Par
exemple, au lieu de tester si un oeient est signiatif dans un modle de
rgression, on peut se demander si un ensemble de oeients est signia-
tif ou non. Ou bien : la demande d'un produit donn dpend-elle du prix
des biens de substitution ou seulement de son propre prix ? Ou enore : une
frontire de prodution possde-t-elle un rendement d'helle onstant ?
Toutes es questions peuvent tre plaes dans le adre de modles de
rgression multiple, et la question pose implique simultanment plusieurs
paramtres du modle.
1.6.1 Tester la signiation de plusieurs oeients
Une premire question que l'on peut onsidrer est omment tester si un
ensemble de J oeients est signiativement dirent de zro (J < K). Letest s'rit don
H0 : KJ+1 = . . . = K = 0 . (1.9)
L'alternative de e test est que H0 n'est pas vrai, 'est--dire qu'il existe aumoins un des oeients KJ+1, . . . , K qui ne soit pas nul :
H1 : k {K J + 1, . . . , K} tel que k 6= 0.
Pour eetuer e type de test sur plusieurs paramtres, on utilise l'ide
entrale suivante : on peut omparer les rsidus du modle omplet ('est--
dire ontenant K oeients estims) ave le modle restreint par H0 ('est--dire en ne onsidrant que KJ variables expliatives). Cette omparaison
-
INGE1221 1.6 Test de restrition 20
va se faire en pratique sur la somme des rsidus arrs aprs estimation dans
haun de es modles.
Notons RSS0 la somme des rsidus arrs aprs estimation dans le mo-dle restreint sous H0 et notons RSS1 la somme orrespondante dans le mo-dle omplet ('est--dire en utilisant les K variables expliatives). Si l'hy-
pothse nulle est orrete, on s'attend e que RSS0 soit prohe de RSS1.Au ontraire, si es deux valeurs dirent fortement, on pourra mettre des
doutes sur l'hypothse H0.Sous les hypothse du modle Normal, on peut montrer
6
RSS0 RSS12
2J .Nous savons galement que
RSS12
2nKpar la Proposition 1.3 i-dessus. D'autre part, on peut aussi montrer que, sous
l'hypothse nulle, les variables alatoires RSS0 RSS1 et RSS1 sont indpen-dantes. En onsquene, il est naturel de onsidrer le quotient normalis de
es variables alatoires omme statistique de test :
T =
(RSS0 RSS1
)/J
RSS1/(nK)qui, sous l'hypothse nulle, possde une distribution de Fisher-Snedeor
7
F JnK .Comme rgle de rejet, on onsidre qu'une grande valeur de T mnera
au rejet du test d'hypothse, tandis qu'une valeur modre sera ompatible
ave H0. Si l'on xe le niveau de test , la valeur ritique de e test estdon fournie par le quantile de la distribution F JnK , 'est--dire le nombreF JnK; tel que
P(T > F JnK;) = .
1.6.2 Formulation gnrale du test de restrition
De trs nombreuses questions onomiques reviennent tester une hypo-
thse nulle du type
H0 : R = q
6. Exerie diile.
7. Pour un rappel sur la loi F pq , voir la Dnition 7.3, page 340, de Wakerly, Menden-hall III, and Sheaer (2002).
-
INGE1221 1.6 Test de restrition 21
o R est une matrie JK et q est un veteur olonne de longueur J . Cettematrie et e veteur sont xs par la question pose.
Par exemple, pour eetuer un test sur un seul oeient k, 'est--direpour eetuer le test simple H0 : k = b ; il sut de onsidrer
R = (0 . . . 0 1 0 . . . 0) et q = b
o le 1 apparat la kme olonne de R.Pour tester la signiativ d'un groupe de oeients, omme dans le test
(1.9), on pose
R =
0 0 1 0 0.
.
.
.
.
.
.
.
.
0 1 00 0 1
et q = 0Jo R possde J lignes et K olonnes et 0J est un veteur de zros de longueurJ .
Mais l'hypothse nulle H0 : R = q permet de tester bien d'autres res-tritions sur les paramtres. Elle permet par exemple de tester 2+3+ . . .+K = 1 qui pourrait orrespondre, par exemple, l'hypothse de rendementsd'helle onstants dans la fontion de prodution de Cobb-Douglas (dans le
as d'un modle linaire rit ave des logarithmes).
La onstrution du test se base sur la proposition suivante.
Proposition 1.5. Supposons le modle de rgression linaire multiple Nor-
mal. Sous l'hypothse nulle H0 : R = q, o R est une matrie J K derang J , la statistique
T =(R q) {R(X X)1R}1 (R q)/J
RSS1/(nK)
o est l'estimateur OLS, possde une distribution F JnK.
La preuve de ette proposition peut se trouver, par exemple, dans Hayashi
(2000) (hapitre 1, Proposition 1.4). L'utilisation pratique de e rsultat pour
les tests de restrition n'est pas aise ar le alul de la statistique de test Tnessite plusieurs inversions et multipliations de matries. Heureusement,
la mise en oeuvre du test de restrition est failite par la rriture possible
de T sous une forme plus diretement appliable.Comme dans la setion prdente, notons RSS0 la somme des rsidus
arrs aprs estimation dans le modle restreint sous H0 et notons RSS1
-
INGE1221 1.7 Utilisation de variables indiatries 22
la somme orrespondante dans le modle omplet. On peut montrer que Tprend exatement la mme forme que dans la setion prdente, 'est--dire
que, sous les hypothse du modle Normal, on a
T =
(RSS0 RSS1
)/J
RSS1/(nK) F JnK .
1.7 Utilisation de variables indiatries
1.7.1 Exemples
Une variable indiatrie
8
est une variable expliative partiulire ne pre-
nant que les valeurs 0 ou 1. Elles vont nous permettre de onstruire desmodles dans lesquels un ou plusieurs paramtres peuvent hanger pour er-
taines parties de l'hantillon. Cette variable est don typiquement utilise
lorsque nous intgrons dans le modle une variable expliative binaire, omme
par exemple la variable genre (homme ou femme), travailleur (tra-
vailleur ou sans emploi), et.
Exemple
Reprenons l'exemple du modle de rgression pour logarithme du salaire. Une
variable indiatrie peut tre utilise pour faire la distintion, par exemple,
entre les hommes et les femmes :
E(logRe|Ed,Ho) = 1 + 2Ed+ 3Hoo Ho prend la valeur 1 si l'individu onsidr est un homme, et 0 si 'estune femme. Ce modle s'rit sous une forme quivalente deux quations :
E(logRe|Ed,Ho) ={
(1 + 3) + 2Ed si Ho = 1
1 + 2Ed si Ho = 0
L'utilisation de variables indiatries dans le modle de rgression ne mo-
die pas la thorie d'estimation par moindres arrs ordinaires. En partiu-
lier, il est galement possible de onstruire un intervalle de onane pour le
paramtre de la (ou des) variable(s) indiatrie(s). Elles apportent nanmoins
une grande valeur ajoute en terme de modlisation (et de dision).
L'exemple suivant
9
illustre l'utilisation de variables indiatries dans la
dtetion de valeurs anormales.
8. Le terme anglais est dummy. En franais, on utilise galement les synonymes variable
muette ou variable auxiliaire.
9. Tir de Bourbonnais (2004).
-
INGE1221 1.7 Utilisation de variables indiatries 23
Exemple
Considrons le modle de prodution de servie du seteur du tourisme
Prt = 1 + 2V at + 3Pot + t
dans lequel Prt est la prodution du seteur pour l'anne t, V at est la valeurajoute du seteur pour l'anne t et Pot est la population pour l'anne t. Ons'intresse l'estimation de e modle entre 1975 et 1992, mais on s'interroge
sur la perturbation entrane par l'eet guerre du Golfe en 1991. Pour
rpondre ette question, on utilise la variable indiatrie Dt suivante :
Dt = 0 pour t = 1975 1990 et t = 1992
Dt = 1 pour t = 1991
L'estimation des oeients du modle donne
Estimated
Variable Coeffiient t-statisti
C 2340.4 4.5
Va 1.64218 2.2
Po 0.3 2.9
D -120.56 5.8
ave n = 18 et R2 = 0.65. L'eet guerre du Golfe a-t-elle une inuenesigniative sur la prodution du servie de e seteur ?
1.7.2 Test de Chow
Dans les exemples de la setion prdente, on voit que les variables in-
diatries modient la valeur du terme onstant de la rgression pour un
sous-ensemble de l'hantillon onsidr (relire par exemple l'utilisation de
l'inatrie Homme dans le modle de salaire i-dessus). Ces variables
peuvent galement tre utiles pour modliser un hangement dans tous les
paramtres du modle. On peut penser par exemple la situation o une par-
tie de l'hantillon ontient les hommes, une autre partie ontient les femmes
et, pour haun de es sous-hantillons, on onsidre le mme modle linaire
mais ave des oeients dirents.
Un autre exemple est donn par un modle de rgression valide pour une
priode de temps donne. On peut se demander, par exemple, si l'introdution
d'une mesure maroonomique un moment donn a modi les paramtres
de la rgression. Ce type de hangement dans les oeients de rgression
s'appelle un hangement struturel (ou rupture) dans le modle.
Nous montrons i-dessous que e type de question peut tre modlis
gre aux variables indiatries, et ensuite testes en utilisant un test F derestrition.
-
INGE1221 1.8 Multiolinarit 24
Considrons la variable indiatrie spiant dans quel sous-hantillonse trouve un individu donn (par exemple = 1 si l'individu est un homme).Une spiation possible du modle de hangement struturel onsiste
dnir
E(Y |X) = X + X . (1.10)
Ce modle spie que le veteur de oeients du group 0 est , tandisque le veteur de oeients du groupe 1 est + . Le test de hangementstruturel revient don tester les K restritions
H0 = = 0K .
Pour e faire, on utilise le test F expos la setion prdente. Dans le
ontexte des hangements struturels, e test s'appelle le test de Chow. Si
ontient K omposantes, le nombre de ontraintes sous H0 est J = K et lenombre de paramtres du modle non-ontraint est 2K. Par onsquent, letest s'rit
T =
(RSS0 RSS1
)/K
RSS1/(n 2K) FKn2K . (1.11)
Au lieu d'eetuer e test ave des variables indiatries, une manire plus
simple de tester la stabilit des paramtres est base sur une estimation s-
pare pour les deux sous-ensembles de l'hantillon, par exemple les hommes
et les femmes. Appelons les sommes des rsidus au arr de es deux rgres-
sions RSSH et RSSF et notons que RSSH + RSSF = RSS1. Une statistiquequivalente mais plus simple utiliser est alors obtenue en remplaant RSS1en (1.11) par RSSH + RSSF . Nanmoins, si l'on souhaite tester la stabilitnon pas de la totalit des paramtres mais d'un sous-ensemble, l'introdution
de variables indiatries est invitable.
1.8 Multiolinarit
La ondition (RLM3) du modle de rgression linaire multiple imposait
une absene de multiolinarit entre les variables expliatives. Cette hypo-
thse signie qu'auune des variables expliatives ne peut tre rite omme
une ombinaison linaire d'autres variables expliatives du modle.
Comme nous l'avons vu au hapitre 2, ette ondition s'tait impose
pour au moins deux raisons. La premire est lie l'identiation des para-
mtres, et la seonde l'estimateur OLS qui requiert l'inversion de la matrie
-
INGE1221 1.8 Multiolinarit 25
XX. L'hypothse d'absene de multiolinarit assure prisment que ette
matrie est de plein rang, don inversible.
Dans la pratique, une olinarit entre les variables expliatives est typi-
quement une erreur de modlisation. Par exemple, si l'onomtre inorpore
dans son modle une variable indiatrie Homme et une variable india-
trie Femme, il ause de la olinarit dans le modle. Dans e as de
gure, les logiiels ragissent diversement, soit en un message d'erreur, soit
en prenant l'initiative d'ter l'une des deux variables expliatives du modle.
Ce type de olinarit peut tre qualie de olinarit struturelle ar elle
provient du modle lui-mme.
Il peut ependant arriver qu'une quasi olinarit existe entre les va-
riables expliatives, sans que l'intuition ne l'ait identie au pralable. Cette
situation survient en partiulier dans les modles ave beauoup de variables
expliatives. Dans ette situation, il peut arriver qu'une variable expliative
puisse s'exprimer approximativement omme ombinaison linaire d'autres
variables. Ce type de olinarit peut tre qualie de olinarit d'han-
tillonnage ar elle provient des donnes et non du modle. Cette situation
est toujours approximative, dans le sens o il n'existe pas de olinarit par-
faite, exate entre les variables. On est parfois amen parler de degr de
olinarit pour exprimer es olinarits imparfaites.
Indies de multiolinarit
Il existe plusieurs indies pratiques et desriptifs lis la olinarit
d'hantillonnage.
1. Les estimateurs sont sensibles un petit hangement de spiation
du modle (l'ajout ou le retrait d'une variable provoque des grandes
variations dans les estimateurs) ;
2. Le signe des oeients estims est illogique ou non onsistant ;
3. Certains estimateurs ont une grande magnitude, mais des signes oppo-
ss.
Ces eets peuvent tre auss par une instabilit numrique dans l'inver-
sion de la matrie X X.
Le fateur d'ination de la variane
Le fateur d'ination de la variane mesure l'ination des varianes
des oeients estims par rapport la situation sans multiollinarit. Tout
d'abord nous avons le thorme suivant important.
-
INGE1221 1.8 Multiolinarit 26
Theorem 1.2.
Var(k) =2n
i=1(Xik Xk)21
1 R2k, k = 1, . . . , K
o R2k est le oeient de dtermination multiple d'une rgression de
Xk sur X1, . . . , Xk1, Xk+1, . . . , XK . La formule pour Var(k) ontient deuxfateurs qui sont failes interprter.
Regardons, par exemple, le as d'une rgression simple Y = 0+1X+,ave une variable expliative. La variane prend la forme bien onnue,
Var(1) =2n
i=1(Xi X)2.
En ajoutant des variables expliativesX2, . . . , XK , Thorme 1.2 nous montreque ette variane est modie par un deuxime fateur
11R2
1
qui dpend de
la orrlation entre X1 et les autres variables expliatives. Comme R21
(0, 1), e deuxime fateur est toujours plus grand que 1. Par onsquent, enajoutant des variables, on ne peut qu'augmenter Var(1), mais ne jamais ladiminuer. La valeur de R21 est une mesure de la qualit d'un modle linaire deX1 expliqu parX2, . . . , XK . Si e lien est fort (R
21 prohe de un), le deuxime
fateur
11R2
1
est trs grand et la variane de 1 augmentera beauoup, tandis
que si le lien est faible (R21 prohe de zro), la variane n'augmentera pasbeauoup. Le mme raisonnement peut tre fait pour les autres variables,
k = 2, . . . , K, et on arrive interprter le fateur 11R2
k
omme le degr
de l'ination de la variane de k aus par la orrlation entre Xk et lesautres variables expliatives. C'est pour ela que l'on appelle ette quantit
le fateur d'ination de la variane, ou variane ination fator (VIF).
Definition 1.3. Le fateur d'ination de la variane (VIF) pour k estdni par
V IFk =1
1 R2k, k = 1 . . . , K
Notons que si R2k = 0, alors V IFk = 1, tandis que si R2k > 0, alors
V IFk > 1. S'il n'y a auune orrlation entre les variables expliatives, tousles R2k sont zros et, par onsquent, tous les VIF sont gaux 1. On dira que,de faon heuristique, il y a un problme de multiollinarit si le maximum
des VIF est trs grand, par exemple plus grand que 10.
-
INGE1221 1.9 Exeries 27
Les remdes
En as de olinarit signiative sur l'hantillon onsidr, plusieurs
stratgies sont possibles. Les plus simples sont les suivantes
10
:
1. On limine du modle des variables expliatives fortement orrles ;
2. On ajoute des donnes (si possible !)
3. On transforme les rgresseurs (modiation de l'helle de mesure,...)
Considrons le modle multiple homoskdastique, Y = 0+1X1+2X2+.
1. Expliquez omment une forte orrlation des variables X1 et X2 dimi-nue la prision ave laquelle les oeients 1 et 2 sont estims.
2. On ajuste e modle un hantillon pour lequel on trouve une orr-
lation empirique entre X2 et X3 de 0.9. Calulez les fateurs d'inationde variane pour 1 et 2 et interprtez les.
3. Expliquez pourquoi des oeients 1 et 2 non signiatifs (sur basedes tests student) ne onduisent pas nessairement onlure que, pris
ensemble, X2 et X3 n'inuenent pas Y (sur base du test F ).
1.9 Exeries
1. On possde un hantillon {(Yi, X1i, . . . , XKi), i = 1, . . . , n} tel que lamoyenne empirique de haune des variables expliatives X1i, . . . , XKiest nulle. Considrons les deux modles linaires
Y = 0 + 1X1 + . . .+ KXK + , E[|X ] = 0 (1.12)Y = 1X1 + . . .+ KXK + , E[|X ] = 0 (1.13)
Montrez que pour l'estimateur moindres arrs, i = i, i = 1 . . . , K.
2. Deux onomistes se servent du mme modle,
Y = 0 + 1X1 + 2X2 + , E[|X ] = 0
pour le premier et
Y = 0 + 1X1 + 2X2 + , E[|X ] = 0
pour le seond, o Y est la onsommation du mnage, X1 est le revenuet X2 le patrimoine nanier. Quel est le lien entre et lorsque
10. Il existe aujourd'hui des solutions plus sophistiques pour remdier au problme de
olinarit, omme par exemple la rgression ridge (voir Vinod and Ullah (1981)).
-
INGE1221 1.9 Exeries 28
(a) les deux onomistes mesurent la onsommation en euros, mais le
premier mesure les revenus et le patrimoine en euros tandis que
l'autre les mesure en milliers d'euros ?
(b) le premier onomiste mesure toutes les variables en euros et le
seond mesure toutes les variables en milliers d'euros ?
3. Pour un hantillon de 8 ours, le tableau suivant donne l'valuation
moyenne du ours de la part des tudiants (Y ), l'esprane des notes(X1), ainsi que le nombre d'tudiants (X2). L'helle des variables Yet X1 va de 1 (trs faible) 5 (exellent).
i Yi X1i X2i
1 4.1 3.4 45
2 3.4 3.1 62
3 3.3 3.0 77
4 3.0 2.8 93
5 4.7 3.3 15
6 4.6 3.5 22
7 3.0 2.9 71
8 4.6 3.0 12
(a) Considrez le modle
Y = 0 + 1X1 + 2X2 +
o est un terme d'erreur ave esprane zro et variane 2. Lamatrie (X X)1 est donne par 47.656 13.906 0.0820813.906 4.1007 0.0220
0.08208 0.0220 0.0002686
Calulez l'estimateur OLS de 1.
(b) Sahant que l'estimateur de 2 est S2 = 0.0345, testez au niveau = 5% l'hypothse qu' ajouter vingt tudiants un ours baissel'valuation du ours autant que si l'esprane des notes baisse de
1.
4. On onsidre les fontions de prodution de la forme Q = f(K,L) oQ est une mesure de prodution, L le travail et K le apital (inputs).On utilise le modle de Cobb-Douglas
logQ = C + 2 logK + 3 logL.
-
INGE1221 1.9 Exeries 29
A partir d'un hantillon, on obtient les rsultats suivants
Variable oeient art type
C 1.37
K 0.632 0.257
L 0.452 0.219
ave n = 40, Cov(2, 3) = 0.044, et R2 = 0.98. Testez les hypothsessuivantes au niveau 5% :
(a) H0 : 2 = 3 (onstruisez un test student)
(b) les rendements d'helle sont onstants (onstruisez un test student)
5. En Allemagne, la demande pour liquidit suivante a t estime en
logarithmes pour des donnes annuelles de 1969 2007 :
M = 1 + 2R + 3Y + 4L+
o R est le taux d'intrt, Y le PIB et L les assets liquides. Pour voirsi la runiation en 1990 a entrain un hangement des oeients,
on estime le modle galement pour les deux priodes 1969-89 et 1990-
2007. Les estimateurs sont les suivants :
1969 2007 : M = 0.003 0.261R + 0.530Y + 0.367L, R2 = 0.579,1969 1989 : M = 0.008 0.18R + 0.517Y + 0.281L, R2 = 0.6971990 2007 : M = 0.013 0.419R+ 0.936Y + 0.587L, R2 = 0.479La variation totale,
ni=1(Mi M )2, vaut 0.190 pour la priode totale,
0.093 pour la rgression de 1969-89, et 0.081 pour la rgression de 1990-
2007.
Testez l'hypothse que la demande de liquidit a hang aprs la runi-
ation.
-
Chapitre 2
Extensions of the linear regression
model
In this hapter we will disuss several pratial situations in whih the
methods disussed in the rst hapter do not apply diretly.
2.1 The normality assumption
The hypothesis tests developed in the rst hapter ruially relied on the
assumption of normality of the model disturbanes. It may not always be
justied to maintain this assumption for the data sample under study. If
we abandon normality, how an we onstrut valid ondene intervals and
hypothesis tests ?
2.1.1 A rst example
Let us start with an example. We want to analyze the food expenditures
of households as a funtion of total expenditures, as in the well-known model
of Working and Leser, see Working (1943) et Leser (1963) :
F = 1 + 2 ln(TOT ) + (2.1)
where F is the ratio of food expenditures and total expenditures, and TOTare total expenditures.
For the estimation of this model, we have a sample of 1519 households
in London, observed in a ensus from 1980 to 1982, analyzed by Blundell,
Dunan, and Pendakur (1998). Among the variables in the ensus were Fand TOT , but also the number of hildren of eah household. We estimatethe parameters of this model for two groups : households with one hild, and
those with two hildren. The results for the households with one hild are :
-
INGE1221 2.1 The normality assumption 31
3.5 4.0 4.5 5.0 5.5 6.0
0.20.4
0.60.8
(a) One-hild households
4.0 4.5 5.0 5.5
0.10.2
0.30.4
0.50.6
(b) Two-hild households
Figure 2.1: Food expenditures proportion of households.
Std. error of regression = .090313
R-squared = .320262
Estimated Standard
Variable Coeffiient Error t-statisti P-value
C 1.00993 .040099 25.1862 [.000
X -.149502 .895170E-02 -16.7010 [.000
(X is the variable ln(TOT )) and, for households with two hildren :
Std. error of regression = .089558
R-squared = .220611
Estimated Standard
Variable Coeffiient Error t-statisti P-value
C .953502 .036526 26.1047 [.000
X -.129437 .800795E-02 -16.1636 [.000
The estimated regression lines are presented in Figure 2.1 and are derea-
sing.
1
Consider the OLS residuals ei in both situations. Figure 2.2 depitsthese residuals and their histograms.
If the regression model is Gaussian, then the residuals after estimation
should be normally distributed. Looking at the histogram of standardized
1. Can you interpret this dereasing regression line ?
-
INGE1221 2.1 The normality assumption 32
3.5 4.0 4.5 5.0 5.5 6.0
0.2
0.1
0.00.1
0.20.3
log(TOT)
(a) One-hild households
Rsidus
2 0 2 4
0.00.1
0.20.3
0.4
(b) One-hild households
4.0 4.5 5.0 5.5
0.3
0.2
0.1
0.00.1
0.20.3
log(TOT)
() Two-hild households
Rsidus
4 2 0 2
0.00.1
0.20.3
0.4
(d) Two-hild households
Figure 2.2: Residuals after estimation and histogram of stan-
dardized residuals.
-
INGE1221 2.1 The normality assumption 33
residuals in Figure 2.2, the question arises whether this histogram is ompa-
tible with the hypothesis of normality. In partiular, as a standard normal
random variable is symmetri around zero, we should expet a symmetri
histogram around zero if the residuals follow this distribution. However, the
depited histograms show some asymmetries. For the ase of households with
one hild, the histogram is more spread tp the right, and for households with
two hildren the histogram is more spread to the left.
Moreover, if Z is a random variable N (0, 1), we know that 95% of theprobability density is onentrated in the interval [1.96, 1.96]. Inspetingthe histogram of estimated residuals, however, we nd that their distribution
is less onentrated. In order to get a more preise idea, we an argue using
the QQ-plot in Figure 2.3. This plot onrms that it is not obvious that
the tails of the distribution of estimated standardized residuals should be
ompatible with a normal distribution.
3 2 1 0 1 2 3
3
2
1
01
23
(a) One-hild households
3 2 1 0 1 2 3
4
3
2
1
01
23
(b) Two-hild households
Figure 2.3: Qq-plot of standardized residuals.
The following setion presents a formal statistial proedure to test the
normality of residuals. Before going into the details of this test, it is important
to keep in mind what the absene of residual normality ould imply.
If residuals are not normally distributed, then we annot use a Gaussian
regression model but have to work under more general assumptions. Reall
that normality was not a neessary assumption for the OLS estimator to be
unbiased and BLUE, meaning that OLS estimates remain reliable even under
non-normality.
However, the onstrution of ondene intervals or the evaluation of
statistial tests ruially depend on the normality assumption. Consequently,
-
INGE1221 2.1 The normality assumption 34
if we believe that the residuals of the model are non-normal, then the test
results do not have the same interpretation. We will see later how to adapt
the onstrution of ondene intervals when the normality assumption is
not veried.
2.1.2 The Jarque-Bera test for normality
This is a test for normality often alulated in eonometri software pa-
kages, whih was introdued by Jarque and Bera (1987). The test is based
on two measures : The skewness and the kurtosis.
Reall that the skewness of a random variable U is S = 3/3/22 , where
2 and 3 are, respetively, the seond and third moment of the variable U .Intuitively, the skewness is the degree of symmetry of the random variable.
A perfetly symmetri random variable (suh as the normally distributed
random variable) has a skewness of 0. The kurtosis is dened by = 4/22
where 4 is the fourth moment of U . It is often taken as a measure of thethikness of the tails. A normal random variable has kurtosis = 3. Distri-butions with > 3 ( < 3) are alled leptokurti (platykurti) and typiallyhave fatter (thinner) tails than the normal distribution.
The idea of the Jarque-Bera test is to onstrut a global measure of
skewness and kurtosis of standardized residuals and to ompare it with the
the value of a normal distribution. The test is summarized as follows :
H0 : S = 0 and = 3
The Jarque-Bera test statisti is given by
JB =n
6
[S2 +
( 3)24
].
The authors of the test have derived the distribution of this statisti under
the null hypothesis :
JB 22 under H0 .For a normal random variable, JB = 0. As the statisti is non-negative,all signiant positive departures from zero suggest a rejetion of the null
hypothesis.
Example
Let us reonsider the example of Setion 2.1.1. Software pakages suh as
Oxmetris or R alulate the value of the JB statisti and orrespondingp-value. For the ase of one-hild households, we nd
-
INGE1221 2.1 The normality assumption 35
Jarque-Bera test = 10.7941 [.005
and for the ase of two-hild households,
Jarque-Bera test = 6.37943 [.041
How should we interpret these results ?
2.1.3 Asymptoti theory
If the normality assumption is rejeted, we annot use the tehniques of
the rst hapter to onstrut ondene intervals, or tests onerning model
parameters. These methods were based on the exat distributions of the
estimators and 2, whih were based on the normal distribution of theerror terms of the model.
It is however possible to extend the tehniques to the non-normal ase by
studying the distribution of and 2, but without the normality assumption.The key onepts are given by two theorems studied in intermediate statistis
lasses, i.e. the law of large numbers, and the entral limit theorem. These
theorems are about the asymptoti behavior of sums of random variables,
where asymptoti refers to the sample size n whih tends to innity. Wewill establish in the following under whih onditions these theorems an be
used and what this implies for the onstrution of ondene intervals, or for
hypothesis tests.
Consisteny in the linear regression model
To analyze the onsisteny of the linear regression model, we will use the
following property, whih is given without proof. It is a simplied version of
the Continuous mapping theorem
2
.
Lemma 2.1 (Continuous mapping theorem). Let g be a ontinuous funtion(potentially multivariate) whih does not depend on the sample size n. If nis a onsistent estimator of , then g(n) is a onsistent estimator of g().
This lemma guarantees in partiular that the onsisteny of an estimator
does not depend on its parameterization. For example, if 2 is a onsistent
2. This lemma has already been disussed in the lass INGE1214, see in partiular the
Theorem 9.2 of Wakerly, Mendenhall III, and Sheaer (2002). For a omplete version of
the theorem and its proof, see, for example, Setion 2.3 of van der Vaart (1998).
-
INGE1221 2.1 The normality assumption 36
estimator of 2, then this lemma says that is a onsistent estimator of thestandard deviation , sine the funtion g : x 7 x is ontinuous.
The OLS estimator in the framework of linear regression is given by Pro-
position 1.1 of the rst hapter. This estimator is suh that
= (X X)1X
=
(1
nX
X
)1(1
nX
)
(2.2)
This deomposition is interesting beause it involves empirial means, and
the weak law of large numbers allows us to study the asymptoti onvergene
of empirial means.
More preisely, this law implies that
1
nX
X
P E(XX )
and
1
nX
P E(X)
provided that the limits exist. By the Continuous mapping theorem, we an
therefore write
3{1
nX
X
}1P {E(XX )}1
provided that the limit exists, whih means that the matrix E(XX ) is in-vertible. Furthermore, by the assumption of strit exogeneity, we have
E(X) = E (XE(|X)) = 0so that the limit of
1nX is zero.
To summarize, (2.2) is the produt of a variable whih tends to {E(XX )}1and another variable whih tends to zero. To study the asymptoti behavior
of this produt, we use again the Continuous mapping theorem. This lemma
implies in partiular that, if n is onsistent for and if n is onsistent for, then the produt of the estimators nn is onsistent for the produt ofthe parameters .
Consequently, the produt (2.2) is onsistent for zero sine E(X) = 0,whih shows the onvergene of the OLS estimator. We summarize this result
in the following proposition.
3. This is a onvergene of random matries, whih should be interpreted as an element-
by-element onvergene.
-
INGE1221 2.1 The normality assumption 37
Proposition 2.1. In the linear regression model (Dnition 1.1), if the ma-
trix E(XX ) is non-singular, then the OLS estimator is onsistent.
The ondition for non-singularity of the matrix E(XX ) is oherent withthe assumption (RLM3) whih imposes the absene of multiollinearity.
Asymptoti distribution
4
To nd the asymptoti distribution of the estimators, the idea is similar
to the proof of onsisteny and is based on the deomposition (2.2), whih
we reall here :
n(
)=
(1
nX
X
)1(n
nX
)
. (2.3)
Again, we use the onvergene(1
nX
X
)1P {E(XX )}1
whih is valid if the matrix E(XX ) is invertible.The seond fator is a vetor whose j-th omponent is
n1
n
ni=1
Xiji =n1
n
ni=1
Zi (o nous avons pos Zi := Xiji)
=n Zn (o Zn est la moyenne de Zi) .
In this last expression, the random variables are i.i.d. Zi and suh that EZi =0 for all i (beause E(X ) = 0). By the entral limit theorem, we thereforehave
5
n Zn
L N (0,Var(Z1))
provided that Var(Z1) exists and nite. Applied to the vetornnX , the
entral limit theorem therefore implies that
n
nX
L N (0,S)
4. The understanding of this setion requires knowledge of the entral limit theorem as
treated for example in Setion 7.3 of Wakerly, Mendenhall III, and Sheaer (2002).
5. The notation nL W means that the asymptoti distribution of n is the distri-
bution of the random variable W .
-
INGE1221 2.1 The normality assumption 38
if S, the variane-ovariane matrix, exists and is dened by
S := Var
(1
nX
)
= Var(X) (ar l'hantillon est iid)
= E(2XX ) (ar EX = 0)
= 2E(XX ) (par hypothse d'homosdastiit)
To summarize, if the involved varianes exist, then the deomposition
(2.3) is the produt of a random matrix whih onverges to {E(XX )}1and a random vetor whih onverges to a multivariate normal distribution
N (0,S). To study the properties of this produt, we use a version of theLemma of Slutsky
6
whih we give here without proof :
Lemma 2.2 (Lemma of Slutsky). If the vetor Z onverges to a multiva-riate normal distribution N (0,S) and if the random matrix An is suh thatAn
P A, then
AnZL N (0,ASA) .
Thus, this lemma allows us to onlude that the deomposed vetor in
(2.3) has a limiting normal distribution. We an alulate the asymptoti
variane : If we denote := E(XX ), this variane is given by
1 (2)1 = 21
This result is summarized in the following proposition.
Proposition 2.2. In the linear regression model (denition 1.1), if the ma-
trix := E(XX ) is non-singular, then the OLS estimator is suh that
n(
) L N (0, 21) .Comparing this result with that shown in Proposition 1.4, we see that
the distribution of the OLS estimator is now asymptotially normal.
6. This lemma has already been seen in intermediate statistis, see for example Theorem
9.3 of Wakerly, Mendenhall III, and Sheaer (2002). For a omplete version of the lemma
inluding proof, see Setion 2 of van der Vaart (1998).
-
INGE1221 2.2 Heteroskedastiity 39
Interpretations Constrution of ondene intervals
When using Proposition 1.4 to onstrut ondene intervals or hypothe-
sis tests about the oeients, the above limit result shows that the approxi-
mation error of using the normal distribution diminishes as the sample size
grows. It follows that the tests developed above, in partiular the t and Ftests, remain approximately valid, even if the model disturbane does notfollow a normal distribution.
Moreover, as the student distribution tnK onverges to a standard nor-mal distribution when n, it is ommon in pratie to use ritial valuesof the normal distribution to onstrut ondene intervals when the error
distribution is unknown.
Also, if a statisti T has a distribution F JnK , then, asymptotially, thestatisti J T has a 2J distribution. To test J linear restritions of the para-meter (see Setion 1.6 above), it is ommon to alulate J T and to use
ritial values of the 2J distribution if the sample size is suiently large.
2.2 Heteroskedastiity
The results developed so far were based on the assumption of homoske-
dastiity (RLM4), whih means that by assumption, the onditional variane
of the error term is onstant (Var(|X) = 2I). In this setion, we will exa-mine whether this assumption is reasonable, testable, and what happens to
our previous results if we drop this restrition.
Example
Figure 2.2(a) presents the residuals after estimation of the food expenditures
of households with one hild. If the homoskedastiity assumption is veried,
then the variane of these residuals should not reveal large utuations as
a funtion of X . However, it seems that for larger values of the exogenousvariable, the variane of the residuals is smaller than for small values of X . Tostudy quantify this phenomenon, we will onsider a formal test and analyze
the onsequenes of heteroskedastiity for the OLS estimator.
2.2.1 Consequenes of heteroskedastiity
In a heteroskedasti model, the onditional variane of the error term may depend on the expliative variables X . A general way of writing heteros-kedastiity is to set 2i := Var(i|X i). In the speial ase of homoskedastiity,2i =
2for all i.
-
INGE1221 2.2 Heteroskedastiity 40
The heteroskedastiity an also be formulated in matrix notation :
Var(|X) = E(|X) =
21 0 00 22 0.
.
.
.
.
.
.
.
.
.
.
.
0 0 2n
(2.4)In the following, this matrix will be denoted by n, so that
n := Var(|X).
The heteroskedastiity is modeled inn by the fat that its diagonal elements
are not onstant. It is important to note that n remains a diagonal matrix,
whih means that the errors i and j are not orrelated for i 6= j. The aseof a non-diagonal n matrix will be onsidered in Setion 2.3.
What are the onsequenes of model (2.4) for the OLS estimator ? On
the one hand, we have to note that the OLS estimator remains unbiased. In
fat, the homoskedastiity assumption has not been used to show that the
OLS estimator is without bias.
On the other hand, deriving the variane of the estimator under assump-
tion (2.4), we nd
7
Var(|X) = (X X)1X X(X X)1 (2.5)
so that the variane of the OLS estimator hanges. An important onsequene
of this modiation is that the onstrution of ondene intervals, based
on the estimation of 2 in the homoskedastiity ase, is no longer valid.Moreover, t and F tests as developed in the rst hapter are not exat underheteroskedastiity. Finally, the Gauss-Markov theorem, whih states that the
OLS estimator has minimal variane, is also no longer valid.
Before studying the neessary adjustments in situations of heteroskedas-
tiity, we will disuss how to test the hypothesis of homoskedastiity.
2.2.2 Testing the homoskedastiity assumption
Inspeting the graph of residuals gives a rst indiation about homos-
kedastiity of the model. Below, we will develop some ommon statistial
proedures to empirially test this assumption.
7. Left to the reader as an exerise.
-
INGE1221 2.2 Heteroskedastiity 41
The Goldfeld-Quandt test
This test is based on the work of Goldfeld and Quandt (1965). The idea is
to split the sample into two groups A and B and to alulate 2 for eah sub-sample separately. When 2A and
2B are the theoretial onditional varianes
of sub-population A and B, respetively, then the null hypothesis to test is
H0 : 2A =
2B .
Naturally, the idea of the test is to ompare 2A and 2B. In order to do this,
we use the results of the rst hapter about the distribution of 2, and whihare approximate if the model is not Gaussian.
(nA K) 2A
2A 2nAK where nA is the size of sub-sample A
and
(nB K) 2B
2B 2nBK where nB is the size of sub-sample B.
Sine 2A and 2B are independent, we therefore have
2A/2A
2B/2B
F nAKnBK .
Consequently, a possible test statisti is given by
T =2A2B
F nAKnBK underH0 .
The drawbak of this test is that it relies on an a priori hoie of the sub-
samples A and B for the alulation of the varianes. Thus, the test an beuseful if a strutural break is presumed in the onditional variane between
the two groups. If this ondition is not satised, one has to onsider other,
more exible tests, whih will be onsidered in the following.
The Lagrange multiplier test
The idea of this test is to ensure a ertain exibility with respet to the
form of heteroskedastiity. We have seen that the Goldfeld-Quandt test is
appropriate when there is a dierene in variane between two sub-samples
of the data.
Breush and Pagan (1979) have proposed a test whih takes into a
ount
numerous other forms of heteroskedastiity. The rst ingredient of this test
-
INGE1221 2.2 Heteroskedastiity 42
is the denition of a vetor Z = (Z1, . . . , ZJ), whih is onstruted using
the explanatory variables X1, . . . , XK . A possibility is to dene, for example,Z = (1, X21 , . . . , X
2K)
, but other hoies are possible. It is essential, though,
that Z only depends on the explanatory variables.The idea of the test to model potential heteroskedastiity via the funtion
2i = 2h(1Zi1 + 2Zi2 + + JZiJ)
= 2h(Z i)
where 1, . . . , J are oeients, and h is a non-speied funtion, onti-nuously dierentiable, stritly positive and suh that h(0) = 1. This funtionis hosen by eonometriian, one example being h(t) = et.
Example
To x ideas, reonsider the Working-Leser model (2.1). The idea of the test
to develop is to model potential heteroskedastiity in residuals depited in
Figure 2.2. A simple example would be to set the vetor Z = (1, ln(TOT ))
of length J = 2, and h(t) = et. This way, we model the onditional varianeof residuals in Figure 2.2(a) or () by
2i = 2 exp
(1 ln(TOTi) + 2 ln
2(TOTi)).
By hoosing the vetor Z and the funtion h, we have speied a partiu-lar form of the onditional variane 2i . Note that this form depends on two
oeients 1 et 2, whih are unrestrited. The homoskedasti model or-responds to the restrition 1 = 2 = 0.
The null hypothesis of the test, homoskedastiity, orresponds to
H0 : 1 = . . . = J = 0 if Zi is not onstant.
The proedure of the Breush-Pagan test is the following :
1. Calulate the square of OLS residuals, 2i2. Run the regression 2i |Z i, where 2i plays the role of the dependant
variable and Z i plays the role of explanatory variables.
3. Calulate the oeient of determination, R2, of this regression.
4. We an show that T = nR2 2J under H0.Tests based on the oeient of determination of an auxiliary regression
are often alled Lagrange multiplier (LM) tests.
The test of White (1980)
The test proposed by White (1980) an be viewed as a speial ase of the
LM test of Breush and Pagan (1979). The proedure is the following :
-
INGE1221 2.2 Heteroskedastiity 43
1. Calulate squared OLS residuals 2i
2. Run the regression 2i on a onstant and all rst and seond momentsof the explanatory variables.
3. Calulate the R2 of this auxiliary regression.
4. We an show that T = nR2 2P under H0, where P is the numberof explanatory variables, not ounting the onstant, of the auxiliary
regression.
Example
Consider, for example, the regression Y = 1+2X1+3X2+. The auxiliaryregression of the test of White is given by
2i |1, X1, X2, X21 , X22 , X1X2suh that, here, P = 5.
Example
In the example of Working-Leser, there is only one explanatory variable, X .Thus, the auxiliary regression of the test of White is a regression of 2i on a
onstant, X and X2, and P = 2. For households with one hild, we obtainthe result
Testing for heterosedastiity using squares and ross produts
Chi2(2) = 12.989 [0.0015**
while for households with two hildren, we obtain
Testing for heterosedastiity using squares and ross produts
Chi2(2) = 5.7968 [0.0551
What is the onlusion of these tests ?
2.2.3 Inferene when the matrix is known
In the hypothetial situation where the diagonal matrix dened by
(2.4) is known, it is easily possible to adapt the OLS estimation to onstrut
ondene intervals. The idea is to base inferene on the model
Y =X + (2.6)
where Y i = Yi/i, Xi = Xi/i and
i = i/i for all i = 1, . . . , n. The va-
riable with asterisks are appropriate standardizations of the variables Y,X, of the original model. In the standardized model (2.6), we an verify
8
the
8. Easy exerise left to the reader.
-
INGE1221 2.2 Heteroskedastiity 44
assumption of strit exogeneity E(|X) = 0, and the assumption of homos-kedastiity Var(|X) = 1.
The standardized model being homoskedasti, it is natural to onstrut
inferene of the OLS estimator on the standardized model (2.6). The OLS
estimator of this model is given by
= (XX)1XY .
We an rewrite this estimator as a funtion of the original variables X et Y ,
=
[ni=1
XiXi
2i
]1 [ ni=1
X iYi2i
].
This estimator is sometimes alled weighted least squares (WLS) or generali-
zed least squares (GLS), beause of the normalization of the matries by the
quantities 2i , dierent for every observation i.Sine this estimator originates from the homoskedasti model (2.6), satis-
fying the assumptions of the linear regression model (Denitions 1.1 or 1.2),
the optimality properties derived in the previous hapter apply here diretly.
Moreover, the theory for onstruting ondene intervals and hypothesis
tests apply also diretly, either exatly if the error terms are Gaussian, or
asymptotially if the errors are not Gaussian.
The situation where the matrix is known is rarely enountered in pra-
tie. The following setion deals with the more realisti situation where the
eonometriian does not know the form of heteroskedastiity.
2.2.4 Heteroskedastiity-robust inferene
The onditional variane of the OLS estimator given in equation (2.8)
an be rewritten as
V := Var(|X) = 1n
(X Xn
)1(1
n
ni=1
2iX iXi
)(X Xn
)1.
In an important paper in eonometris, White (1980) has derived a onsistent
estimator of this variane. The proposed estimator is given by
V =1
n
(X Xn
)1(1
n
ni=1
2iX iXi
)(X Xn
)1
-
INGE1221 2.3 Autoorrelation 45
where the residuals after estimation, i, have replaed the unknown standarddeviations i. White (1980) shows that, under ertain quite general assump-tions
9
, V is a onsistent estimator of the onditional variane-ovarianematrix V = Var(|X).
This estimator of the variane is useful to adapt the onstrution of t andF tests, dened in the rst hapter. If we onsider, for example, the t test ofSetion 1.4, the modiation of the test onsists of dening the test statisti
T =k bVkk
In partiular, we an onstrut a ondene interval for the estimation of kat level in a heteroskedasti model. This is given by[
k t(/2)nKVkk; k + t
(/2)nK
Vkk
].
where t(/2)nK represents the quantile /2 of the student-t distribution with
nK degrees of freedom, tnK .The inferene developed above is often alled heteroskedastiity-robust,
or simply robust, sine it does not suppose any partiular form of heteros-
kedastiity. In other words, the tests and ondene intervals remain valid
whatever the behavior of Var(|X) may be. The standard errors alulatedusing this proedure are often alled heterosedatiity onsistent standard er-
ror (HCSE). O
asionally, statistial software pakages use robust standard
errors under this aronym.
2.3 Autoorrelation
One of our lassial hypotheses was that model disturbanes are unor-
related, that is,
Cov(i, j|X) = 0for all i 6= j. Often, espeially if variables are observed over dierent timeperiods (replaing the ross setion index i by a time index t), one enountersthe phenomenon of autoorrelations :
Cov(t, tk|X) 6= 09. One of these assumptions involves the existene of fourth moments of the explanatory
variables. One supposes, for example, that E(X2kX2 )
-
INGE1221 2.3 Autoorrelation 46
for some k 6= 0, whih is a violation of the lassial hypothesis. As for the
ase of heteroskedastiity, the error ovariane matrix is no longer a salar
multiple of the identity matrix, as it would be in the lassial ase. Under
heteroskedastiity, was a diagonal matrix with potentially dierent va-
rianes on the diagonal. Now, under autoorrelation, may have the same
varianes on the diagonal, but there are non-zero o-diagonal elements, i.e.
non-zero autoovarianes. Thus, similar issues arise as in the heteroskedas-
tiity ase : We will be onerned with the properties of the OLS estimator
in the presene of autoorrelation, tests for autoorrelation, and how to deal
with autoorrelation. First, however, let us disuss an example of a stohasti
proess that generates autoorrelation.
Example
An autoregressive proess of order one, AR(1), is given by
t = t1 + ut, t = 1, . . . , T
with (1, 1), and ut "white noise", that isE[ut] = 0
Var(ut) = 2
Cov(ut, utk) = 0, k 6= 0, tA realization with = 0.9, 0 = 0, ut N(0, 1) and T = 1000 is shown inFigure 2.4 together with a realization of Gaussian white noise.
We an show
10
that for an AR(1) proess, we have the following proper-
ties :
E[t] = 0
Var(t) =2
1 2Corr(t, tk|X) = k, k Z
Thus, for an AR(1) proess, we an have positive or negative autoorrelation,
depending on the sign of , and the autoovarianes deay exponentially tozero as the order k grows. We an onstrut the error ovariane matrix for the AR(1) ase as
=2
1 2
1 2 . . . T1
1 . . . T2
2 1 . . . T3
.
.
.
.
.
.
.
.
.
T1 T2 . . . 1.
If is known, is also known and one an onstrut a GLS estimator as in the
ase of heteroskedastiity. In Setion 2.3.2 we will write this GLS estimator
in an intuitive form.
10. see the exerises
-
INGE1221 2.3 Autoorrelation 47
Time
sim
.ar
0 200 400 600 800 1000
5
05
(a) AR(1)
Time
sim
.ar
0 200 400 600 800 1000
3
2
1
01
23
(b) White noise
Figure 2.4: AR(1) and white noise.
Example
As an example onsider poverty rates in the US explained by unemployment.
The threshold for poverty is delared a family inome of 18,400 USD per year
in 2003. We have a data set of yearly poverty and unemployment rates from
1980 to 2003. The output of an OLS regression of poverty on unemployment
gives the following result :
Coeffiient Std.Error t-value t-prob Part.R^2
Constant 9.79205 0.6112 16.0 0.0000 0.9211
UNEMPLOY 0.586614 0.09473 6.19 0.0000 0.6355
sigma 0.676259 RSS 10.0611649
R^2 0.63546 F(1,22) = 38.35 [0.000**
Adj.R^2 0.61889 log-likelihood -23.6221
no. of observations 24 no. of parameters 2
What are the onsequenes of autoorrelation for the lassial OLS esti-
mator ? We an show that the OLS estimator
1. remains without bias,
2. is no longer eient,
3. in general, has a variane dierent from 2(X X)1.
The latter onsequene may lead to serious overestimation of t ratios if thewrong formula 2(X X)1 is used to estimate varianes, negleting the errorautoorrelation.
-
INGE1221 2.3 Autoorrelation 48
4 5 6 7 8 9
1213
1415
UNEMPLOY
POVE
RTY
Figure 2.5: Satterplot of the poverty index against unemploy-
ment for the US, 1980 to 2003. The straight line is the OLS re-
gression line.
POVERTY Fitted
0 5 10 15 20 25
12
13
14
15POVERTY Fitted
r:POVERTY (scaled)
0 5 10 15 20 25
-1
0
1
2r:POVERTY (scaled)
Figure 2.6: Upper panel : time series of observed poverty index
(red) against the tted index (blue line) using OLS regression.
Lower panel : Residuals of the OLS regression.
-
INGE1221 2.3 Autoorrelation 49
2.3.1 Tests for autoorrelation
Autoorrelation is a problem of the disturbanes t whih are unobserved.Therefore, to detet autoorrelation, we use the OLS residuals et whih areobserved. One possibility to detet autoorrelation is to plot the et seriesagainst t, the time index. This is an informal, and diult way to detetautoorrelation, unless the pattern of autoorrelation is lear and strong.
One of the most popular tests for autoorrelation is the Lagrange-Multiplier
(LM) test developed by Breush (1978) and Godfrey (1978). To illustrate the
test, onsider the hypothesis
H0 : Corr(t, tk) = 0, k = 1, . . . , p
in the model
Yt = + Xt + t
The stages of the test proedure are the following.
1. Estimation of the model by OLS, giving residuals et
2. Run the regression
et = + Xt + 1et1 + . . .+ petp + ut
and obtain the R2 of this regression. Under H0, the statisti nR2has
an asymptoti 2 distribution with p degrees of freedom :
nR2 2p
2.3.2 How to deal with autoorrelation
What should we do if the absene of autoorrelation is rejeted ? We an
nd autoorrelation in the residuals for several reasons :
1. Beause there is truly autoorrelation in the errors. This is not often
the good reason, and it is the last one to adopt.
2. Beause the funtional form of the regression equation is badly hosen
(for example linear when it should be log-linear).
3. Beause we have omitted a relevant explanatory variable, that is itself
autoorrelated. This happens often with time-series data, in partiular
if we do not put a lag of the dependent variable in the explanatory
variables.
11
11. This leads to dynami models, a topi that will be studied during the seond term.
-
INGE1221 2.3 Autoorrelation 50
First of all, if the autoorrelation struture and its oeients are known
(whih rarely or never o
urs in pratie), then we an onstrut a GLS
estimator whih satises the Gauss-Markov theorem and, hene, is BLUE.
For example, if it known that errors follow an AR(1) proess as given above,
with known oeient , then we an estimate the following transformedregression
Yt Yt1 = + (Xt Xt1) + t t1 (2.7)using OLS, whih is eient for the transformed regression as the error term,
ut = t t1, is white noise.If we know the struture of autoorrelation (for example, AR(1)), but not
its oeients, one an onstrut a feasible GLS estimator by estimating the
autoorrelation oeients. The most popular proedure is the one proposed
by Cohrane-Orutt (1949). Take again the AR(1) example. The stages of
the Cohrane-Orutt proedure are the following :
1. Estimate the model by OLS, and obtain residuals et.
2. Run the regression et = et1+ut by OLS, and obtain the OLS estimate
=
Tt=2 etet1Tt=2 e
2t1
3. Estimate the transformed regression (2.7), replaing by .
A word of aution is however in order : Often, the evidene of autoor-
relation in estimated residuals is not evidene of genuine autoorrelation in
model disturbanes, but rather an indiator of model mis-speiation suh
as omitted variables or a false funtional form. Before trying to improve an
ineient OLS estimator, one should therefore try alternative model spei-
ations. Also, it may be that the assumed autoorrelation struture of model
disturbanes, e.g. AR(1), is not orret, as one might neglet higher order
autoorrelation. If there is enough evidene for the autoorrelation stru-
ture, it may be preferable to use the OLS estimator, whih is ineient but
onsistent. However, one has to adjust the formula for the varianes of para-
meter estimators, as the lassial estimator developed in the previous hapter
is inonsistent under autoorrelated error terms. We present a onsistent es-
timator of the varianes in the following.
2.3.3 Heteroskedastiity and autoorrelation onsistent
standard errors
Newey and West (1987) proposed an estimator of the varianes of OLS
parameter estimates in the linear regression model in the presene of hete-
-
INGE1221 2.3 Autoorrelation 51
roskedastiity and autoorrelation of error terms. It is a generalization of the
White estimator for heteroskedastiity to the ase of autoorrelation.
Reall the expression for the onditional variane of OLS estimators,
Var(|X) = (X X)1X X(X X)1 (2.8)
In the previous setion on heteroskedastiity, was a diagonal matrix ontai-
ning the error varianes on its diagonal, and a onsistent estimator of the
asymptoti ovariane matrix = limTT
t=1
Ts=1E[tsX tX
s] was gi-
ven by
(1T
nt=1
2tX tX
t
), see White (1980). Now, i