Econometrics

INGE 1221

CONOMTRIE

Christian M. Hafner

Louvain Shool of Statistis, Biostatistis, and Atuarial Sienes

Universit atholique de Louvain

Louvain-la-Neuve

Belgique

Anne aadmique 2014/15

Chapitre 1

Le modle de rgression linaire

La rgression linaire modlise l'esprane onditionnelle de la variable

dpendante Y par rapport une ou plusieurs variables expliatives notesX1, . . . , XK . Pour le as d'une seule variable expliative, on parle de la r-gression linaire simple, tandis que le as de plusieurs variables expliatives

est appel la rgression linaire multiple.

1.1 Introdution et dnition gnrale

La plupart des problmes onomiques font intervenir plusieurs variables

expliatives an d'expliquer le omportement moyen de la variable dpen-

dante Y . On est don amen tudier le modle pour l'esprane ondition-nelle

E(Y |X1, X2, . . . , XK) = 1X1 + . . .+ KXK (1.1)Les variablesX1, X2, . . . , XK reprsentent K variables expliatives direnteset, nouveau, nous avons suppos ii que l'esprane onditionnelle de Ypossde une forme trs partiulire donne par une ombinaison linaire des

paramtres 1, . . . , K .Notons que, pour des raisons de notation qui failiteront la suite du syl-

labus, le modle (1.1) ne ontient plus de terme onstant. Si nous souhaitons

modliser un terme onstant dans la rgression, il faut alors supposer que

l'une des variables expliatives est onstante. Dans e as, nous onsidrons

que X1 = 1 et le modle devient

E(Y |X1, X2, . . . , XK) = 1 + 2X2 + . . .+ KXK .

Exemple

INGE1221 1.1 Introdution et dnition gnrale 2

Un exemple traditionnel en onomie est l'tude de la relation entre la onsom-

mation des mnages (variable dpendante) et des variables expliatives omme,

par exemple, leur revenu orrespondant. Si Y reprsente la onsommation desmnages, un modle possible est donn par

E (Y |X2, X3, X4) = 1 + 2X2 + 3X3 + 4X4 (1.2)o X2 reprsente le revenu des mnages, X3 est la taille de la famille et X4pourrait tre le patrimoine nanier du mnage. Pour trouver une forme ex-

pliative pertinente, on peut se fonder sur la thorie onomique. Cependant,

mme ave une trs bonne intuition onomique, il y a bien souvent plusieurs

hoix possibles et nous ne sommes pas ertains, en ajoutant une nouvelle va-

riable X5, si nous gagnons eetivement quelque hose dans la modlisationde l'esprane onditionnelle. Ce hapitre ore une rponse quantitative e

type de problme.

Exemple

Un autre exemple est donn par l'tude du lien pouvant exister entre le

salaire d'un individu (variable dpendante) et son niveau d'tudes (variable

expliative). Ce dernier exemple est illustr la gure 1.1, dans laquelle on

reprsente un hantillon de 1289 individus pour lesquels ont t relevs le

niveau d'duation, mesur en nombre d'annes de solarit, et le salaire,

mesur en dollars par heure

1

. Dans ette gure, nous avons pla la variable

d'duation en absisse et la variable de salaire en ordonne. Chaque point

de ette gure orrespond don un travailleur pour lequel ont t mesures

es deux variables.

Cet hantillon peut bien entendu tre utile pour vrier empiriquement

s'il existe une relation entre les deux variables en prsene, duation et

revenu. Plusieurs observations doulent de ette gure. Tout d'abord, la

variabilit des salaires n'est pas identique pour tous les niveaux d'duation.

D'autre part, les plus hauts salaires semblent rservs aux individus ayant un

niveau d'duation lev (16 annes d'duation).

En appliquant des transformations sur les variables en prsene, on peut

avoir une toute autre vision de la liaison pouvant exister entre es variables.

A titre d'exemple, la Figure 1.2 reprsente les mmes donnes, mais sur une

autre helle. La gure 1.2(a) reprsente le logarithme du revenu en fontion

de l'duation. La gure 1.2(b) reprsente le logarithme du revenu en fon-

tion du arr de l'duation. Ces gures montrent qu'il serait aussi pertinent

d'analyser le modle linaire

E (Y |X1, X2) = 1 + 2X2 + 3X3dans lequel Y reprsente le logarithme du revenu (log(Re)), X2 est la variableduation (Ed) et X3 est le arr de l'duation (Ed

2). Un modle possibleest don donn par

E(log(Re)|Ed,Ed2) = 1 + 2Ed+ 3Ed2 . (1.3)

1. Soure : Current Population Survey of the U. S. Census Bureau (Mars 1995) et Ruud

(2000).


0 5 10 15 20

010

2030

4050

60

Niveau deducation

Sala

ire (p

ar he

ure)

Figure 1.1: Graphique du nombre d'annes d'tudes de 1289

individus en fontion de leur revenu en dollars amriains. Les

erles vides reprsentent les moyennes onditionnelles.

Dans e dernier exemple, il est important de remarquer que la linarit

du modle fait rfrene une linarit de l'esprane onditionnelle par

rapport aux paramtres i et non par rapport aux variables exognes Xi. Unedisussion plus ne sur l'impliation de la non linarit des variables exognes

est propose dans la setion 1.3 de e hapitre.

Dans la suite, nous utiliserons une riture simplie du modle multiple

en reourant aux notations vetorielles et matriielles. Notons

X =

X1

X2.

.

.

XK

et =

1

2.

.

.

K

les veteurs de variables exognes et des paramtres respetivement. Ave es

onventions, le modle multiple s'rit sous forme abrge

E(Y |X) = X


0 5 10 15 20

01

23

4

Niveau deducation

Log d

u sala

ire ho

raire

(a) Log du salaire en fontion du niveau

d'duation

0 100 200 300 400

01

23

4

Carr du niveau deducationLo

g du s

alaire

horai

re(b) Log du salaire en fontion du arr

du niveau d'duation

Figure 1.2: Eet de la transformation des variables niveau

d'duation et revenu pour les 1289 individus de l'han-

tillon. Les erles reprsentent ii enore les moyennes ondition-

nelles.

o il est sous-entendu par le ontexte que X et sont des veteurs olonnesde dimension K.

Ce modle de population peut s'rire sous la forme d'un modle ave

erreur. En dnissant := Y E(Y |X), nous pouvons rire

Y = X +

en supposant l'hypothse d'exognit strite E(|X) = 0.Ii enore, le modle d'hantillonnage pour l'observation des variables Y

et X est suppos alatoire simple (ou iid). L'hantillon onsiste don en desreprodutions indpendantes de variables alatoires

(Yi, Xi)

o

X i =

X1i

X2i.

.

.

XKi


est le veteur olonne des variables expliatives de l'individu i. Le modlelinaire sur l'hantillon s'rit don

Yi = 1X1i + 2X2i + . . .+ KXKi + i

pour tout individu i = 1, . . . , n. En utilisant nouveau une notation veto-rielle, on peut rire

Y1

Y2.

.

.

Yn

=

X11 X21 XK1X12 X22 XK2.

.

.

.

.

.

.

.

.

.

.

.

X1n X2n XKn

1

2.

.

.

K

+

1

2.

.

.

n

ou, de faon quivalente,

Y =X +

o Y reprsente le veteur d'observations n 1, X = (X1, . . . , Xn) est unematrie alatoire nK d'observation des variables exognes, est le veteurde paramtres K 1 et est le veteur d'erreurs n 1.

Nous pouvons prsent donner la dnition gnrale du modle de r-

gression linaire multiple.

Definition 1.1. L'hantillon iid (Yi, Xi), i = 1, . . . , n suit un modle dergression linaire multiple si les onditions suivantes sont respetes pour

tout i :

(RLM1) Il existe K oeients rels 1, . . . K tels que

Y =X + ,

(RLM2) Les variables sont telles que E(|X) = 0.(RLM3) Le rang de la matrie X est K ave une probabilit gale 1.

De plus,

(RLM4) Ce modle est variane onditionnelle homosdastique s'il existe

un nombre rel stritement positif tel que Var(|X) = 2In, o Inreprsente la matrie identit n n.

La ondition (RLM2) utilise la onvention que 0 reprsente un veteur n1 de nombres nuls. Elle reprsente l'hypothse d'exognit strite impliquantune struture stohastique trs partiulire de l'erreur. En partiulier, ette

hypothse implique :

E() = 0 et Cov(X i, i) = 0 .


Elle entrane galement une absene de orrlation onditionnelle des erreurs :

Cov(ij |X) = 0 pour tout i 6= j.La dmonstration de ette dernire proprit est laisse titre d'exerie

utile.

La ondition (RLM3) s'appelle absene de olinarit (ou de multioli-

narit) et nessite des expliations. Rappelons qu'en algbre, le rang d'une

matrie est gal au nombre de olonnes linairement indpendantes de la ma-

trie. La ondition de la dnition exprime don qu'auune des K olonnesde la matrie X ne peut tre exprime omme une ombinaison linaire des

autres olonnes deX. Comme ette matrie est alatoire, la dnition prise

que ette ontrainte est respete ave une probabilit gale 1.

An de omprendre la raison pour laquelle nous imposons la ondition

(RLM3), prenons un exemple.

Exemple

Considrons le modle linaire

Y = 0 + 1X1 + 2X2 + .

Supposons que la variable X2 puisse s'rire omme la ombinaison linaired'autres variables du modle, par exemple X2 = 1 + 2X1. Dans e as,si l'on remplae X2 dans le modle de rgression par 1 + 2X1, on trouve(aprs aluls)

Y = 0 + 1X1 +

o 0 = 0+12 et 1 = 1+22. Ce dernier systme ontient deux para-

mtres 0 et 1 pouvant tre estims par OLS. partir de es estimateurs,

on souhaite trouver des estimateurs des paramtres 0, 1, 2 dans le modleinitial. On voit don ii le problme qui se pose, ar les valeurs de 0 et

1

ne permettent pas de dduire les valeurs de 0, 1 et 2 sans ambiguit (aril faut rsoudre un systme indtermin de deux quations linaires trois

inonnues !).

On voit dans et exemple que la prsene d'une olinarit dans le mo-

dle ne permet pas d'interprter sans ambiguit les paramtres du modlede rgression linaire. On dit alors que ette ondition onstitue une ondi-

tion d'identiation du modle. Cependant, il existe des situations pratiques

dans lesquelles une olinarit struturelle n'est pas aussi vidente que dans

l'exemple prsent. Des variables expliatives peuvent tre prohes de la oli-

narit dans l'hantillon tudi. Ce as de gure sera trait dans le hapitre

suivant.

Remarquons enn que la ondition (RLM3) implique que n > K, 'est--dire que la taille de l'hantillon est suprieure au nombre de rgresseurs.

INGE1221 1.2 Estimation par moindres arrs 7

La dernire ondition de la dnition, (RLM4), gnralise le onept d'er-

reur homosdastique au as de la rgression multiple. Dans ette dnition,

I reprsente la matrie identit n n.

1.2 Estimation des paramtres par moindres

arrs

1.2.1 Drivation des estimateurs

Supposons que l'on observe un hantillon (Y1, X1), . . . (Yn, Xn) de taillen. Pour haque valeur possible du paramtre , on dnit les rsidus de largression linaire par le veteur n 1

e() := Y X .

La somme des rsidus au arr (RSS) est dans e as

RSS() := e()e()

= (Y X)(Y X) .

Le prinipe des moindres arrs hoisit le veteur minimisant la fontionRSS :

= argminRSS() .

L'ide qui sous-tend la onstrution de et estimateur est de trouver la

valeur des paramtres qui livrent le plus petit rsidu possible pour les observa-

tions donnes. La proposition suivante drive es estimateurs expliitement.

Proposition 1.1. L'estimateur par moindres arrs de dans le modlede rgression linaire multiple est

= (X X)1X Y .

Dmonstration. An de rsoudre e problme de minimisation, l'ide la plus

simple onsiste mettre zro les premires drives partielle de la fontion

RSS() par rapport haune de ses variables i. En utilisant la notationvetorielle usuelle

RSS() :=(

1RSS(), . . . ,

KRSS()

),


la preuve onsiste don rsoudre RSS() = 0. Cette rsolution est fai-lite si l'on rrit la fontion RSS() de la faon suivante :

RSS() = (Y X)(Y X)= (Y X )(Y X) (ar (X) = X )= Y Y X Y Y X + X X= Y Y 2Y X + X X (ar X Y est un salaire,

don gal son transpos)

= Y Y 2a + A (o a :=X Y et A :=X X)

Le terme Y Y ne dpendant pas du paramtre , il peut tre ignor dans ladirentiation de RSS(). On vrie failement que

(a) = a et ( A) = 2A si A est symtrique.Par onsquent, RSS() = 2a+2A. En mettant ette quation zro,et en remplaant a et A par leur dnition, nous trouvons

XX =X Y . (1.4)

Cette dernire identit est une galit entre K quations qui sont appelesles quations normales de problme de minimisation. L'estimateur OLS de

la proposition se dduit immdiatement de e systme d'quations. Il faut

ependant enore s'assurer que la solution propose est bien le minimum de

la fontion RSS() et non pas un maximum. Cette ondition se vrie enmontrant que la matrie Hessienne

2

de la fontion RSS est dnie positive.Puisque nous avons driv RSS() = 2a+2A, la Hessienne de RSS()est 2A = 2X X et est don bien dnie positive par la ondition (RLM3)de la dnition

3

. La proposition est don dmontre.

L'estimateur OLS nessite l'inversion de la matrieX X. Ainsi que nousl'avons argument dans la dmonstration i-dessus, une onsquene de l'ab-

sene de olinarit (ondition (RLM3) de la dnition du modle de rgres-

sion linaire), ette matrie est dnie positive et don inversible. On voit

ainsi que l'absene de olinarit est galement importante pour garantir une

inversion stable de la matrie X X, et don pour obtenir des estimateurs de.

2. Pour rappel, la matrie Hessienne de la fontion 7 RSS() est la matrie K Kdont l'lment (i, j) est gal 2RSS()/ij

3. Exerie utile.


L'estimateur OLS de la variane onditionnelle 2 s'obtient partir desrsidus aprs estimation

e := Y X (1.5)et de la somme des rsidus arrs aprs estimation

RSS = ee .

Cet estimateur est donn par

2 :=RSS

nK =ee

nK . (1.6)

La division par n K provient du alul de l'esprane de l'estimateurqui sera ralis i-dessous. Cette normalisation par nK est elle qui permetd'obtenir un estimateur sans biais pour 2. Remarquons que ette dnitionutilise que n > K ainsi que nous l'avons driv de la ondition (RLM3).

Le nombre n K est parfois appel le degr de libert. La raison estdonne par la proprit d'orthogonalit suivante : On peut montrer que les

rsidus aprs estimation par OLS des paramtres sont tels que

Xe = 0 ,

e qui peut enore s'rire

ni=1

X iei = 0 ouni=1

Xkiei = 0 pour tout k = 1, . . . , K.

La demonstration de ette proprit est laisse titre d'exerie. On voit

dans e rsultat que le veteur des rsidus e est orthogonal l'hantillon(Xk1, . . . , Xkn) de haune des variables expliatives Xk. Cette propritmontre galement que tout veteur de rsidus e doit obir es K ontrainteslinaires. Tout veteur de taille n n'est don pas un veteur de rsidus va-lable en e sens qu'il doit se ontraindre es K onditions. C'est pourquoil'on dit que e veteur possde nK degrs de libert (la taille n laquelleon soustrait le nombre de ontraintes linaires que le veteur doit subir).

1.2.2 Esprane et variane des estimateurs

Les estimateurs que nous avons dnis possdent des proprits impor-

tantes en terme de biais et variane. Nous montrons dans la proposition

suivante que l'estimateur est sans biais, et nous alulons sa variane.


Proposition 1.2. L'estimateur par moindres arrs de dans le modlede rgression linaire multiple est tel que

E(|X) =

et

Var(|X) = 2(X X)1 .

Dmonstration. Nous pouvons tout d'abord rrire l'estimateur ommesuit :

= (X X)1X Y

= (X X)1X (X + ) (par dnition du modle)

= + (X X)1X (ar (X X)1X X = I) (1.7)

L'esprane onditionnelle de l'estimateur est don

E(|X) = E(|X) + E((X X)1X |X)= + (X X)1X E(|X)= (hypothse d'exognit strite)

e qui montre que l'estimateur est sans biais. Pour la variane, nous alulons

diretement

Var(|X) = E( |X) (ar est sans biais pour )= E(AA|X) (Par (1.7), exognit strite,

et en posant A := (X X)1X )

= AE(|X)A= 2AA (par (RLM4))

Le rsultat nal s'obtient en observant queAA = (X X)1X X(X X)1 =(X X)1.

La variane des estimateurs est don

diretement proportionnelle 2, la variane du terme d'erreur dumodle,

inversment proportionnelle la dispersion des variables expliatives, inversment proportionnelle la taille de l'hantillon n.


L'estimateur de la variane onditionnelle dni plus haut est galement

un estimateur sans biais pour 2, ainsi que montr dans la proposition sui-vante.

Proposition 1.3. L'estimateur par moindres arrs 2 de 2 dans le modlede rgression linaire multiple est tel que

E(2|X) = 2 .Dmonstration. Remarquons tout d'abord que la proposition revient mon-

trer E(ee) = (nK)2. Par dnition de e, on peut riree = Y X(X X)1X Y=[I X(X X)1X ]Y

= (I P )Y (ave P :=X(X X)1X ).La matrie P est la matrie de projetion sur l'espae vetoriel engendr

par les olonnes de X (Pour le vrier, il faut montrer que ette matrie

symtrique est telle que PX =X). On a don

ee = (I P )Y 2o x2 reprsente la norme eulidienne du veteur x. En utilisant la dni-tion du modle linaire, on vrie en utilisant la dnition de P que

(I P )Y = (I P )(X + )= (I P )

et (I P )2 = (I P ) ar P est une matrie de projetion. Finalement, onpeut rrire ee omme

ee = (I P ) .La preuve s'ahve en deux tapes : on montre tout d'abord que E((I P )|X) = 2tr(IP ) o tr() est la trae d'une matrie. On montre ensuiteque tr(I P ) = nK.

Montrons tout d'abord E((I P )|X) = 2tr(I P ). Si mij repr-sente l'lment (i, j) de la matrie I P , nous pouvons dvelopper la formequadratique (I P ) pour obtenir :

E((I P )|X)

=ni=1

nj=1

mijE(ij |X) (ar les mij sont des fontions de X)

=

ni=1

mii2

(par hypothse d'exognit strite)

= 2tr(I P )


Calulons prsent ette trae. En utilisant que la trae est une fontion

linaire, on a

tr(I P ) = tr(I) tr(P ) = n tr(P )et

tr(P ) = tr [X(X X)X ] (par dnition de P )

= tr [(X X)X X] (ar tr(AB) = tr(BA))

= tr(IK) = K (o IK est la matrie identit K K)

e qui montre que tr(I P ) = nK.

1.2.3 Le thorme de Gauss-Markov

Ce thorme fournit un rsultat d'optimalit de l'estimateur OLS que

nous allons expliquer i-dessous. Nous nonons tout d'abord e rsultat.

Theorem 1.1. L'estimateur de moindres arrs est eae dans la lasse

des estimateurs linaires non biaiss. Cela signie que, pour tout estimateur

linaire non biais du veteur de paramtres , la matrie

Var(|X) Var(|X) o est l'estimateur OLSest semi-dnie positive

4

.

La dmonstration ette proposition peut se trouver, par exemple, dans

Hayashi (2000) (hapitre 1).

Tout d'abord, si la matrie Var(|X) Var(|X) est semi-dnie posi-tive, nous pouvons rire, pour tout veteur x de dimension K :

xVar(|X)x > xVar(|X)xEn partiulier, on peut hoisir le veteur

x = (0, 0, . . . , 0, 1, 0, 0, . . . , 0)

o le 1 apparat l'lment k du veteur. Pour e hoix partiulier dex, la forme quadratique xAx se rduit l'lment (k, k) de la matrie A.L'lment (k, k) de la matrie Var(|X) tant gal la variane du oeientk, Var(k|X), on voit don que le thorme de Gauss-Markov implique que

Var(k|X) > Var(k|X) pour tout k = 1, 2, . . . , K .4. Rappelons qu'une matrie A est semi-dnie positive si xAx > 0 pour tout veteur

x de dimension K.

INGE1221 1.3 Eet marginal et lastiit 13

Ce raisonnement montre que, pour tout oeient de la rgression, l'estima-

teur OLS n'a jamais une variane plus grande que la variane de tout autre

estimateur linaire sans biais.

Remarquons que e thorme n'none pas que l'estimateur OLS a une

plus petite variane que n'importe quel autre estimateur. Ce thorme ne

ompare l'estimateur OLS qu'ave tous les estimateurs linaires en Y etsans biais. Pour ette raison, on dit parfois que et estimateur est BLUE (de

l'anglais Best Linear Unbiased Estimator).

1.3 Forme fontionnelle, eet marginal et las-

tiit

Nous avons remarqu que l'hypothse d'exognit strite E(|X) nouspermet d'interprter la rgression omme un modle linaire sur l'esprane

onditionnelle :

E(Y |X) = 1X1 + 2X2 + . . .+ KXK .Cette ondition est en ralit une hypothse entrale permettant d'interpr-

ter les oeients du modle de rgression. Ainsi, le oeient k mesurele hangement espr dans la variable Y si la variable Xk hange et que lesautres variables expliatives demeurent inhanges. Cei s'exprime math-

matiquement par la drive partielle

E(Y |X)Xk

= k

appele eet marginal de la variable Xk.

Exemple

Dans le modle de onsommation donn au dbut de e hapitre, quation

(1.2), 2 reprsente l'eet marginal du revenu du mnage sur la onsomma-tion. Dans e modle, un a

roissement de 200 euros du revenu du mnage

implique don un a

roissement de 2002 euros dans l'esprane ondition-nelle des dpenses de onsommation.

Dans ette drive partielle, il est important de noter que les variables

autres que Xk sont onsidres omme des onstantes. Cette ondition estparfois appele eteris paribus

5

. Or, il n'est pas toujours pertinent de main-

tenir onstantes les autres variables du modle, ainsi que le montre l'exemple

suivant.

5. Toutes hoses gales par ailleurs.

INGE1221 1.4 Estimation d'intervalles 14

Exemple

Dans le modle revenu-duation (1.3), il n'est pas possible faire varier la

variable Ed sans faire varier la variable Ed2. Dans e modle,

E(Re|Ed,Ed2)Ed

= 2 + 23Ed .

L'eet marginal de l'duation sur le revenu n'est don pas onstant mais

dpend linairement de l'duation.

Ce dernier exemple montre don que l'eet marginal dpend de la forme

fontionnelle du modle que nous tudions. Mais, dans tous les as, l'eet

marginal reprsente l'eet de l'a

roissement d'une unit de la variable Xksur la valeur attendue E(Y |X).

Dans bien des situations, il est pourtant plus intuitif de travailler ave une

mesure relative plutt qu'une mesure absolue. C'est la raison pour laquelle

on s'intresse plus souvent aux lastiits que nous allons maintenant dnir,

plutt qu'aux eets marginaux.

L'lastiit par rapport la variableXk est la variation relative de E(Y |X)mesure suite une variation en pourentage d'une variable expliative.

L'lastiit s'rit mathmatiquement

k :=E(Y |X)Xk

XkE(Y |X) .

L'lastiit prend une forme simple dans les modles linaires dont les

variables sont prises en logarithme. Considrons le modle

E(log Y |X) = log(X)o log(X) est un abus de notation pour rprsenter le veteur

(logX1, logX2, . . . , logXK).

Dans e modle on alule (exerie faile) failement l'lastiit k :

k = k .

En d'autres termes, l'lastiit est ii onstante et xe par les oeients

du modle.

1.4 Estimation d'intervalles dans le modle Nor-

mal

L'estimation d'intervalles dans le modle linaire, ou la onstrution de

tests d'hypothses sur les oeients de la rgression passent ii enore par

INGE1221 1.4 Estimation d'intervalles 15

une dnition plus strite du modle de rgression linaire dans laquelle une

hypothse de distribution est formule sur l'erreur .

Definition 1.2. L'hantillon iid (Yi, Xi), i = 1, . . . , n suit un modle dergression linaire multiple Normal si les onditions suivantes sont respetes

pour tout i :

(RLM1) Il existe un veteur = (1, . . . K)de dimension K tel que

Y =X + ,

(RLM3) Le rang de la matrie X est K ave une probabilit gale 1,

(RLM5) |X N (0, 2I).La ondition (RLM5) implique en partiulier l'hypothse d'exognit

strite (RLM2) et l'hypothse de variane homosdastique (RLM4).

Cette dnition permet d'rire la distribution d'hantillonnage de l'es-

timateur .

Proposition 1.4. Dans le modle de rgression linaire multiple Normal,

l'estimateur OLS est tel que

|X N (0, 2(X X)1)et l'estimateur de la variane est tel que

(nK) 2

2 2nK .

Cette proposition permet en partiulier de tester des hypothses sur les

oeients k. Considrons par exemple le test

H0 : k = b ontre H1 : k 6= b .o b est une valeur xe que le herheur souhaite tester sur le oeient bk(k est x). Une statistique de test valide pour e test est donne par

T =k b

2 ((X X)1)kkEn eet, la dernire proposition permet de trouver la distribution de T sil'hypothse H0 est vraie :

T |X tnK .On peut onstruire un intervalle de onane pour l'estimateur k au

niveau . Celui-i est donn par[k t(/2)nK

2 ((X X)1)kk; k + t

(/2)nK

2 ((X X)1)kk

].

o t(/2)nK reprsente le quantile /2 de la loi de Student tnK .

INGE1221 1.5 Outils d'ajustement 16

1.5 Outils d'ajustement

Une fois qu'un modle onomtrique a t onstruit et que ses paramtres

ont t estims, une tape importante de la modlisation onsiste vrier

si le modle nal s'ajuste orretement aux donnes observes. Pour mesu-

rer la qualit de et ajustement, l'ide est de vrier si le modle explique

susament bien la variabilit de la variable dpendante Y .Intuitivement, une droite de rgression s'ajuste bien aux donnes lorsque

les rsidus aprs estimation dnis i-dessus sont ngligeables. Il s'agit pr-

isment de l'ide qui a prsid la onstrution des estimateurs OLS. la

limite, un ajustement parfait serait aratris par la situation dans laquelle

les observations se trouvent exatement sur la droite de rgression estime.

En pratique, on tente de vrier partir des rsidus si les observations se

trouvent le plus prs possible de ette droite. Si e n'est pas la as, on dit

que le modle n'a pas expliqu toute la variabilit de la variable dpendante,

et on peut mettre des doutes sur la validit du modle ajust aux donnes.

Rappelons la onstrution des rsidus aprs estimation

ei = Yi Yi pour i = 1, . . . , nave la onvention

Yi :=Xi pour i = 1, . . . , n .

Yi reprsente la prdition ralise par le modle ajust.Une mesure de la variabilit de Yi est donne par la somme du arr

de la direne entre Yi et sa moyenne empirique Y n. Ave les notationsprdentes et un peu d'algbre, on peut rire

Variabilit de Yi =

ni=1

[Yi Y n

]2=

ni=1

[(Yi Y n) + ei

]2=

ni=1

(Yi Y n)2 +ni=1

e2i + 2

ni=1

(Yi Y n)ei

=

ni=1

(Yi Y n)2 +ni=1

e2i (1.8)

La dernire galit utilise la proprit

ni=1

(Yi Y n)ei = 0


dont la dmonstration est laisse titre d'exerie utile (en s'aidant par

exemple des quations normales).

La domposition (1.8) s'interprte de la faon suivante :

La sommeni=1(YiY n)2 mesure la variabilit totale de l'hantillonYi autour de sa moyenne Y n.

La sommeni=1(Yi Y n)2 reprsente la variabilit de l'hantillon Yiexplique par le modle de rgression

La somme ni=1 e2i est la variabilit de Yi qui n'est pas explique parle modle de rgression.

Cette domposition permet don de mesurer si le modle ajust explique

susament bien la variabilit dans les donnes. En pratique, on travaille

ave une mesure relative donne par le rapport

R2 :=

ni=1(Yi Y n)2ni=1(Yi Y n)2

=Variabilit explique par le modle ajust

Variabilit de l'hantillon Yi

appel oeient de dtermination (ou simplement R2). Cet indie possdeles proprits suivantes :

R2 est toujours positif, R2 est born par 1, don : 0 6 R2 6 1 Sini=1 e2i = 0, alorsR2 = 1 (situation parfaite dans laquelle le modleajust explique toute la variabilit des donnes)

Si ni=1(Yi Y n)2 = 0, alors R2 = 0 (le modle n'explique rien enterme de variabilit de l'hantillon).

Ave es interprtations, on voit don que R2 mesure la qualit d'ajustementdu modle aux donnes. Il est alul par tous les programmes de statistique

ou d'onomtrie. Idalement un modle ajust doit avoir un R2 aussi levque possible, mais nous verrons plus loin qu'il ne s'agit pas du ritre unique

pour juger de l'ajustement du modle.

Une diult du oeient R2 dans le modle multiple est que e oef-ient augmente haque fois que l'on ajoute une variable expliative dans le

modle. L'exemple suivant drit ette situation.

Exemple


Dans le modle de salaire trait plus haut, supponsons que nous avons notre

disposition les variables expliatives de niveau d'duation (Ed) et d'exp-riene (Ex). Ajustons su

essivement les modles suivants :

Modle 1 : E(logRe|Ed,Ex) = 1Modle 2 : E(logRe|Ed,Ex) = 1 + 2EdModle 3 : E(logRe|Ed,Ex) = 1 + 2Ed+ 3ExModle 4 : E(logRe|Ed,Ex) = 1 + 2Ed+ 3Ex+ 4(Ex)2

Pour haun de es modles, nous rsumons les rsultats de l'estimation dans

la table suivante :

Coeients estims

Const. 2.34 1.12 0.71 0.58

Ed 0.93 0.10 0.10

Ex 0.01 0.04

(Ex)2 0.00

SSR 442.1 354.0 319.9 307.0

R2 0.20 0.28 0.31

R2

0.19 0.27 0.26

Table 1.1: Estimation OLS dans plusieurs modles embots

pour la variable dpendent logarithme du salaire (logRe).SSR est l'estimateur de

e2i .

Cette table montre que le R2 rot haque ajout de variable dans lemodle. Il n'est ependant pas ertain que les variables ainsi ajoutes soient

pertinentes, ou apportent une expliation signiative de la variabilit de

log(Re). Remarquons au passage que l'estimation des oeients est modied'un modle l'autre. Par exemple, l'estimateur de 2 dans le modle 2 n'estgnralement pas gal l'estimateur de e paramtre dans les modles 3 ou

4.

Le oeient de dtermination R2 augmente haque ajout d'une va-riable dans le modle, mais les variables ajoutes su

essivement ne sont pas

forment utiles pour expliquer la variabilit de la variable dpendente Y .Pour ette raison, les logiiels alulent souvent le oeient R2 ajust, not

R2, et dni par

R2:= 1

ni=1 e

2i /(nK)n

i=1(Yi Y n)2/(n 1).

Cette mesure ne rot pas forment quand on ajoute des variables dans le

modle, ar le nombre de variables K est pris en ompte dans le numrateur

INGE1221 1.6 Test de restrition 19

de la fration. Quand K augmente, 1/(n K) augmente et don R2 peutdiminuer, et ei dpend du omportement de e2i . Cette division par n Kpnalise don par la omplexit du modle onsidr.

Exemple

Dans la Table 1.1, le R2est galement indiqu.

1.6 Test de restrition

Nous avons vu plus haut omment il est possible d'eetuer un test sur

la valeur d'un oeient donn du modle de rgression multiple. Ce test se

base sur la distribution de l'estimateur OLS donne la Proposition 1.4.

Cependant, il est souvent nessaire de ontruire un test impliquant plu-

sieurs oeients du modle, ainsi que l'illustrent les exemples suivants. Par

exemple, au lieu de tester si un oeient est signiatif dans un modle de

rgression, on peut se demander si un ensemble de oeients est signia-

tif ou non. Ou bien : la demande d'un produit donn dpend-elle du prix

des biens de substitution ou seulement de son propre prix ? Ou enore : une

frontire de prodution possde-t-elle un rendement d'helle onstant ?

Toutes es questions peuvent tre plaes dans le adre de modles de

rgression multiple, et la question pose implique simultanment plusieurs

paramtres du modle.

1.6.1 Tester la signiation de plusieurs oeients

Une premire question que l'on peut onsidrer est omment tester si un

ensemble de J oeients est signiativement dirent de zro (J < K). Letest s'rit don

H0 : KJ+1 = . . . = K = 0 . (1.9)

L'alternative de e test est que H0 n'est pas vrai, 'est--dire qu'il existe aumoins un des oeients KJ+1, . . . , K qui ne soit pas nul :

H1 : k {K J + 1, . . . , K} tel que k 6= 0.

Pour eetuer e type de test sur plusieurs paramtres, on utilise l'ide

entrale suivante : on peut omparer les rsidus du modle omplet ('est--

dire ontenant K oeients estims) ave le modle restreint par H0 ('est--dire en ne onsidrant que KJ variables expliatives). Cette omparaison


va se faire en pratique sur la somme des rsidus arrs aprs estimation dans

haun de es modles.

Notons RSS0 la somme des rsidus arrs aprs estimation dans le mo-dle restreint sous H0 et notons RSS1 la somme orrespondante dans le mo-dle omplet ('est--dire en utilisant les K variables expliatives). Si l'hy-

pothse nulle est orrete, on s'attend e que RSS0 soit prohe de RSS1.Au ontraire, si es deux valeurs dirent fortement, on pourra mettre des

doutes sur l'hypothse H0.Sous les hypothse du modle Normal, on peut montrer

6

RSS0 RSS12

2J .Nous savons galement que

RSS12

2nKpar la Proposition 1.3 i-dessus. D'autre part, on peut aussi montrer que, sous

l'hypothse nulle, les variables alatoires RSS0 RSS1 et RSS1 sont indpen-dantes. En onsquene, il est naturel de onsidrer le quotient normalis de

es variables alatoires omme statistique de test :

T =

(RSS0 RSS1

)/J

RSS1/(nK)qui, sous l'hypothse nulle, possde une distribution de Fisher-Snedeor

7

F JnK .Comme rgle de rejet, on onsidre qu'une grande valeur de T mnera

au rejet du test d'hypothse, tandis qu'une valeur modre sera ompatible

ave H0. Si l'on xe le niveau de test , la valeur ritique de e test estdon fournie par le quantile de la distribution F JnK , 'est--dire le nombreF JnK; tel que

P(T > F JnK;) = .

1.6.2 Formulation gnrale du test de restrition

De trs nombreuses questions onomiques reviennent tester une hypo-

thse nulle du type

H0 : R = q

6. Exerie diile.

7. Pour un rappel sur la loi F pq , voir la Dnition 7.3, page 340, de Wakerly, Menden-hall III, and Sheaer (2002).


o R est une matrie JK et q est un veteur olonne de longueur J . Cettematrie et e veteur sont xs par la question pose.

Par exemple, pour eetuer un test sur un seul oeient k, 'est--direpour eetuer le test simple H0 : k = b ; il sut de onsidrer

R = (0 . . . 0 1 0 . . . 0) et q = b

o le 1 apparat la kme olonne de R.Pour tester la signiativ d'un groupe de oeients, omme dans le test

(1.9), on pose

R =

0 0 1 0 0.

.

.

.

.

.

.

.

.

0 1 00 0 1

et q = 0Jo R possde J lignes et K olonnes et 0J est un veteur de zros de longueurJ .

Mais l'hypothse nulle H0 : R = q permet de tester bien d'autres res-tritions sur les paramtres. Elle permet par exemple de tester 2+3+ . . .+K = 1 qui pourrait orrespondre, par exemple, l'hypothse de rendementsd'helle onstants dans la fontion de prodution de Cobb-Douglas (dans le

as d'un modle linaire rit ave des logarithmes).

La onstrution du test se base sur la proposition suivante.

Proposition 1.5. Supposons le modle de rgression linaire multiple Nor-

mal. Sous l'hypothse nulle H0 : R = q, o R est une matrie J K derang J , la statistique

T =(R q) {R(X X)1R}1 (R q)/J

RSS1/(nK)

o est l'estimateur OLS, possde une distribution F JnK.

La preuve de ette proposition peut se trouver, par exemple, dans Hayashi

(2000) (hapitre 1, Proposition 1.4). L'utilisation pratique de e rsultat pour

les tests de restrition n'est pas aise ar le alul de la statistique de test Tnessite plusieurs inversions et multipliations de matries. Heureusement,

la mise en oeuvre du test de restrition est failite par la rriture possible

de T sous une forme plus diretement appliable.Comme dans la setion prdente, notons RSS0 la somme des rsidus

arrs aprs estimation dans le modle restreint sous H0 et notons RSS1

INGE1221 1.7 Utilisation de variables indiatries 22

la somme orrespondante dans le modle omplet. On peut montrer que Tprend exatement la mme forme que dans la setion prdente, 'est--dire

que, sous les hypothse du modle Normal, on a

T =

(RSS0 RSS1

)/J

RSS1/(nK) F JnK .

1.7 Utilisation de variables indiatries

1.7.1 Exemples

Une variable indiatrie

8

est une variable expliative partiulire ne pre-

nant que les valeurs 0 ou 1. Elles vont nous permettre de onstruire desmodles dans lesquels un ou plusieurs paramtres peuvent hanger pour er-

taines parties de l'hantillon. Cette variable est don typiquement utilise

lorsque nous intgrons dans le modle une variable expliative binaire, omme

par exemple la variable genre (homme ou femme), travailleur (tra-

vailleur ou sans emploi), et.

Exemple

Reprenons l'exemple du modle de rgression pour logarithme du salaire. Une

variable indiatrie peut tre utilise pour faire la distintion, par exemple,

entre les hommes et les femmes :

E(logRe|Ed,Ho) = 1 + 2Ed+ 3Hoo Ho prend la valeur 1 si l'individu onsidr est un homme, et 0 si 'estune femme. Ce modle s'rit sous une forme quivalente deux quations :

E(logRe|Ed,Ho) ={

(1 + 3) + 2Ed si Ho = 1

1 + 2Ed si Ho = 0

L'utilisation de variables indiatries dans le modle de rgression ne mo-

die pas la thorie d'estimation par moindres arrs ordinaires. En partiu-

lier, il est galement possible de onstruire un intervalle de onane pour le

paramtre de la (ou des) variable(s) indiatrie(s). Elles apportent nanmoins

une grande valeur ajoute en terme de modlisation (et de dision).

L'exemple suivant

9

illustre l'utilisation de variables indiatries dans la

dtetion de valeurs anormales.

8. Le terme anglais est dummy. En franais, on utilise galement les synonymes variable

muette ou variable auxiliaire.

9. Tir de Bourbonnais (2004).

INGE1221 1.7 Utilisation de variables indiatries 23

Exemple

Considrons le modle de prodution de servie du seteur du tourisme

Prt = 1 + 2V at + 3Pot + t

dans lequel Prt est la prodution du seteur pour l'anne t, V at est la valeurajoute du seteur pour l'anne t et Pot est la population pour l'anne t. Ons'intresse l'estimation de e modle entre 1975 et 1992, mais on s'interroge

sur la perturbation entrane par l'eet guerre du Golfe en 1991. Pour

rpondre ette question, on utilise la variable indiatrie Dt suivante :

Dt = 0 pour t = 1975 1990 et t = 1992

Dt = 1 pour t = 1991

L'estimation des oeients du modle donne

Estimated

Variable Coeffiient t-statisti

C 2340.4 4.5

Va 1.64218 2.2

Po 0.3 2.9

D -120.56 5.8

ave n = 18 et R2 = 0.65. L'eet guerre du Golfe a-t-elle une inuenesigniative sur la prodution du servie de e seteur ?

1.7.2 Test de Chow

Dans les exemples de la setion prdente, on voit que les variables in-

diatries modient la valeur du terme onstant de la rgression pour un

sous-ensemble de l'hantillon onsidr (relire par exemple l'utilisation de

l'inatrie Homme dans le modle de salaire i-dessus). Ces variables

peuvent galement tre utiles pour modliser un hangement dans tous les

paramtres du modle. On peut penser par exemple la situation o une par-

tie de l'hantillon ontient les hommes, une autre partie ontient les femmes

et, pour haun de es sous-hantillons, on onsidre le mme modle linaire

mais ave des oeients dirents.

Un autre exemple est donn par un modle de rgression valide pour une

priode de temps donne. On peut se demander, par exemple, si l'introdution

d'une mesure maroonomique un moment donn a modi les paramtres

de la rgression. Ce type de hangement dans les oeients de rgression

s'appelle un hangement struturel (ou rupture) dans le modle.

Nous montrons i-dessous que e type de question peut tre modlis

gre aux variables indiatries, et ensuite testes en utilisant un test F derestrition.

INGE1221 1.8 Multiolinarit 24

Considrons la variable indiatrie spiant dans quel sous-hantillonse trouve un individu donn (par exemple = 1 si l'individu est un homme).Une spiation possible du modle de hangement struturel onsiste

dnir

E(Y |X) = X + X . (1.10)

Ce modle spie que le veteur de oeients du group 0 est , tandisque le veteur de oeients du groupe 1 est + . Le test de hangementstruturel revient don tester les K restritions

H0 = = 0K .

Pour e faire, on utilise le test F expos la setion prdente. Dans le

ontexte des hangements struturels, e test s'appelle le test de Chow. Si

ontient K omposantes, le nombre de ontraintes sous H0 est J = K et lenombre de paramtres du modle non-ontraint est 2K. Par onsquent, letest s'rit

T =

(RSS0 RSS1

)/K

RSS1/(n 2K) FKn2K . (1.11)

Au lieu d'eetuer e test ave des variables indiatries, une manire plus

simple de tester la stabilit des paramtres est base sur une estimation s-

pare pour les deux sous-ensembles de l'hantillon, par exemple les hommes

et les femmes. Appelons les sommes des rsidus au arr de es deux rgres-

sions RSSH et RSSF et notons que RSSH + RSSF = RSS1. Une statistiquequivalente mais plus simple utiliser est alors obtenue en remplaant RSS1en (1.11) par RSSH + RSSF . Nanmoins, si l'on souhaite tester la stabilitnon pas de la totalit des paramtres mais d'un sous-ensemble, l'introdution

de variables indiatries est invitable.

1.8 Multiolinarit

La ondition (RLM3) du modle de rgression linaire multiple imposait

une absene de multiolinarit entre les variables expliatives. Cette hypo-

thse signie qu'auune des variables expliatives ne peut tre rite omme

une ombinaison linaire d'autres variables expliatives du modle.

Comme nous l'avons vu au hapitre 2, ette ondition s'tait impose

pour au moins deux raisons. La premire est lie l'identiation des para-

mtres, et la seonde l'estimateur OLS qui requiert l'inversion de la matrie


XX. L'hypothse d'absene de multiolinarit assure prisment que ette

matrie est de plein rang, don inversible.

Dans la pratique, une olinarit entre les variables expliatives est typi-

quement une erreur de modlisation. Par exemple, si l'onomtre inorpore

dans son modle une variable indiatrie Homme et une variable india-

trie Femme, il ause de la olinarit dans le modle. Dans e as de

gure, les logiiels ragissent diversement, soit en un message d'erreur, soit

en prenant l'initiative d'ter l'une des deux variables expliatives du modle.

Ce type de olinarit peut tre qualie de olinarit struturelle ar elle

provient du modle lui-mme.

Il peut ependant arriver qu'une quasi olinarit existe entre les va-

riables expliatives, sans que l'intuition ne l'ait identie au pralable. Cette

situation survient en partiulier dans les modles ave beauoup de variables

expliatives. Dans ette situation, il peut arriver qu'une variable expliative

puisse s'exprimer approximativement omme ombinaison linaire d'autres

variables. Ce type de olinarit peut tre qualie de olinarit d'han-

tillonnage ar elle provient des donnes et non du modle. Cette situation

est toujours approximative, dans le sens o il n'existe pas de olinarit par-

faite, exate entre les variables. On est parfois amen parler de degr de

olinarit pour exprimer es olinarits imparfaites.

Indies de multiolinarit

Il existe plusieurs indies pratiques et desriptifs lis la olinarit

d'hantillonnage.

1. Les estimateurs sont sensibles un petit hangement de spiation

du modle (l'ajout ou le retrait d'une variable provoque des grandes

variations dans les estimateurs) ;

2. Le signe des oeients estims est illogique ou non onsistant ;

3. Certains estimateurs ont une grande magnitude, mais des signes oppo-

ss.

Ces eets peuvent tre auss par une instabilit numrique dans l'inver-

sion de la matrie X X.

Le fateur d'ination de la variane

Le fateur d'ination de la variane mesure l'ination des varianes

des oeients estims par rapport la situation sans multiollinarit. Tout

d'abord nous avons le thorme suivant important.


Theorem 1.2.

Var(k) =2n

i=1(Xik Xk)21

1 R2k, k = 1, . . . , K

o R2k est le oeient de dtermination multiple d'une rgression de

Xk sur X1, . . . , Xk1, Xk+1, . . . , XK . La formule pour Var(k) ontient deuxfateurs qui sont failes interprter.

Regardons, par exemple, le as d'une rgression simple Y = 0+1X+,ave une variable expliative. La variane prend la forme bien onnue,

Var(1) =2n

i=1(Xi X)2.

En ajoutant des variables expliativesX2, . . . , XK , Thorme 1.2 nous montreque ette variane est modie par un deuxime fateur

11R2

1

qui dpend de

la orrlation entre X1 et les autres variables expliatives. Comme R21

(0, 1), e deuxime fateur est toujours plus grand que 1. Par onsquent, enajoutant des variables, on ne peut qu'augmenter Var(1), mais ne jamais ladiminuer. La valeur de R21 est une mesure de la qualit d'un modle linaire deX1 expliqu parX2, . . . , XK . Si e lien est fort (R

21 prohe de un), le deuxime

fateur

11R2

1

est trs grand et la variane de 1 augmentera beauoup, tandis

que si le lien est faible (R21 prohe de zro), la variane n'augmentera pasbeauoup. Le mme raisonnement peut tre fait pour les autres variables,

k = 2, . . . , K, et on arrive interprter le fateur 11R2

k

omme le degr

de l'ination de la variane de k aus par la orrlation entre Xk et lesautres variables expliatives. C'est pour ela que l'on appelle ette quantit

le fateur d'ination de la variane, ou variane ination fator (VIF).

Definition 1.3. Le fateur d'ination de la variane (VIF) pour k estdni par

V IFk =1

1 R2k, k = 1 . . . , K

Notons que si R2k = 0, alors V IFk = 1, tandis que si R2k > 0, alors

V IFk > 1. S'il n'y a auune orrlation entre les variables expliatives, tousles R2k sont zros et, par onsquent, tous les VIF sont gaux 1. On dira que,de faon heuristique, il y a un problme de multiollinarit si le maximum

des VIF est trs grand, par exemple plus grand que 10.

INGE1221 1.9 Exeries 27

Les remdes

En as de olinarit signiative sur l'hantillon onsidr, plusieurs

stratgies sont possibles. Les plus simples sont les suivantes

10

:

1. On limine du modle des variables expliatives fortement orrles ;

2. On ajoute des donnes (si possible !)

3. On transforme les rgresseurs (modiation de l'helle de mesure,...)

Considrons le modle multiple homoskdastique, Y = 0+1X1+2X2+.

1. Expliquez omment une forte orrlation des variables X1 et X2 dimi-nue la prision ave laquelle les oeients 1 et 2 sont estims.

2. On ajuste e modle un hantillon pour lequel on trouve une orr-

lation empirique entre X2 et X3 de 0.9. Calulez les fateurs d'inationde variane pour 1 et 2 et interprtez les.

3. Expliquez pourquoi des oeients 1 et 2 non signiatifs (sur basedes tests student) ne onduisent pas nessairement onlure que, pris

ensemble, X2 et X3 n'inuenent pas Y (sur base du test F ).

1.9 Exeries

1. On possde un hantillon {(Yi, X1i, . . . , XKi), i = 1, . . . , n} tel que lamoyenne empirique de haune des variables expliatives X1i, . . . , XKiest nulle. Considrons les deux modles linaires

Y = 0 + 1X1 + . . .+ KXK + , E[|X ] = 0 (1.12)Y = 1X1 + . . .+ KXK + , E[|X ] = 0 (1.13)

Montrez que pour l'estimateur moindres arrs, i = i, i = 1 . . . , K.

2. Deux onomistes se servent du mme modle,

Y = 0 + 1X1 + 2X2 + , E[|X ] = 0

pour le premier et

Y = 0 + 1X1 + 2X2 + , E[|X ] = 0

pour le seond, o Y est la onsommation du mnage, X1 est le revenuet X2 le patrimoine nanier. Quel est le lien entre et lorsque

10. Il existe aujourd'hui des solutions plus sophistiques pour remdier au problme de

olinarit, omme par exemple la rgression ridge (voir Vinod and Ullah (1981)).


(a) les deux onomistes mesurent la onsommation en euros, mais le

premier mesure les revenus et le patrimoine en euros tandis que

l'autre les mesure en milliers d'euros ?

(b) le premier onomiste mesure toutes les variables en euros et le

seond mesure toutes les variables en milliers d'euros ?

3. Pour un hantillon de 8 ours, le tableau suivant donne l'valuation

moyenne du ours de la part des tudiants (Y ), l'esprane des notes(X1), ainsi que le nombre d'tudiants (X2). L'helle des variables Yet X1 va de 1 (trs faible) 5 (exellent).

i Yi X1i X2i

1 4.1 3.4 45

2 3.4 3.1 62

3 3.3 3.0 77

4 3.0 2.8 93

5 4.7 3.3 15

6 4.6 3.5 22

7 3.0 2.9 71

8 4.6 3.0 12

(a) Considrez le modle

Y = 0 + 1X1 + 2X2 +

o est un terme d'erreur ave esprane zro et variane 2. Lamatrie (X X)1 est donne par 47.656 13.906 0.0820813.906 4.1007 0.0220

0.08208 0.0220 0.0002686

Calulez l'estimateur OLS de 1.

(b) Sahant que l'estimateur de 2 est S2 = 0.0345, testez au niveau = 5% l'hypothse qu' ajouter vingt tudiants un ours baissel'valuation du ours autant que si l'esprane des notes baisse de

1.

4. On onsidre les fontions de prodution de la forme Q = f(K,L) oQ est une mesure de prodution, L le travail et K le apital (inputs).On utilise le modle de Cobb-Douglas

logQ = C + 2 logK + 3 logL.


A partir d'un hantillon, on obtient les rsultats suivants

Variable oeient art type

C 1.37

K 0.632 0.257

L 0.452 0.219

ave n = 40, Cov(2, 3) = 0.044, et R2 = 0.98. Testez les hypothsessuivantes au niveau 5% :

(a) H0 : 2 = 3 (onstruisez un test student)

(b) les rendements d'helle sont onstants (onstruisez un test student)

5. En Allemagne, la demande pour liquidit suivante a t estime en

logarithmes pour des donnes annuelles de 1969 2007 :

M = 1 + 2R + 3Y + 4L+

o R est le taux d'intrt, Y le PIB et L les assets liquides. Pour voirsi la runiation en 1990 a entrain un hangement des oeients,

on estime le modle galement pour les deux priodes 1969-89 et 1990-

2007. Les estimateurs sont les suivants :

1969 2007 : M = 0.003 0.261R + 0.530Y + 0.367L, R2 = 0.579,1969 1989 : M = 0.008 0.18R + 0.517Y + 0.281L, R2 = 0.6971990 2007 : M = 0.013 0.419R+ 0.936Y + 0.587L, R2 = 0.479La variation totale,

ni=1(Mi M )2, vaut 0.190 pour la priode totale,

0.093 pour la rgression de 1969-89, et 0.081 pour la rgression de 1990-

2007.

Testez l'hypothse que la demande de liquidit a hang aprs la runi-

ation.

Chapitre 2

Extensions of the linear regression

model

In this hapter we will disuss several pratial situations in whih the

methods disussed in the rst hapter do not apply diretly.

2.1 The normality assumption

The hypothesis tests developed in the rst hapter ruially relied on the

assumption of normality of the model disturbanes. It may not always be

justied to maintain this assumption for the data sample under study. If

we abandon normality, how an we onstrut valid ondene intervals and

hypothesis tests ?

2.1.1 A rst example

Let us start with an example. We want to analyze the food expenditures

of households as a funtion of total expenditures, as in the well-known model

of Working and Leser, see Working (1943) et Leser (1963) :

F = 1 + 2 ln(TOT ) + (2.1)

where F is the ratio of food expenditures and total expenditures, and TOTare total expenditures.

For the estimation of this model, we have a sample of 1519 households

in London, observed in a ensus from 1980 to 1982, analyzed by Blundell,

Dunan, and Pendakur (1998). Among the variables in the ensus were Fand TOT , but also the number of hildren of eah household. We estimatethe parameters of this model for two groups : households with one hild, and

those with two hildren. The results for the households with one hild are :

INGE1221 2.1 The normality assumption 31

3.5 4.0 4.5 5.0 5.5 6.0

0.20.4

0.60.8

(a) One-hild households

4.0 4.5 5.0 5.5

0.10.2

0.30.4

0.50.6

(b) Two-hild households

Figure 2.1: Food expenditures proportion of households.

Std. error of regression = .090313

R-squared = .320262

Estimated Standard

Variable Coeffiient Error t-statisti P-value

C 1.00993 .040099 25.1862 [.000

X -.149502 .895170E-02 -16.7010 [.000

(X is the variable ln(TOT )) and, for households with two hildren :

Std. error of regression = .089558

R-squared = .220611

Estimated Standard

Variable Coeffiient Error t-statisti P-value

C .953502 .036526 26.1047 [.000

X -.129437 .800795E-02 -16.1636 [.000

The estimated regression lines are presented in Figure 2.1 and are derea-

sing.

1

Consider the OLS residuals ei in both situations. Figure 2.2 depitsthese residuals and their histograms.

If the regression model is Gaussian, then the residuals after estimation

should be normally distributed. Looking at the histogram of standardized

1. Can you interpret this dereasing regression line ?


3.5 4.0 4.5 5.0 5.5 6.0

0.2

0.1

0.00.1

0.20.3

log(TOT)


Rsidus

2 0 2 4

0.00.1

0.20.3

0.4

(b) One-hild households

4.0 4.5 5.0 5.5

0.3

0.2

0.1

0.00.1

0.20.3

log(TOT)

() Two-hild households

Rsidus

4 2 0 2

0.00.1

0.20.3

0.4

(d) Two-hild households

Figure 2.2: Residuals after estimation and histogram of stan-

dardized residuals.


residuals in Figure 2.2, the question arises whether this histogram is ompa-

tible with the hypothesis of normality. In partiular, as a standard normal

random variable is symmetri around zero, we should expet a symmetri

histogram around zero if the residuals follow this distribution. However, the

depited histograms show some asymmetries. For the ase of households with

one hild, the histogram is more spread tp the right, and for households with

two hildren the histogram is more spread to the left.

Moreover, if Z is a random variable N (0, 1), we know that 95% of theprobability density is onentrated in the interval [1.96, 1.96]. Inspetingthe histogram of estimated residuals, however, we nd that their distribution

is less onentrated. In order to get a more preise idea, we an argue using

the QQ-plot in Figure 2.3. This plot onrms that it is not obvious that

the tails of the distribution of estimated standardized residuals should be

ompatible with a normal distribution.

3 2 1 0 1 2 3

3

2

1

01

23


3 2 1 0 1 2 3

4

3

2

1

01

23

(b) Two-hild households

Figure 2.3: Qq-plot of standardized residuals.

The following setion presents a formal statistial proedure to test the

normality of residuals. Before going into the details of this test, it is important

to keep in mind what the absene of residual normality ould imply.

If residuals are not normally distributed, then we annot use a Gaussian

regression model but have to work under more general assumptions. Reall

that normality was not a neessary assumption for the OLS estimator to be

unbiased and BLUE, meaning that OLS estimates remain reliable even under

non-normality.

However, the onstrution of ondene intervals or the evaluation of

statistial tests ruially depend on the normality assumption. Consequently,


if we believe that the residuals of the model are non-normal, then the test

results do not have the same interpretation. We will see later how to adapt

the onstrution of ondene intervals when the normality assumption is

not veried.

2.1.2 The Jarque-Bera test for normality

This is a test for normality often alulated in eonometri software pa-

kages, whih was introdued by Jarque and Bera (1987). The test is based

on two measures : The skewness and the kurtosis.

Reall that the skewness of a random variable U is S = 3/3/22 , where

2 and 3 are, respetively, the seond and third moment of the variable U .Intuitively, the skewness is the degree of symmetry of the random variable.

A perfetly symmetri random variable (suh as the normally distributed

random variable) has a skewness of 0. The kurtosis is dened by = 4/22

where 4 is the fourth moment of U . It is often taken as a measure of thethikness of the tails. A normal random variable has kurtosis = 3. Distri-butions with > 3 ( < 3) are alled leptokurti (platykurti) and typiallyhave fatter (thinner) tails than the normal distribution.

The idea of the Jarque-Bera test is to onstrut a global measure of

skewness and kurtosis of standardized residuals and to ompare it with the

the value of a normal distribution. The test is summarized as follows :

H0 : S = 0 and = 3

The Jarque-Bera test statisti is given by

JB =n

6

[S2 +

( 3)24

].

The authors of the test have derived the distribution of this statisti under

the null hypothesis :

JB 22 under H0 .For a normal random variable, JB = 0. As the statisti is non-negative,all signiant positive departures from zero suggest a rejetion of the null

hypothesis.

Example

Let us reonsider the example of Setion 2.1.1. Software pakages suh as

Oxmetris or R alulate the value of the JB statisti and orrespondingp-value. For the ase of one-hild households, we nd


Jarque-Bera test = 10.7941 [.005

and for the ase of two-hild households,

Jarque-Bera test = 6.37943 [.041

How should we interpret these results ?

2.1.3 Asymptoti theory

If the normality assumption is rejeted, we annot use the tehniques of

the rst hapter to onstrut ondene intervals, or tests onerning model

parameters. These methods were based on the exat distributions of the

estimators and 2, whih were based on the normal distribution of theerror terms of the model.

It is however possible to extend the tehniques to the non-normal ase by

studying the distribution of and 2, but without the normality assumption.The key onepts are given by two theorems studied in intermediate statistis

lasses, i.e. the law of large numbers, and the entral limit theorem. These

theorems are about the asymptoti behavior of sums of random variables,

where asymptoti refers to the sample size n whih tends to innity. Wewill establish in the following under whih onditions these theorems an be

used and what this implies for the onstrution of ondene intervals, or for

hypothesis tests.

Consisteny in the linear regression model

To analyze the onsisteny of the linear regression model, we will use the

following property, whih is given without proof. It is a simplied version of

the Continuous mapping theorem

2

.

Lemma 2.1 (Continuous mapping theorem). Let g be a ontinuous funtion(potentially multivariate) whih does not depend on the sample size n. If nis a onsistent estimator of , then g(n) is a onsistent estimator of g().

This lemma guarantees in partiular that the onsisteny of an estimator

does not depend on its parameterization. For example, if 2 is a onsistent

2. This lemma has already been disussed in the lass INGE1214, see in partiular the

Theorem 9.2 of Wakerly, Mendenhall III, and Sheaer (2002). For a omplete version of

the theorem and its proof, see, for example, Setion 2.3 of van der Vaart (1998).


estimator of 2, then this lemma says that is a onsistent estimator of thestandard deviation , sine the funtion g : x 7 x is ontinuous.

The OLS estimator in the framework of linear regression is given by Pro-

position 1.1 of the rst hapter. This estimator is suh that

= (X X)1X

=

(1

nX

X

)1(1

nX

)

(2.2)

This deomposition is interesting beause it involves empirial means, and

the weak law of large numbers allows us to study the asymptoti onvergene

of empirial means.

More preisely, this law implies that

1

nX

X

P E(XX )

and

1

nX

P E(X)

provided that the limits exist. By the Continuous mapping theorem, we an

therefore write

3{1

nX

X

}1P {E(XX )}1

provided that the limit exists, whih means that the matrix E(XX ) is in-vertible. Furthermore, by the assumption of strit exogeneity, we have

E(X) = E (XE(|X)) = 0so that the limit of

1nX is zero.

To summarize, (2.2) is the produt of a variable whih tends to {E(XX )}1and another variable whih tends to zero. To study the asymptoti behavior

of this produt, we use again the Continuous mapping theorem. This lemma

implies in partiular that, if n is onsistent for and if n is onsistent for, then the produt of the estimators nn is onsistent for the produt ofthe parameters .

Consequently, the produt (2.2) is onsistent for zero sine E(X) = 0,whih shows the onvergene of the OLS estimator. We summarize this result

in the following proposition.

3. This is a onvergene of random matries, whih should be interpreted as an element-

by-element onvergene.


Proposition 2.1. In the linear regression model (Dnition 1.1), if the ma-

trix E(XX ) is non-singular, then the OLS estimator is onsistent.

The ondition for non-singularity of the matrix E(XX ) is oherent withthe assumption (RLM3) whih imposes the absene of multiollinearity.

Asymptoti distribution

4

To nd the asymptoti distribution of the estimators, the idea is similar

to the proof of onsisteny and is based on the deomposition (2.2), whih

we reall here :

n(

)=

(1

nX

X

)1(n

nX

)

. (2.3)

Again, we use the onvergene(1

nX

X

)1P {E(XX )}1

whih is valid if the matrix E(XX ) is invertible.The seond fator is a vetor whose j-th omponent is

n1

n

ni=1

Xiji =n1

n

ni=1

Zi (o nous avons pos Zi := Xiji)

=n Zn (o Zn est la moyenne de Zi) .

In this last expression, the random variables are i.i.d. Zi and suh that EZi =0 for all i (beause E(X ) = 0). By the entral limit theorem, we thereforehave

5

n Zn

L N (0,Var(Z1))

provided that Var(Z1) exists and nite. Applied to the vetornnX , the

entral limit theorem therefore implies that

n

nX

L N (0,S)

4. The understanding of this setion requires knowledge of the entral limit theorem as

treated for example in Setion 7.3 of Wakerly, Mendenhall III, and Sheaer (2002).

5. The notation nL W means that the asymptoti distribution of n is the distri-

bution of the random variable W .


if S, the variane-ovariane matrix, exists and is dened by

S := Var

(1

nX

)

= Var(X) (ar l'hantillon est iid)

= E(2XX ) (ar EX = 0)

= 2E(XX ) (par hypothse d'homosdastiit)

To summarize, if the involved varianes exist, then the deomposition

(2.3) is the produt of a random matrix whih onverges to {E(XX )}1and a random vetor whih onverges to a multivariate normal distribution

N (0,S). To study the properties of this produt, we use a version of theLemma of Slutsky

6

whih we give here without proof :

Lemma 2.2 (Lemma of Slutsky). If the vetor Z onverges to a multiva-riate normal distribution N (0,S) and if the random matrix An is suh thatAn

P A, then

AnZL N (0,ASA) .

Thus, this lemma allows us to onlude that the deomposed vetor in

(2.3) has a limiting normal distribution. We an alulate the asymptoti

variane : If we denote := E(XX ), this variane is given by

1 (2)1 = 21

This result is summarized in the following proposition.

Proposition 2.2. In the linear regression model (denition 1.1), if the ma-

trix := E(XX ) is non-singular, then the OLS estimator is suh that

n(

) L N (0, 21) .Comparing this result with that shown in Proposition 1.4, we see that

the distribution of the OLS estimator is now asymptotially normal.

6. This lemma has already been seen in intermediate statistis, see for example Theorem

9.3 of Wakerly, Mendenhall III, and Sheaer (2002). For a omplete version of the lemma

inluding proof, see Setion 2 of van der Vaart (1998).

INGE1221 2.2 Heteroskedastiity 39

Interpretations Constrution of ondene intervals

When using Proposition 1.4 to onstrut ondene intervals or hypothe-

sis tests about the oeients, the above limit result shows that the approxi-

mation error of using the normal distribution diminishes as the sample size

grows. It follows that the tests developed above, in partiular the t and Ftests, remain approximately valid, even if the model disturbane does notfollow a normal distribution.

Moreover, as the student distribution tnK onverges to a standard nor-mal distribution when n, it is ommon in pratie to use ritial valuesof the normal distribution to onstrut ondene intervals when the error

distribution is unknown.

Also, if a statisti T has a distribution F JnK , then, asymptotially, thestatisti J T has a 2J distribution. To test J linear restritions of the para-meter (see Setion 1.6 above), it is ommon to alulate J T and to use

ritial values of the 2J distribution if the sample size is suiently large.

2.2 Heteroskedastiity

The results developed so far were based on the assumption of homoske-

dastiity (RLM4), whih means that by assumption, the onditional variane

of the error term is onstant (Var(|X) = 2I). In this setion, we will exa-mine whether this assumption is reasonable, testable, and what happens to

our previous results if we drop this restrition.

Example

Figure 2.2(a) presents the residuals after estimation of the food expenditures

of households with one hild. If the homoskedastiity assumption is veried,

then the variane of these residuals should not reveal large utuations as

a funtion of X . However, it seems that for larger values of the exogenousvariable, the variane of the residuals is smaller than for small values of X . Tostudy quantify this phenomenon, we will onsider a formal test and analyze

the onsequenes of heteroskedastiity for the OLS estimator.

2.2.1 Consequenes of heteroskedastiity

In a heteroskedasti model, the onditional variane of the error term may depend on the expliative variables X . A general way of writing heteros-kedastiity is to set 2i := Var(i|X i). In the speial ase of homoskedastiity,2i =

2for all i.


The heteroskedastiity an also be formulated in matrix notation :

Var(|X) = E(|X) =

21 0 00 22 0.

.

.

.

.

.

.

.

.

.

.

.

0 0 2n

(2.4)In the following, this matrix will be denoted by n, so that

n := Var(|X).

The heteroskedastiity is modeled inn by the fat that its diagonal elements

are not onstant. It is important to note that n remains a diagonal matrix,

whih means that the errors i and j are not orrelated for i 6= j. The aseof a non-diagonal n matrix will be onsidered in Setion 2.3.

What are the onsequenes of model (2.4) for the OLS estimator ? On

the one hand, we have to note that the OLS estimator remains unbiased. In

fat, the homoskedastiity assumption has not been used to show that the

OLS estimator is without bias.

On the other hand, deriving the variane of the estimator under assump-

tion (2.4), we nd

7

Var(|X) = (X X)1X X(X X)1 (2.5)

so that the variane of the OLS estimator hanges. An important onsequene

of this modiation is that the onstrution of ondene intervals, based

on the estimation of 2 in the homoskedastiity ase, is no longer valid.Moreover, t and F tests as developed in the rst hapter are not exat underheteroskedastiity. Finally, the Gauss-Markov theorem, whih states that the

OLS estimator has minimal variane, is also no longer valid.

Before studying the neessary adjustments in situations of heteroskedas-

tiity, we will disuss how to test the hypothesis of homoskedastiity.

2.2.2 Testing the homoskedastiity assumption

Inspeting the graph of residuals gives a rst indiation about homos-

kedastiity of the model. Below, we will develop some ommon statistial

proedures to empirially test this assumption.

7. Left to the reader as an exerise.


The Goldfeld-Quandt test

This test is based on the work of Goldfeld and Quandt (1965). The idea is

to split the sample into two groups A and B and to alulate 2 for eah sub-sample separately. When 2A and

2B are the theoretial onditional varianes

of sub-population A and B, respetively, then the null hypothesis to test is

H0 : 2A =

2B .

Naturally, the idea of the test is to ompare 2A and 2B. In order to do this,

we use the results of the rst hapter about the distribution of 2, and whihare approximate if the model is not Gaussian.

(nA K) 2A

2A 2nAK where nA is the size of sub-sample A

and

(nB K) 2B

2B 2nBK where nB is the size of sub-sample B.

Sine 2A and 2B are independent, we therefore have

2A/2A

2B/2B

F nAKnBK .

Consequently, a possible test statisti is given by

T =2A2B

F nAKnBK underH0 .

The drawbak of this test is that it relies on an a priori hoie of the sub-

samples A and B for the alulation of the varianes. Thus, the test an beuseful if a strutural break is presumed in the onditional variane between

the two groups. If this ondition is not satised, one has to onsider other,

more exible tests, whih will be onsidered in the following.

The Lagrange multiplier test

The idea of this test is to ensure a ertain exibility with respet to the

form of heteroskedastiity. We have seen that the Goldfeld-Quandt test is

appropriate when there is a dierene in variane between two sub-samples

of the data.

Breush and Pagan (1979) have proposed a test whih takes into a

ount

numerous other forms of heteroskedastiity. The rst ingredient of this test


is the denition of a vetor Z = (Z1, . . . , ZJ), whih is onstruted using

the explanatory variables X1, . . . , XK . A possibility is to dene, for example,Z = (1, X21 , . . . , X

2K)

, but other hoies are possible. It is essential, though,

that Z only depends on the explanatory variables.The idea of the test to model potential heteroskedastiity via the funtion

2i = 2h(1Zi1 + 2Zi2 + + JZiJ)

= 2h(Z i)

where 1, . . . , J are oeients, and h is a non-speied funtion, onti-nuously dierentiable, stritly positive and suh that h(0) = 1. This funtionis hosen by eonometriian, one example being h(t) = et.

Example

To x ideas, reonsider the Working-Leser model (2.1). The idea of the test

to develop is to model potential heteroskedastiity in residuals depited in

Figure 2.2. A simple example would be to set the vetor Z = (1, ln(TOT ))

of length J = 2, and h(t) = et. This way, we model the onditional varianeof residuals in Figure 2.2(a) or () by

2i = 2 exp

(1 ln(TOTi) + 2 ln

2(TOTi)).

By hoosing the vetor Z and the funtion h, we have speied a partiu-lar form of the onditional variane 2i . Note that this form depends on two

oeients 1 et 2, whih are unrestrited. The homoskedasti model or-responds to the restrition 1 = 2 = 0.

The null hypothesis of the test, homoskedastiity, orresponds to

H0 : 1 = . . . = J = 0 if Zi is not onstant.

The proedure of the Breush-Pagan test is the following :

1. Calulate the square of OLS residuals, 2i2. Run the regression 2i |Z i, where 2i plays the role of the dependant

variable and Z i plays the role of explanatory variables.

3. Calulate the oeient of determination, R2, of this regression.

4. We an show that T = nR2 2J under H0.Tests based on the oeient of determination of an auxiliary regression

are often alled Lagrange multiplier (LM) tests.

The test of White (1980)

The test proposed by White (1980) an be viewed as a speial ase of the

LM test of Breush and Pagan (1979). The proedure is the following :


1. Calulate squared OLS residuals 2i

2. Run the regression 2i on a onstant and all rst and seond momentsof the explanatory variables.

3. Calulate the R2 of this auxiliary regression.

4. We an show that T = nR2 2P under H0, where P is the numberof explanatory variables, not ounting the onstant, of the auxiliary

regression.

Example

Consider, for example, the regression Y = 1+2X1+3X2+. The auxiliaryregression of the test of White is given by

2i |1, X1, X2, X21 , X22 , X1X2suh that, here, P = 5.

Example

In the example of Working-Leser, there is only one explanatory variable, X .Thus, the auxiliary regression of the test of White is a regression of 2i on a

onstant, X and X2, and P = 2. For households with one hild, we obtainthe result

Testing for heterosedastiity using squares and ross produts

Chi2(2) = 12.989 [0.0015**

while for households with two hildren, we obtain

Testing for heterosedastiity using squares and ross produts

Chi2(2) = 5.7968 [0.0551

What is the onlusion of these tests ?

2.2.3 Inferene when the matrix is known

In the hypothetial situation where the diagonal matrix dened by

(2.4) is known, it is easily possible to adapt the OLS estimation to onstrut

ondene intervals. The idea is to base inferene on the model

Y =X + (2.6)

where Y i = Yi/i, Xi = Xi/i and

i = i/i for all i = 1, . . . , n. The va-

riable with asterisks are appropriate standardizations of the variables Y,X, of the original model. In the standardized model (2.6), we an verify

8

the

8. Easy exerise left to the reader.


assumption of strit exogeneity E(|X) = 0, and the assumption of homos-kedastiity Var(|X) = 1.

The standardized model being homoskedasti, it is natural to onstrut

inferene of the OLS estimator on the standardized model (2.6). The OLS

estimator of this model is given by

= (XX)1XY .

We an rewrite this estimator as a funtion of the original variables X et Y ,

=

[ni=1

XiXi

2i

]1 [ ni=1

X iYi2i

].

This estimator is sometimes alled weighted least squares (WLS) or generali-

zed least squares (GLS), beause of the normalization of the matries by the

quantities 2i , dierent for every observation i.Sine this estimator originates from the homoskedasti model (2.6), satis-

fying the assumptions of the linear regression model (Denitions 1.1 or 1.2),

the optimality properties derived in the previous hapter apply here diretly.

Moreover, the theory for onstruting ondene intervals and hypothesis

tests apply also diretly, either exatly if the error terms are Gaussian, or

asymptotially if the errors are not Gaussian.

The situation where the matrix is known is rarely enountered in pra-

tie. The following setion deals with the more realisti situation where the

eonometriian does not know the form of heteroskedastiity.

2.2.4 Heteroskedastiity-robust inferene

The onditional variane of the OLS estimator given in equation (2.8)

an be rewritten as

V := Var(|X) = 1n

(X Xn

)1(1

n

ni=1

2iX iXi

)(X Xn

)1.

In an important paper in eonometris, White (1980) has derived a onsistent

estimator of this variane. The proposed estimator is given by

V =1

n

(X Xn

)1(1

n

ni=1

2iX iXi

)(X Xn

)1

INGE1221 2.3 Autoorrelation 45

where the residuals after estimation, i, have replaed the unknown standarddeviations i. White (1980) shows that, under ertain quite general assump-tions

9

, V is a onsistent estimator of the onditional variane-ovarianematrix V = Var(|X).

This estimator of the variane is useful to adapt the onstrution of t andF tests, dened in the rst hapter. If we onsider, for example, the t test ofSetion 1.4, the modiation of the test onsists of dening the test statisti

T =k bVkk

In partiular, we an onstrut a ondene interval for the estimation of kat level in a heteroskedasti model. This is given by[

k t(/2)nKVkk; k + t

(/2)nK

Vkk

].

where t(/2)nK represents the quantile /2 of the student-t distribution with

nK degrees of freedom, tnK .The inferene developed above is often alled heteroskedastiity-robust,

or simply robust, sine it does not suppose any partiular form of heteros-

kedastiity. In other words, the tests and ondene intervals remain valid

whatever the behavior of Var(|X) may be. The standard errors alulatedusing this proedure are often alled heterosedatiity onsistent standard er-

ror (HCSE). O

asionally, statistial software pakages use robust standard

errors under this aronym.

2.3 Autoorrelation

One of our lassial hypotheses was that model disturbanes are unor-

related, that is,

Cov(i, j|X) = 0for all i 6= j. Often, espeially if variables are observed over dierent timeperiods (replaing the ross setion index i by a time index t), one enountersthe phenomenon of autoorrelations :

Cov(t, tk|X) 6= 09. One of these assumptions involves the existene of fourth moments of the explanatory

variables. One supposes, for example, that E(X2kX2 )


for some k 6= 0, whih is a violation of the lassial hypothesis. As for the

ase of heteroskedastiity, the error ovariane matrix is no longer a salar

multiple of the identity matrix, as it would be in the lassial ase. Under

heteroskedastiity, was a diagonal matrix with potentially dierent va-

rianes on the diagonal. Now, under autoorrelation, may have the same

varianes on the diagonal, but there are non-zero o-diagonal elements, i.e.

non-zero autoovarianes. Thus, similar issues arise as in the heteroskedas-

tiity ase : We will be onerned with the properties of the OLS estimator

in the presene of autoorrelation, tests for autoorrelation, and how to deal

with autoorrelation. First, however, let us disuss an example of a stohasti

proess that generates autoorrelation.

Example

An autoregressive proess of order one, AR(1), is given by

t = t1 + ut, t = 1, . . . , T

with (1, 1), and ut "white noise", that isE[ut] = 0

Var(ut) = 2

Cov(ut, utk) = 0, k 6= 0, tA realization with = 0.9, 0 = 0, ut N(0, 1) and T = 1000 is shown inFigure 2.4 together with a realization of Gaussian white noise.

We an show

10

that for an AR(1) proess, we have the following proper-

ties :

E[t] = 0

Var(t) =2

1 2Corr(t, tk|X) = k, k Z

Thus, for an AR(1) proess, we an have positive or negative autoorrelation,

depending on the sign of , and the autoovarianes deay exponentially tozero as the order k grows. We an onstrut the error ovariane matrix for the AR(1) ase as

=2

1 2

1 2 . . . T1

1 . . . T2

2 1 . . . T3

.

.

.

.

.

.

.

.

.

T1 T2 . . . 1.

If is known, is also known and one an onstrut a GLS estimator as in the

ase of heteroskedastiity. In Setion 2.3.2 we will write this GLS estimator

in an intuitive form.

10. see the exerises


Time

sim

.ar

0 200 400 600 800 1000

5

05

(a) AR(1)

Time

sim

.ar

0 200 400 600 800 1000

3

2

1

01

23

(b) White noise

Figure 2.4: AR(1) and white noise.

Example

As an example onsider poverty rates in the US explained by unemployment.

The threshold for poverty is delared a family inome of 18,400 USD per year

in 2003. We have a data set of yearly poverty and unemployment rates from

1980 to 2003. The output of an OLS regression of poverty on unemployment

gives the following result :

Coeffiient Std.Error t-value t-prob Part.R^2

Constant 9.79205 0.6112 16.0 0.0000 0.9211

UNEMPLOY 0.586614 0.09473 6.19 0.0000 0.6355

sigma 0.676259 RSS 10.0611649

R^2 0.63546 F(1,22) = 38.35 [0.000**

Adj.R^2 0.61889 log-likelihood -23.6221

no. of observations 24 no. of parameters 2

What are the onsequenes of autoorrelation for the lassial OLS esti-

mator ? We an show that the OLS estimator

1. remains without bias,

2. is no longer eient,

3. in general, has a variane dierent from 2(X X)1.

The latter onsequene may lead to serious overestimation of t ratios if thewrong formula 2(X X)1 is used to estimate varianes, negleting the errorautoorrelation.


4 5 6 7 8 9

1213

1415

UNEMPLOY

POVE

RTY

Figure 2.5: Satterplot of the poverty index against unemploy-

ment for the US, 1980 to 2003. The straight line is the OLS re-

gression line.

POVERTY Fitted

0 5 10 15 20 25

12

13

14

15POVERTY Fitted

r:POVERTY (scaled)

0 5 10 15 20 25

-1

0

1

2r:POVERTY (scaled)

Figure 2.6: Upper panel : time series of observed poverty index

(red) against the tted index (blue line) using OLS regression.

Lower panel : Residuals of the OLS regression.


2.3.1 Tests for autoorrelation

Autoorrelation is a problem of the disturbanes t whih are unobserved.Therefore, to detet autoorrelation, we use the OLS residuals et whih areobserved. One possibility to detet autoorrelation is to plot the et seriesagainst t, the time index. This is an informal, and diult way to detetautoorrelation, unless the pattern of autoorrelation is lear and strong.

One of the most popular tests for autoorrelation is the Lagrange-Multiplier

(LM) test developed by Breush (1978) and Godfrey (1978). To illustrate the

test, onsider the hypothesis

H0 : Corr(t, tk) = 0, k = 1, . . . , p

in the model

Yt = + Xt + t

The stages of the test proedure are the following.

1. Estimation of the model by OLS, giving residuals et

2. Run the regression

et = + Xt + 1et1 + . . .+ petp + ut

and obtain the R2 of this regression. Under H0, the statisti nR2has

an asymptoti 2 distribution with p degrees of freedom :

nR2 2p

2.3.2 How to deal with autoorrelation

What should we do if the absene of autoorrelation is rejeted ? We an

nd autoorrelation in the residuals for several reasons :

1. Beause there is truly autoorrelation in the errors. This is not often

the good reason, and it is the last one to adopt.

2. Beause the funtional form of the regression equation is badly hosen

(for example linear when it should be log-linear).

3. Beause we have omitted a relevant explanatory variable, that is itself

autoorrelated. This happens often with time-series data, in partiular

if we do not put a lag of the dependent variable in the explanatory

variables.

11

11. This leads to dynami models, a topi that will be studied during the seond term.


First of all, if the autoorrelation struture and its oeients are known

(whih rarely or never o

urs in pratie), then we an onstrut a GLS

estimator whih satises the Gauss-Markov theorem and, hene, is BLUE.

For example, if it known that errors follow an AR(1) proess as given above,

with known oeient , then we an estimate the following transformedregression

Yt Yt1 = + (Xt Xt1) + t t1 (2.7)using OLS, whih is eient for the transformed regression as the error term,

ut = t t1, is white noise.If we know the struture of autoorrelation (for example, AR(1)), but not

its oeients, one an onstrut a feasible GLS estimator by estimating the

autoorrelation oeients. The most popular proedure is the one proposed

by Cohrane-Orutt (1949). Take again the AR(1) example. The stages of

the Cohrane-Orutt proedure are the following :

1. Estimate the model by OLS, and obtain residuals et.

2. Run the regression et = et1+ut by OLS, and obtain the OLS estimate

=

Tt=2 etet1Tt=2 e

2t1

3. Estimate the transformed regression (2.7), replaing by .

A word of aution is however in order : Often, the evidene of autoor-

relation in estimated residuals is not evidene of genuine autoorrelation in

model disturbanes, but rather an indiator of model mis-speiation suh

as omitted variables or a false funtional form. Before trying to improve an

ineient OLS estimator, one should therefore try alternative model spei-

ations. Also, it may be that the assumed autoorrelation struture of model

disturbanes, e.g. AR(1), is not orret, as one might neglet higher order

autoorrelation. If there is enough evidene for the autoorrelation stru-

ture, it may be preferable to use the OLS estimator, whih is ineient but

onsistent. However, one has to adjust the formula for the varianes of para-

meter estimators, as the lassial estimator developed in the previous hapter

is inonsistent under autoorrelated error terms. We present a onsistent es-

timator of the varianes in the following.

2.3.3 Heteroskedastiity and autoorrelation onsistent

standard errors

Newey and West (1987) proposed an estimator of the varianes of OLS

parameter estimates in the linear regression model in the presene of hete-


roskedastiity and autoorrelation of error terms. It is a generalization of the

White estimator for heteroskedastiity to the ase of autoorrelation.

Reall the expression for the onditional variane of OLS estimators,

Var(|X) = (X X)1X X(X X)1 (2.8)

In the previous setion on heteroskedastiity, was a diagonal matrix ontai-

ning the error varianes on its diagonal, and a onsistent estimator of the

asymptoti ovariane matrix = limTT

t=1

Ts=1E[tsX tX

s] was gi-

ven by

(1T

nt=1

2tX tX

t

), see White (1980). Now, i

Econometrics

Documents

Transcript of Econometrics