Econometrics

download Econometrics

of 122

description

A usefull insight into the fascinating world of econometrics. Includes OLS, GLS, time series,....

Transcript of Econometrics

  • INGE 1221

    CONOMTRIE

    Christian M. Hafner

    Louvain Shool of Statistis, Biostatistis, and Atuarial Sienes

    Universit atholique de Louvain

    Louvain-la-Neuve

    Belgique

    Anne aadmique 2014/15

  • Chapitre 1

    Le modle de rgression linaire

    La rgression linaire modlise l'esprane onditionnelle de la variable

    dpendante Y par rapport une ou plusieurs variables expliatives notesX1, . . . , XK . Pour le as d'une seule variable expliative, on parle de la r-gression linaire simple, tandis que le as de plusieurs variables expliatives

    est appel la rgression linaire multiple.

    1.1 Introdution et dnition gnrale

    La plupart des problmes onomiques font intervenir plusieurs variables

    expliatives an d'expliquer le omportement moyen de la variable dpen-

    dante Y . On est don amen tudier le modle pour l'esprane ondition-nelle

    E(Y |X1, X2, . . . , XK) = 1X1 + . . .+ KXK (1.1)Les variablesX1, X2, . . . , XK reprsentent K variables expliatives direnteset, nouveau, nous avons suppos ii que l'esprane onditionnelle de Ypossde une forme trs partiulire donne par une ombinaison linaire des

    paramtres 1, . . . , K .Notons que, pour des raisons de notation qui failiteront la suite du syl-

    labus, le modle (1.1) ne ontient plus de terme onstant. Si nous souhaitons

    modliser un terme onstant dans la rgression, il faut alors supposer que

    l'une des variables expliatives est onstante. Dans e as, nous onsidrons

    que X1 = 1 et le modle devient

    E(Y |X1, X2, . . . , XK) = 1 + 2X2 + . . .+ KXK .

    Exemple

  • INGE1221 1.1 Introdution et dnition gnrale 2

    Un exemple traditionnel en onomie est l'tude de la relation entre la onsom-

    mation des mnages (variable dpendante) et des variables expliatives omme,

    par exemple, leur revenu orrespondant. Si Y reprsente la onsommation desmnages, un modle possible est donn par

    E (Y |X2, X3, X4) = 1 + 2X2 + 3X3 + 4X4 (1.2)o X2 reprsente le revenu des mnages, X3 est la taille de la famille et X4pourrait tre le patrimoine nanier du mnage. Pour trouver une forme ex-

    pliative pertinente, on peut se fonder sur la thorie onomique. Cependant,

    mme ave une trs bonne intuition onomique, il y a bien souvent plusieurs

    hoix possibles et nous ne sommes pas ertains, en ajoutant une nouvelle va-

    riable X5, si nous gagnons eetivement quelque hose dans la modlisationde l'esprane onditionnelle. Ce hapitre ore une rponse quantitative e

    type de problme.

    Exemple

    Un autre exemple est donn par l'tude du lien pouvant exister entre le

    salaire d'un individu (variable dpendante) et son niveau d'tudes (variable

    expliative). Ce dernier exemple est illustr la gure 1.1, dans laquelle on

    reprsente un hantillon de 1289 individus pour lesquels ont t relevs le

    niveau d'duation, mesur en nombre d'annes de solarit, et le salaire,

    mesur en dollars par heure

    1

    . Dans ette gure, nous avons pla la variable

    d'duation en absisse et la variable de salaire en ordonne. Chaque point

    de ette gure orrespond don un travailleur pour lequel ont t mesures

    es deux variables.

    Cet hantillon peut bien entendu tre utile pour vrier empiriquement

    s'il existe une relation entre les deux variables en prsene, duation et

    revenu. Plusieurs observations doulent de ette gure. Tout d'abord, la

    variabilit des salaires n'est pas identique pour tous les niveaux d'duation.

    D'autre part, les plus hauts salaires semblent rservs aux individus ayant un

    niveau d'duation lev (16 annes d'duation).

    En appliquant des transformations sur les variables en prsene, on peut

    avoir une toute autre vision de la liaison pouvant exister entre es variables.

    A titre d'exemple, la Figure 1.2 reprsente les mmes donnes, mais sur une

    autre helle. La gure 1.2(a) reprsente le logarithme du revenu en fontion

    de l'duation. La gure 1.2(b) reprsente le logarithme du revenu en fon-

    tion du arr de l'duation. Ces gures montrent qu'il serait aussi pertinent

    d'analyser le modle linaire

    E (Y |X1, X2) = 1 + 2X2 + 3X3dans lequel Y reprsente le logarithme du revenu (log(Re)), X2 est la variableduation (Ed) et X3 est le arr de l'duation (Ed

    2). Un modle possibleest don donn par

    E(log(Re)|Ed,Ed2) = 1 + 2Ed+ 3Ed2 . (1.3)

    1. Soure : Current Population Survey of the U. S. Census Bureau (Mars 1995) et Ruud

    (2000).

  • INGE1221 1.1 Introdution et dnition gnrale 3

    0 5 10 15 20

    010

    2030

    4050

    60

    Niveau deducation

    Sala

    ire (p

    ar he

    ure)

    Figure 1.1: Graphique du nombre d'annes d'tudes de 1289

    individus en fontion de leur revenu en dollars amriains. Les

    erles vides reprsentent les moyennes onditionnelles.

    Dans e dernier exemple, il est important de remarquer que la linarit

    du modle fait rfrene une linarit de l'esprane onditionnelle par

    rapport aux paramtres i et non par rapport aux variables exognes Xi. Unedisussion plus ne sur l'impliation de la non linarit des variables exognes

    est propose dans la setion 1.3 de e hapitre.

    Dans la suite, nous utiliserons une riture simplie du modle multiple

    en reourant aux notations vetorielles et matriielles. Notons

    X =

    X1

    X2.

    .

    .

    XK

    et =

    1

    2.

    .

    .

    K

    les veteurs de variables exognes et des paramtres respetivement. Ave es

    onventions, le modle multiple s'rit sous forme abrge

    E(Y |X) = X

  • INGE1221 1.1 Introdution et dnition gnrale 4

    0 5 10 15 20

    01

    23

    4

    Niveau deducation

    Log d

    u sala

    ire ho

    raire

    (a) Log du salaire en fontion du niveau

    d'duation

    0 100 200 300 400

    01

    23

    4

    Carr du niveau deducationLo

    g du s

    alaire

    horai

    re(b) Log du salaire en fontion du arr

    du niveau d'duation

    Figure 1.2: Eet de la transformation des variables niveau

    d'duation et revenu pour les 1289 individus de l'han-

    tillon. Les erles reprsentent ii enore les moyennes ondition-

    nelles.

    o il est sous-entendu par le ontexte que X et sont des veteurs olonnesde dimension K.

    Ce modle de population peut s'rire sous la forme d'un modle ave

    erreur. En dnissant := Y E(Y |X), nous pouvons rire

    Y = X +

    en supposant l'hypothse d'exognit strite E(|X) = 0.Ii enore, le modle d'hantillonnage pour l'observation des variables Y

    et X est suppos alatoire simple (ou iid). L'hantillon onsiste don en desreprodutions indpendantes de variables alatoires

    (Yi, Xi)

    o

    X i =

    X1i

    X2i.

    .

    .

    XKi

  • INGE1221 1.1 Introdution et dnition gnrale 5

    est le veteur olonne des variables expliatives de l'individu i. Le modlelinaire sur l'hantillon s'rit don

    Yi = 1X1i + 2X2i + . . .+ KXKi + i

    pour tout individu i = 1, . . . , n. En utilisant nouveau une notation veto-rielle, on peut rire

    Y1

    Y2.

    .

    .

    Yn

    =

    X11 X21 XK1X12 X22 XK2.

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    X1n X2n XKn

    1

    2.

    .

    .

    K

    +

    1

    2.

    .

    .

    n

    ou, de faon quivalente,

    Y =X +

    o Y reprsente le veteur d'observations n 1, X = (X1, . . . , Xn) est unematrie alatoire nK d'observation des variables exognes, est le veteurde paramtres K 1 et est le veteur d'erreurs n 1.

    Nous pouvons prsent donner la dnition gnrale du modle de r-

    gression linaire multiple.

    Definition 1.1. L'hantillon iid (Yi, Xi), i = 1, . . . , n suit un modle dergression linaire multiple si les onditions suivantes sont respetes pour

    tout i :

    (RLM1) Il existe K oeients rels 1, . . . K tels que

    Y =X + ,

    (RLM2) Les variables sont telles que E(|X) = 0.(RLM3) Le rang de la matrie X est K ave une probabilit gale 1.

    De plus,

    (RLM4) Ce modle est variane onditionnelle homosdastique s'il existe

    un nombre rel stritement positif tel que Var(|X) = 2In, o Inreprsente la matrie identit n n.

    La ondition (RLM2) utilise la onvention que 0 reprsente un veteur n1 de nombres nuls. Elle reprsente l'hypothse d'exognit strite impliquantune struture stohastique trs partiulire de l'erreur. En partiulier, ette

    hypothse implique :

    E() = 0 et Cov(X i, i) = 0 .

  • INGE1221 1.1 Introdution et dnition gnrale 6

    Elle entrane galement une absene de orrlation onditionnelle des erreurs :

    Cov(ij |X) = 0 pour tout i 6= j.La dmonstration de ette dernire proprit est laisse titre d'exerie

    utile.

    La ondition (RLM3) s'appelle absene de olinarit (ou de multioli-

    narit) et nessite des expliations. Rappelons qu'en algbre, le rang d'une

    matrie est gal au nombre de olonnes linairement indpendantes de la ma-

    trie. La ondition de la dnition exprime don qu'auune des K olonnesde la matrie X ne peut tre exprime omme une ombinaison linaire des

    autres olonnes deX. Comme ette matrie est alatoire, la dnition prise

    que ette ontrainte est respete ave une probabilit gale 1.

    An de omprendre la raison pour laquelle nous imposons la ondition

    (RLM3), prenons un exemple.

    Exemple

    Considrons le modle linaire

    Y = 0 + 1X1 + 2X2 + .

    Supposons que la variable X2 puisse s'rire omme la ombinaison linaired'autres variables du modle, par exemple X2 = 1 + 2X1. Dans e as,si l'on remplae X2 dans le modle de rgression par 1 + 2X1, on trouve(aprs aluls)

    Y = 0 + 1X1 +

    o 0 = 0+12 et 1 = 1+22. Ce dernier systme ontient deux para-

    mtres 0 et 1 pouvant tre estims par OLS. partir de es estimateurs,

    on souhaite trouver des estimateurs des paramtres 0, 1, 2 dans le modleinitial. On voit don ii le problme qui se pose, ar les valeurs de 0 et

    1

    ne permettent pas de dduire les valeurs de 0, 1 et 2 sans ambiguit (aril faut rsoudre un systme indtermin de deux quations linaires trois

    inonnues !).

    On voit dans et exemple que la prsene d'une olinarit dans le mo-

    dle ne permet pas d'interprter sans ambiguit les paramtres du modlede rgression linaire. On dit alors que ette ondition onstitue une ondi-

    tion d'identiation du modle. Cependant, il existe des situations pratiques

    dans lesquelles une olinarit struturelle n'est pas aussi vidente que dans

    l'exemple prsent. Des variables expliatives peuvent tre prohes de la oli-

    narit dans l'hantillon tudi. Ce as de gure sera trait dans le hapitre

    suivant.

    Remarquons enn que la ondition (RLM3) implique que n > K, 'est--dire que la taille de l'hantillon est suprieure au nombre de rgresseurs.

  • INGE1221 1.2 Estimation par moindres arrs 7

    La dernire ondition de la dnition, (RLM4), gnralise le onept d'er-

    reur homosdastique au as de la rgression multiple. Dans ette dnition,

    I reprsente la matrie identit n n.

    1.2 Estimation des paramtres par moindres

    arrs

    1.2.1 Drivation des estimateurs

    Supposons que l'on observe un hantillon (Y1, X1), . . . (Yn, Xn) de taillen. Pour haque valeur possible du paramtre , on dnit les rsidus de largression linaire par le veteur n 1

    e() := Y X .

    La somme des rsidus au arr (RSS) est dans e as

    RSS() := e()e()

    = (Y X)(Y X) .

    Le prinipe des moindres arrs hoisit le veteur minimisant la fontionRSS :

    = argminRSS() .

    L'ide qui sous-tend la onstrution de et estimateur est de trouver la

    valeur des paramtres qui livrent le plus petit rsidu possible pour les observa-

    tions donnes. La proposition suivante drive es estimateurs expliitement.

    Proposition 1.1. L'estimateur par moindres arrs de dans le modlede rgression linaire multiple est

    = (X X)1X Y .

    Dmonstration. An de rsoudre e problme de minimisation, l'ide la plus

    simple onsiste mettre zro les premires drives partielle de la fontion

    RSS() par rapport haune de ses variables i. En utilisant la notationvetorielle usuelle

    RSS() :=(

    1RSS(), . . . ,

    KRSS()

    ),

  • INGE1221 1.2 Estimation par moindres arrs 8

    la preuve onsiste don rsoudre RSS() = 0. Cette rsolution est fai-lite si l'on rrit la fontion RSS() de la faon suivante :

    RSS() = (Y X)(Y X)= (Y X )(Y X) (ar (X) = X )= Y Y X Y Y X + X X= Y Y 2Y X + X X (ar X Y est un salaire,

    don gal son transpos)

    = Y Y 2a + A (o a :=X Y et A :=X X)

    Le terme Y Y ne dpendant pas du paramtre , il peut tre ignor dans ladirentiation de RSS(). On vrie failement que

    (a) = a et ( A) = 2A si A est symtrique.Par onsquent, RSS() = 2a+2A. En mettant ette quation zro,et en remplaant a et A par leur dnition, nous trouvons

    XX =X Y . (1.4)

    Cette dernire identit est une galit entre K quations qui sont appelesles quations normales de problme de minimisation. L'estimateur OLS de

    la proposition se dduit immdiatement de e systme d'quations. Il faut

    ependant enore s'assurer que la solution propose est bien le minimum de

    la fontion RSS() et non pas un maximum. Cette ondition se vrie enmontrant que la matrie Hessienne

    2

    de la fontion RSS est dnie positive.Puisque nous avons driv RSS() = 2a+2A, la Hessienne de RSS()est 2A = 2X X et est don bien dnie positive par la ondition (RLM3)de la dnition

    3

    . La proposition est don dmontre.

    L'estimateur OLS nessite l'inversion de la matrieX X. Ainsi que nousl'avons argument dans la dmonstration i-dessus, une onsquene de l'ab-

    sene de olinarit (ondition (RLM3) de la dnition du modle de rgres-

    sion linaire), ette matrie est dnie positive et don inversible. On voit

    ainsi que l'absene de olinarit est galement importante pour garantir une

    inversion stable de la matrie X X, et don pour obtenir des estimateurs de.

    2. Pour rappel, la matrie Hessienne de la fontion 7 RSS() est la matrie K Kdont l'lment (i, j) est gal 2RSS()/ij

    3. Exerie utile.

  • INGE1221 1.2 Estimation par moindres arrs 9

    L'estimateur OLS de la variane onditionnelle 2 s'obtient partir desrsidus aprs estimation

    e := Y X (1.5)et de la somme des rsidus arrs aprs estimation

    RSS = ee .

    Cet estimateur est donn par

    2 :=RSS

    nK =ee

    nK . (1.6)

    La division par n K provient du alul de l'esprane de l'estimateurqui sera ralis i-dessous. Cette normalisation par nK est elle qui permetd'obtenir un estimateur sans biais pour 2. Remarquons que ette dnitionutilise que n > K ainsi que nous l'avons driv de la ondition (RLM3).

    Le nombre n K est parfois appel le degr de libert. La raison estdonne par la proprit d'orthogonalit suivante : On peut montrer que les

    rsidus aprs estimation par OLS des paramtres sont tels que

    Xe = 0 ,

    e qui peut enore s'rire

    ni=1

    X iei = 0 ouni=1

    Xkiei = 0 pour tout k = 1, . . . , K.

    La demonstration de ette proprit est laisse titre d'exerie. On voit

    dans e rsultat que le veteur des rsidus e est orthogonal l'hantillon(Xk1, . . . , Xkn) de haune des variables expliatives Xk. Cette propritmontre galement que tout veteur de rsidus e doit obir es K ontrainteslinaires. Tout veteur de taille n n'est don pas un veteur de rsidus va-lable en e sens qu'il doit se ontraindre es K onditions. C'est pourquoil'on dit que e veteur possde nK degrs de libert (la taille n laquelleon soustrait le nombre de ontraintes linaires que le veteur doit subir).

    1.2.2 Esprane et variane des estimateurs

    Les estimateurs que nous avons dnis possdent des proprits impor-

    tantes en terme de biais et variane. Nous montrons dans la proposition

    suivante que l'estimateur est sans biais, et nous alulons sa variane.

  • INGE1221 1.2 Estimation par moindres arrs 10

    Proposition 1.2. L'estimateur par moindres arrs de dans le modlede rgression linaire multiple est tel que

    E(|X) =

    et

    Var(|X) = 2(X X)1 .

    Dmonstration. Nous pouvons tout d'abord rrire l'estimateur ommesuit :

    = (X X)1X Y

    = (X X)1X (X + ) (par dnition du modle)

    = + (X X)1X (ar (X X)1X X = I) (1.7)

    L'esprane onditionnelle de l'estimateur est don

    E(|X) = E(|X) + E((X X)1X |X)= + (X X)1X E(|X)= (hypothse d'exognit strite)

    e qui montre que l'estimateur est sans biais. Pour la variane, nous alulons

    diretement

    Var(|X) = E( |X) (ar est sans biais pour )= E(AA|X) (Par (1.7), exognit strite,

    et en posant A := (X X)1X )

    = AE(|X)A= 2AA (par (RLM4))

    Le rsultat nal s'obtient en observant queAA = (X X)1X X(X X)1 =(X X)1.

    La variane des estimateurs est don

    diretement proportionnelle 2, la variane du terme d'erreur dumodle,

    inversment proportionnelle la dispersion des variables expliatives, inversment proportionnelle la taille de l'hantillon n.

  • INGE1221 1.2 Estimation par moindres arrs 11

    L'estimateur de la variane onditionnelle dni plus haut est galement

    un estimateur sans biais pour 2, ainsi que montr dans la proposition sui-vante.

    Proposition 1.3. L'estimateur par moindres arrs 2 de 2 dans le modlede rgression linaire multiple est tel que

    E(2|X) = 2 .Dmonstration. Remarquons tout d'abord que la proposition revient mon-

    trer E(ee) = (nK)2. Par dnition de e, on peut riree = Y X(X X)1X Y=[I X(X X)1X ]Y

    = (I P )Y (ave P :=X(X X)1X ).La matrie P est la matrie de projetion sur l'espae vetoriel engendr

    par les olonnes de X (Pour le vrier, il faut montrer que ette matrie

    symtrique est telle que PX =X). On a don

    ee = (I P )Y 2o x2 reprsente la norme eulidienne du veteur x. En utilisant la dni-tion du modle linaire, on vrie en utilisant la dnition de P que

    (I P )Y = (I P )(X + )= (I P )

    et (I P )2 = (I P ) ar P est une matrie de projetion. Finalement, onpeut rrire ee omme

    ee = (I P ) .La preuve s'ahve en deux tapes : on montre tout d'abord que E((I P )|X) = 2tr(IP ) o tr() est la trae d'une matrie. On montre ensuiteque tr(I P ) = nK.

    Montrons tout d'abord E((I P )|X) = 2tr(I P ). Si mij repr-sente l'lment (i, j) de la matrie I P , nous pouvons dvelopper la formequadratique (I P ) pour obtenir :

    E((I P )|X)

    =ni=1

    nj=1

    mijE(ij |X) (ar les mij sont des fontions de X)

    =

    ni=1

    mii2

    (par hypothse d'exognit strite)

    = 2tr(I P )

  • INGE1221 1.2 Estimation par moindres arrs 12

    Calulons prsent ette trae. En utilisant que la trae est une fontion

    linaire, on a

    tr(I P ) = tr(I) tr(P ) = n tr(P )et

    tr(P ) = tr [X(X X)X ] (par dnition de P )

    = tr [(X X)X X] (ar tr(AB) = tr(BA))

    = tr(IK) = K (o IK est la matrie identit K K)

    e qui montre que tr(I P ) = nK.

    1.2.3 Le thorme de Gauss-Markov

    Ce thorme fournit un rsultat d'optimalit de l'estimateur OLS que

    nous allons expliquer i-dessous. Nous nonons tout d'abord e rsultat.

    Theorem 1.1. L'estimateur de moindres arrs est eae dans la lasse

    des estimateurs linaires non biaiss. Cela signie que, pour tout estimateur

    linaire non biais du veteur de paramtres , la matrie

    Var(|X) Var(|X) o est l'estimateur OLSest semi-dnie positive

    4

    .

    La dmonstration ette proposition peut se trouver, par exemple, dans

    Hayashi (2000) (hapitre 1).

    Tout d'abord, si la matrie Var(|X) Var(|X) est semi-dnie posi-tive, nous pouvons rire, pour tout veteur x de dimension K :

    xVar(|X)x > xVar(|X)xEn partiulier, on peut hoisir le veteur

    x = (0, 0, . . . , 0, 1, 0, 0, . . . , 0)

    o le 1 apparat l'lment k du veteur. Pour e hoix partiulier dex, la forme quadratique xAx se rduit l'lment (k, k) de la matrie A.L'lment (k, k) de la matrie Var(|X) tant gal la variane du oeientk, Var(k|X), on voit don que le thorme de Gauss-Markov implique que

    Var(k|X) > Var(k|X) pour tout k = 1, 2, . . . , K .4. Rappelons qu'une matrie A est semi-dnie positive si xAx > 0 pour tout veteur

    x de dimension K.

  • INGE1221 1.3 Eet marginal et lastiit 13

    Ce raisonnement montre que, pour tout oeient de la rgression, l'estima-

    teur OLS n'a jamais une variane plus grande que la variane de tout autre

    estimateur linaire sans biais.

    Remarquons que e thorme n'none pas que l'estimateur OLS a une

    plus petite variane que n'importe quel autre estimateur. Ce thorme ne

    ompare l'estimateur OLS qu'ave tous les estimateurs linaires en Y etsans biais. Pour ette raison, on dit parfois que et estimateur est BLUE (de

    l'anglais Best Linear Unbiased Estimator).

    1.3 Forme fontionnelle, eet marginal et las-

    tiit

    Nous avons remarqu que l'hypothse d'exognit strite E(|X) nouspermet d'interprter la rgression omme un modle linaire sur l'esprane

    onditionnelle :

    E(Y |X) = 1X1 + 2X2 + . . .+ KXK .Cette ondition est en ralit une hypothse entrale permettant d'interpr-

    ter les oeients du modle de rgression. Ainsi, le oeient k mesurele hangement espr dans la variable Y si la variable Xk hange et que lesautres variables expliatives demeurent inhanges. Cei s'exprime math-

    matiquement par la drive partielle

    E(Y |X)Xk

    = k

    appele eet marginal de la variable Xk.

    Exemple

    Dans le modle de onsommation donn au dbut de e hapitre, quation

    (1.2), 2 reprsente l'eet marginal du revenu du mnage sur la onsomma-tion. Dans e modle, un a

    roissement de 200 euros du revenu du mnage

    implique don un a

    roissement de 2002 euros dans l'esprane ondition-nelle des dpenses de onsommation.

    Dans ette drive partielle, il est important de noter que les variables

    autres que Xk sont onsidres omme des onstantes. Cette ondition estparfois appele eteris paribus

    5

    . Or, il n'est pas toujours pertinent de main-

    tenir onstantes les autres variables du modle, ainsi que le montre l'exemple

    suivant.

    5. Toutes hoses gales par ailleurs.

  • INGE1221 1.4 Estimation d'intervalles 14

    Exemple

    Dans le modle revenu-duation (1.3), il n'est pas possible faire varier la

    variable Ed sans faire varier la variable Ed2. Dans e modle,

    E(Re|Ed,Ed2)Ed

    = 2 + 23Ed .

    L'eet marginal de l'duation sur le revenu n'est don pas onstant mais

    dpend linairement de l'duation.

    Ce dernier exemple montre don que l'eet marginal dpend de la forme

    fontionnelle du modle que nous tudions. Mais, dans tous les as, l'eet

    marginal reprsente l'eet de l'a

    roissement d'une unit de la variable Xksur la valeur attendue E(Y |X).

    Dans bien des situations, il est pourtant plus intuitif de travailler ave une

    mesure relative plutt qu'une mesure absolue. C'est la raison pour laquelle

    on s'intresse plus souvent aux lastiits que nous allons maintenant dnir,

    plutt qu'aux eets marginaux.

    L'lastiit par rapport la variableXk est la variation relative de E(Y |X)mesure suite une variation en pourentage d'une variable expliative.

    L'lastiit s'rit mathmatiquement

    k :=E(Y |X)Xk

    XkE(Y |X) .

    L'lastiit prend une forme simple dans les modles linaires dont les

    variables sont prises en logarithme. Considrons le modle

    E(log Y |X) = log(X)o log(X) est un abus de notation pour rprsenter le veteur

    (logX1, logX2, . . . , logXK).

    Dans e modle on alule (exerie faile) failement l'lastiit k :

    k = k .

    En d'autres termes, l'lastiit est ii onstante et xe par les oeients

    du modle.

    1.4 Estimation d'intervalles dans le modle Nor-

    mal

    L'estimation d'intervalles dans le modle linaire, ou la onstrution de

    tests d'hypothses sur les oeients de la rgression passent ii enore par

  • INGE1221 1.4 Estimation d'intervalles 15

    une dnition plus strite du modle de rgression linaire dans laquelle une

    hypothse de distribution est formule sur l'erreur .

    Definition 1.2. L'hantillon iid (Yi, Xi), i = 1, . . . , n suit un modle dergression linaire multiple Normal si les onditions suivantes sont respetes

    pour tout i :

    (RLM1) Il existe un veteur = (1, . . . K)de dimension K tel que

    Y =X + ,

    (RLM3) Le rang de la matrie X est K ave une probabilit gale 1,

    (RLM5) |X N (0, 2I).La ondition (RLM5) implique en partiulier l'hypothse d'exognit

    strite (RLM2) et l'hypothse de variane homosdastique (RLM4).

    Cette dnition permet d'rire la distribution d'hantillonnage de l'es-

    timateur .

    Proposition 1.4. Dans le modle de rgression linaire multiple Normal,

    l'estimateur OLS est tel que

    |X N (0, 2(X X)1)et l'estimateur de la variane est tel que

    (nK) 2

    2 2nK .

    Cette proposition permet en partiulier de tester des hypothses sur les

    oeients k. Considrons par exemple le test

    H0 : k = b ontre H1 : k 6= b .o b est une valeur xe que le herheur souhaite tester sur le oeient bk(k est x). Une statistique de test valide pour e test est donne par

    T =k b

    2 ((X X)1)kkEn eet, la dernire proposition permet de trouver la distribution de T sil'hypothse H0 est vraie :

    T |X tnK .On peut onstruire un intervalle de onane pour l'estimateur k au

    niveau . Celui-i est donn par[k t(/2)nK

    2 ((X X)1)kk; k + t

    (/2)nK

    2 ((X X)1)kk

    ].

    o t(/2)nK reprsente le quantile /2 de la loi de Student tnK .

  • INGE1221 1.5 Outils d'ajustement 16

    1.5 Outils d'ajustement

    Une fois qu'un modle onomtrique a t onstruit et que ses paramtres

    ont t estims, une tape importante de la modlisation onsiste vrier

    si le modle nal s'ajuste orretement aux donnes observes. Pour mesu-

    rer la qualit de et ajustement, l'ide est de vrier si le modle explique

    susament bien la variabilit de la variable dpendante Y .Intuitivement, une droite de rgression s'ajuste bien aux donnes lorsque

    les rsidus aprs estimation dnis i-dessus sont ngligeables. Il s'agit pr-

    isment de l'ide qui a prsid la onstrution des estimateurs OLS. la

    limite, un ajustement parfait serait aratris par la situation dans laquelle

    les observations se trouvent exatement sur la droite de rgression estime.

    En pratique, on tente de vrier partir des rsidus si les observations se

    trouvent le plus prs possible de ette droite. Si e n'est pas la as, on dit

    que le modle n'a pas expliqu toute la variabilit de la variable dpendante,

    et on peut mettre des doutes sur la validit du modle ajust aux donnes.

    Rappelons la onstrution des rsidus aprs estimation

    ei = Yi Yi pour i = 1, . . . , nave la onvention

    Yi :=Xi pour i = 1, . . . , n .

    Yi reprsente la prdition ralise par le modle ajust.Une mesure de la variabilit de Yi est donne par la somme du arr

    de la direne entre Yi et sa moyenne empirique Y n. Ave les notationsprdentes et un peu d'algbre, on peut rire

    Variabilit de Yi =

    ni=1

    [Yi Y n

    ]2=

    ni=1

    [(Yi Y n) + ei

    ]2=

    ni=1

    (Yi Y n)2 +ni=1

    e2i + 2

    ni=1

    (Yi Y n)ei

    =

    ni=1

    (Yi Y n)2 +ni=1

    e2i (1.8)

    La dernire galit utilise la proprit

    ni=1

    (Yi Y n)ei = 0

  • INGE1221 1.5 Outils d'ajustement 17

    dont la dmonstration est laisse titre d'exerie utile (en s'aidant par

    exemple des quations normales).

    La domposition (1.8) s'interprte de la faon suivante :

    La sommeni=1(YiY n)2 mesure la variabilit totale de l'hantillonYi autour de sa moyenne Y n.

    La sommeni=1(Yi Y n)2 reprsente la variabilit de l'hantillon Yiexplique par le modle de rgression

    La somme ni=1 e2i est la variabilit de Yi qui n'est pas explique parle modle de rgression.

    Cette domposition permet don de mesurer si le modle ajust explique

    susament bien la variabilit dans les donnes. En pratique, on travaille

    ave une mesure relative donne par le rapport

    R2 :=

    ni=1(Yi Y n)2ni=1(Yi Y n)2

    =Variabilit explique par le modle ajust

    Variabilit de l'hantillon Yi

    appel oeient de dtermination (ou simplement R2). Cet indie possdeles proprits suivantes :

    R2 est toujours positif, R2 est born par 1, don : 0 6 R2 6 1 Sini=1 e2i = 0, alorsR2 = 1 (situation parfaite dans laquelle le modleajust explique toute la variabilit des donnes)

    Si ni=1(Yi Y n)2 = 0, alors R2 = 0 (le modle n'explique rien enterme de variabilit de l'hantillon).

    Ave es interprtations, on voit don que R2 mesure la qualit d'ajustementdu modle aux donnes. Il est alul par tous les programmes de statistique

    ou d'onomtrie. Idalement un modle ajust doit avoir un R2 aussi levque possible, mais nous verrons plus loin qu'il ne s'agit pas du ritre unique

    pour juger de l'ajustement du modle.

    Une diult du oeient R2 dans le modle multiple est que e oef-ient augmente haque fois que l'on ajoute une variable expliative dans le

    modle. L'exemple suivant drit ette situation.

    Exemple

  • INGE1221 1.5 Outils d'ajustement 18

    Dans le modle de salaire trait plus haut, supponsons que nous avons notre

    disposition les variables expliatives de niveau d'duation (Ed) et d'exp-riene (Ex). Ajustons su

    essivement les modles suivants :

    Modle 1 : E(logRe|Ed,Ex) = 1Modle 2 : E(logRe|Ed,Ex) = 1 + 2EdModle 3 : E(logRe|Ed,Ex) = 1 + 2Ed+ 3ExModle 4 : E(logRe|Ed,Ex) = 1 + 2Ed+ 3Ex+ 4(Ex)2

    Pour haun de es modles, nous rsumons les rsultats de l'estimation dans

    la table suivante :

    Coeients estims

    Const. 2.34 1.12 0.71 0.58

    Ed 0.93 0.10 0.10

    Ex 0.01 0.04

    (Ex)2 0.00

    SSR 442.1 354.0 319.9 307.0

    R2 0.20 0.28 0.31

    R2

    0.19 0.27 0.26

    Table 1.1: Estimation OLS dans plusieurs modles embots

    pour la variable dpendent logarithme du salaire (logRe).SSR est l'estimateur de

    e2i .

    Cette table montre que le R2 rot haque ajout de variable dans lemodle. Il n'est ependant pas ertain que les variables ainsi ajoutes soient

    pertinentes, ou apportent une expliation signiative de la variabilit de

    log(Re). Remarquons au passage que l'estimation des oeients est modied'un modle l'autre. Par exemple, l'estimateur de 2 dans le modle 2 n'estgnralement pas gal l'estimateur de e paramtre dans les modles 3 ou

    4.

    Le oeient de dtermination R2 augmente haque ajout d'une va-riable dans le modle, mais les variables ajoutes su

    essivement ne sont pas

    forment utiles pour expliquer la variabilit de la variable dpendente Y .Pour ette raison, les logiiels alulent souvent le oeient R2 ajust, not

    R2, et dni par

    R2:= 1

    ni=1 e

    2i /(nK)n

    i=1(Yi Y n)2/(n 1).

    Cette mesure ne rot pas forment quand on ajoute des variables dans le

    modle, ar le nombre de variables K est pris en ompte dans le numrateur

  • INGE1221 1.6 Test de restrition 19

    de la fration. Quand K augmente, 1/(n K) augmente et don R2 peutdiminuer, et ei dpend du omportement de e2i . Cette division par n Kpnalise don par la omplexit du modle onsidr.

    Exemple

    Dans la Table 1.1, le R2est galement indiqu.

    1.6 Test de restrition

    Nous avons vu plus haut omment il est possible d'eetuer un test sur

    la valeur d'un oeient donn du modle de rgression multiple. Ce test se

    base sur la distribution de l'estimateur OLS donne la Proposition 1.4.

    Cependant, il est souvent nessaire de ontruire un test impliquant plu-

    sieurs oeients du modle, ainsi que l'illustrent les exemples suivants. Par

    exemple, au lieu de tester si un oeient est signiatif dans un modle de

    rgression, on peut se demander si un ensemble de oeients est signia-

    tif ou non. Ou bien : la demande d'un produit donn dpend-elle du prix

    des biens de substitution ou seulement de son propre prix ? Ou enore : une

    frontire de prodution possde-t-elle un rendement d'helle onstant ?

    Toutes es questions peuvent tre plaes dans le adre de modles de

    rgression multiple, et la question pose implique simultanment plusieurs

    paramtres du modle.

    1.6.1 Tester la signiation de plusieurs oeients

    Une premire question que l'on peut onsidrer est omment tester si un

    ensemble de J oeients est signiativement dirent de zro (J < K). Letest s'rit don

    H0 : KJ+1 = . . . = K = 0 . (1.9)

    L'alternative de e test est que H0 n'est pas vrai, 'est--dire qu'il existe aumoins un des oeients KJ+1, . . . , K qui ne soit pas nul :

    H1 : k {K J + 1, . . . , K} tel que k 6= 0.

    Pour eetuer e type de test sur plusieurs paramtres, on utilise l'ide

    entrale suivante : on peut omparer les rsidus du modle omplet ('est--

    dire ontenant K oeients estims) ave le modle restreint par H0 ('est--dire en ne onsidrant que KJ variables expliatives). Cette omparaison

  • INGE1221 1.6 Test de restrition 20

    va se faire en pratique sur la somme des rsidus arrs aprs estimation dans

    haun de es modles.

    Notons RSS0 la somme des rsidus arrs aprs estimation dans le mo-dle restreint sous H0 et notons RSS1 la somme orrespondante dans le mo-dle omplet ('est--dire en utilisant les K variables expliatives). Si l'hy-

    pothse nulle est orrete, on s'attend e que RSS0 soit prohe de RSS1.Au ontraire, si es deux valeurs dirent fortement, on pourra mettre des

    doutes sur l'hypothse H0.Sous les hypothse du modle Normal, on peut montrer

    6

    RSS0 RSS12

    2J .Nous savons galement que

    RSS12

    2nKpar la Proposition 1.3 i-dessus. D'autre part, on peut aussi montrer que, sous

    l'hypothse nulle, les variables alatoires RSS0 RSS1 et RSS1 sont indpen-dantes. En onsquene, il est naturel de onsidrer le quotient normalis de

    es variables alatoires omme statistique de test :

    T =

    (RSS0 RSS1

    )/J

    RSS1/(nK)qui, sous l'hypothse nulle, possde une distribution de Fisher-Snedeor

    7

    F JnK .Comme rgle de rejet, on onsidre qu'une grande valeur de T mnera

    au rejet du test d'hypothse, tandis qu'une valeur modre sera ompatible

    ave H0. Si l'on xe le niveau de test , la valeur ritique de e test estdon fournie par le quantile de la distribution F JnK , 'est--dire le nombreF JnK; tel que

    P(T > F JnK;) = .

    1.6.2 Formulation gnrale du test de restrition

    De trs nombreuses questions onomiques reviennent tester une hypo-

    thse nulle du type

    H0 : R = q

    6. Exerie diile.

    7. Pour un rappel sur la loi F pq , voir la Dnition 7.3, page 340, de Wakerly, Menden-hall III, and Sheaer (2002).

  • INGE1221 1.6 Test de restrition 21

    o R est une matrie JK et q est un veteur olonne de longueur J . Cettematrie et e veteur sont xs par la question pose.

    Par exemple, pour eetuer un test sur un seul oeient k, 'est--direpour eetuer le test simple H0 : k = b ; il sut de onsidrer

    R = (0 . . . 0 1 0 . . . 0) et q = b

    o le 1 apparat la kme olonne de R.Pour tester la signiativ d'un groupe de oeients, omme dans le test

    (1.9), on pose

    R =

    0 0 1 0 0.

    .

    .

    .

    .

    .

    .

    .

    .

    0 1 00 0 1

    et q = 0Jo R possde J lignes et K olonnes et 0J est un veteur de zros de longueurJ .

    Mais l'hypothse nulle H0 : R = q permet de tester bien d'autres res-tritions sur les paramtres. Elle permet par exemple de tester 2+3+ . . .+K = 1 qui pourrait orrespondre, par exemple, l'hypothse de rendementsd'helle onstants dans la fontion de prodution de Cobb-Douglas (dans le

    as d'un modle linaire rit ave des logarithmes).

    La onstrution du test se base sur la proposition suivante.

    Proposition 1.5. Supposons le modle de rgression linaire multiple Nor-

    mal. Sous l'hypothse nulle H0 : R = q, o R est une matrie J K derang J , la statistique

    T =(R q) {R(X X)1R}1 (R q)/J

    RSS1/(nK)

    o est l'estimateur OLS, possde une distribution F JnK.

    La preuve de ette proposition peut se trouver, par exemple, dans Hayashi

    (2000) (hapitre 1, Proposition 1.4). L'utilisation pratique de e rsultat pour

    les tests de restrition n'est pas aise ar le alul de la statistique de test Tnessite plusieurs inversions et multipliations de matries. Heureusement,

    la mise en oeuvre du test de restrition est failite par la rriture possible

    de T sous une forme plus diretement appliable.Comme dans la setion prdente, notons RSS0 la somme des rsidus

    arrs aprs estimation dans le modle restreint sous H0 et notons RSS1

  • INGE1221 1.7 Utilisation de variables indiatries 22

    la somme orrespondante dans le modle omplet. On peut montrer que Tprend exatement la mme forme que dans la setion prdente, 'est--dire

    que, sous les hypothse du modle Normal, on a

    T =

    (RSS0 RSS1

    )/J

    RSS1/(nK) F JnK .

    1.7 Utilisation de variables indiatries

    1.7.1 Exemples

    Une variable indiatrie

    8

    est une variable expliative partiulire ne pre-

    nant que les valeurs 0 ou 1. Elles vont nous permettre de onstruire desmodles dans lesquels un ou plusieurs paramtres peuvent hanger pour er-

    taines parties de l'hantillon. Cette variable est don typiquement utilise

    lorsque nous intgrons dans le modle une variable expliative binaire, omme

    par exemple la variable genre (homme ou femme), travailleur (tra-

    vailleur ou sans emploi), et.

    Exemple

    Reprenons l'exemple du modle de rgression pour logarithme du salaire. Une

    variable indiatrie peut tre utilise pour faire la distintion, par exemple,

    entre les hommes et les femmes :

    E(logRe|Ed,Ho) = 1 + 2Ed+ 3Hoo Ho prend la valeur 1 si l'individu onsidr est un homme, et 0 si 'estune femme. Ce modle s'rit sous une forme quivalente deux quations :

    E(logRe|Ed,Ho) ={

    (1 + 3) + 2Ed si Ho = 1

    1 + 2Ed si Ho = 0

    L'utilisation de variables indiatries dans le modle de rgression ne mo-

    die pas la thorie d'estimation par moindres arrs ordinaires. En partiu-

    lier, il est galement possible de onstruire un intervalle de onane pour le

    paramtre de la (ou des) variable(s) indiatrie(s). Elles apportent nanmoins

    une grande valeur ajoute en terme de modlisation (et de dision).

    L'exemple suivant

    9

    illustre l'utilisation de variables indiatries dans la

    dtetion de valeurs anormales.

    8. Le terme anglais est dummy. En franais, on utilise galement les synonymes variable

    muette ou variable auxiliaire.

    9. Tir de Bourbonnais (2004).

  • INGE1221 1.7 Utilisation de variables indiatries 23

    Exemple

    Considrons le modle de prodution de servie du seteur du tourisme

    Prt = 1 + 2V at + 3Pot + t

    dans lequel Prt est la prodution du seteur pour l'anne t, V at est la valeurajoute du seteur pour l'anne t et Pot est la population pour l'anne t. Ons'intresse l'estimation de e modle entre 1975 et 1992, mais on s'interroge

    sur la perturbation entrane par l'eet guerre du Golfe en 1991. Pour

    rpondre ette question, on utilise la variable indiatrie Dt suivante :

    Dt = 0 pour t = 1975 1990 et t = 1992

    Dt = 1 pour t = 1991

    L'estimation des oeients du modle donne

    Estimated

    Variable Coeffiient t-statisti

    C 2340.4 4.5

    Va 1.64218 2.2

    Po 0.3 2.9

    D -120.56 5.8

    ave n = 18 et R2 = 0.65. L'eet guerre du Golfe a-t-elle une inuenesigniative sur la prodution du servie de e seteur ?

    1.7.2 Test de Chow

    Dans les exemples de la setion prdente, on voit que les variables in-

    diatries modient la valeur du terme onstant de la rgression pour un

    sous-ensemble de l'hantillon onsidr (relire par exemple l'utilisation de

    l'inatrie Homme dans le modle de salaire i-dessus). Ces variables

    peuvent galement tre utiles pour modliser un hangement dans tous les

    paramtres du modle. On peut penser par exemple la situation o une par-

    tie de l'hantillon ontient les hommes, une autre partie ontient les femmes

    et, pour haun de es sous-hantillons, on onsidre le mme modle linaire

    mais ave des oeients dirents.

    Un autre exemple est donn par un modle de rgression valide pour une

    priode de temps donne. On peut se demander, par exemple, si l'introdution

    d'une mesure maroonomique un moment donn a modi les paramtres

    de la rgression. Ce type de hangement dans les oeients de rgression

    s'appelle un hangement struturel (ou rupture) dans le modle.

    Nous montrons i-dessous que e type de question peut tre modlis

    gre aux variables indiatries, et ensuite testes en utilisant un test F derestrition.

  • INGE1221 1.8 Multiolinarit 24

    Considrons la variable indiatrie spiant dans quel sous-hantillonse trouve un individu donn (par exemple = 1 si l'individu est un homme).Une spiation possible du modle de hangement struturel onsiste

    dnir

    E(Y |X) = X + X . (1.10)

    Ce modle spie que le veteur de oeients du group 0 est , tandisque le veteur de oeients du groupe 1 est + . Le test de hangementstruturel revient don tester les K restritions

    H0 = = 0K .

    Pour e faire, on utilise le test F expos la setion prdente. Dans le

    ontexte des hangements struturels, e test s'appelle le test de Chow. Si

    ontient K omposantes, le nombre de ontraintes sous H0 est J = K et lenombre de paramtres du modle non-ontraint est 2K. Par onsquent, letest s'rit

    T =

    (RSS0 RSS1

    )/K

    RSS1/(n 2K) FKn2K . (1.11)

    Au lieu d'eetuer e test ave des variables indiatries, une manire plus

    simple de tester la stabilit des paramtres est base sur une estimation s-

    pare pour les deux sous-ensembles de l'hantillon, par exemple les hommes

    et les femmes. Appelons les sommes des rsidus au arr de es deux rgres-

    sions RSSH et RSSF et notons que RSSH + RSSF = RSS1. Une statistiquequivalente mais plus simple utiliser est alors obtenue en remplaant RSS1en (1.11) par RSSH + RSSF . Nanmoins, si l'on souhaite tester la stabilitnon pas de la totalit des paramtres mais d'un sous-ensemble, l'introdution

    de variables indiatries est invitable.

    1.8 Multiolinarit

    La ondition (RLM3) du modle de rgression linaire multiple imposait

    une absene de multiolinarit entre les variables expliatives. Cette hypo-

    thse signie qu'auune des variables expliatives ne peut tre rite omme

    une ombinaison linaire d'autres variables expliatives du modle.

    Comme nous l'avons vu au hapitre 2, ette ondition s'tait impose

    pour au moins deux raisons. La premire est lie l'identiation des para-

    mtres, et la seonde l'estimateur OLS qui requiert l'inversion de la matrie

  • INGE1221 1.8 Multiolinarit 25

    XX. L'hypothse d'absene de multiolinarit assure prisment que ette

    matrie est de plein rang, don inversible.

    Dans la pratique, une olinarit entre les variables expliatives est typi-

    quement une erreur de modlisation. Par exemple, si l'onomtre inorpore

    dans son modle une variable indiatrie Homme et une variable india-

    trie Femme, il ause de la olinarit dans le modle. Dans e as de

    gure, les logiiels ragissent diversement, soit en un message d'erreur, soit

    en prenant l'initiative d'ter l'une des deux variables expliatives du modle.

    Ce type de olinarit peut tre qualie de olinarit struturelle ar elle

    provient du modle lui-mme.

    Il peut ependant arriver qu'une quasi olinarit existe entre les va-

    riables expliatives, sans que l'intuition ne l'ait identie au pralable. Cette

    situation survient en partiulier dans les modles ave beauoup de variables

    expliatives. Dans ette situation, il peut arriver qu'une variable expliative

    puisse s'exprimer approximativement omme ombinaison linaire d'autres

    variables. Ce type de olinarit peut tre qualie de olinarit d'han-

    tillonnage ar elle provient des donnes et non du modle. Cette situation

    est toujours approximative, dans le sens o il n'existe pas de olinarit par-

    faite, exate entre les variables. On est parfois amen parler de degr de

    olinarit pour exprimer es olinarits imparfaites.

    Indies de multiolinarit

    Il existe plusieurs indies pratiques et desriptifs lis la olinarit

    d'hantillonnage.

    1. Les estimateurs sont sensibles un petit hangement de spiation

    du modle (l'ajout ou le retrait d'une variable provoque des grandes

    variations dans les estimateurs) ;

    2. Le signe des oeients estims est illogique ou non onsistant ;

    3. Certains estimateurs ont une grande magnitude, mais des signes oppo-

    ss.

    Ces eets peuvent tre auss par une instabilit numrique dans l'inver-

    sion de la matrie X X.

    Le fateur d'ination de la variane

    Le fateur d'ination de la variane mesure l'ination des varianes

    des oeients estims par rapport la situation sans multiollinarit. Tout

    d'abord nous avons le thorme suivant important.

  • INGE1221 1.8 Multiolinarit 26

    Theorem 1.2.

    Var(k) =2n

    i=1(Xik Xk)21

    1 R2k, k = 1, . . . , K

    o R2k est le oeient de dtermination multiple d'une rgression de

    Xk sur X1, . . . , Xk1, Xk+1, . . . , XK . La formule pour Var(k) ontient deuxfateurs qui sont failes interprter.

    Regardons, par exemple, le as d'une rgression simple Y = 0+1X+,ave une variable expliative. La variane prend la forme bien onnue,

    Var(1) =2n

    i=1(Xi X)2.

    En ajoutant des variables expliativesX2, . . . , XK , Thorme 1.2 nous montreque ette variane est modie par un deuxime fateur

    11R2

    1

    qui dpend de

    la orrlation entre X1 et les autres variables expliatives. Comme R21

    (0, 1), e deuxime fateur est toujours plus grand que 1. Par onsquent, enajoutant des variables, on ne peut qu'augmenter Var(1), mais ne jamais ladiminuer. La valeur de R21 est une mesure de la qualit d'un modle linaire deX1 expliqu parX2, . . . , XK . Si e lien est fort (R

    21 prohe de un), le deuxime

    fateur

    11R2

    1

    est trs grand et la variane de 1 augmentera beauoup, tandis

    que si le lien est faible (R21 prohe de zro), la variane n'augmentera pasbeauoup. Le mme raisonnement peut tre fait pour les autres variables,

    k = 2, . . . , K, et on arrive interprter le fateur 11R2

    k

    omme le degr

    de l'ination de la variane de k aus par la orrlation entre Xk et lesautres variables expliatives. C'est pour ela que l'on appelle ette quantit

    le fateur d'ination de la variane, ou variane ination fator (VIF).

    Definition 1.3. Le fateur d'ination de la variane (VIF) pour k estdni par

    V IFk =1

    1 R2k, k = 1 . . . , K

    Notons que si R2k = 0, alors V IFk = 1, tandis que si R2k > 0, alors

    V IFk > 1. S'il n'y a auune orrlation entre les variables expliatives, tousles R2k sont zros et, par onsquent, tous les VIF sont gaux 1. On dira que,de faon heuristique, il y a un problme de multiollinarit si le maximum

    des VIF est trs grand, par exemple plus grand que 10.

  • INGE1221 1.9 Exeries 27

    Les remdes

    En as de olinarit signiative sur l'hantillon onsidr, plusieurs

    stratgies sont possibles. Les plus simples sont les suivantes

    10

    :

    1. On limine du modle des variables expliatives fortement orrles ;

    2. On ajoute des donnes (si possible !)

    3. On transforme les rgresseurs (modiation de l'helle de mesure,...)

    Considrons le modle multiple homoskdastique, Y = 0+1X1+2X2+.

    1. Expliquez omment une forte orrlation des variables X1 et X2 dimi-nue la prision ave laquelle les oeients 1 et 2 sont estims.

    2. On ajuste e modle un hantillon pour lequel on trouve une orr-

    lation empirique entre X2 et X3 de 0.9. Calulez les fateurs d'inationde variane pour 1 et 2 et interprtez les.

    3. Expliquez pourquoi des oeients 1 et 2 non signiatifs (sur basedes tests student) ne onduisent pas nessairement onlure que, pris

    ensemble, X2 et X3 n'inuenent pas Y (sur base du test F ).

    1.9 Exeries

    1. On possde un hantillon {(Yi, X1i, . . . , XKi), i = 1, . . . , n} tel que lamoyenne empirique de haune des variables expliatives X1i, . . . , XKiest nulle. Considrons les deux modles linaires

    Y = 0 + 1X1 + . . .+ KXK + , E[|X ] = 0 (1.12)Y = 1X1 + . . .+ KXK + , E[|X ] = 0 (1.13)

    Montrez que pour l'estimateur moindres arrs, i = i, i = 1 . . . , K.

    2. Deux onomistes se servent du mme modle,

    Y = 0 + 1X1 + 2X2 + , E[|X ] = 0

    pour le premier et

    Y = 0 + 1X1 + 2X2 + , E[|X ] = 0

    pour le seond, o Y est la onsommation du mnage, X1 est le revenuet X2 le patrimoine nanier. Quel est le lien entre et lorsque

    10. Il existe aujourd'hui des solutions plus sophistiques pour remdier au problme de

    olinarit, omme par exemple la rgression ridge (voir Vinod and Ullah (1981)).

  • INGE1221 1.9 Exeries 28

    (a) les deux onomistes mesurent la onsommation en euros, mais le

    premier mesure les revenus et le patrimoine en euros tandis que

    l'autre les mesure en milliers d'euros ?

    (b) le premier onomiste mesure toutes les variables en euros et le

    seond mesure toutes les variables en milliers d'euros ?

    3. Pour un hantillon de 8 ours, le tableau suivant donne l'valuation

    moyenne du ours de la part des tudiants (Y ), l'esprane des notes(X1), ainsi que le nombre d'tudiants (X2). L'helle des variables Yet X1 va de 1 (trs faible) 5 (exellent).

    i Yi X1i X2i

    1 4.1 3.4 45

    2 3.4 3.1 62

    3 3.3 3.0 77

    4 3.0 2.8 93

    5 4.7 3.3 15

    6 4.6 3.5 22

    7 3.0 2.9 71

    8 4.6 3.0 12

    (a) Considrez le modle

    Y = 0 + 1X1 + 2X2 +

    o est un terme d'erreur ave esprane zro et variane 2. Lamatrie (X X)1 est donne par 47.656 13.906 0.0820813.906 4.1007 0.0220

    0.08208 0.0220 0.0002686

    Calulez l'estimateur OLS de 1.

    (b) Sahant que l'estimateur de 2 est S2 = 0.0345, testez au niveau = 5% l'hypothse qu' ajouter vingt tudiants un ours baissel'valuation du ours autant que si l'esprane des notes baisse de

    1.

    4. On onsidre les fontions de prodution de la forme Q = f(K,L) oQ est une mesure de prodution, L le travail et K le apital (inputs).On utilise le modle de Cobb-Douglas

    logQ = C + 2 logK + 3 logL.

  • INGE1221 1.9 Exeries 29

    A partir d'un hantillon, on obtient les rsultats suivants

    Variable oeient art type

    C 1.37

    K 0.632 0.257

    L 0.452 0.219

    ave n = 40, Cov(2, 3) = 0.044, et R2 = 0.98. Testez les hypothsessuivantes au niveau 5% :

    (a) H0 : 2 = 3 (onstruisez un test student)

    (b) les rendements d'helle sont onstants (onstruisez un test student)

    5. En Allemagne, la demande pour liquidit suivante a t estime en

    logarithmes pour des donnes annuelles de 1969 2007 :

    M = 1 + 2R + 3Y + 4L+

    o R est le taux d'intrt, Y le PIB et L les assets liquides. Pour voirsi la runiation en 1990 a entrain un hangement des oeients,

    on estime le modle galement pour les deux priodes 1969-89 et 1990-

    2007. Les estimateurs sont les suivants :

    1969 2007 : M = 0.003 0.261R + 0.530Y + 0.367L, R2 = 0.579,1969 1989 : M = 0.008 0.18R + 0.517Y + 0.281L, R2 = 0.6971990 2007 : M = 0.013 0.419R+ 0.936Y + 0.587L, R2 = 0.479La variation totale,

    ni=1(Mi M )2, vaut 0.190 pour la priode totale,

    0.093 pour la rgression de 1969-89, et 0.081 pour la rgression de 1990-

    2007.

    Testez l'hypothse que la demande de liquidit a hang aprs la runi-

    ation.

  • Chapitre 2

    Extensions of the linear regression

    model

    In this hapter we will disuss several pratial situations in whih the

    methods disussed in the rst hapter do not apply diretly.

    2.1 The normality assumption

    The hypothesis tests developed in the rst hapter ruially relied on the

    assumption of normality of the model disturbanes. It may not always be

    justied to maintain this assumption for the data sample under study. If

    we abandon normality, how an we onstrut valid ondene intervals and

    hypothesis tests ?

    2.1.1 A rst example

    Let us start with an example. We want to analyze the food expenditures

    of households as a funtion of total expenditures, as in the well-known model

    of Working and Leser, see Working (1943) et Leser (1963) :

    F = 1 + 2 ln(TOT ) + (2.1)

    where F is the ratio of food expenditures and total expenditures, and TOTare total expenditures.

    For the estimation of this model, we have a sample of 1519 households

    in London, observed in a ensus from 1980 to 1982, analyzed by Blundell,

    Dunan, and Pendakur (1998). Among the variables in the ensus were Fand TOT , but also the number of hildren of eah household. We estimatethe parameters of this model for two groups : households with one hild, and

    those with two hildren. The results for the households with one hild are :

  • INGE1221 2.1 The normality assumption 31

    3.5 4.0 4.5 5.0 5.5 6.0

    0.20.4

    0.60.8

    (a) One-hild households

    4.0 4.5 5.0 5.5

    0.10.2

    0.30.4

    0.50.6

    (b) Two-hild households

    Figure 2.1: Food expenditures proportion of households.

    Std. error of regression = .090313

    R-squared = .320262

    Estimated Standard

    Variable Coeffiient Error t-statisti P-value

    C 1.00993 .040099 25.1862 [.000

    X -.149502 .895170E-02 -16.7010 [.000

    (X is the variable ln(TOT )) and, for households with two hildren :

    Std. error of regression = .089558

    R-squared = .220611

    Estimated Standard

    Variable Coeffiient Error t-statisti P-value

    C .953502 .036526 26.1047 [.000

    X -.129437 .800795E-02 -16.1636 [.000

    The estimated regression lines are presented in Figure 2.1 and are derea-

    sing.

    1

    Consider the OLS residuals ei in both situations. Figure 2.2 depitsthese residuals and their histograms.

    If the regression model is Gaussian, then the residuals after estimation

    should be normally distributed. Looking at the histogram of standardized

    1. Can you interpret this dereasing regression line ?

  • INGE1221 2.1 The normality assumption 32

    3.5 4.0 4.5 5.0 5.5 6.0

    0.2

    0.1

    0.00.1

    0.20.3

    log(TOT)

    (a) One-hild households

    Rsidus

    2 0 2 4

    0.00.1

    0.20.3

    0.4

    (b) One-hild households

    4.0 4.5 5.0 5.5

    0.3

    0.2

    0.1

    0.00.1

    0.20.3

    log(TOT)

    () Two-hild households

    Rsidus

    4 2 0 2

    0.00.1

    0.20.3

    0.4

    (d) Two-hild households

    Figure 2.2: Residuals after estimation and histogram of stan-

    dardized residuals.

  • INGE1221 2.1 The normality assumption 33

    residuals in Figure 2.2, the question arises whether this histogram is ompa-

    tible with the hypothesis of normality. In partiular, as a standard normal

    random variable is symmetri around zero, we should expet a symmetri

    histogram around zero if the residuals follow this distribution. However, the

    depited histograms show some asymmetries. For the ase of households with

    one hild, the histogram is more spread tp the right, and for households with

    two hildren the histogram is more spread to the left.

    Moreover, if Z is a random variable N (0, 1), we know that 95% of theprobability density is onentrated in the interval [1.96, 1.96]. Inspetingthe histogram of estimated residuals, however, we nd that their distribution

    is less onentrated. In order to get a more preise idea, we an argue using

    the QQ-plot in Figure 2.3. This plot onrms that it is not obvious that

    the tails of the distribution of estimated standardized residuals should be

    ompatible with a normal distribution.

    3 2 1 0 1 2 3

    3

    2

    1

    01

    23

    (a) One-hild households

    3 2 1 0 1 2 3

    4

    3

    2

    1

    01

    23

    (b) Two-hild households

    Figure 2.3: Qq-plot of standardized residuals.

    The following setion presents a formal statistial proedure to test the

    normality of residuals. Before going into the details of this test, it is important

    to keep in mind what the absene of residual normality ould imply.

    If residuals are not normally distributed, then we annot use a Gaussian

    regression model but have to work under more general assumptions. Reall

    that normality was not a neessary assumption for the OLS estimator to be

    unbiased and BLUE, meaning that OLS estimates remain reliable even under

    non-normality.

    However, the onstrution of ondene intervals or the evaluation of

    statistial tests ruially depend on the normality assumption. Consequently,

  • INGE1221 2.1 The normality assumption 34

    if we believe that the residuals of the model are non-normal, then the test

    results do not have the same interpretation. We will see later how to adapt

    the onstrution of ondene intervals when the normality assumption is

    not veried.

    2.1.2 The Jarque-Bera test for normality

    This is a test for normality often alulated in eonometri software pa-

    kages, whih was introdued by Jarque and Bera (1987). The test is based

    on two measures : The skewness and the kurtosis.

    Reall that the skewness of a random variable U is S = 3/3/22 , where

    2 and 3 are, respetively, the seond and third moment of the variable U .Intuitively, the skewness is the degree of symmetry of the random variable.

    A perfetly symmetri random variable (suh as the normally distributed

    random variable) has a skewness of 0. The kurtosis is dened by = 4/22

    where 4 is the fourth moment of U . It is often taken as a measure of thethikness of the tails. A normal random variable has kurtosis = 3. Distri-butions with > 3 ( < 3) are alled leptokurti (platykurti) and typiallyhave fatter (thinner) tails than the normal distribution.

    The idea of the Jarque-Bera test is to onstrut a global measure of

    skewness and kurtosis of standardized residuals and to ompare it with the

    the value of a normal distribution. The test is summarized as follows :

    H0 : S = 0 and = 3

    The Jarque-Bera test statisti is given by

    JB =n

    6

    [S2 +

    ( 3)24

    ].

    The authors of the test have derived the distribution of this statisti under

    the null hypothesis :

    JB 22 under H0 .For a normal random variable, JB = 0. As the statisti is non-negative,all signiant positive departures from zero suggest a rejetion of the null

    hypothesis.

    Example

    Let us reonsider the example of Setion 2.1.1. Software pakages suh as

    Oxmetris or R alulate the value of the JB statisti and orrespondingp-value. For the ase of one-hild households, we nd

  • INGE1221 2.1 The normality assumption 35

    Jarque-Bera test = 10.7941 [.005

    and for the ase of two-hild households,

    Jarque-Bera test = 6.37943 [.041

    How should we interpret these results ?

    2.1.3 Asymptoti theory

    If the normality assumption is rejeted, we annot use the tehniques of

    the rst hapter to onstrut ondene intervals, or tests onerning model

    parameters. These methods were based on the exat distributions of the

    estimators and 2, whih were based on the normal distribution of theerror terms of the model.

    It is however possible to extend the tehniques to the non-normal ase by

    studying the distribution of and 2, but without the normality assumption.The key onepts are given by two theorems studied in intermediate statistis

    lasses, i.e. the law of large numbers, and the entral limit theorem. These

    theorems are about the asymptoti behavior of sums of random variables,

    where asymptoti refers to the sample size n whih tends to innity. Wewill establish in the following under whih onditions these theorems an be

    used and what this implies for the onstrution of ondene intervals, or for

    hypothesis tests.

    Consisteny in the linear regression model

    To analyze the onsisteny of the linear regression model, we will use the

    following property, whih is given without proof. It is a simplied version of

    the Continuous mapping theorem

    2

    .

    Lemma 2.1 (Continuous mapping theorem). Let g be a ontinuous funtion(potentially multivariate) whih does not depend on the sample size n. If nis a onsistent estimator of , then g(n) is a onsistent estimator of g().

    This lemma guarantees in partiular that the onsisteny of an estimator

    does not depend on its parameterization. For example, if 2 is a onsistent

    2. This lemma has already been disussed in the lass INGE1214, see in partiular the

    Theorem 9.2 of Wakerly, Mendenhall III, and Sheaer (2002). For a omplete version of

    the theorem and its proof, see, for example, Setion 2.3 of van der Vaart (1998).

  • INGE1221 2.1 The normality assumption 36

    estimator of 2, then this lemma says that is a onsistent estimator of thestandard deviation , sine the funtion g : x 7 x is ontinuous.

    The OLS estimator in the framework of linear regression is given by Pro-

    position 1.1 of the rst hapter. This estimator is suh that

    = (X X)1X

    =

    (1

    nX

    X

    )1(1

    nX

    )

    (2.2)

    This deomposition is interesting beause it involves empirial means, and

    the weak law of large numbers allows us to study the asymptoti onvergene

    of empirial means.

    More preisely, this law implies that

    1

    nX

    X

    P E(XX )

    and

    1

    nX

    P E(X)

    provided that the limits exist. By the Continuous mapping theorem, we an

    therefore write

    3{1

    nX

    X

    }1P {E(XX )}1

    provided that the limit exists, whih means that the matrix E(XX ) is in-vertible. Furthermore, by the assumption of strit exogeneity, we have

    E(X) = E (XE(|X)) = 0so that the limit of

    1nX is zero.

    To summarize, (2.2) is the produt of a variable whih tends to {E(XX )}1and another variable whih tends to zero. To study the asymptoti behavior

    of this produt, we use again the Continuous mapping theorem. This lemma

    implies in partiular that, if n is onsistent for and if n is onsistent for, then the produt of the estimators nn is onsistent for the produt ofthe parameters .

    Consequently, the produt (2.2) is onsistent for zero sine E(X) = 0,whih shows the onvergene of the OLS estimator. We summarize this result

    in the following proposition.

    3. This is a onvergene of random matries, whih should be interpreted as an element-

    by-element onvergene.

  • INGE1221 2.1 The normality assumption 37

    Proposition 2.1. In the linear regression model (Dnition 1.1), if the ma-

    trix E(XX ) is non-singular, then the OLS estimator is onsistent.

    The ondition for non-singularity of the matrix E(XX ) is oherent withthe assumption (RLM3) whih imposes the absene of multiollinearity.

    Asymptoti distribution

    4

    To nd the asymptoti distribution of the estimators, the idea is similar

    to the proof of onsisteny and is based on the deomposition (2.2), whih

    we reall here :

    n(

    )=

    (1

    nX

    X

    )1(n

    nX

    )

    . (2.3)

    Again, we use the onvergene(1

    nX

    X

    )1P {E(XX )}1

    whih is valid if the matrix E(XX ) is invertible.The seond fator is a vetor whose j-th omponent is

    n1

    n

    ni=1

    Xiji =n1

    n

    ni=1

    Zi (o nous avons pos Zi := Xiji)

    =n Zn (o Zn est la moyenne de Zi) .

    In this last expression, the random variables are i.i.d. Zi and suh that EZi =0 for all i (beause E(X ) = 0). By the entral limit theorem, we thereforehave

    5

    n Zn

    L N (0,Var(Z1))

    provided that Var(Z1) exists and nite. Applied to the vetornnX , the

    entral limit theorem therefore implies that

    n

    nX

    L N (0,S)

    4. The understanding of this setion requires knowledge of the entral limit theorem as

    treated for example in Setion 7.3 of Wakerly, Mendenhall III, and Sheaer (2002).

    5. The notation nL W means that the asymptoti distribution of n is the distri-

    bution of the random variable W .

  • INGE1221 2.1 The normality assumption 38

    if S, the variane-ovariane matrix, exists and is dened by

    S := Var

    (1

    nX

    )

    = Var(X) (ar l'hantillon est iid)

    = E(2XX ) (ar EX = 0)

    = 2E(XX ) (par hypothse d'homosdastiit)

    To summarize, if the involved varianes exist, then the deomposition

    (2.3) is the produt of a random matrix whih onverges to {E(XX )}1and a random vetor whih onverges to a multivariate normal distribution

    N (0,S). To study the properties of this produt, we use a version of theLemma of Slutsky

    6

    whih we give here without proof :

    Lemma 2.2 (Lemma of Slutsky). If the vetor Z onverges to a multiva-riate normal distribution N (0,S) and if the random matrix An is suh thatAn

    P A, then

    AnZL N (0,ASA) .

    Thus, this lemma allows us to onlude that the deomposed vetor in

    (2.3) has a limiting normal distribution. We an alulate the asymptoti

    variane : If we denote := E(XX ), this variane is given by

    1 (2)1 = 21

    This result is summarized in the following proposition.

    Proposition 2.2. In the linear regression model (denition 1.1), if the ma-

    trix := E(XX ) is non-singular, then the OLS estimator is suh that

    n(

    ) L N (0, 21) .Comparing this result with that shown in Proposition 1.4, we see that

    the distribution of the OLS estimator is now asymptotially normal.

    6. This lemma has already been seen in intermediate statistis, see for example Theorem

    9.3 of Wakerly, Mendenhall III, and Sheaer (2002). For a omplete version of the lemma

    inluding proof, see Setion 2 of van der Vaart (1998).

  • INGE1221 2.2 Heteroskedastiity 39

    Interpretations Constrution of ondene intervals

    When using Proposition 1.4 to onstrut ondene intervals or hypothe-

    sis tests about the oeients, the above limit result shows that the approxi-

    mation error of using the normal distribution diminishes as the sample size

    grows. It follows that the tests developed above, in partiular the t and Ftests, remain approximately valid, even if the model disturbane does notfollow a normal distribution.

    Moreover, as the student distribution tnK onverges to a standard nor-mal distribution when n, it is ommon in pratie to use ritial valuesof the normal distribution to onstrut ondene intervals when the error

    distribution is unknown.

    Also, if a statisti T has a distribution F JnK , then, asymptotially, thestatisti J T has a 2J distribution. To test J linear restritions of the para-meter (see Setion 1.6 above), it is ommon to alulate J T and to use

    ritial values of the 2J distribution if the sample size is suiently large.

    2.2 Heteroskedastiity

    The results developed so far were based on the assumption of homoske-

    dastiity (RLM4), whih means that by assumption, the onditional variane

    of the error term is onstant (Var(|X) = 2I). In this setion, we will exa-mine whether this assumption is reasonable, testable, and what happens to

    our previous results if we drop this restrition.

    Example

    Figure 2.2(a) presents the residuals after estimation of the food expenditures

    of households with one hild. If the homoskedastiity assumption is veried,

    then the variane of these residuals should not reveal large utuations as

    a funtion of X . However, it seems that for larger values of the exogenousvariable, the variane of the residuals is smaller than for small values of X . Tostudy quantify this phenomenon, we will onsider a formal test and analyze

    the onsequenes of heteroskedastiity for the OLS estimator.

    2.2.1 Consequenes of heteroskedastiity

    In a heteroskedasti model, the onditional variane of the error term may depend on the expliative variables X . A general way of writing heteros-kedastiity is to set 2i := Var(i|X i). In the speial ase of homoskedastiity,2i =

    2for all i.

  • INGE1221 2.2 Heteroskedastiity 40

    The heteroskedastiity an also be formulated in matrix notation :

    Var(|X) = E(|X) =

    21 0 00 22 0.

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    0 0 2n

    (2.4)In the following, this matrix will be denoted by n, so that

    n := Var(|X).

    The heteroskedastiity is modeled inn by the fat that its diagonal elements

    are not onstant. It is important to note that n remains a diagonal matrix,

    whih means that the errors i and j are not orrelated for i 6= j. The aseof a non-diagonal n matrix will be onsidered in Setion 2.3.

    What are the onsequenes of model (2.4) for the OLS estimator ? On

    the one hand, we have to note that the OLS estimator remains unbiased. In

    fat, the homoskedastiity assumption has not been used to show that the

    OLS estimator is without bias.

    On the other hand, deriving the variane of the estimator under assump-

    tion (2.4), we nd

    7

    Var(|X) = (X X)1X X(X X)1 (2.5)

    so that the variane of the OLS estimator hanges. An important onsequene

    of this modiation is that the onstrution of ondene intervals, based

    on the estimation of 2 in the homoskedastiity ase, is no longer valid.Moreover, t and F tests as developed in the rst hapter are not exat underheteroskedastiity. Finally, the Gauss-Markov theorem, whih states that the

    OLS estimator has minimal variane, is also no longer valid.

    Before studying the neessary adjustments in situations of heteroskedas-

    tiity, we will disuss how to test the hypothesis of homoskedastiity.

    2.2.2 Testing the homoskedastiity assumption

    Inspeting the graph of residuals gives a rst indiation about homos-

    kedastiity of the model. Below, we will develop some ommon statistial

    proedures to empirially test this assumption.

    7. Left to the reader as an exerise.

  • INGE1221 2.2 Heteroskedastiity 41

    The Goldfeld-Quandt test

    This test is based on the work of Goldfeld and Quandt (1965). The idea is

    to split the sample into two groups A and B and to alulate 2 for eah sub-sample separately. When 2A and

    2B are the theoretial onditional varianes

    of sub-population A and B, respetively, then the null hypothesis to test is

    H0 : 2A =

    2B .

    Naturally, the idea of the test is to ompare 2A and 2B. In order to do this,

    we use the results of the rst hapter about the distribution of 2, and whihare approximate if the model is not Gaussian.

    (nA K) 2A

    2A 2nAK where nA is the size of sub-sample A

    and

    (nB K) 2B

    2B 2nBK where nB is the size of sub-sample B.

    Sine 2A and 2B are independent, we therefore have

    2A/2A

    2B/2B

    F nAKnBK .

    Consequently, a possible test statisti is given by

    T =2A2B

    F nAKnBK underH0 .

    The drawbak of this test is that it relies on an a priori hoie of the sub-

    samples A and B for the alulation of the varianes. Thus, the test an beuseful if a strutural break is presumed in the onditional variane between

    the two groups. If this ondition is not satised, one has to onsider other,

    more exible tests, whih will be onsidered in the following.

    The Lagrange multiplier test

    The idea of this test is to ensure a ertain exibility with respet to the

    form of heteroskedastiity. We have seen that the Goldfeld-Quandt test is

    appropriate when there is a dierene in variane between two sub-samples

    of the data.

    Breush and Pagan (1979) have proposed a test whih takes into a

    ount

    numerous other forms of heteroskedastiity. The rst ingredient of this test

  • INGE1221 2.2 Heteroskedastiity 42

    is the denition of a vetor Z = (Z1, . . . , ZJ), whih is onstruted using

    the explanatory variables X1, . . . , XK . A possibility is to dene, for example,Z = (1, X21 , . . . , X

    2K)

    , but other hoies are possible. It is essential, though,

    that Z only depends on the explanatory variables.The idea of the test to model potential heteroskedastiity via the funtion

    2i = 2h(1Zi1 + 2Zi2 + + JZiJ)

    = 2h(Z i)

    where 1, . . . , J are oeients, and h is a non-speied funtion, onti-nuously dierentiable, stritly positive and suh that h(0) = 1. This funtionis hosen by eonometriian, one example being h(t) = et.

    Example

    To x ideas, reonsider the Working-Leser model (2.1). The idea of the test

    to develop is to model potential heteroskedastiity in residuals depited in

    Figure 2.2. A simple example would be to set the vetor Z = (1, ln(TOT ))

    of length J = 2, and h(t) = et. This way, we model the onditional varianeof residuals in Figure 2.2(a) or () by

    2i = 2 exp

    (1 ln(TOTi) + 2 ln

    2(TOTi)).

    By hoosing the vetor Z and the funtion h, we have speied a partiu-lar form of the onditional variane 2i . Note that this form depends on two

    oeients 1 et 2, whih are unrestrited. The homoskedasti model or-responds to the restrition 1 = 2 = 0.

    The null hypothesis of the test, homoskedastiity, orresponds to

    H0 : 1 = . . . = J = 0 if Zi is not onstant.

    The proedure of the Breush-Pagan test is the following :

    1. Calulate the square of OLS residuals, 2i2. Run the regression 2i |Z i, where 2i plays the role of the dependant

    variable and Z i plays the role of explanatory variables.

    3. Calulate the oeient of determination, R2, of this regression.

    4. We an show that T = nR2 2J under H0.Tests based on the oeient of determination of an auxiliary regression

    are often alled Lagrange multiplier (LM) tests.

    The test of White (1980)

    The test proposed by White (1980) an be viewed as a speial ase of the

    LM test of Breush and Pagan (1979). The proedure is the following :

  • INGE1221 2.2 Heteroskedastiity 43

    1. Calulate squared OLS residuals 2i

    2. Run the regression 2i on a onstant and all rst and seond momentsof the explanatory variables.

    3. Calulate the R2 of this auxiliary regression.

    4. We an show that T = nR2 2P under H0, where P is the numberof explanatory variables, not ounting the onstant, of the auxiliary

    regression.

    Example

    Consider, for example, the regression Y = 1+2X1+3X2+. The auxiliaryregression of the test of White is given by

    2i |1, X1, X2, X21 , X22 , X1X2suh that, here, P = 5.

    Example

    In the example of Working-Leser, there is only one explanatory variable, X .Thus, the auxiliary regression of the test of White is a regression of 2i on a

    onstant, X and X2, and P = 2. For households with one hild, we obtainthe result

    Testing for heterosedastiity using squares and ross produts

    Chi2(2) = 12.989 [0.0015**

    while for households with two hildren, we obtain

    Testing for heterosedastiity using squares and ross produts

    Chi2(2) = 5.7968 [0.0551

    What is the onlusion of these tests ?

    2.2.3 Inferene when the matrix is known

    In the hypothetial situation where the diagonal matrix dened by

    (2.4) is known, it is easily possible to adapt the OLS estimation to onstrut

    ondene intervals. The idea is to base inferene on the model

    Y =X + (2.6)

    where Y i = Yi/i, Xi = Xi/i and

    i = i/i for all i = 1, . . . , n. The va-

    riable with asterisks are appropriate standardizations of the variables Y,X, of the original model. In the standardized model (2.6), we an verify

    8

    the

    8. Easy exerise left to the reader.

  • INGE1221 2.2 Heteroskedastiity 44

    assumption of strit exogeneity E(|X) = 0, and the assumption of homos-kedastiity Var(|X) = 1.

    The standardized model being homoskedasti, it is natural to onstrut

    inferene of the OLS estimator on the standardized model (2.6). The OLS

    estimator of this model is given by

    = (XX)1XY .

    We an rewrite this estimator as a funtion of the original variables X et Y ,

    =

    [ni=1

    XiXi

    2i

    ]1 [ ni=1

    X iYi2i

    ].

    This estimator is sometimes alled weighted least squares (WLS) or generali-

    zed least squares (GLS), beause of the normalization of the matries by the

    quantities 2i , dierent for every observation i.Sine this estimator originates from the homoskedasti model (2.6), satis-

    fying the assumptions of the linear regression model (Denitions 1.1 or 1.2),

    the optimality properties derived in the previous hapter apply here diretly.

    Moreover, the theory for onstruting ondene intervals and hypothesis

    tests apply also diretly, either exatly if the error terms are Gaussian, or

    asymptotially if the errors are not Gaussian.

    The situation where the matrix is known is rarely enountered in pra-

    tie. The following setion deals with the more realisti situation where the

    eonometriian does not know the form of heteroskedastiity.

    2.2.4 Heteroskedastiity-robust inferene

    The onditional variane of the OLS estimator given in equation (2.8)

    an be rewritten as

    V := Var(|X) = 1n

    (X Xn

    )1(1

    n

    ni=1

    2iX iXi

    )(X Xn

    )1.

    In an important paper in eonometris, White (1980) has derived a onsistent

    estimator of this variane. The proposed estimator is given by

    V =1

    n

    (X Xn

    )1(1

    n

    ni=1

    2iX iXi

    )(X Xn

    )1

  • INGE1221 2.3 Autoorrelation 45

    where the residuals after estimation, i, have replaed the unknown standarddeviations i. White (1980) shows that, under ertain quite general assump-tions

    9

    , V is a onsistent estimator of the onditional variane-ovarianematrix V = Var(|X).

    This estimator of the variane is useful to adapt the onstrution of t andF tests, dened in the rst hapter. If we onsider, for example, the t test ofSetion 1.4, the modiation of the test onsists of dening the test statisti

    T =k bVkk

    In partiular, we an onstrut a ondene interval for the estimation of kat level in a heteroskedasti model. This is given by[

    k t(/2)nKVkk; k + t

    (/2)nK

    Vkk

    ].

    where t(/2)nK represents the quantile /2 of the student-t distribution with

    nK degrees of freedom, tnK .The inferene developed above is often alled heteroskedastiity-robust,

    or simply robust, sine it does not suppose any partiular form of heteros-

    kedastiity. In other words, the tests and ondene intervals remain valid

    whatever the behavior of Var(|X) may be. The standard errors alulatedusing this proedure are often alled heterosedatiity onsistent standard er-

    ror (HCSE). O

    asionally, statistial software pakages use robust standard

    errors under this aronym.

    2.3 Autoorrelation

    One of our lassial hypotheses was that model disturbanes are unor-

    related, that is,

    Cov(i, j|X) = 0for all i 6= j. Often, espeially if variables are observed over dierent timeperiods (replaing the ross setion index i by a time index t), one enountersthe phenomenon of autoorrelations :

    Cov(t, tk|X) 6= 09. One of these assumptions involves the existene of fourth moments of the explanatory

    variables. One supposes, for example, that E(X2kX2 )

  • INGE1221 2.3 Autoorrelation 46

    for some k 6= 0, whih is a violation of the lassial hypothesis. As for the

    ase of heteroskedastiity, the error ovariane matrix is no longer a salar

    multiple of the identity matrix, as it would be in the lassial ase. Under

    heteroskedastiity, was a diagonal matrix with potentially dierent va-

    rianes on the diagonal. Now, under autoorrelation, may have the same

    varianes on the diagonal, but there are non-zero o-diagonal elements, i.e.

    non-zero autoovarianes. Thus, similar issues arise as in the heteroskedas-

    tiity ase : We will be onerned with the properties of the OLS estimator

    in the presene of autoorrelation, tests for autoorrelation, and how to deal

    with autoorrelation. First, however, let us disuss an example of a stohasti

    proess that generates autoorrelation.

    Example

    An autoregressive proess of order one, AR(1), is given by

    t = t1 + ut, t = 1, . . . , T

    with (1, 1), and ut "white noise", that isE[ut] = 0

    Var(ut) = 2

    Cov(ut, utk) = 0, k 6= 0, tA realization with = 0.9, 0 = 0, ut N(0, 1) and T = 1000 is shown inFigure 2.4 together with a realization of Gaussian white noise.

    We an show

    10

    that for an AR(1) proess, we have the following proper-

    ties :

    E[t] = 0

    Var(t) =2

    1 2Corr(t, tk|X) = k, k Z

    Thus, for an AR(1) proess, we an have positive or negative autoorrelation,

    depending on the sign of , and the autoovarianes deay exponentially tozero as the order k grows. We an onstrut the error ovariane matrix for the AR(1) ase as

    =2

    1 2

    1 2 . . . T1

    1 . . . T2

    2 1 . . . T3

    .

    .

    .

    .

    .

    .

    .

    .

    .

    T1 T2 . . . 1.

    If is known, is also known and one an onstrut a GLS estimator as in the

    ase of heteroskedastiity. In Setion 2.3.2 we will write this GLS estimator

    in an intuitive form.

    10. see the exerises

  • INGE1221 2.3 Autoorrelation 47

    Time

    sim

    .ar

    0 200 400 600 800 1000

    5

    05

    (a) AR(1)

    Time

    sim

    .ar

    0 200 400 600 800 1000

    3

    2

    1

    01

    23

    (b) White noise

    Figure 2.4: AR(1) and white noise.

    Example

    As an example onsider poverty rates in the US explained by unemployment.

    The threshold for poverty is delared a family inome of 18,400 USD per year

    in 2003. We have a data set of yearly poverty and unemployment rates from

    1980 to 2003. The output of an OLS regression of poverty on unemployment

    gives the following result :

    Coeffiient Std.Error t-value t-prob Part.R^2

    Constant 9.79205 0.6112 16.0 0.0000 0.9211

    UNEMPLOY 0.586614 0.09473 6.19 0.0000 0.6355

    sigma 0.676259 RSS 10.0611649

    R^2 0.63546 F(1,22) = 38.35 [0.000**

    Adj.R^2 0.61889 log-likelihood -23.6221

    no. of observations 24 no. of parameters 2

    What are the onsequenes of autoorrelation for the lassial OLS esti-

    mator ? We an show that the OLS estimator

    1. remains without bias,

    2. is no longer eient,

    3. in general, has a variane dierent from 2(X X)1.

    The latter onsequene may lead to serious overestimation of t ratios if thewrong formula 2(X X)1 is used to estimate varianes, negleting the errorautoorrelation.

  • INGE1221 2.3 Autoorrelation 48

    4 5 6 7 8 9

    1213

    1415

    UNEMPLOY

    POVE

    RTY

    Figure 2.5: Satterplot of the poverty index against unemploy-

    ment for the US, 1980 to 2003. The straight line is the OLS re-

    gression line.

    POVERTY Fitted

    0 5 10 15 20 25

    12

    13

    14

    15POVERTY Fitted

    r:POVERTY (scaled)

    0 5 10 15 20 25

    -1

    0

    1

    2r:POVERTY (scaled)

    Figure 2.6: Upper panel : time series of observed poverty index

    (red) against the tted index (blue line) using OLS regression.

    Lower panel : Residuals of the OLS regression.

  • INGE1221 2.3 Autoorrelation 49

    2.3.1 Tests for autoorrelation

    Autoorrelation is a problem of the disturbanes t whih are unobserved.Therefore, to detet autoorrelation, we use the OLS residuals et whih areobserved. One possibility to detet autoorrelation is to plot the et seriesagainst t, the time index. This is an informal, and diult way to detetautoorrelation, unless the pattern of autoorrelation is lear and strong.

    One of the most popular tests for autoorrelation is the Lagrange-Multiplier

    (LM) test developed by Breush (1978) and Godfrey (1978). To illustrate the

    test, onsider the hypothesis

    H0 : Corr(t, tk) = 0, k = 1, . . . , p

    in the model

    Yt = + Xt + t

    The stages of the test proedure are the following.

    1. Estimation of the model by OLS, giving residuals et

    2. Run the regression

    et = + Xt + 1et1 + . . .+ petp + ut

    and obtain the R2 of this regression. Under H0, the statisti nR2has

    an asymptoti 2 distribution with p degrees of freedom :

    nR2 2p

    2.3.2 How to deal with autoorrelation

    What should we do if the absene of autoorrelation is rejeted ? We an

    nd autoorrelation in the residuals for several reasons :

    1. Beause there is truly autoorrelation in the errors. This is not often

    the good reason, and it is the last one to adopt.

    2. Beause the funtional form of the regression equation is badly hosen

    (for example linear when it should be log-linear).

    3. Beause we have omitted a relevant explanatory variable, that is itself

    autoorrelated. This happens often with time-series data, in partiular

    if we do not put a lag of the dependent variable in the explanatory

    variables.

    11

    11. This leads to dynami models, a topi that will be studied during the seond term.

  • INGE1221 2.3 Autoorrelation 50

    First of all, if the autoorrelation struture and its oeients are known

    (whih rarely or never o

    urs in pratie), then we an onstrut a GLS

    estimator whih satises the Gauss-Markov theorem and, hene, is BLUE.

    For example, if it known that errors follow an AR(1) proess as given above,

    with known oeient , then we an estimate the following transformedregression

    Yt Yt1 = + (Xt Xt1) + t t1 (2.7)using OLS, whih is eient for the transformed regression as the error term,

    ut = t t1, is white noise.If we know the struture of autoorrelation (for example, AR(1)), but not

    its oeients, one an onstrut a feasible GLS estimator by estimating the

    autoorrelation oeients. The most popular proedure is the one proposed

    by Cohrane-Orutt (1949). Take again the AR(1) example. The stages of

    the Cohrane-Orutt proedure are the following :

    1. Estimate the model by OLS, and obtain residuals et.

    2. Run the regression et = et1+ut by OLS, and obtain the OLS estimate

    =

    Tt=2 etet1Tt=2 e

    2t1

    3. Estimate the transformed regression (2.7), replaing by .

    A word of aution is however in order : Often, the evidene of autoor-

    relation in estimated residuals is not evidene of genuine autoorrelation in

    model disturbanes, but rather an indiator of model mis-speiation suh

    as omitted variables or a false funtional form. Before trying to improve an

    ineient OLS estimator, one should therefore try alternative model spei-

    ations. Also, it may be that the assumed autoorrelation struture of model

    disturbanes, e.g. AR(1), is not orret, as one might neglet higher order

    autoorrelation. If there is enough evidene for the autoorrelation stru-

    ture, it may be preferable to use the OLS estimator, whih is ineient but

    onsistent. However, one has to adjust the formula for the varianes of para-

    meter estimators, as the lassial estimator developed in the previous hapter

    is inonsistent under autoorrelated error terms. We present a onsistent es-

    timator of the varianes in the following.

    2.3.3 Heteroskedastiity and autoorrelation onsistent

    standard errors

    Newey and West (1987) proposed an estimator of the varianes of OLS

    parameter estimates in the linear regression model in the presene of hete-

  • INGE1221 2.3 Autoorrelation 51

    roskedastiity and autoorrelation of error terms. It is a generalization of the

    White estimator for heteroskedastiity to the ase of autoorrelation.

    Reall the expression for the onditional variane of OLS estimators,

    Var(|X) = (X X)1X X(X X)1 (2.8)

    In the previous setion on heteroskedastiity, was a diagonal matrix ontai-

    ning the error varianes on its diagonal, and a onsistent estimator of the

    asymptoti ovariane matrix = limTT

    t=1

    Ts=1E[tsX tX

    s] was gi-

    ven by

    (1T

    nt=1

    2tX tX

    t

    ), see White (1980). Now, i