Réalisé par : Mohamed BELHEDI©trie II.pdfECONOMETRIE II Réalisé par : Mohamed BELHEDI . Ragnar...

FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION DE

SOUSSE

ECONOMETRIE II

Réalisé par :

Mohamed BELHEDI

Ragnar Anton Kittil Frisch (Oslo, 3 mars, 1895 - 31 janvier, 1973), économiste norvégien et

lauréat du premier « prix Nobel » d'économie décerné en 1969, est l'un des pères de

l'économétrie.

Jan Tinbergen (La Haye, 12 avril 1903 - 9 juin 1994 ), économiste néerlandais et lauréat,

avec Ragnar Frisch du premier Prix de la Banque de Suède en sciences économiques en

mémoire d'Alfred Nobel décerné en 1969 et du Prix Érasme en 1967.

Faculté des Sciences Economiques et de Gestion de

Sousse

Cours d’économétrie II

Rédigé par :

Mohamed BELHEDI*

*Tous les suggestions et les remarque seront le bienvenues écrire au [email protected]

mailto:[email protected]

Table des matières

Chapitre 1 : La Régression Multiple : Extension et Violation des hypothèses ................... 2

I. Rappel : .............................................................................................................................. 2

1.1 Estimateurs des moindres Carrés Ordinaires : ............................................................ 2

1.2 Propriétés des estimateurs ........................................................................................... 3

II. La méthode des Moindres Carrées Généralisé ou estimateur d’Aïtken. .......................... 4

2.1 Présentation et estimation ............................................................................................ 4

2.2 Inférences Statistiques .................................................................................................. 6

III. L’Autocorrélation des résidus : ....................................................................................... 7

3.1 Erreurs autorégressives d’ordre un : ............................................................................. 8

3.2 Tests de l’autocorrélation : ........................................................................................... 9

3.3 Test d’autocorrélation de Durbin et Watson (1950 et 1951) ...................................... 10

3.3.1 Test H de Durbin : ............................................................................................... 12

3.3.2 Test de Breusch-Godfrey (1978) ......................................................................... 12

3.3.3 Estimation avec autocorrélation des erreurs : ..................................................... 13

3.2.4 Méthode de Cochrane-Orcutt. ............................................................................. 15

3.2.5 Méthode de Hildreth-Lu. ..................................................................................... 16

3.2.6 Méthode de Maximum de Vraisemblance : ........................................................ 16

IV. Les problèmes d’hétéroscédasticité : ............................................................................ 16

4.1 Les causes d’hétéroscédasticité : ............................................................................... 16

4.2 Les tests d’hétéroscédasticité : ................................................................................... 17

4.2.1 Test de Goldfeld-Quandt ..................................................................................... 18

4.2.2 Test de Breush-Pagan : (test asymptotique) ........................................................ 19

4.2.3 Test de Glesjer (1969) : ....................................................................................... 19

4.2.4 Test de White (1980) : ......................................................................................... 20

4.3 Correction de l’hétéroscédasticité causée par Xj : ...................................................... 20

V. La multicolinéarité .......................................................................................................... 21

5.1 Détection de la multicolinéarité ................................................................................. 22

Chapitre 2 : Les modèles à équations simultanées .............................................................. 27

I. Introduction .................................................................................................................. 27

II. Généralités et exemples .................................................................................................. 27

2.1 Forme structurelle : ................................................................................................... 27

2.2 Présentation matricielle du modèle et hypothèses ..................................................... 29

III. Problème de l’identification : ........................................................................................ 30

3.1 Restrictions sur les coefficients : ............................................................................... 30

3.2 Conditions d’identifications : .................................................................................... 31

IV. Les méthodes d’estimation d’un système interdépendant :........................................... 34

4.1 L’estimateur MCI : ..................................................................................................... 34

4.2 L’estimateur DMC : ................................................................................................... 36

Chapitre 3 : Les modèles dynamiques et à retards échelonnés .......................................... 43

I. Généralité ......................................................................................................................... 43

1.1 Quelques définitions : ................................................................................................ 43

1.2 Effet de court terme et effet de long terme ................................................................ 44

1.3 Le retard moyen ......................................................................................................... 45

II. Les modèles à distribution finie des retards ................................................................. 46

2.1 Le modèle à retards géométriques : Le modèle de Koyck ........................................ 46

2.2 Le modèle à retard polynomiaux (modèle d’Almon) ................................................ 47

III. les critères de détermination du nombre de retard ....................................................... 49

3.1 Le test de Fisher ......................................................................................................... 49

3.2 Le critère de Akaike (AIC) et le critère de Schwarz (SC)........................................ 49

IV. Exemples de modèles dynamiques ............................................................................... 49

4.1 Les modèles d’ajustement partiel .............................................................................. 49

4.2 Le modèle d’anticipation adaptative ......................................................................... 50

Cours d’Econométrie II BELHEDI Mohamed

1

Objectifs du cours

Ce cours est destiné aux étudiants de licence et première année master (Maîtrise

Ancien régime) d’Econométrie, Economie Bancaire et financière et Finance.

A la fin de ce cours l’étudiant devra être en mesure de distinguer les différents

modèles économétriques : modèle de régression multiple, modèle dynamique,

modèle à équation simultanée, modèle non linéaire ainsi que les problèmes

posés par la violation des hypothèses de Gauss-Markov: Homoscédasticité et

autocorrélation des résidus.

Pré requis

Pour Comprendre ces notions l’étudiant devrait avoir des bonnes connaissances

en algèbre linéaire ainsi que les notions fondamentales de Statistique.


2

Chapitre 1 : La Régression Multiple : Extension et Violation des

hypothèses

I. Rappel :

1.1 Estimateurs des moindres Carrés Ordinaires :

Soit le modèle linéaire fournit par la théorie économique sous la forme :

1 2 2 3 3 ... t = 1 , 2, ..., Tt t t k kt ty x x x u

Ce modèle s’écrit sous la forme matricielle : Y X U

Avec : - Y est un vecteur représentant la variable dépendante et contenant T observations.

- X est une matrice de k colonnes et T lignes et contenant les variables explicatives

plus la constante.

- est un vecteur contenant les k paramètres à estimer.

- U est un vecteur contenant les T perturbations aléatoires de la régression.

On suppose que :

H1 : E(U)=0, l’espérance mathématique de l’erreur est nulle.

H2 : E(UU’)=²I, la variance de l’erreur est constante (t) (homoscédasticité) et la

covariance entre deux termes d’erreurs différents est nulle.

H3 : XU, les variables explicatives sont indépendantes des résidus.

H4 : X est de pleine Rang Rang X = k c’est à dire que la matrice (X’X) est inversible.

On peut estimer le modèle par MCO en minimisant le score S()=U’U qui n’est autre que la

somme des carrées des résidus. On a donc :

( ) ' ( ) '( ) ' ' ' ' ' '

' 2 ' ' ' '

U Y X

S U U Y X Y X YY X Y Y X X X

Y Y X Y X X


3

Les conditions nécessaires de minimisation du Score S() sont :

1

2

2

( ) ˆ1) 0 2 ' 2 ' 0 ( ' ) '

( ' ' ) ( ' ' )on rappele que : 2 ' ; '

( )2) ( ) 2 ' qui est une matrice définie positive

MCO

SX Y X X X X X Y

X X X YX X X Y

S SX X

(ayant des valeurs propres positives)

1.2 Propriétés des estimateurs

1) E( )= puisque : 1 1ˆ ' ' ' 'E E X X X X U E X X X U

car E(U)=0.

2) 1 1

' ] ' ' ' 'V E E X X X UU X X X

=

12 'X X

3) est le meilleur estimateur linéaire non biaisé BLUE (théorème de Gauss Markov1)

4) ˆ ˆ' ' ' '

²YY X Y U U SCR

T k T k T k

et

1ˆ ˆ ² 'V X X

5)

T T22

i t

t 1 t 1

T T2 2

t t

t 1 t 1

Y Y uSCE SCR

R² 1 1SCT SCT

Y Y Y Y

6) SCR T 1 T 1

R² 1 1 1 R²SCT T k T k

Supposons maintenant que certaines hypothèses classiques ne sont plus vérifiées. Que se

passent il si les résidus sont autocorrélés ou ne sont plus homoscédastiques (H2) ?

Dans ce cas les estimateurs des MCO ne sont plus à variance minimale et le théorème de

Gauss-Markov n’est plus vérifié. Nous verrons dans la section suivante que les estimateurs

par moindre carré généralisé vérifient ce théorème et que cet estimateur est sans biais

convergent et à variance minimale.

1 S’il existe un autre estimateur de alors il a une variance supérieur a celle de


4

II. La méthode des Moindres Carrées Généralisé ou estimateur d’Aïtken.

2.1 Présentation et estimation

Reprenons le modèle Y X U avec E(U) = 0 mais V(U) = E(UU’) = V = ² 2I

c’est à dire que les hypothèses H2 et H3 ne sont plus vérifiée. Si on estime par la méthode des

MCO on a :

1 1

1 1

1 1 1 1 1

' ' ' '

1)

2) ' ' ' ' '

' ' ' ² ' ' ' ² '

MCO X X X Y X X X U

E

Var E E X X X UU X X X

X X X VX X X X X X X X X X X

Donc l’estimateur des MCO n’est plus BLUE.

Exemple :

Soit le modèle suivant : 0 1 t = 1 , 2, ..., T 1t t ty x u

Supposons que le modèle (1) vérifie les hypothèses de Gauss Markov.

Si on souhaite estimer le modèle (1) sur les variations :

1

1 1 1

t = 1 , 2, ..., T-1 2

avec ; ;

t t t

t t t t t t t t t

y x u

y y y x x x u u u

On perd la 1

ère observation.

Posons 1t t t tu u u

1

1 1

0

' '

2

1 1 1 2 1

2 1 2 3

0

2 ; 2 ²

; ; ?

; ; ² 0

; ; 0

: j>1 ; 0

2 1 0 0

1 2 1 0

0 1²

t t t

t t t t t

t t t t

t t t t t t t

t t t t t t

t t j

E E u u

Var Var u Var u Cov u u

Cov E

E E u u u u E u

E E u u u u

Donc E

Var

1²

0

0 1

0 0 1 2

TI

Donc Var() est une matrice de termes connues à un terme près.


5

Le théorème d’AITKEN permet de déterminer un estimateur linéaire sans biais et à variance

minimale. Ce théorème est une généralisation du théorème de Gauss-Markov.

1er

cas : Si Y X U avec E(U) = 0 , Var(U) = V = ² (avec est une matrice connue à

100%) et X est de plein rang et non aléatoire.

Rappel : pour toute matrice (TT), définie et positive, il existe une matrice P /

1

' 'TP P I P P

Vérification :

Y X U Supposons qu’il existe une matrice P tel que : 1 'P P

* * *

*

*

0

' ' ' ' '

² ' ² ' ² T

PY PX PU

Y X U

E U E PU PE U

Var U V PU E PU PU E PUU P PE UU P

P P P P I

Les hypothèses classiques sont vérifiées pour U* et on peut appliquer les MCO pour le

modèle : * * *Y X U

1 1* * 1 * *

11 1

( ' ) ' ' ' ' ' ' '

' ' '

MCO

MCG

X X X Y PX PX PX PY X P PX X P PY

X X X Y

1

1 1 ' ' 'X V X X V Y

1 1 1

* * 1 1² ' ² ' 'GVar X X X X X V X

Comme ² est inconnue, nous allons chercher un estimateur sans biais de ² est définie par :

* * * *2

1

ˆ ˆ ˆ ˆ' '

ˆ ˆ ˆ ˆ' ' '

ˆ ˆ'

G G G G

G

G G G G

G G

Y X Y X PY PX PY PX

T k T k

P Y X P Y X Y X P P Y X

T k T k

Y X Y X

T k

2ème

cas : Si Y X U avec E(U) = 0, Var(U) = V (avec V est une matrice inconnue)

Il faut d’abord chercher un estimateur convergentV de V, ensuite appliquer les MCG estimés

(appelé encore MCQG) : 1

1 1ˆ ˆ ˆ' 'G X V X X V Y


6

On peut démontrer que ˆ

lim GP

mais attention, en petits échantillons, on ne peut pas

dire que ˆ

GE

et ˆ

GVar

est minimale.

2.2 Inférences Statistiques

Si (0, ² )U N alors :

11 -1

2

2

1ième -1

jj

1) , ² ' avec '

2) ²

3) , avec b est le j élément diagonal de ² X'

G

G

j

G j jj

N X X P P

T k T k

N b X

Remarques :

(0, ² )U N Alors

0, : si est connue à 100%.

0, : si V= ² est connue à terme ² prés.

a U N V V

b U N V

(a) on applique la loi normale dans le cas d’un test sur une hypothèse simple, et la loi de

Khi-deux dans le cas d’un test sur une hypothèse linéaire générale.

(b) on applique la loi de Student dans le cas d’un test sur une hypothèse simple, et la loi

de Fisher dans le cas d’un test sur une hypothèse linéaire générale.


7

III. L’Autocorrélation des résidus :

Introduction :

Soit le modèle : Y = X + U

Si E(ut,ut’) = tt’ 0 il y a autocorrélation des erreurs, on rencontre ce type de phénomène

lorsqu’on travaille sur des données temporelles.

Dans ce cas, la matrice des variances covariances s’écrit :

2

1 12 1

2

21 2

2

1 2

'

T

T T T

E UU

On dispose de T observations et k coefficients inconnus (j) en plus ²

2

T Tcoefficients

inconnus (t² et tt’). On a beaucoup plus de coefficients inconnus que d’observations donc

l’estimation est à priori impossible.

La solution est d’assimiler l’erreur ut à un processus usuel et stationnaire.

Rappel :

Le processus autorégressif AR(p) : ut AR(p)

ut = 1ut–1 + 2ut–2 + … + put–p + t ; t est un bruit blanc.

Le processus moyenne mobile MA(q) : ut MA(q)

ut = t + 1t–1 + 2t–2 + … + qt–q ; t est un bruit blanc.

Le processus mixte ARMA(p, q) : ut ARMA(p, q)

ut = 1ut–1 + 2ut–2 + … + put–p + t + 1t–1 + 2t–2 + … + qt–q ; t est un bruit blanc.

i et i vérifient certaines conditions pour la stationnarité :

Espérance et variance constantes.

Covariance dépend de l’écart entre t et t’ et pas de la période t.

Remarque : on se limitera dans notre cours aux processus autorégressifs d’ordre 1 AR(1)

ut = ut-1 + t avec t est un bruit blanc.


8

3.1 Erreurs autorégressives d’ordre un :

Il arrive fréquemment, dans les séries temporelles, que les résidus présentent une

allure cyclique : soit un résidu positif tend à être suivi par un résidu positif ou un résidu

négatif tend à être suivi par un résidu négatif ; soit les résidus successifs alternent. Le premier

cas correspond à une autocorrélation positive ; le second, à une autocorrélation négative.

Dans un modèle de consommation par exemple, la présence d’une autocorrélation

positive des erreurs pourrait traduire une certaine inertie du comportement des agents : une

consommation supérieur à la normale aurait tendance à se poursuivre durant plusieurs

périodes successives. La présence d’une autocorrélation négative pourrait traduire un

phénomène oscillatoire, l’individu compense par une consommation moindre à la période t un

excès de consommation à la période t–1.

Dans un cas comme dans l’autre, l’hypothèse de non corrélation des erreurs est violée.

Il faut alors appliquer la méthode d’Aïtken. Mais il est nécessaire pour cela de décrire

formellement cette dépendance des erreurs, c’est-à-dire de postuler une forme explicite de la

matrice des variances-covariances des erreurs. On pose donc les hypothèses suivantes :

1 : 1t t tu u avec

On dit que ut suit un processus autorégressif d’ordre 1 : ut AR(1) avec :

E(t) = 0 pour tout t,

E(t,s)=2 si t = s

0 si t s

L’erreur ut possède donc une composante systématique (ut-1) et une composante purement

aléatoire (t).

Pour calculer la matrice des variances-covariances des erreurs on calcule :

2

1( ), ( , ),..., ( , ) t t t t t sE u E u u E u u

On a 2

1 2 1 2 1( )t t t t t t t t tu u u u

= 2

3 2 1( )t t t tu

= 3 2

3 2 1t t t tu

= 3

t t 1 t 2 t 3² ...

Soit, en remontant indéfiniment dans le temps : 0

i

t t i

i

u


9

Ce qui implique :

0

22 2 2 2 4 2 2 2 4

1 2 2

( ) ( ) 0

( ) ( ) ( ) ( ) ... (1 ...) .1

i

t t i

i

t t t t

E u E

E u E E E

De même :

22 2

1 1 1 2( , ) ( , ( )) ( )

1

t t t t t t uE u u E u u E u

2 2 2 2 2

2 2 1 2 2

2

( , ) (( ), ) ( )

....

( , )

t t t t t t t u

s

t t s u

E u u E u u E u

E u u

On a donc la matrice variance covariance :

1

2

²2 2

1

1 ² ...

1 ...

( ') ² . . .1 ²

. . . .

. ² 1

T

T

u u

T

E UU V

3.2 Tests de l’autocorrélation :

a) Test graphique :

Nous pouvons distinguer une autocorrélation positive (graphique 1) d’une autocorrélation

négative (graphique 2).

Graphique 1 : Autocorrélation positive

t

ut

0


10

Graphique 2 : Autocorrélation négative

L’examen visuel des résidus permet le plus souvent de détecter un processus de reproduction

des erreurs lorsque :

Les résidus sont pendant plusieurs périodes consécutives soit positifs, soit négatifs :

autocorrélation positive (graphique 1).

Les résidus sont alternés : autocorrélation négative.

Cependant, le plus souvent, l’analyse graphique est délicate d’interprétation car le dessin des

résidus ne présente pas des caractéristiques toujours évidentes.

Les tests statistiques :

3.3 Test d’autocorrélation de Durbin et Watson (1950 et 1951)

Ce test permet de tester0

1

: 0

: 0

H

H

.

Sa distribution n’a pas pu être déterminé indépendamment de la matrice X. il existe

donc une zone d’incertitude quant à la décision d’accepter ou rejeter l’hypothèse nulle ou

l’hypothèse alternative pour des valeurs de la statistique de Durbin-Watson qui est définie

par :

2

1

2

2

1

ˆ

T

t t

t

T

t

t

u u

DW

u

On pourra montrer facilement que

En effet :

t

ut

0


11

2 2 2 2

1 1 1 1

2 2 2 2 2 2

2 2 2

1 1 1

2 2 2T T T T T T

t t t t t t t t t

t t t t t t

T T T

t t t

t t t

u u u u u u u u u

DW

u u u

Or lorsque T tend vers l’infini on a : ∑

∑

et on a : ∑

∑

Donc : ( ∑

∑

)

Si = 0 la valeur du statistique DW prend la valeur 2.

Si = 1 la valeur du statistique DW s’annule.

Si = -1 la valeur du statistique DW prend la valeur 4.

Les valeurs de DW sont donc comprises entre 0 et 4 s’approche de 0 dans le cas

d’autocorrélation positive, de 4 dans le cas d’autocorrélation négative et s’approche de la

valeur de 2 en absence d’autocorrélation.

On pourra résumer ces valeurs dans un tableau en indiquant deux valeurs critiques de

Durbin-Watson théorique qui prennent deux valeurs dU et dL et qui dépendent du nombre des

variables explicatives dans la régression ainsi que de la taille de l’échantillon. Notons enfin

que la présence de la constante et l’absence du retard sur la variable dépendante dans la

régression sont indispensables pour ce test.

H1 DW < dL dL DW < dU dU DW < 4-dU 4-dU DW < 4-dL 4-dL DW

0 Rejeter H0

> 0 Incertain Ne pas rejeter H0 Incertain

Rejeter H0

< 0

Les valeurs critiques dL et dU sont en fonction de la taille de l’échantillon (T > 15) du

nombre des variables explicatives sans la constante et du seuil de confiance. (Exemple pour T

= 20 et dans un modèle linéaire à deux variables explicative dL = 1.1 et dU = 1.54 au risque de

5%).

0 dL dU 2 4 4-dU 4-dL

< 0 ? = 0 = 0 ? > 0


12

3.3.1 Test H de Durbin :

Le test de DW n’est pas applicable quand on a des variables endogènes retardées en tant que

explicatives dans le modèle.

Exemple : t 0 1 1t k kt t 1 ty x ... x y u avec t 1,...,T ;

E(yt–1, ut) 0 donc H4 n’est plus vérifiée.

Durbin (1970) a développé une autre statistique qu’il appelle H-Durbin :

t 1

assy

y

Tˆh (0,1)

ˆˆ1 T V

: est le coefficient de la régression t t 1 tˆ ˆu u .

ttu : sont les résidus des MCO.

t 1y

ˆV

: La variance estimée par MCO associée au coefficient yt–1 dans la modèle.

0

1

: 0

: 0

H

H

Avec un risque de 5%, si h 1,96

2 : on accepte H0.

Remarque : t 1y

ˆˆ1 T V

peut être négative, Durbin propose une autre procédure de test3.

3.3.2 Test de Breusch-Godfrey (1978)

Ce test permet de tester la présence d’autocorrélation dans un processus autorégressive

d’ordre p (AR(p)) et peut être employé lorsqu’il y a des retards sur la variable endogène dans

le modèle (yt-1, yt-2,…). Lorsque les erreurs sont de type:

1 1 2 2 ....t t t p t p tu u u u

Il permet de tester l’hypothèse :0 1 2 p

1 1 2 p

H : ... 0

H : 0; 0;...; 0

La statistique est obtenue en appliquant le principe des Multiplicateurs de Lagrange

(critère LM) dans le contexte du maximum de vraisemblance pour un modèle à erreurs

autorégressives.

Pour appliquer ce test on fait la régression auxiliaire :

2 Lu dans la table de la loi normale centrée réduite.

3 Voir Jhonston


13

0

1 1

pk

t jt i ti j t

i j

y x u v

Où les t su sont les résidus de la régression de yt sur les k variables explicatives xt par MCO.

La statistique est définie par :

LM = TR²

T est la taille de l’échantillon et R² est le coefficient de détermination de la régression des

résidus sur les explicatives.

Si H0 est vraie on peut montrer que la distribution limite (lorsque n) de cette statistique

est une 2

p . Si TR² 2

p4 on accepte l’hypothèse d’indépendance des erreurs.

On pourra aussi utiliser un test de Fisher classique de nullité des coefficients i pour la

régression auxiliaire lorsque la taille de l’échantillon est faible (H0 : 1 = 2 =…= p = 0).

3.3.3 Estimation avec autocorrélation des erreurs :

Les procédures suivantes ne sont valides que si : ut = ut–1 + t. (i)

La méthode de Durbin (le modèle transformé) :

La matrice inverse de peut être calculée si le coefficient d’autorégression est

connu et on pourra en ce moment calculer l’estimateur MCG du modèle. On pourra vérifier

que :

1

2

1 0 ... ... 0

1 ² 0 ... 0

0 1 ² ... ...1

... ... 01

0 ... ... 1 ²

0 ... 0 1

De cette expression on peut déduire la matrice de transformation :

4 Lu dans la table khi deux au seuil et au p degrés de liberté.


14

2

1 ² 0 0

1

1 0 1

1

0

0 0 1

P

Lorsqu’on on applique cette matrice à la matrice X et le vecteur Y, on peut retenir comme

formule de transformation d’une colonne z la règle suivante :

2

1

2 1

3 2*

1

1

.

.

.

n n

z

z z

z zz

z z

et on

applique les moindres carrés ordinaires aux données transformées.

Cette écriture matricielle peut être reprise de la manière suivante :

Soit le modèle à l’instant t : t 0 1 1t k kt ty x ... x u avec t 1,...,T (1)

Avec ut = ut–1 + t

Le modèle peut s’écrire en t–1 : t 1 0 1 1t 1 k kt 1 t 1y x ... x u avec t 2,...,T (2)

(1) – (2) :

t t 1 0 1 1t 1t 1 k kt kt 1 t t 1

t 0 1 1t k kt t

y y (1 ) (x x ) ... (x x ) (u u ) avec t 2,...,T

y b x ... x

On peut écrire ce dernier modèle « transformé »sous la forme :

1 1

1 1

( )k k

t t j jt j jt t

j j

y y X X

t est un bruit blanc, donc le meilleur estimateur pour ce dernier modèle est celui des MCO.

Les coefficients estimés du modèle transformé sont les mêmes que ceux du modèle de départ

(1) sauf la constante : 0 = b0 / (1 – ).

Il convient donc de connaître ou d’estimer le paramètre . C’est l’objet des procédures

suivantes :


15

1ère

étape : Estimation directe de à partir des résidus de la régression sur le modèle initial

(i) : ∑

∑

Ou à partir de la statistique de DW : DW

ˆ 12

2ème

étape : Transformation des variables (endogène et exogènes). Les paramètres estimés par

MCO sont alors : 1 2 k 0 0ˆˆ ˆ ˆ ˆ ˆ, ,..., et b /(1 ).

Les méthodes itératives :

3.2.4 Méthode de Cochrane-Orcutt.

Cette méthode est la plus utilisée, elle permet d’estimer à la fois et .

Soit le modèle : t 0 1 1t k kt ty x ... x u avec t 1,...,T (1)

1ère

étape : On commence par appliquer les MCO sur le modèle (1) pour obtenir un vecteur u

des résidus, soit 1( ' ) 'u I X X X X Y .

2ème

étape : On obtient ensuite en régressant 1 sur t tu u . Ceci donne : ∑

∑

3ème

étape : On applique alors la formule des moindres carrées généralisés en remplaçant par

dans l’expression de la matrice V. Soit donc :

[

]

On calcule .

Ceci fournit un nouveau vecteur des résidus.

On recommence à partir de la 2ème

étape : ce nouveau vecteur peut servir à calculer une

nouvelle estimation de , soit …Cette dernière peut servir à calculer une troisième

estimation de , et ainsi de suite .

4ème

étape : On peut poursuivre cette procédure jusqu’à la convergence5 des estimations de .

Remarque : il n’est pas certain que cette procédure converge vers un extremum global.

5 On dit qu’il y’a convergence si à l’itération i on a :


16

3.2.5 Méthode de Hildreth-Lu.

Il s’agit ici d’une méthode d’estimation par tâtonnement : ] –1, 1 [.

1ère

étape : Prendre des différentes valeurs de ] –1, 1 [, avec un pas régulier (par exemple

0,1 ; 0,01 ; …).

2ème

étape : Pour chaque valeur de , on estime :

1

G G Gˆ ˆ ˆ et par la suite SCR Y X 'V Y X

3ème

étape : On choisie la valeur de qui minimise la SCR().

3.2.6 Méthode de Maximum de Vraisemblance :

2(0, )U N Avec

1

2

1

1 ² ...

1 ...1

² . . .1 ²

. . . .

. ² 1

T

T

T

1

1 2

2 1

2

( ) (2

1 1 1 1,..., exp '

22

1

1 ²

1 1( ) ( ) (1 ²) '

2 2 2

0

ˆ ˆ0 ,

0

TT

T

MV M

f u u U U

avec

Log L const Log Log y x y x

Log L

Log Lrésoudre le système

Log L

2

) ( )ˆ,V MV

IV. Les problèmes d’hétéroscédasticité :

4.1 Les causes d’hétéroscédasticité :

Lorsque la variance des erreurs ne sont plus constantes sur la première diagonale

2( )V U I on parle de présence d’hétéroscédasticité dans ce cas les estimateurs des MCO

sont sans biais mais non efficace (la variance n’est plus minimale) ce phénomène peut être

expliqué par plusieurs raisons:


17

- la répétition d‘une même valeur de la variable à expliquer pour des valeurs différentes d’une

variable explicative ;

- la présence des moyennes calculée sur des échantillons de taille différente ;

- lorsque les erreurs sont liées aux valeurs prises par une variable explicative, dans un modèle

en coupe instantanée la variance de la consommation croit, par exemple, avec le revenu

disponible, etc.…

Nous avons dit que la matrice variance covariance des erreurs prend la forme suivante :

²diag(k1,…,kn) où les ki sont des constantes positives connues. Pour remédier ce problème

on peut adopter la transformation des observations en multipliant par 1

ik.

Plus généralement, on peut pourra adopter la méthode des moindre carrée pondérés pour

remédier le problème d’hétéroscédasticité. Si ce problème est dû à des variations aléatoires

des coefficients de régressions de régression, en illustrant cette situation par exemple simple.

Soit le modèle :

t t ty a bx u et supposons que b = b*

+ t où b* est constant en probabilité et où t est une

erreur aléatoire avec E(t) = 0, V(t) =2

, E(t, s) = 0 pour t s, et E(ut, t) = 0. On peut alors

écrire :

* *

t( ) avec t t t t t t t t ty a b x u a b x v v u x

On a 2 2 2 2 2 2 2( ) ( ) ( )t t t t u tE v E u x E x dépend de l’indice t.

Une solution possible, en grand échantillon, est de poser :2

2t t tv x où tv est un résidu

de la régression de yt sur xt par MCO. On estime et par MCO et on estime

2 2 2( ) par t t tE v x on utilise ensuite les moindres carrés pondérés pour estimer a* et b

*.

4.2 Les tests d’hétéroscédasticité :

Test graphique :


18

V(ut) xj V(ut) xj

Exemples d’hétéroscédasticité.

Exemple d’homoscédasticité.

4.2.1 Test de Goldfeld-Quandt

Soit le modèle de régression multiple suivant : 1 2 2 3 3 ...t t t k kt ty x x x u

Supposons que la variable xj soit la source de l’hétéroscédasticité de ce fait on pourra stipuler

que2 2( ) ( ) t jt jtV u f x x . Ceci représente une violation de l’hypothèse d’homoscédasticité.

Pour tester cette hypothèse on procède comme suit :

1ère

étape : On classe par ordre croissant les données de la variable Xj.

2ème

étape : On omet de l’échantillon, c observations centrales et on divise le reste en deux

sous échantillons de même taille ( )2

T c. T étant la taille de l’échantillon initial, c est

généralement le quart de l’ensemble des observations.

3ème

étape : On effectue séparément les estimations par MCO des deux sous échantillons et

sauve les SCR de chacun des deux régressions (SCR1 et SCR2).

4) Sous l’hypothèse d‘homoscédasticité H0 : (2 2

1 2 ) le rapport des variations résiduelles :


19

21

( 1)2

²

T c

k

SCR

Et 22

( 1)2

²

T c

k

SCR

. Le rapport de deux khi deux rapporté chacun à son

degré de liberté est un Fischer :

2

2

1 1

/ ( 1)² 2ˆ ( ( 1), ( 1))

2 2/ ( 1)

² 2

SCR T ck

SCR T c T cF F k k

SCR T c SCRk

(Tabulé).

Si F F on accepte H0 sinon il y a présence d’hétéroscédasticité des erreurs.

Notons enfin que le numérateur prend toujours la valeur la plus élevée des SCR on pourra

donc calculer SCR1/SCR2 si SCR1>SCR2.

4.2.2 Test de Breush-Pagan : (test asymptotique)

Supposons que le modèle étudié est sous la forme matricielle suivante : Y = X + U et que la

variance 2 ( , ) avec Z Xf Z cela veut dire que la source de l’hétéroscédasticité est une

partie des variables explicatives. Breusch et Pagan propose de faire le test suivant :

1ère

étape : Faire la régression Y=X+U. Par MCO.

2ème

étape : Faire la régression

2

0 1 1 2 22... l l

uz z z

3ème

étape : Faire le test H0 : 1 = 2 = … = l = 0

La statistique est 2

2

l

SCES

Si 2

( ) lS tabulé on rejette l’hypothèse nulle H0 de l’homoscédasticité et on peut accepter la

présence de l’hétéroscédasticité des erreurs.

4.2.3 Test de Glesjer (1969) :

Ce test permet de déterminer la forme de la corrélation qui existe entre la variable Xj et la

variance des erreurs. Il se base sur la régression des résidus du modèle :

1 2 2 3 3 ...t t t k kt ty x x x u

On teste ensuite la significativité de 1 dans l’estimation par MCO des modèles suivants :


20

0 1

0 1

0 1

1

t tk t

t tk t

t t

tk

u x

u x

ux

Si 1 est statiquement significatif dans l’une des régressions citée on

accepte alors la présence d’hétéroscédasticité dans le modèle du départ.

4.2.4 Test de White (1980) :

Soit le modèle de départ : 1 2 2 3 3 ...t t t k kt ty x x x u (1)

C’est le test le plus utilisé et le plus général puisqu’on n’impose aucune forme a priori de

l’hétéroscédasticité. On fait la régression suivante :

22

0

t q qt q qt ql qt lt t

q q q l q

u x x x x v (2)

On voit donc le caractère général de ce test puisque dans les variables explicative on trouve

les xi leurs carrés et leurs produits croisés. La statistique de test de White repose sur le calcul

du coefficient de détermination R² tiré de la régression précédente (2). Sous H0 (les q, les q

et les ql sont nulles) on peut montrer que 2

( )² pW TR p étant le nombre de régresseurs

dans la régression précédente (( 3)

2

k kp

k est le nombre de variable explicative dans la

régression du départ (1)). La règle de décision est toujours la même.

4.3 Correction de l’hétéroscédasticité causée par Xj :

MCG :

Reprenons le modèle : 1 2 2 3 3 ...t t t k kt ty x x x u et supposons que : 2 2( ) t jtV u x

L’estimateur BLUE d’un modèle hétéroscédastique est alors celui des MCG :

1

1 1' ' 'G X X X Y

et 1 1

1 1' ² 'GV X V X X X

MCP :

Pour rendre les erreurs homoscédastiques il faut transformer le modèle du départ afin d’avoir

une variance constante ceci est possible si on pose tt

jt

uu

x t = 1, …, T.

Le modèle transformé sous forme matricielle est Y X U avec :

, et UY PY X PX PU

��𝐺


21

Cette forme est obtenue en multipliant toutes les équations par l’inverse des éléments de Xj.

2 312 3 ... t=1,....,T

1

t t t kt tk

jt jt jt jt jt

y x x x u

x x x x x

Ou alors on peut écrire :

2 31 2 3 ...t t kt tkty x x x u t = 1, …, T

Donc la matrice de transformation est :

1

2

10 0

10 . .

.

.

. . 0

10 0

j

j

Tj

x

x

P

x

2

1

2

2

1

2

10 0

10 . .

' .

.

. . 0

10 0

j

j

Tj

x

x

PP

x

V. La multicolinéarité

La multicolinéarité est un autre problème de violation des hypothèses classiques pour les

estimations par MCO. Cette violation est due à l’existence d’une dépendance linéaire entre les

vecteurs représentatifs des variables explicatives. On parle de multicolinéarité parfaite ou

stricte lorsque une des variables explicatives soit fortement corrélé avec une autre ou des

autres explicatives. Dans ce cas il est impossible d’estimer le modèle par MCO puisque la

matrice X ne soit pas de plein rang et le déterminant de X’X sera nul. Mais ce cas est extrême

et il arrive souvent que la dépendance linéaire des variables explicatives soit approximative.

Les conséquences de ce phénomène sont les suivant :

Les éléments de la matrice (X’X) sont élevés et sont déterminant tend vers 0.


22

La variance des estimateurs est élevée.

Les t de student des estimateurs sont très faibles, ce qui pousse à éliminer des

explicatives pouvant être pertinente.

Les intervalles de confiance des estimateurs sont d’amplitudes larges et l’erreur de

prévision sera grande.

Instabilité des estimateurs des MCO : faible fluctuation des données entraîne une forte

variation des valeurs estimées des coefficients.

5.1 Détection de la multicolinéarité

Intuitivement on peut détecter la multicolinéarité dans un modèle si les t de Student des

paramètres sont faibles et le R² est élevé. Mais on doit procéder par des tests statistiques qui

permettent de détecter les variables explicatives fortement corrélées. Klein (1962) propose de

comparer le coefficient de détermination R² du modèle initial au coefficient de corrélation

simple 2

i jx xr entre deux variables explicatives Xi et Xj pour ij. Il y a présomption de

multicolinéarité si R² < 2

i jx xr . Avec

2

2( ; )

( ) ( )

i j

i j

x x

i j

Cov x xr

V x V x

Les 2

i jx xr sont observées dans la matrice de corrélation qui est fournit par la majorité des

logiciels d’économétrie.

On pourra utiliser le test de Farrar et Glauber (1967) qui suggèrent de réaliser un test en

deux étapes :

1ère

étape : Calculer le déterminant de ma matrice des coefficients de corrélation entre les

variables explicatives :

1 2 1 3 1

2 1 2 3 2

1 2 1

1 ...

1 ...

. . .

. .

... 1

k

k

k k k k

x x x x x x

x x x x x x

x x x x x x

r r r

r r r

D

r r r

Lorsque la valeur du déterminant D tend vers 0, le risque de multicolinéarité est important.

Par exemple, pour un modèle à deux variables explicatives, si les deux séries sont

parfaitement corrélées, le déterminant s’écrit :

1 2

2 1

1 1 10

1 1 1

x x

x x

rD

r.

Dans le cas opposé, où les séries explicatives sont orthogonales, le déterminant devient :


23

1 2

2 1

1 1 01

1 0 1

x x

x x

rD

r

2ème

étape : on effectue un test du ² , en posant les hypothèses suivantes :

0

1

: 1 (les séries sont orthogonales)

: 1 (les séries sont dépendantes)

H D

H D

La valeur empirique du teste est : 2 11 2 5 ( )

6c T k Log D

Avec :

T : la taille de l’échantillon.

k : nombre d’exogène dans le modèle (y compris la constante).

Log : le logarithme népérien.

2 2

01( 1)

2

2 2

01( 1)

2

Si : on rejette H présemption de la multicolinéarité.

Si : on accepte H les séries sont orthogonales.

ck k

ck k

Exemple :

Soit me modèle linéaire suivant : 0 1 1 2 2 3 3 4 4 1,...,13i i i i i iy x x x x i

Les résultats d’une estimation par MCO de ce modèle sont résumés dans le tableau suivant :

Variable Coefficient Ecart-type

C 62.41 70.07

x1 1.5511 0.7448

x2 0.5102 0.7238

x3 0.1019 0.7547

x4 -0.1441 0.7091

R² = 0.93024

La matrice des corrélations entre les variables explicatives est la suivante :

x1 x2 x3 x4

x1 1 0.229 0.824 0.245

x2 0.229 1 0.139 0.973

x3 0.824 0.139 1 0.03

x4 0.245 0.973 0.03 1

Avec, le déterminant de cette dernière matrice est égal à 0.00139533.

2 113 1 2 5 5 6.5746 62.46

6c

2 2

01( 1) 10

2

Si 62.46 =18.31 : on rejette H présemption de la multicolinéarité.ck k

Estimation avec quasi-multicolinéarité :


24

Il existe trois techniques permettant d’apporter des solutions au problème de la

multicolinéarité :

Augmenter la taille de l’échantillon : cette technique n’est efficace que si l’ajout

d’observations diffère significativement de celles figurant déjà dans le modèle, sinon il

y aura reconduction de la multicolinéarité.

La régression Ridge : est une réponse purement numérique, il s’agit de transformer la

matrice X’X en (X’X + cI) où c est une constante choisie arbitrairement qui, en

augmentant les valeurs de la 1ère

diagonale, réduit les effets numériques de la

multicolinéarité.

La seule parade vraiment efficace consiste, lors de la spécification du modèle, à

éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et

donc d’être corrélées entre elles (en pratique, quand 2

,x zr est élevé par rapport à un

certain seuil, on élimine soit x soit z). La question qui se pose ici, est ce qu’on peut

toujours éliminer des variables explicatives sans changer la structure du modèle ?

La régression Ridge : c’est l’idée de Kennard et Hoerl (1970), afin de rendre la matrice X’X

bien conditionnée et obtenir un estimateur assez stable -1ˆ ' ' R X X cI X Y est

l’estimateur Ridge. Avec c est un réel non stochastique appartenant à [0, 1].

Remarque :

l’indice de conditionnement d’une matrice A : J = A.A-1=

max

min

avec les j

sont les valeurs propres de la matrice A.

Inférences statistiques :

1 1ˆ( ) [( ' ) '( )] ( ' ) ' si c 0. RE E X X cI X X U X X cI X X Car E(U)=0.

Donc ˆR est biaisé.

1 1

1 1

( ) ' ( ' ) ' ' ( ' )

²( ' ) ( ' )( ' )

R R R R RV E E E E X X cI X UU X X X cI

X X cI X X X X cI

Si c = 0 alors V( ˆR ) = V( ˆ

MCO ).


25

Théorème 1 : le carré du biais de l’estimateur Ridge est une fonction croissante de c et sa

variance est une fonction décroissante de c6.

Donc V( ˆR ) V( ˆ

MCO ).

Faire le choix entre deux estimateurs, l’un est sans biais mais de variance élevée et l’autre de

variance réduite mais biaisé. Ce choix se fera sur la base de l’erreur quadratique moyenne

EQM.

Théorème 2 : il existe toujours des valeurs positives de c tel que EQM( ˆR ) EQM( ˆ

MCO ).

Pour cela, il suffit de choisir2

max

²c

.

Choix de c : Hoerl et Kennard (1975) proposent d’estimer c par : '

ˆ ²1

ˆ ˆHK

MCO MCO

c k

1

ˆ ˆ' ˆ ² , ' ' et k : nombre de paramètres à estimer dans le modèle.MCO

U UAvec X X X Y

T k

Calcul de l’estimateur Ridge :

Il faut toujours standardiser le modèle : ; t t

x y

X X Y Y

On utilise un programme MCO pour l’estimation tout en écrivant le modèle comme suit :

11 12 11

212

1 11

2 2

...

...

......

... ...

... ...0 0 ... 0

... 0 ...

... ... ...

0 0

( ,1)

k

TkTT

k T k

X X XY

XY

uXXY

u

cu

c

T k

( , ) ( ,1) ( ,1)T k k k T k

c c cY X U

6 Démonstration : voir Judge, G.G. (1988) pp 874-882.


26

'

'

'

'

'

ˆ

' 0 '

0

c c

k k

R

c c

k

X X

X X X X cI

cI cI

X Y

X Y X Y cI X Y

cI

Exemple :

1

' '

1 10 25

2 ; 15 17 ; 0,1.

3 30 15

10 251

15 172

ˆ30 15Alors ; 3

0,1 00

0 0 0,1

c c R c c c c

Y X c

Y X X X X Y


27

Chapitre 2 : Les modèles à équations simultanées

I. Introduction

Un modèle économique est, généralement, un système d’équations interdépendantes puisque

les variables économiques sont généralement interdépendantes. Dans un tel système une

variable endogène peut être une variable explicative d’une ou plusieurs équations du modèle.

L’estimation d’un modèle à une seule équation ne suffit pas toujours à étudier un phénomène

économique. Par exemple l’estimation de la loi de demande nécessite l’étude de la fonction

d’offre et l’identité entre cette fonction et la fonction d’offre. On est amené donc à estimer un

système d’équations simultanées. L’estimation d’un modèle à équations simultanées par les

MCO donne des estimateurs biaisés et pas convergents. Le biais de l’estimation est appelé

biais de simultanéité.

La modélisation opère en trois phases:

la conception, c'est à dire l'écriture ou la spécification du modèle

l'estimation des équations du modèle, selon des techniques appropriées

la résolution du modèle, préalable à son emploi pour la simulation ou la prévision

II. Généralités et exemples

2.1 Forme structurelle :

La forme structurelle (FS) traduit les lois du marché telle que propose la théorie économique.

Sous cette forme les variables endogène et exogène peuvent intervenir sans que l’endogène

s’exprime uniquement en fonction des exogènes. L’estimation dans ce cas donne des résultats

erronés. Prenons quelques exemples.

Exemple 1 : modèle keynésien élémentaire

Considérons le modèle à deux équations suivantes :

: équation économétrique, fonction de consommation

: équation comptable, équilibre des biens

t t t

t t t

C a bR

R C I

Ct est la consommation, qui est une variable endogène du modèle , Rt est le revenu national,

qui est aussi une variable endogène, It est l’investissement, qui est une variable exogène du

modèle.

La première équation est une équation stochastique de comportement, la seconde est une

identité comptable qui n’est autre qu’une définition. Cette représentation est appelé forme

structurelle.


28

Exemple 2 : modèle d’offre et de demande

Soit le système de 2 équations représentant l’offre et demande dans un modèle canonique de

comportement. Les quantités demandées (qt) dépendent du prix (pt) et du revenu (rt). Le prix

(pt) dépend des quantités offertes (qt) et de coût de production (xt). Le système s’écrit :

1 1 1 1

2 2 2 2

: fonction de demande

: fonction d'offre

: condition d'équilibre de marché

t t t t

t t t t

o d

t t

q a p b r c

q a p b x c

q q

La première équation représente la fonction de demande qui dépend du prix et du revenu. La

seconde représente la fonction d’offre qui dépend également du prix et du coût de la

production. qt et pt sont les endogènes du système et xt et rt sont les exogènes.

Remarque :

1

2

, 0

, 0

t t

t t

E p

E p

Donc le modèle sous FS pose un problème statistique : H2 n’est pas vérifiée.

Les estimateurs de cette forme seront biaisés et non convergents.

2) Forme réduite :

La forme réduite (FR) est obtenue à partir de la forme structurelle lorsque l’on exprime

chaque variable endogène en fonction des exogènes du modèle.

Exemple 1 : Si on substitue la première dans la seconde on obtient :

1

1 1 1

tt t

aR I

b b b

L’application des moindres carrés ordinaire ne donne pas des estimateurs convergents.

Si on remplace Rt par sa valeur dans la première équation on obtient :

1

1 1 1t t t

a bC I

b b b

D’où la forme réduite du modèle est :

1

1 1 1

1 1

1 1 1

t t t

t t t

a bC I

b b b

aR I

b b b

L’estimation de cette forme par MCO en régressant Ct et Rt sur une constante et It permet

d’estimer les coefficients de It et la constante mais ces derniers n’ont plus la même

signification économique suggéré pas la FS. Il y’a donc un problème d’identification.


29

Exemple 2 : Si on fait légalité des deux fonctions, qui assure l’équilibre du marché, on pourra

déduire immédiatement la forme réduite du modèle.

1 21 2 1 2

2 1 2 1 2 1 2 1

2 1 1 22 1 1 2 2 1 1 2

2 1 2 1 2 1 2 1

t tt t t

t tt t t

b b c cp r x

a a a a a a a a

a aa b a b a c a cq r x

a a a a a a a a

En posant :

1 2 1 21 2 3

2 1 2 1 2 1

2 1 1 2 2 1 1 21 2 3

2 1 2 1 2 1

1 2 2 1 1 21 2

2 1 2 1

, , ,

, , ,

t t t tt t

b b c c

a a a a a a

a b a b a c a c

a a a a a a

a au et u

a a a a

On a la forme réduite suivante : 1 2 3 1

1 2 3 2

t t t t

t t t t

p r x u

q r x u

qui vérifie H2. On peut avoir des

estimateurs sans biais et convergents des coefficients 1, 2, 3, 1, 2 et 3, mais n’ont pas de

signification économique et la aussi on un problème d’identification des paramètres.

2.2 Présentation matricielle du modèle et hypothèses

On peut représenter le modèle de l’exemple 2 sous la forme matricielle canonique suivante :

1 1 1 1

2 2 2 2

t t t t

t t t t

q a p b r c

q a p b x c

11 1 1

22 2 2

11 0

1 0

t t

t

t t

t

qa c br

pa c bx

En général pour un système de g variables endogènes et k variables prédéterminées (les

exogènes + les variables endogènes retardées) la forme structurelle peut être représentée sous

la forme suivante : BY AX

Où B est une matrice gg de coefficients des variables endogènes;

Y est un vecteur g1 de variables endogènes;

A est une matrice gk de coefficients des variables prédéterminées;

X est un vecteur k1 de variables prédéterminées ;

est un vecteur g1 d’erreurs inobservables.


30

Les hypothèses de ce modèle sont les suivantes :

H1 : E(t) = 0 pour tout t =1, …, T

H2: E(’) = V

H3: E(t s) = gg (ts)

H4 : B est régulière (inversible)

H5: rang(X) = k < T

H6:1

lim( ' ) k gp X UT

H7:1

lim( ' ) est définie positiveXXp X X QT

On peut transformer la forme structurelle BY AX sous la forme réduite en multipliant

les 2 membres par B-1

on a :

-1 1 avec - Y X V B A et V B U

Les erreurs (vt) sont d’espérance nulle, homoscédastique, non corrélées dans le temps et non

corrélées avec les régresseurs contemporains. Leur matrice des variances-covariances est

1 ' 1( )vV B V B

La FR peut aussi s’écrire sous la forme : ' ' 1, où ( )Y X V V U B

Cette forme peut être estimer par MCO il vient : 1

' ' 'ˆMCO X X X Y

III. Problème de l’identification :

A priori, on a beaucoup plus d’inconnus que d’équations pour faire l’identification des

paramètres. Mais il y a des restrictions sur la FS qui peuvent réduire le nombre d’inconnus.

3.1 Restrictions sur les coefficients :

Il existe deux types de restrictions :

a) Restrictions d’exclusion :

Nous pouvons considérer que chaque fois qu’une variable endogène ou exogène n’apparaît

pas dans une équation de la FS qu’elle est exclue. Cela revient à l’affecter d’un coefficient

nul. Dans l’exemple 2, la variable xt ne figure pas dans la première équation, son coefficient

est donc nul.

b) Restrictions linéaires :

Certaines spécifications du modèle imposent que des variables soient affectées d’in

coefficient identique, il s’agit là de restrictions a priori sur les paramètres du modèle.


31

3.2 Conditions d’identifications :

Les conditions d’identification se déterminent équation par équation. Nous pouvons distinguer

trois cas d’identifications :

Un modèle est sous-identifié : si au moins une équation du modèle est sous-

identifiable (il y a moins d’équations que de paramètres à identifier dans la FS, le

modèle est donc impossible à résoudre).

Un modèle est juste-identifié : si toutes les équations du modèle sont juste-

identifiables.

Un modèle est sur-identifié : si toutes les équations du modèle sont soit juste-

identifiables, soit sur-identifiables.

Remarque : si le modèle est sous-identifié, il n’existe aucune possibilité d’estimation des

paramètres du modèle.

a) Les conditions d’ordre :

Soit :

g : le nombre des variables endogènes dans le modèle (nombre d’équations dans le modèle).

g' : le nombre des variables endogènes figurant dans l’équation.

k : le nombre des variables exogènes dans le modèle.

k' : le nombre des variables exogènes figurant dans l’équation.

Lorsque les restrictions ne sont que des restrictions d’exclusion, les conditions nécessaires

d’identification s’énoncent ainsi :

Si g – 1 > g – g' + k – k' l’équation est sous-identifiée.

Si g – 1 = g – g' + k – k' l’équation est juste-identifiée.

Si g – 1 < g – g' + k – k' l’équation est sur-identifiée.

Lorsque nous avons r restrictions, autres que celles d’exclusion, concernant les paramètres

d’une équation (égalité de deux coefficients, par exemple), les conditions deviennent :

Si g – 1 > g – g' + k – k' + r l’équation est sous-identifiée.

Si g – 1 = g – g' + k – k' + r l’équation est juste-identifiée.

Si g – 1 < g – g' + k – k' + r l’équation est sur-identifiée.

Ces conditions nécessaires sont appelées conditions d’ordre d’identification. Il convient de

vérifier les conditions suffisantes, qualifiées conditions de rang.

b) Les conditions du rang :

BY AX


32

On définie une matrice P, appelée matrice des structures qui est formée par la juxtaposition

des matrices B et A, soit P BA . P est donc de dimension [g, (g+k)].

Soit une matrice des restrictions i relative à l’équation i et construite de la façon suivante :

0i ihP (ième

ligne de P et hième

colonne de i).

Soit i = rang (Pi) et g le nombre des variables endogènes dans le modèle :

Si i < g – 1 l’équation est sous-identifiée.

Si i = g – 1 l’équation est juste-identifiée.

Si i > g – 1 l’équation est sur-identifiée.

On dit que le iième

équation est identifiable si et seulement si 1i ihrang P g c’est le

nombre des endogènes - 1.

Remarque : c’est une condition nécessaire et suffisante d’identification.

Exemples :

1) soit un modèle comportant trois variables endogènes Y1, Y2 et Y3 et deux variables

exogènes X1 et X2.

La forme structurelle à l’instant t est donnée par :

1 12 2 1 1 2 3 1 12 2 1

21 1 2 21 1 2 21 1 2 3 21 1 2 2

31 1 3 2 2 3 31 1 2 3 1 2 2 3

0 0 0

0 0

0 0

t t t t t t t t t

t t t t t t t t t t

t t t t t t t t t t

y c x y y y x c x

b y y c x b y y y c x x

b y y c x b y y y x c x

La matrice des structures est :

12

21 21

31 32

1 0 0 0

1 0 0

0 1 0

c

P b c

b c

La matrice des restrictions de l’équation 1 est :

1

2

1 3

1

2

0

1

1

1

0

y

y

y

x

x

La colonne de cette matrice est constituée de 0 sauf le deuxième terme égal à 1 qui

correspond à l’exclusion de la deuxième variable (Y2) de cette équation (première restriction),

le 3ème

terme égal à 1 qui correspond à l’exclusion de la 3ème

variable (Y3) de cette équation

(2ème

restriction). Et en fin le 4ème

terme qui correspond à l’exclusion de la 4ème

variable (X1)

de cette équation (3ème

restriction).

Y2 ne figure pas dans l’équation.

X1 figure dans l’équation.


33

De la même on peut obtenir les matrices de restrictions relatives aux équations 2 et 3

2 3

0 0

0 1

; 1 0

0 1

1 0

Remarquons dans cet exemple que les matrices des restrictions (i) sont des vecteurs

(constituées d’une seule colonne). Car il n’existe que des restrictions d’exclusion dans cet

exemple.

On peut alors donner les matrices Pi

12

1 21 2 3 21

32

0 0

1 , 0 1

1 1 0

c

P c P et P c

c

A l’aide des critères préalablement définie nous pouvons en déduire que :

L’équation (1) est juste-identifiée car le rang de P1 = 2 = g – 1. Sauf si c21 = -1.

L’équation (2) est juste-identifiée car le rang de P2 = 2 = g – 1. Sauf si c12 = 0 ou

c32 = -1.

L’équation (3) est sous-identifiée car le rang de P1 = 1 < g – 1. c21.

2) Soit le modèle suivant sous sa FS :

1 2 1 1

2 1 1 1 2

1

2

t t t t

t t t t

Y a Y X

Y bY cY

Ce modèle s’écrit sous sa forme matricielle :

1 1 1

2 1 1 2

1 0

1 0

t t t

t t t

Y Xa a

Y Yb c

B Y A X

Alors 1 0

1 0

a aP BA

b c

1

0 0

0 1

0 1

1 0

La variable Y1t-1 est absente.

Les variables Y2 et X1 ont le même coefficient.


34

2

0

0

1

0

Alors 1 2

0 0;

1 0

aP P

c

L’équation (1) est juste-identifiée car le rang de P1 = 1 = g – 1.

L’équation (2) est juste-identifiée car le rang de P2 = 1 = g – 1. Sauf si a = 0.

IV. Les méthodes d’estimation d’un système interdépendant :

Nous pouvons dégager un cas particulier : les modèles récursifs :

Un système d’équation est appelé "récursif" si chaque variable endogène peut être déterminée

de manière séquentielle :

1 1 2 1

2 1 2 1 2

3 1 2 1 2 3

, ,..., ;

, ,..., ; ;

, ,..., ; ; ;

t t t kt t

t t t kt t t

t t t kt t t t

y f x x x

y f x x x y

y f x x x y y

Avec : les variables aléatoires (it) sont, par hypothèse, indépendantes.

Nous remarquons que la 1ère

équation ne contient aucune variable endogène comme variable

exogène. La 2ème

équation a pour variable exogène, la variable endogène de la 1ère

équation, et

ainsi de suite…

Dans ce cas particulier d’un modèle à équations simultanées, il est permis d’appliquer la

méthode des MCO équation par équation. En effet, dans la 2ème

équation, y1t dépend de 1t

mas pas de 2t.

Les modèles récursifs sont appelés aussi « système triangulaire » car les coefficients des

variables endogènes forment un triangle au sein de la matrice B.

Les méthodes d’estimation que nous pouvons proposer dans le cadre des équations

simultanées sont en fonction du critère d’identification du modèle :

Si le modèle est sous-identifiable : pas d’estimation possible.

Si l’équation est juste-identifiée : les moindres carrés indirects (MCI) ou les doubles

moindres carrés (DMC).

Si l’équation est sur-identifiée : les doubles moindres carrés (DMC).

4.1 L’estimateur MCI :

Méthode d’estimation à information complète (toutes les équations en même

temps).

S’applique aux équations juste-identifiables.


35

FS : BY AX FR : 1 1

U

Y B A X B

On peut réécrire la FS autrement :

FS : ' 'YB XA 1 1 1

' ' ' ' 'YB B XA B B FR : 'Y X U (1)

MCO sur (1) 1

ˆ ' ' 'X X X Y

Puis on utilise la relation suivante afin de faire l’identification :

1 ' ' 'B A B A B A (*)

11

1 1

1

' ' : MCI

MCI

X Z X Y avec Z Y X

Démonstration :

11 1

1 1

1 11 1

1 1 1 1

1 1 1

1 1

1 1

1 1ˆ ˆ

ˆ ˆˆD'après (*) : ' ' '0 0

0 0

1ˆ ˆ

ˆ ˆ' ' 0 ' '0 0

0

ˆˆ' ' ' '

0

ˆ' '

' ' '

X X X Y

X X X Y Y X X X Y Y

X X X Y X X X Y

X

X X X X X

Y X Y

X

1 1

1 1

1 0

1

1 1 1 0

11 1 1 1 1 1 1 1 1 1

1

1

ˆ ˆˆ' ' ' '

0 0

,

ˆˆ' ' '

0

ˆˆ ˆˆ ˆ' ' ' ' '

ˆ

ˆ ˆ' ' ' '

Z

MCI

X X X Y X Y X X

or X X X

X Y X Y X X X

X Y X Y X X X Y X X Y X

X Y X Z X Z X Y


36

Exemple :

1

1

1

1

( 1)1 1 1

1 1

1 1 1

1 : ,

1 1 1

t t tt t t

t t tt t t

tt

a bC I u

C Ib b b

a R IR I u

b b b

uaavec et

b b b

La méthode des MCO permet d’estimer les paramètres et . Ces estimateurs sont sans

biais et convergents. On peut déterminer dans ce cas ˆ1ˆ ˆˆˆ1 (1- )

ˆ ˆb et a b

Et on démontre que : ˆ ˆ .b b et a a il ya convergence en probabilité

On dit que les estimation de a et b on été obtenus par « régression indirecte ».

Remarque : L’estimation de la forme structurelle de l’exemple 1 donne :

1t t t

t t t

C a bR u

R C I

2

ˆ t t

MCO

t

C C R Rb

R R

Une régression directe sur la FS introduit un biais systématique sur l’estimation de a et b. On

peut montrer que b surestime b et a sous-estime a.

Pour faire la démonstration il suffit de comparer les estimateurs obtenus par les MCO de la FS

et ceux obtenus par les MCI.

4.2 L’estimateur DMC :

Cette méthode des DMC est fondée, comme son nom l’indique, sur l’application en deux

étapes des MCO.

Méthode d’estimation à information limitée (équation par équation).

S’applique aux équations identifiables et utilise des variables instrumentales.

Méthodes très populaire et facile à appliquer.

a) L’estimateur à variables instrumentales :

Soit le modèle sous sa forme matricielle suivante : Y X vérifie H1 et H3 mais ne vérifie

pas H2. Alors E(X’) 0 ; 1

lim ' 0.p XT

Alors est biaisé et non convergent.

- 1ˆ ' 'E E X X X


37

- 1

1

0

1 1 1ˆlim lim ' lim ' lim '

Q

p p X X p X Q p XT T T

On suppose qu’il existe des variables proches de X et non corrélées en limite avec .

Soit Z : la matrice des observations de ces variables qui sont appelées les instrumentales.

Les propriétés à vérifier par les instrumentales :

- 1

lim ' 0.p ZT

-1

lim ' ZXp Z X QT

Existe, de termes finis et non singulière.

-1

lim ' ZZp Z Z QT

Existe et de termes finis.

L’estimateur à variables instrumentales est définit par : 1ˆ ' 'VI Z X Z Y

Les propriétés asymptomatiques de l’estimateur :

1 1 1ˆ ' ' ' ' ' 'VI Z X Z Y Z X Z X Z X Z

1

1

0

1 1ˆlim lim ' lim '

ZX

VI

Q

p p Z X p ZT T

1 1

1 1'

1ˆ ˆ ˆlim '

1 lim ' ' ' ' '

1 1 1 1 lim ' lim ' ' lim '

1

VI VI VI

ZX

Asy Var p TT

p T Z X Z Z Z XT

p Z X p Z Z p Z XT T T T

QT

1 1

²

1 1 1 1

1lim ' ' '

1 ² ' ² '

ZZ

ZX

TQ

ZX ZZ ZX ZX ZZ ZX

p Z Z QT

Q TQ Q Q Q QT

Remarque : en petits échantillons, en estime ˆVIAsy Var par :

1 1

ˆ ˆ'ˆ ˆ ˆ² ' ' ' ' : ²

VI VI

VI

Y X Y XVar Z X Z Z Z X avec

T


38

Exemple : (pratique)

Quand on estime une fonction de production de type Cobb-Douglass :

0 1 2 : 1,...t t t tLog Y Log L Log K avec t T

Le capital est souvent corrélé avec le terme d’erreur. Donc les MCO vont fournir des

estimateurs biaisés.

Problème : comment choisir une variable instrumentale pour K.

1ère

possibilité : (une seule variable instrumentale)

1 11

1

K

T KT

Log L Log P

Z

Log L Log P

On prend le prix du capital PK comme instrumentale pour K.

2ème

possibilité : (plusieurs variables instrumentales)

Exemple : prix du capital PK, prix du matière première PM, prix du produit fini PP…

1 1 1 11

1

K M P

T KT MT PT

Log L Log P Log P Log P

Z

Log L Log P Log P Log P

1

matrice n'est plus carrée

ˆ ' 'VI Z X Z Y

?

Solution : on va faire une première régression par MCO du modèle suivant :

0 1 2 : 1,...t Kt Mt PtLog K Log P Log P Log P rreur avec t T

Alors on peut créer une nouvelle variable qui est la combinaison linéaire des instrumentales :

0 1 2 : 1,...t Kt Mt PtLog K Log P Log P Log P avec t T

Dans ce cas :

1 11

1

K

T KT

Log L Log P

Z

Log L Log P

b) L’estimateur des doubles moindres carrés :

Il est à noter que l’estimateur des DMC peut s’interpréter comme étant un estimateur des

variables instrumentales, les variables exogènes des autres équations étant les instrumentales.

Soit le modèle à équations simultanées à g variables endogènes et k variables exogènes :

11 1 12 2 1 11 1 12 2 1 1

21 1 22 2 2 21 1 22 2 2 2

1 1 2 2 1 1 2 2

... ...

... ...

... ...

t t g gt t t k kt t

t t g gt t t k kt t

g t g t gg gt g t g t gk kt gt

b y b y b y a x a x a x




39

1ère

étape : effectuer une régression de chacune des variables endogènes sur toutes les

variables exogènes :

1 11 1 12 2 1 1

2 21 1 22 2 2 2

1 1 2 2

...

...

...

t t t k kt t

t t t k kt t

gt g t g t gk kt gt

y x x x u

y x x x u

y x x x u

2ème

étape : remplacer les variables endogènes figurant à droite des équations structurelles par

leurs valeurs ajustées à l’aide des modèles estimés :

1 12 1 11 1 12 2 1 12

2 21 2 21 1 22 2 2 21

1 2 1 1 2 21 2

... ...

... ...

... ...

t g t t k kt tt gt

t g t t k kt tt gt

gt g g g t g t gk kt gtt t

y b y b y a x a x a x



3ème

étape : appliquer les MCO sur le dernier modèle, équation par équation.

Propriétés asymptotiques de l’estimateur des DMC :

Y = Y11 + X11 + 1 1 1 1Y Y X 1

1 1

1

Y Y X Z

11

1

' 'DMC

DMC

Z Z Z Y

11

1

1 1

1

1

1

1

0

1 1 1ˆˆlim ' lim ' lim ' ' '

1 lim ' ' '

1 1 1 lim ' lim ' lim '

Y XQ Q

p Y p X p X X X X YT T T

p Y X X X XT

p Y X p X X p XT T T

0


40

1 1

1 1

1ˆ ˆ ˆlim '

1 lim ' ' ' '

1 1 1 1 lim ' lim ' ' lim '

1 1, lim ' ' ² lim

DMC DMC DMCAsy Var p TT

p T Z Z Z Z Z ZT

p Z Z p Z Z p Z ZT T T T

or p Z Z pT

1

'

² 1ˆ lim 'DMC

Z ZT

Asy Var p Z ZT T

En petits échantillons (taille finie) on estime :

1

1 1 1 1 1

1 1 1 1

'

1 1 1 1 1 1 1 1

ˆ ˆ ˆ' 'ˆ ˆ ˆ² ' ²

ˆ' '

ˆ ˆˆ ˆˆ: ²

DMC

DMC DMC DMC DMC

Y Y Y XVar Z Z

X Y X X

Y Y X Y Y Xavec

T

Attention, si on utilise les MCO dans la troisième étape, on va estimer ² par :

'

1 1 1 1 1 1 1 1ˆ ˆˆ ˆˆ ˆ

²DMC DMC DMC DMCY Y X Y Y X

T

Exercice : montrer que pour MCI DMC pour les équations justes-identifiables.

1

1 1 1 1 1 1

1

' ' ' ' ' ' ' ' '

,

' 0

' ' ' ² '

Y Y X X Y X Y X X X Z X

or

E X

Var X E X X X

X

X

X X X

Comme l’équation est juste identifiable : (X’Z) est une matrice carré.

Donc l’estimateur efficace dans ce cas est celui des MCG qui n’est que celui des DMC :

11 1

11 1

1

ˆ ' ' ' ' ' ' ' '

' ' ' ' ' ' ' '

ˆ ' '

DMC

MCI

X Z X X X Z X Z X X X Y

X Z X X X Z X Z X X X Y

X Z X Y

2) L’estimateur TMC :

Méthode à information complète, proposée par Theil ZEILNER (1962).

On se limitera dans la présentation du cours à deux équations.


41

1 2 1 1 1 1

2 1 2 2 2 2

Y Y X

Y Y X

On suppose que :

Les deux équations sont identifiables.

Les termes d’erreurs entre équations sont corrélés 1 2 12, 0.t tE

On déduit alors :

11

22

2 21 1 1 2 1 12 1 12

22 22 1 2 2 12 2 12 2

0.

' '' ²

' '

T T

T T

T T

EE

E

I IVar E E I I

I I

On rappelle que pour résoudre le problème des corrélations des endogènes (présents comme

exogènes dans le modèle) avec l’erreur, on utilise les DMC.

1 2 1 1 1 1

2 1 2 2 2 2

' ' ' '

' ' ' '

Y YX X X X

X X X X

X

Y Y X

1 1 1 1

2 2 2 2

1 2

1 2 1 2 1 2 1 2

1 2

' ' 0 '

' 0 ' '

: ; ; ;

U

X Y X Z X

X Y X Z X

avec Z Y X Z Y X

'

1 1 1 21 1

2 1 2 22 2

2 21 12 1 12

2 212 2 12 2

0;

' ' ' '' ''

' ' ' '' '

' '' '

' 'connue

inconnue

E U

X E X X E XX XVar U E UU E

X E X X E XX X

X X X XX X X X

X X X X

L’estimateur efficace dans ce cas est celui des MCG estimés :

2

11 1 1 12

2

12 2

ˆ ˆˆ ˆ ˆ ˆ' ' : 'ˆ ˆ

G avec X X

L’idée est de chercher un estimateur convergent de :

1ère

étape : appliquer les DMC équation par équation et calculer les résidus :


42

'

1 2 1 1 1 1 2 1 1 12

1

2

1

'

2 1 2 2 2 2 1 2 2 22

2

2

2

12

12

ˆ ˆˆ ˆˆ

est un estimateur convergent de .

ˆ ˆˆ ˆˆ


ˆ

DMC DMC DMC DMC

DMC

DMC DMC DMC DMC

DMC

DMC

Y Y X Y Y X

T

Y Y X Y Y X

T

Y

'

2 1 1 1 2 1 2 2 2

12

ˆ ˆˆ ˆ


DMC DMC DMC DMCY X Y Y X

T

2ème

étape : appliquer en suite les MCG estimés :

11 1

2

1 12

211 12 2

ˆ ˆ ˆ ˆ' ' ˆ ˆˆ ˆ: ' '

ˆ ˆˆ ˆ'

G TMCDMC DMC

DMC DMCTMC

avec X X X X

Var

Conclusion :

Lorsque est une matrice diagonale (les termes d’erreurs entres équations ne sont pas

corrélés) : alors TMC DMC.

Si en plus, toutes les équations sont juste-identifiables : alors TMC DMC MCI.

Dans le cas où certaines équations du modèles ne sont pas identifiables (p équations

non identifiables), on peut appliquer les TMC aux (g – p) équations identifiables.

Lorsque le nombre d’observations est faible (T < 50), utiliser les TMC :

o Augmente les degrés de liberté (gT – nombre d’exogènes).

o On empile les g équations du modèle, toute erreur de spécification sur une

équation du modèle entraîne un biais sur tout les coefficient du modèle. Or

lorsqu’on applique les méthodes à information limitée (DMC), le biais

n’affecte que les paramètres de l’équation en question.


43

Chapitre 3 : Les modèles dynamiques et à retards échelonnés

I. Généralité

1.1 Quelques définitions :

L’introduction des retards dans un modèle des séries temporelle est nécessaire voire

indispensable. Ces retards peuvent exprimer une certaine forme d’inertie dans le

comportement des agents économiques. On peut citer deux exemples :

-Dans le cadre de la fonction de consommation, la variable dépendante qui est la

consommation actuelle est expliquée par le revenu espéré. Ce dernier est une combinaison

linéaire des revenus observés, présents et passé :

0 1 2 1t t t tC R R (3.1)

Dans ce modèle on peut déterminer deux proportions marginales à consommer : une à court

terme qui est 1 est une à long terme 1+2.

-Dans le cadre d’un modèle d’investissement la variable dépendante It dépend à la fois du

volume des ventes xt mais aussi du stock du capital investi précédemment It-1 :

0 1 1 2t t t tI I x u (3.2)

Bien sur l’estimation de ce modèle par MCO ne donne pas des estimateurs convergent et

efficace car E(xt ut) est différent de 0. Ce problème sera résolu ultérieurement.

On peut distinguer deux types de modèle qui incorporent des retards :

-Le premier est appelé modèle à retard échelonné qui ne contient que des retards sur les

variables exogènes ils sont de type :

0

q

t i t i t

i

y x

(3.3)

Ce type de modèle est noté ( )DL q (Distributed Lag model)

- Le second type est appelé modèle à retards échelonnés auto régressif et qui contient des

retards sur les exogènes et les endogènes comme variables explicatives.

1 0

p q

t i t i j t j t

i j

y y x

(3.4)

Ce modèle est noté ( , )ADL p q (Autregressive Distributed Lag Model)


44

1.2 Effet de court terme et effet de long terme

Considérons le modèle DL(q) définie par l’équation (3.3).

0 1 1 ...t t t q t q ty x x x

Dans ce modèle on peut distinguer deux effets sur la variable dépendante y suite à une

variation de x. L’impact immédiat sur y suite à une variation d’une unité de x est donné par le

paramètre 0 c’est un effet de court terme, on l’appelle souvent multiplicateur d’impact.

L’effet total de long terme sur y suite à une variation de x définie par la somme des

coefficients i i=0,1,…q. On l’appelle multiplicateur de long terme ou multiplicateur

dynamique.

Si nous reprenons les deux modèles (2.3) et (2.4) sous les formes suivantes :

( )t t ty B L x (3.5)

( ) ( )t t tA L y B L x (3.6)

0

1

( )

( ) 1

qi

i

i

pi

i

i

B L L

A L L

On peut définir le Multiplicateur Dynamique dans un modèle DL(q) par :

0

(1)q

i

i

MD B

(3.7)

Dans un modèle ADL(p,q) Le MD est définit par:

(1)

(1)

BMD

A (3.8)

Exemple :

1 11.07 0.24 0.16 0.5

(1 0.5 ) 1.07 (0.24 0.16 )

0.24 0.160.8

1 0.5

( ) 0 1 0.5 0 2 1

Le système est stable car A(z) a une solution de module >1

t t t t t

t t t

y x x y

L y L x

MD

A z z z

Le multiplicateur d’impact est 0.24


45

Pour mieux saisir les impacts de court et long terme dans un modèle dynamique on considère

un modèle ADL(1,0) :

0 1 1

1 0 1 1 1

2 0 2 1 1 2

0 1 1

....

t t t t

t t t t

t t t t

t j t j t j t j

y x y

y x y

y x y

y x y

Sachant que :

1 10 0 1

22 2 2 11 0

1

1 0

,

.....

t t t t

t t t t

t t t t t t

t t t t t t

st s t s t

t t t

y y y y

x x y x

y y y y y y

x y x y y x

y y y

x y x

Le multiplicateur dynamique pour ce modèle est définie par :

2

0 0 1 0 1 0 1

0 1

0

.... ...

=

n

i

i

MD

-Si 1<1, le système est dit stable et le multiplicateur dynamique est défini par : 0

11

-Si 1>1, le système est dit explosif et n’admet pas d’équilibre.

Dans le cas d’un modèle ADL(p,q) le modèle est stationnaire(stable) si les racine de du

polynôme A(L) sont de module supérieur à 1.

1.3 Le retard moyen

Le retard moyen exprime la vitesse d’ajustement de y suit à un choc sur x. Lorsque cette

valeur est faible l’ajustement de y suit à une variation de x est rapide. On dit que l’effet de x

sur y s‘estompe rapidement. Dans le cas inverse une valeur élevée du retard moyen indique

un délai d’ajustement plus grand et l’effet de x sur y dure plus longtemps.

Dans un modèle DL(q) le Retard Moyen est définit par :

( )t t ty B L x


46

'(1)

(1)

BRM

B (3.9)

Exemple :

1 2

2

2.14 0.34 0.46 0.6

( ) 0.34 0.46 0.6

(1) 0.34 0.46 0.6 1.4

'(1) 0.46 2 0.6 1.66

1.661.185 périodes

1.4

t t t ty x x x

B L L L

B

B

RM

Donc en moyenne un changement d’une unité de x met 1.185 périodes avant d’affecter y. y

retrouve une nouvelle situation d’équilibre au bout de 1.185 périodes après le choc sur x.

Le multiplicateur d’impact est 0.34 c’est l’effet direct sur y. Une variation d’une unité de x

Augmentent la variable y de 0.34 unités.

Le MD est égale à 1.4 c’est l’effet total de long terme d’une augmentation de x d’une unité

qui se traduit par une hausse de 1.4 unités de y.

II. Les modèles à distribution finie des retards

L’estimation des paramètres d’un modèle dynamique soulève deux types de difficultés :

- D’abord la difficulté de détermination des nombres de retard optimale à prendre en

considération. Cette difficulté est surmontée à l’aide des tests usuels tel que le test de Fisher

ou les critères d’Akaike ou de Schwarz. Ces critères vont être exposés dans la suite.

-La colinéarité que peut exister entre les régresseurs ; en effet lorsque le nombre des retards

est important la colinéarité entre les variables explicatives décalées risque d’entraîner une

imprécision dans l’estimation des coefficients.

2.1 Le modèle à retards géométriques : Le modèle de Koyck

Considérons un modèle DL(q) de type : ( )t t ty B L x et on suppose que les poids des

retards dans l’effet global sont géométriquement décroissant. L’impact d’un choc sur la

variable x s’amenuise avec le temps. 0 0,1,..., ; 0 1i

i i q

Le modèle DL(q) devient sous la forme :

2 3

0 1 2 3( ... )t t t t t t q ty x x x x x (3.10)

0

0

qs

t t s t

s

y x


47

Dans ce cas le multiplicateur d’impact est mesuré par 0, et le multiplicateur dynamique est

mesuré par :1

0 0

0

1

1

qqi

i

MD

Lorsque q tend vers l’infini le MD= 0

1

et le retard moyen est

1RM

c’est une

fonction croissante de . Pour =0.8 ; RM=4 pour =0 l’ajustement est immédiat. Pour des

valeurs faible de , l’ajustement est rapide est inversement.

Le modèle DL(q) dans le cas des retards géométriques peut êtres transformé en un modèle

ADL(1,o) en effet :

2 3

1 0 1 2 3 4 1 1

1 0 1

( ... )

(1 )

t t t t t t q t

t t t t t

y x x x x x

y y x

D’ou finalement :

1 0 1(1 ) avec t t t t t t ty y x v v (3.11)

Cette formulation réduit sensiblement le nombre des paramètres à estimés, néanmoins le

modèle reste non linéaire dans les paramètres et les termes d’erreurs sont autocorrélés car :

2

1ov( , ) .t tC v v Les estimateurs des MCO sont biaisés et non convergents. Pour obtenir

des meilleurs estimateurs, on peut utiliser la méthode des variables instrumentales en adoptant

xt-1 comme instrument pour yt-1.

2.2 Le modèle à retard polynomiaux (modèle d’Almon)

Dans ce type de modèle on suppose que les paramètres i sont des polynômes en i de degrés q,

2

0 1 2

0

....q

q j

i q j

j

i i i i

(3.12)

Pour q=2 on a : 2

0 1 2i i i

0 0

1 0 1 2

2 0 1 2

3 0 1 2

2 4

3 9


48

Sous forme matricielle on peut écrire :

0

0

1

12

2

22

3

1 0 0

1 1 1

1 2 2

1 3 3

Si on remplace i par sa valeur dans le modèle DL(q) on aura :

2

0 1 2

0

2

0 1 2

0 0 0

( )

=

q

t t i t

i

q q q

t i t i t i t

i i i

y i i x

x ix i x

En posant : 2

0 1t 2

0 0 0

, z et q q q

t t i t i t t i

i i i

z x ix z i x

Le modèle devient plus parcimonieux

0 0 1 1 2 2t t t t ty z z z (3.13)

On régresse uniquement y sur les variables z0, z1 et z2 pour obtenir des estimations de , 0,

1, et 2. En suite on utilise l’équation (3.12) pour estimer i.

Almon suggère d’utiliser des contraintes dites d’extrémités: -1=0 et q+1=0, dans ce cas on a

les deux relations suivantes : 2

0 1 2 0 1 20 et ( 1) ( 1) 0q q

La résolution de ces relations donne : 0 2 1 2( 1) et q q

Ainsi, on peut simplifier la régression pour avoir:

2

2 t

0

où z ( 1)q

t t t t i

i

y z i qi q x

Notons au passage que l’imposition de ces contraintes n’a pas de fondement théorique mais

pourra être testé. Ce test permet aussi d’avoir une idée claire sur le nombre de retards.

Dans le cas général d’un polynôme de degrés q on a :

00

11

2

2

1

2

1 0 0 . . . . 0

1 1 1 . . . . 1

.. 1 2 2 . . . . 2

.. 1 3 3 . . . . 3

. . . . . . . .

1 . . . .

q

q

h

qqh h h h

(3.14)

Sous forme matricielle on Y=X+


49

Y=XH+

Y=Z+

Par MCO on estime puis on déduit .

Le degré q peut être déterminé à l’aide d’un test portant sur le significativité par rapport à 0

de q de la dernière « nouvelle » variable explicative. En partant d’une valeur q=h-1, on teste

la significativité du coefficient du terme le plus élevé à l’aide d’un test de student et on

réduit le degré du polynôme jusqu'à ce que ce coefficient soit significatif.

III. les critères de détermination du nombre de retard

Considérons un modèle DL(q) définie par l’équation (3.5), on suppose que le nombre de

retards q est inconnu. Pour déterminer le nombre de retard optimal on utilise différents tests

statistiques.

3.1 Le test de Fisher

La procédure de ce test considère que les coefficients des retards considérés supérieur à q sont

nuls. Ceci revient à considérer un modèle avec s retards et déterminer d’une manière

descendante, une valeur de q entre 0 et s.

La statistique du test est définie par :

1

1

( ) / 2ˆ (2, 3)/( 3)

s i s i

s i

SCR SCRS F n s i

SCR n s i

(3.15)

Ce test correspond à l’hypothèse : H0 : q=s-is-i+1=0 n étant le nombre d’observation.

3.2 Le critère de Akaike (AIC) et le critère de Schwarz (SC)

Ces deux critères consistent à retenir le modèle qui minimise l’un ou l’autre des fonctions

suivantes :

2( ) log( )

log( ) ( ) log( )

SCR qAIC q

n n

SCR q nSC q

n n

IV. Exemples de modèles dynamiques

4.1 Les modèles d’ajustement partiel

Soit le modèle suivant :

*

t t ty x (3.16)


50

yt* étant la valeur désiré (non observable) de y. Elle peut être le stock du capital d’une

entreprise qui dépend de l’output ou y alors le niveau d’utilité d’un ménage qui dépend du

niveau du revenu disponible. Le niveau optimal de y peut être différent de son niveau actuel.

Supposons que y* et y sont reliés par la relation :

*

1 1( ); 0 1t t t ty y y y (3.17)

est appelé paramètre d’ajustement (taux d’ajustement).Si =0, aucun ajustement n’a eu

lieu. Dans le cas extrême ou =1, l’ajustement dans la période actuel est intégral. mesure

l’écart entre yt* et yt-1 éliminé dans la période actuelle. Ce modèle est appelé modèle

d’ajustement partiel (graduel).

En substituant l’équation (3.17) dans (3.16) on obtient :

1(1 ) où t t t t t ty x y u u (3.18)

Il s’agit d’un modèle ADL(1,0). L’effet de court terme est mesuré par alors que l’effet de

long terme est mesuré par :1 (1 )

4.2 Le modèle d’anticipation adaptative

Dans un modèle d’anticipation adaptative la variable dépendante (endogène) yt est expliquée

par une anticipation de la variable exogène xta.

a

t t ty x (3.19)

Sachant que les valeurs anticipées de xt ne sont pas observables et sont reliées de la façon

suivante :

1 1( ) où 0 1a a a

t t t tx x x x (3.20)

est appelé coefficient d’anticipation.

L’équation précédente peut être écrite sous la forme suivante :

1(1 )a a

t t tx x x

Si on développe cette formule on aboutit à la relation suivante qui lie xta aux valeurs passées

de xt.

0

(1 )a i

t t i

i

x x

En substituant xta par son expression, l’équation de régression devient :

0

(1 )i

t t i t

i

y x

(3.21)


51

L’application de la transformation de Koyck (3.11), permet de réécrire le modèle sous la

forme suivante :

1 1(1 ) (1 )t t t t ty x y (3.22)

On retrouve ainsi un modèle ADL(1,0) avec autocorrélation des erreurs.

Exemple : Soit le modèle ADL(1,0) estimé :

1

1

ˆ 103.07 0.882 0.156

0.549 DW=1.83

t t t

t t

y x y

Identifier les paramètres.


52

Bibliographie

1. William Greene, Econometrie Pearson Education, 2011, 7e éd., 1232 p

2. Régis Bourbonnais Économétrie. Cours et exercices corrigés.

DUNOD 9e édition 2015.

3. Claudio Araujo, Jean-François Brun et Jean-Louis Combes, Econométrie,

Bréal, 2008, 2e éd., 312 p.

4. Valérie Mignon, Econométrie : théorie et applications, Economica, 2008, 400p.

Réalisé par : Mohamed BELHEDI©trie II.pdfECONOMETRIE II Réalisé par : Mohamed BELHEDI . Ragnar...

Documents

Transcript of Réalisé par : Mohamed BELHEDI©trie II.pdfECONOMETRIE II Réalisé par : Mohamed BELHEDI . Ragnar...