Analyse de Séries Chronologiques

47
Analyse de S´ eries Chronologiques J.J. Daudin, C. Duby, S. Robin & P. Tr´ ecourt (INA-PG, Math´ ematiques) Mai 1996

Transcript of Analyse de Séries Chronologiques

Page 1: Analyse de Séries Chronologiques

Analyse de Series Chronologiques

J.J. Daudin, C. Duby, S. Robin & P. Trecourt(INA-PG, Mathematiques)

Mai 1996

Page 2: Analyse de Séries Chronologiques

2

Page 3: Analyse de Séries Chronologiques

TABLE DES MATIERES 3

Table des matieres

1 Introduction 5

2 Etude de la partie deterministe 72.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 Definition, exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2 Que veut-on en faire? . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.3 Point de vue descriptif graphique . . . . . . . . . . . . . . . . . . . 72.1.4 Modeles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.5 Plan du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Modele lineaire generalise . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.1 Erreurs independantes . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.2 Erreurs dependantes . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Lissage exponentiel pour la prevision . . . . . . . . . . . . . . . . . . . . . 122.3.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . . . 132.3.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . . . . . . 142.3.3 Methode de Holt et Winters . . . . . . . . . . . . . . . . . . . . . . 142.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 Methode des moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . . . 152.4.1 Principe, definitions et exemples . . . . . . . . . . . . . . . . . . . . 162.4.2 Moyennes mobiles arithmetiques . . . . . . . . . . . . . . . . . . . . 182.4.3 Autres moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . . . 202.4.4 Census-X11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4.5 Traitement des extremites d’une serie . . . . . . . . . . . . . . . . . 232.4.6 Avantages et inconvenients . . . . . . . . . . . . . . . . . . . . . . . 23

3 Modelisation de la partie aleatoire 253.1 Processus stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.1 Definition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.2 Processus stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . 263.1.3 Bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.1.4 Autocorrelations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2 Operateurs B et ∆ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2.1 Operateur retard . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Page 4: Analyse de Séries Chronologiques

4 TABLE DES MATIERES

3.2.2 Operateur difference . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 Modele autoregressif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.1 Processus autoregressif AR(1) . . . . . . . . . . . . . . . . . . . . . 313.3.2 Processus autoregressif AR(2) . . . . . . . . . . . . . . . . . . . . . 333.3.3 Processus autoregressif AR(p) . . . . . . . . . . . . . . . . . . . . . 34

3.4 Modele moyenne mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.4.1 Processus moyenne mobile MA(1) . . . . . . . . . . . . . . . . . . . 353.4.2 Processus moyenne mobile MA(2) . . . . . . . . . . . . . . . . . . . 363.4.3 Processus moyenne mobile MA(q) . . . . . . . . . . . . . . . . . . . 37

3.5 Modele autoregressif − Moyenne mobile . . . . . . . . . . . . . . . . . . . 383.5.1 Processus ARMA(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 383.5.2 Modeles ARIMA et SARIMA . . . . . . . . . . . . . . . . . . . . . 38

3.6 Identification et estimation des parametres . . . . . . . . . . . . . . . . . . 403.6.1 Identification du modele : methode de Box & Jenkins . . . . . . . . 403.6.2 Determination du type et de l’ordre du modele . . . . . . . . . . . . 413.6.3 Estimation des parametres et prevision . . . . . . . . . . . . . . . . 413.6.4 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4 Choix de modeles 454.1 Analyse spectrale : Recherche des periodicites . . . . . . . . . . . . . . . . 45

4.1.1 Rappels sur les fonctions deterministes . . . . . . . . . . . . . . . . 45

Page 5: Analyse de Séries Chronologiques

5

Chapitre 1

Introduction

Mon interet reside dans le futur car je me prepare a y passer le reste dema vie.

C.F. Kettering

Une serie chronologique est la realisation d’un processus aleatoire indice par le temps.On modelise un processus par la somme d’une partie deterministe et d’une partie aleatoire(modele additif), ou par le produit d’une partie deterministe et d’une partie aleatoire(modele multiplicatif). La separation en partie deterministe et partie aleatoire est arbi-traire.

L’etude d’un processus aleatoire a partir d’une serie chronologique a generalementdeux objectifs :

– expliquer les variations,

– predire les valeurs futures.

Les deux objectifs sont souvent lies.Pour realiser ces objectifs on peut decrire la serie, qui est la trajectoire du processus,

et la modeliser. La modelisation comporte deux parties :

– celle de la partie fixe,

– celle de la partie aleatoire.

Suivant le type de la serie, une des deux parties peut etre preponderante (cas descourbes de croissance ou il suffit generalement de modeliser la partie fixe avec un modelenon lineaire).

Dans les deux cas, on recherche une structure. La recherche de structure pour la partiealeatoire se fera sur une serie a laquelle on aura enleve la partie fixe, on travaille sur unprocessus dit “stationnarise”.

Le cours se decompose en deux grandes parties. La premiere consiste a passer enrevue les methodes graphiques (empiriques) et la modelisation de la partie deterministe.La deuxieme consiste a presenter les modeles ARIMA qui permettent la modelisation dela partie aleatoire.

Page 6: Analyse de Séries Chronologiques

6 CHAPITRE 1. INTRODUCTION

Page 7: Analyse de Séries Chronologiques

7

Chapitre 2

Etude de la partie deterministe

2.1 Generalites

2.1.1 Definition, exemple

Une serie chronologique est la realisation d’un processus aleatoire indice par le temps,note {Xt}. Pour chaque t, Xt est une variable aleatoire dont on a une realisation, xt.

Exemple : la serie des consommations mensuelles de viande bovine de 1980 a Octobre1995 est (en tec) : x1 = 129.060, x2 = 129.075, x3 = 131.632, ... x189 = 119.381, x190 =118.565.

Dans ce cas l’indice t represente le numero du mois compte a partir du debut (Octobre1995 correspond a t = 190). On peut avoir des donnees journalieres, hebdomadaires,mensuelles ou trimestrielles. Dans tous les cas, t est le numero de l’observation, maisl’unite de temps est differente. Lorsqu’on dispose de plusieurs series (par exemple la seriedes consommations mensuelles et celle des prix mensuels) on parle de serie chronologiquemultidimensionnelle.

2.1.2 Que veut-on en faire?

L’etude de la serie peut avoir les objectifs suivants non exclusifs :

– Comprendre le passe : expliquer les variations observees

– Predire les valeurs futures (proches)

– Etudier le lien avec d’autres series.

2.1.3 Point de vue descriptif graphique

Il est toujours indispensable de tracer l’evolution de la serie au cours du temps enutilisant des procedures de lissage diverses et variees. Par exemple le programme SAS :

symbol i=sm(nn);

proc gplot;

Page 8: Analyse de Séries Chronologiques

8 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

plot x*t;

run;

(ou nn est un entier compris entre 0 et 99)permet d’obtenir une courbe spline (c’est a dire une courbe constituee de polynomes

de degre 3 par morceaux dont les derivees premieres et secondes s’accordent aux pointsde jonctions) d’autant plus lissee que nn se rapproche de 100. Pour nn=0, on obtient unecourbe spline passant par chaque point. Pour nn=99 on obtient une droite.

On peut aussi utiliser ”symbol i=rl” (respectivement i=rq et i=rc) qui ajuste unpolynome de degre 1 (respectivement 2 et 3). Ces lissages sont beaucoup moins souplesque les splines car il s’agit d’un ajustement global (un seul polynome pour toute la serie).

2.1.4 Modeles

Modele de base

Le modele de base auquel on se refere toujours plus ou moins clairement est le suivant :

Xt = ft + st + Et + pt

ou les petites lettres designent des elements deterministes et les majuscules designent desvariables aleatoires.

– ft est la tendance qui peut se decomposer en une tendance ”lourde” (souventrepresentee par un polynome) plus un cycle (de periodicite superieure a un an).Par exemple la consommation de bovins a tendance a diminuer avec un cycle de 3a 4 ans.

– st represente la composante saisonniere de periode 4, 12, 52 ou 365 selon qu’il s’agitde donnees trimestrielles, mensuelles, hedbomadaires ou journalieres.

– Et represente la variation aleatoire due a de nombreuses causes pas forcementbien identifiees, mais de repercussion limitee. Dans le vocabulaire conventionnel desseries chronologique, on emploie les termes ”innovation”, ”irregularite” , ”erreur”ou ”residuelle”. Une particularite nouvelle des modeles de series chronologiques parrapport au modele lineaire classique est l’importance accordee a la modelisationcorrecte de Et. On ne peut pas se contenter de considerer que ce sont des variablesaleatoires independantes ; il faut donc prendre en compte la structure de correlationpar des modeles appropries.

– pt represente les perturbations majeures liees a des evenements importants mais quine se repetent pas et dont l’influence est limitee dans le temps : greve des trans-ports, catastrophe naturelle...Dans le langage de la statistique on parle de pointsabberrants.

Par contre, a la suite d’un evenement particulier (Mai 68) ou d’une evolution pro-fonde qui n’est pas liee a un evenement particulier, il peut y avoir une rupture dansle temps : le modele fonctionne jusqu’a un temps t0, mais n’est plus valable aprescette date. Il existe des methodes de detection de rupture de modele dont nous neparlons pas dans ce cours.

Page 9: Analyse de Séries Chronologiques

2.2. MODELE LINEAIRE GENERALISE 9

Modele multiplicatif

Une variante du modele de base est le modele suivant (dit ”multiplicatif”) :

Xt = (ft + st + pt)Et

Quelques fois on considere les modeles suivants : Xt = ftstptEt ou Xt = ftstpt + Et. Latransformation logarithme permet de passer de l’avant dernier modele au modele de base.

2.1.5 Plan du chapitre

Dans ce chapitre, on presente d’abord comment on peut etendre le modele lineaire aucas des series chronologiques, puis deux methodes empiriques de lissage (lissage exponen-tiel oriente vers la prevision et lissage par les moyennes mobiles pour mettre en evidencela tendance et la saisonnalite).

2.2 Modele lineaire generalise

2.2.1 Erreurs independantes

Il arrive qu’une bonne modelisation de la partie fixe elimine toute correlation entre leserreurs successives. On est alors place dans le cadre habituel du modele lineaire (supposeconnu). On en donne ici 2 exemples :

Modele trimestriel de ”Buys-Ballot”

Xt = a + bt +4∑

j=1

cjstj + Et

ou stj = 1 si la date t correspond au trimestre j et vaut 0 sinon,∑

cj = 0, Et ∼ N(0, σ2)et les Et sont independantes.

a + bt represente une tendance lineaire et cj est l’effet du trimestre j. La methodeusuelle des moindres carres ordinaires donne les estimateurs suivants :

A = X −(

5

2+ 2(N − 1)

)B

B = 3

∑n=Nn=1 nXn − N(N+1)

2X

N(N2 − 1)

Cj = Xj − X −B(j − 5

2)

ou n est le numero de l’annee, N est le nombre d’annees et Xn est la moyenne de l’anneen.

Page 10: Analyse de Séries Chronologiques

10 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

On a les variances des estimateurs des parametres a, b, (cj) et σ2, et donc des intervallesde confiance pour ces derniers.

On peut egalement tester les hypotheses du type H0 = {a = a0} , desaisonnaliser laserie par la formule : Xcvs

t = Xt− st et faire de la prediction de valeurs futures comme enregression avec un intervalle de confiance pour la valeur predite.

On peut egalement tester et prendre en compte une perturbation pt en considerant lemodele :

Xt = a + bt +4∑

j=1

cjstj + dpt + Et

avec pt = 1 si t = t0 et pt = 0 sinon, ou t0 est la date de la perturbation.

Modele sur la consommation de viande bovine

On considere un modele avec une tendance quadratique agrementee d’un cycle de 4ans et d’un effet saisonnier mensuel :

Xt = a + bt + ct2 + d sin(t

48) + e cos(

t

48) +

1∑j=1

fjstj + Et

ou stj = 1 si la date t correspond au mois j et vaut 0 sinon,∑

fj = 0 Et ∼ N(0, σ2) etles Et sont independantes.

a + bt + ct2 represente une tendance quadratique, d sin( t48

) + e cos( t48

) represente lecycle de 48 mois et fj est l’effet du mois j.

Etude de la correlation des erreurs

Le modele precedent suppose l’independance des erreurs. On doit donc verifier cet apriori. On utilise la methode suivante : si les erreurs sont independantes, deux erreurs suc-cessives doivent etre non correlees. C’est pourquoi on definit le coefficient d’autocorrelationd’ordre 1, note ρ :

ρ =Cov(Et, Et−1)

σ2

On suppose que ρ ne depend pas de t (processus stationnaire). On estime ρ par :

ρ =

∑t=Tt=2 EtEt−1∑T

t=1 E2t

Un test de H0 = (ρ = 0) est le test de Durbin-Watson dont la statistique est :

DW =

∑t=Tt=2 (Et−Et−1)

2∑Tt=1 E2

t

Si T est grand, on a DW = 2(1− ρ). La regle de decision est la suivante :

Si DW < d1(T ) on rejette H0,

Page 11: Analyse de Séries Chronologiques

2.2. MODELE LINEAIRE GENERALISE 11

Si DW > d2(T ) on accepte H0,

Si d1(T ) < DW < d2(T ) on ne peut rien conclure.

Les valeurs de d1(T ) et de d2(T ) sont donnes dans une table (table en annexe pour unrisque de 5%).

2.2.2 Erreurs dependantes

Modele d’autocorrelation d’ordre 1

Les erreurs ont des tas de facon d’etre dependantes comme on le verra dans le cha-pitre ARIMA. On considere un des modeles les plus simples de dependance, le modeled’autocorrelation d’ordre 1 :

Et = ρEt−1 + εt

ou εt sont des variables aleatoires independantes et de meme loi N(0, γ), et ρ ∈ [−1, 1]On montre facilement les proprietes suivantes :

E(Et) = 0

V(Et) =γ

1− ρ2

Cov(Et, Et−h) = γρh

1− ρ2

La matrice de variance des Et est donc :

V =γ

1− ρ2

1 ρ ρ2 ... ρT−1

ρ 1 ρ ... ρT−2

... ... ... ... ...ρT−1 ρT−2 ρT−3 ... 1

Estimation des parametres

Soit H la matrice :

H =

1− ρ2 0 0 ... 0−ρ 1 0 ... 0... ... ... ... ...0 0 ... −ρ 1

On montre que V(H E) = γI, ou I est la matrice identite d’ordre T et E est le vecteurcolonne des Et. En particulier, il est facile de verifier que les variables Et − ρEt−1 sontnon correlees. Si on applique la matrice H a toutes les lignes du modele :

Xt = ft + st + Et

on obtient :HX = Hf + Hs + HE

Page 12: Analyse de Séries Chronologiques

12 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

ou X est le vecteur colonne des Xt, f est le vecteur colonne des ft et s est le vecteurcolonne des st. On est ramene au cas d’erreurs non correlees. En pratique, on est amenea faire la regression usuelle de Xt − ρXt−1 sur ft − ρft−1, st − ρst−1. De plus comme onne connait pas ρ en general, on procede en deux etapes :

– premiere etape : on utilise les moindres carres ordinaires sur Xt et on en deduit ρ.

– deuxieme etape : on utilise la valeur de ρ estimee a l’etape precedente pour faire laregression ordinaire de Xt − ρXt−1 sur ft − ρft−1, st − ρst−1 .

Prevision

On peut predire Xt − ρXt−1 en appliquant les resultats du modele lineaire ordinaire :

XT+1 − ρXT = fT+1 − ρfT + sT+1 − ρsT + εT+1

d’ou on deduit :XT+1 = fT+1 + sT+1 + ρ

[XT − fT − sT

]+ εT+1

XT+1 = fT+1 + sT+1 + ρUT

ou Ut = XT − XT

Autres modeles d’autocorrelation

On peut utiliser d’autres modeles d’autocorrelation des erreurs avec des correlationsd’ordre superieur a 1. Par exemple on peut avoir pour des donnees trimestrielles desautocorrelations d’ordre 4 : Et = ρEt−4 + εt. La demarche reste la meme. La procedurede sas qui permet de faire du modele lineaire avec des erreurs correlees s’appelle ”procautoreg”.

Avantages et inconvenients du modele lineaire avec erreurs correlees

Une caracteristique essentielle de cette methode est qu’elle utilise un modele globalpour la tendance et la saisonnalite. Cela facilite l’interpretation des resultats, mais cree unerigidite trop forte dans certains cas, car ce modele ne peut pas s’adapter a des evolutions.La prevision est possible a court terme grace a la modelisation de la partie aleatoire et aplus long terme si la modelisation deterministe est correcte et raisonnablement extrapo-lable. La mise a jour est un peu laborieuse car il faut tout recalculer a chaque nouvelleobservation.

2.3 Lissage exponentiel pour la prevision

Les defauts du modele lineaire pour la prevision cites precedemment incitent a utilisera contrario une methode souple adaptative et facile a mettre a jour. Ce sont justementles qualites du lissage exponentiel.

Page 13: Analyse de Séries Chronologiques

2.3. LISSAGE EXPONENTIEL POUR LA PREVISION 13

On se place a la date T (le present) et veut predire la serie a la date T + k. On noteXT (k) la prevision ; k est appele l’horizon de la prevision. Si k = 1, on note par conventionXT = XT (1)

2.3.1 Lissage exponentiel simple

Definition

La prevision fournie par le lissage exponentiel simple est :

XT = λ

T−1∑j=0

(1− λ)jXT−j

λ ∈ [0, 1] s’appelle la constante de lissage. L’idee est que le processus depend plus desresultats recents de la serie que des resultats anciens. (Autrement dit on prevoit le temps dedemain par celui d’aujourd’hui). On utilise donc une moyenne ponderee des observationspassees avec un poids decroissant vers le passe. La decroissance est d’autant plus rapideque λ est proche de 1. Dans ce dernier cas on a une prevision ”souple et reactive”, alorsque si λ est proche de 0 on a une prevision rigide et peu sensible aux dernieres fluctuations.

Proprietes

On a une equation de recurrence :

XT = λXT + (1− λ)XT−1

qui peut encore s’ecrire :

XT = XT−1 + λ(XT − XT−1)

La premiere equation montre que la prevision au temps T est une moyenne ponderee dela prevision au temps T − 1 et du resultat de la serie au temps T . Elle permet de faireune mise a jour tres simple. L’initialisation est X1 = X1. La deuxieme relation definit laprevision au temps T comme la prevision au temps T − 1 corrigee de l’erreur de previsioncommise au temps T − 1 amortie d’un facteur λ.

On montre facilement que XT est solution du probleme de minimisation suivant :

Trouver a tel que∑T−1

j=0 (1− λ)j(XT−j − a)2 soit minimum.

XT est donc la constante la plus proche de la serie au voisinage de T .

Choix de λ

On peut choisir λ arbitrairement selon que l’on veut une prevision reactive ou rigide ;on peut egalement choisir la valeur de λ qui minimise la somme des carres des erreurs de

Page 14: Analyse de Séries Chronologiques

14 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

prevision quand on applique la methode aux donnees passees. λ est alors la solution duprobleme de minimisation :

Trouver λ tel que

T−1∑t=1

[Xt+1 − λ

t−1∑j=0

(1− λ)jXt−j

]2

soit minimum.

2.3.2 Lissage exponentiel double

On suppose qu’il existe une tendance lineaire : ft = a+bt = a1 +(t−T )a2. On chercheles valeurs de a1 et a2 qui minimisent :

T−1∑j=0

(1− λ)j(XT−j − a1 + a2j)2

Une solution approchee est :A1(T ) = 2s1 − S2

A2(T ) =λ

1− λ(S1 − S2)

ou

S1 = λT−1∑j=0

(1− λ)jXT−j

S2 = λ2

T−1∑j=0

j(1− λ)jXT−j + λS1

Il existe des formules de mise a jour plus simples :

A1(T ) = A1(T − 1) + A2(T − 1) + λ(2− λ)(XT − XT−1)

A2(T ) = A2(T − 1) + λ2(XT − XT−1)

2.3.3 Methode de Holt et Winters

Methode non saisonniere

Il s’agit d’un lissage exponentiel double avec des relations de mises a jour modifiees quiutilisent des parametres de ”reglage” permettant de choisir une prevision plus ou moinsreactive :

A1(T ) = (1− α) [A1(T − 1) + A2(T − 1)] + αXT

A2(T ) = (1− γ)A2(T − 1) + γ [A1(T )− A1(T − 1)]

Le choix de α et γ est arbitraire dans l’intervalle [0, 1] ; si on veut une prevision reactive,on les choisira proches de 1.

Page 15: Analyse de Séries Chronologiques

2.4. METHODE DES MOYENNES MOBILES 15

Methode saisonniere additive

On considere le modele suivant :

Xt = a1 + a2(t− T ) + st + Et

A la difference du modele lineaire, les parametres a1 et a2 changent a chaque instant t.Les formules de mise a jour sont :

A1(T ) = (1− α) [A1(T − 1) + A2(T − 1)] + α(XT − St−τ )

A2(T ) = (1− γ)A2(T − 1) + γ [A1(T )− A1(T − 1)]

ST = (1− δ)ST−τ + δ [XT − A1(T )]

L’initialisation dans le cas de donnees trimestrielles est :

A1(3) =1

8(X1 + 2X2 + 2X3 + 2X4 + X5)

A1(4) =1

8(X2 + 2X3 + 2X4 + 2X5 + X6)

A2(4) = A1(4)− A1(3)

S1 = X1−A1(3) + 2A2(4) S2 = X2−A1(3) + A2(4), S3 = X3−A1(3) et S4 = X4−A1(4)Il existe une methode saisonniere multiplicative.

2.3.4 Conclusion

La plupart des methodes de lissages sont des cas particuliers de previsions associeesa des modeles ARIMA (sauf le modele de Holt-Winters avec saisonnalite multiplicative).Leur simplicite conceptuelle et la facilite de la mise a jour en font un grand classiquede la prevision. Cependant le choix arbitraire des coefficients n’est pas toujours facile afaire ; d’autre part la prediction est moins bonne que celle faite par un modele ARIMAbien choisi quand le modele vrai des erreurs n’entre pas dans le cadre des methodes delissage exponentiel. La procedure de SAS qui permet d’utiliser les methodes de lissageexponentiel est ”proc Forecast”.

2.4 Methode des moyennes mobiles

Ces methodes permettent d’obtenir la tendance et la saisonnalite d’une serie ainsiqu’une serie corrigee des variations saisonnieres. Il n’y a pas de modele explicitement poseet la methode est essentiellement empirique. Les moyennes mobiles sont a la base de lamethode ”Census-X11” developpee par le bureau de recensement du departement US ducommerce, methode souvent utilisee par les administrations.

Page 16: Analyse de Séries Chronologiques

16 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

2.4.1 Principe, definitions et exemples

Principe

Le principe consiste a utiliser des operateur ”moyennes mobiles” comme des filtresqui annulent certaines composantes et en laissent d’autres invariantes. Si tout va bien cesfiltres font donc apparaıtre exclusivement la composante saisonniere (ou exclusivement latendance) et reduisent le ”bruit” associe a la composante aleatoire.

Par exemple si on considere le modele :

Xt = ft + st + Et + pt

Si on a un filtre M tel que M(st) = 0 et M(ft) = ft et qu’on sait se debarasser des donneesaberrantes pt on a :

M(Xt) = ft + M(Et)

Si M(Et) est de variance faible on pourra assimiler M(Xt) avec ft.

Definitions

– La serie Yt =∑m2

i=−m1αiXt+i est une moyenne mobile d’ordre m1+m2+1 de la serie

Xt. m1 et m2 sont des entiers positifs appartenant a l’intervalle [0, T ] et les αi sontdes reels.

– On note B ”l’operateur retard” defini par B(Xt) = Xt−1.

– L’operateur moyenne mobile M est un polynome en B : M =∑m2

−m1αiB

−i

– On dit que M est une moyenne mobile centree si m1 = m2

– On dit que M est une moyenne mobile symetrique si elle est centree et si ∀i, αi = α−i

On utilise alors la notation M = [2m + 1; αm, αm−1, ...α0]

– Le rapport V(M(Et))

V(Et)s’appelle le facteur de reduction du bruit. Il est egal a

∑m2

i=−m1αi

2

Exemples

– M=[3; 1

3, 1

3

]donne

Yt = M(Xt) =1

3(Xt−1 + Xt + Xt+1)

C’est une moyenne mobile centree d’ordre 3.

Elle laisse invariante les polynomes de degre 1 : si Xt = a + bt, il est facile de voirque M(Xt) = Xt.

Elle annule la serie Xt = cos(2πt3

), c’est a dire la serie sinusoıdale de periode 3.

On considere la serie

Xt = a + bt + cos(2πt

3) + Et

On aM(Xt) = a + bt + M(Et)

Page 17: Analyse de Séries Chronologiques

2.4. METHODE DES MOYENNES MOBILES 17

avec V(M(Et)) = σ2

3, c’est a dire que M(Et) represente la tendance lineaire perturbee

par un bruit reduit d’un facteur 13

= 0.33

Yt = M(Xt) =1

2(Xt−1 + Xt)

C’est une moyenne mobile non centree d’ordre 2. En pratique elle est ”centree” ou”positionnee” au temps t− 1

2. On a toujours ce probleme avec les moyennes mobiles

d’ordre pair : elle ne peuvent pas etre centrees. Pour eliminer ce probleme, on faitla moyenne des deux moyennes mobiles d’ordre pair decalees d’une unite de temps :

Yt =1

2(M(Xt) + M(Xt+1)) =

1

4[(Xt−1 + Xt) + (Xt + Xt+1)]

=1

4(Xt−1 + 2Xt + Xt−1)

On voit qu’il s’agit finalement de la moyenne mobile centree d’ordre 3 : M = [3; 1, 2].Cette moyenne mobile conserve les polynomes de degre 1 et annule la serie Xt =(−1)t . Par consequent, si on a une serie

Xt = a + bt + (−1)t + Et

alors on a :M(Xt) = a + bt + M(Et)

avec V(M(Et)) = 38

= 0.375.

– M =[5; 1

2, 1, 1

]est la moyenne mobile centree d’ordre 5 dont on se sert pour eliminer

la saisonnalite trimestrielle de periode 4, avec un facteur de reduction du bruit de0.22.

– M =[13; 1

2, 1, 1, 1, 1, 1, 1

]est la moyenne mobile centree d’ordre 13 dont on se sert

pour eliminer la saisonnalite mensuelle de periode 12 avec un facteur de reductiondu bruit de 0.08.

Proprietes elementaires

– Si M1 et M2 sont des moyennes mobiles, M1◦ M2 et M1+ M2 le sont egalement. Deplus si M1 et M2 sont centrees, M1◦ M2 et M1+ M2 le sont egalement et si M1 etM2 sont symetriques M1◦ M2 et M1+ M2 le sont egalement.

– On designe par Ker(M) l’ensemble des series Xt telles que M(Xt) = 0. On a Ker(M1◦M2) =Ker(M1)+Ker(M2).

Les series appartenant au noyau de M verifient l’ equation de recurrence

m∑i=−m

αiXt+i = 0

dont les solutions sont de la forme ∑βjc

tj

Page 18: Analyse de Séries Chronologiques

18 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

ou les cj sont des nombres complexes solutions de l’equation caracteristique :

2m∑i=0

αi−mci = 0

– Les series invariantes par M verifient l’ equation de recurrence

m∑i=−m

αiXt+i = Xt

dont les solutions sont de la meme forme que precedemment (avec des racinesdifferentes car l’equation de recurrence n’est pas la meme).

–∑m

i=−m αi = 1 ⇔ M conserve la serie constante Xt = a

– Si M est symetrique et conserve la serie constante alors M conserve les polynomesde degre 1.

– Si Xt est vecteur propre de M (M(Xt) = λXt), la transformation M a un doubleeffet :

– multiplication de Xt par |λ|– effet de phase (c’est a dire decalage de la partie periodique de la serie) si λ

n’est pas un nombre reel.

– Effet de ”Slutsky-Yule” : c’est l’effet de correlation induit par la tranformation Mqui peut faire croire a une periodicite qui n’existe pas dans la serie de depart.

Cet effet est du aux correlations entre les M(Et) ;

on a , si −2m ≤ h ≤ 2m et si Cov(Et, Et+h) = 0 :

Cov(Et, Et+h) = γm∑

i=−m

αiαi−h

La covariance est nulle si h > |2m|.

2.4.2 Moyennes mobiles arithmetiques

Definition, exemple

Si on veut une moyenne mobile symetrique telle que∑

αi = 1 et qui minimise∑

α2i ,

on obtient :

∀i ∈ [−m, m] αi =1

2m + 1

appelee moyenne mobile arithmetique. Par exemple M =[3; 1

3, 1

3

].

Page 19: Analyse de Séries Chronologiques

2.4. METHODE DES MOYENNES MOBILES 19

Noyau

L’equation caracteristique est

2m∑i=0

λi =1− λ2m+1

1− λ

dont les solutions sont :cj = e

i2πj2m+1 j = 1, .., 2m

Par suite les series annulees par la moyenne mobile arithmetique d’ordre 2m + 1 sont dela forme :

Xt =m∑

j=1

[c1jcos

(2πj

2m + 1

)+c2jsin

(2πj

2m + 1

)]qui sont les series periodiques de periode 2m + 1, nulles en moyenne sur une periode.

Series invariantes

Ce sont les polynomes de degre 1 et d’autres series liees aux autres racines de l’equationcaracteristique.

Par exemple M =[5; 1

5, 1

515

]a un polynome caracteristique pour l’invariance egal a

c(c4 + c3 − 4c2 + c + 1)

dont les racines autres que 1 sont : −3±√

52

. Par suite, en plus des polynomes de degre 1,

les series Xt =(−3±

√5

2

)t

sont invariantes par M.

Transformation du bruit blanc

Le facteur de reduction du bruit est egal a 12m+1

et l’autocorrelation des M(Et) est

egale a ρ(h) = 2m+1−h2m+1

si −2m < h < 2m.

Annulation des periodicites paires

On a vu qu’une serie arithmetique annule les series periodiques de periode 2m+1. Onne peut donc pas annuler une periodicite paire avec une moyenne arithmetique. Par contreon peut utiliser une moyenne mobile ”presque” arithmetique pour annuler une periodicitepaire, ce qui est important, car en pratique les saisonnalites sont de periode 4 ou 12. Pource faire, on utilise les moyennes mobiles

M =

[2m + 1;

1

4m,

1

2m, ..,

1

2m

]Le polynome caracteristique du noyau est

(1 + c)1− c2m

1− c

Page 20: Analyse de Séries Chronologiques

20 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

M annule donc les series de periode 2m nulles en moyenne sur une periode.

Par exemple pour m = 6 la moyenne mobile

M =

[13;

1

24,

1

12, ..,

1

12

]annule les phenomenes saisonniers, a un facteur de reduction du bruit de 0.08 et uneperiodicite induite par ”l’effet Slutsky-Yule” de l’ordre de 15.3.

Autres moyennes arithmetiques

– La moyenne mobile :

M =

[7;

1

16,

2

16,

3

16,

4

16

]annule les saisonnalites de periode 4 dont l’amplitude varie lineairement.

– La moyenne mobile de Spencer d’ordre 15 :

M =

[15;

1

320(−3,−6,−5, 3, 21, 46, 67, 74)

]annule les saisonnalites de periode 4 et 5 (au cas ou il y aurait un decalage) etconserve les polynomes de degre 3 ou moins. Il en existe une variante pour les seriesmensuelles.

2.4.3 Autres moyennes mobiles

Il existe d’autres criteres pour choisir une moyenne mobile :

– On peut vouloir conserver les polynomes locaux sur des intervalles de longueur2m + 1, comme par exemple :

M =

[5;−3

35,12

35,17

35

]qui conserve les polynomes locaux de degre 3 sur des intervalles de longueur 5.

– On peut maximiser l’effet de lissage de la serie, en imposant que les coefficients αi

ne varient pas trop brusquement. Pour cela on cherche a minimiser la quantite Q :

Q =∑

i

(∆3αi)2 =

∑i

(αi − 3αi−1 + 3αi−2 − αi−3)2

Les moyennes mobiles de Henderson d’ordre 2m+1 minimisent Q sous la contraintede conservation des polynomes de degre 2.

Page 21: Analyse de Séries Chronologiques

2.4. METHODE DES MOYENNES MOBILES 21

On peut resumer les merites respectifs de chaque methode par le tableau suivant(extrait du livre de Gourieroux et Monfort ”Series temporelles et modeles dynamiques”) :

Type de Conservationmoyenne Arithmetique de polynomes Spencer Hendersonmobile locaux

Conservation de 0 ++ + +la tendance

Annulation de ++ + + +la saisonnaliteReduction du + + + +bruit blanc

Lissage − − + +Simplicite des ++ 0 ++ +

coefficients

2.4.4 Census-X11

Il s’agit d’une methode qui utilise de facon iterative (et intensive) toutes sortes demoyennes mobiles pour determiner la tendance et la saisonnalite, en eliminant progres-sivement l’influence des perturbations. Il existe une version trimestrielle et une versionmensuelle. L’effet saisonnier peut etre multiplicatif ou additif. La procedure sas ”procX11” procede de la facon suivante dans sa version mensuelle additive :

4 grandes iterations

On considere le modele :

Xt = ft + st + Et + pt

– La premiere iteration sert a calculer des poids preliminaires pour eliminer ou attenuerles perturbations pt. Plus precisement, on calcule une premiere estimation ft et st

de ft et de st d’ou on deduit les valeurs estimees de Et + pt :

(Et + pt) = Xt − ft − st

On calcule un poids wt ∈ [0, 1] pour chaque temps t et on constitue une serie dite”corrigee” egale a

Xct = ft + st + wt(Et + pt)

Le poids wt vaut 1 sauf si (Et + pt) depasse une valeur seuil qui depend de l’ecart-

type de (Et + pt) ; dans ce cas le poids est d’autant plus faible que la valeur de(Et + pt) est elevee. Si wt = 1 on a Xc

t = Xt

Page 22: Analyse de Séries Chronologiques

22 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

– La deuxieme iteration utilise la serie corrigee et procede de la meme facon qu’al’etape 1 pour calculer de nouveaux poids, appeles ”poids finaux”. On espere qu’acette etape on a elimine l’element pt de Et + pt qui ne contient plus que la ”compo-sante irreguliere” Et.

– La troisieme iteration calcule la tendance et les effets saisonniers a partir de la serieissue de la deuxieme iteration.

– La quatrieme iteration presente les resultats et donne la serie corrigee des variationssaisonnieres et la serie des Et apres un dernier ”rabotage” des valeurs trop eleveesde Et.

Description d’une iteration

Les 3 premieres iterations sont construites sur le meme modele en 9 etapes :

1. On se donne la serie de depart de l’iteration qui peut etre Xt si on en est a lapremiere iteration ou une serie corrigee sinon. Cette serie est notee B1 dans lapremiere iteration de la procedure X11 de sas.

2. On calcule une premiere estimation de la tendance par ft = M1(Xt) ou M1 =[13; 1

2, 1, 1, 1, 1, 1, 1

]. (notee B2)

3. On calcule une premiere estimation des coefficients saisonniers : st = Xt − ft. (B3)

4. On corrige les coefficients st trop grands en les remplacant par une moyenne mobiledes coefficients correspondant au meme mois. (B4)

5. On calcule les coefficients saisonniers mensuels par moyenne mobile :

st = (I−M1) ◦M2(ft)

ou M2(ft) est la moyenne mobile d’ordre 3 sur les coefficients saisonniers (pour unmeme mois). L’operation (I−M1) permet d’obtenir des coefficients saisonniers desomme approximativement nulle. (B5)

6. On calcule une premiere serie corrigee des variations saisonnieres : Xcvst = Xt − s

(B6)

7. On calcule une deuxieme estimation de la tendance par :

ft = M3(Xcvst )

ou M3 est une moyenne mobile de Henderson d’ordre 9. (B7)

8. On recommence la procedure a partir de l’etape 3 jusqu’a l’etape 6. On a donc acette etape une nouvelle estimation de st notee s3,t. (B8, B9, B10, B11)

9. On estime Et + pt par Xt − ft − s3,t. Ces valeurs permettent d’obtenir les poids wt

definis plus haut. (B13, B17)

Il existe des options pour le nombre de jours ouvrables dans le mois.

Page 23: Analyse de Séries Chronologiques

2.4. METHODE DES MOYENNES MOBILES 23

2.4.5 Traitement des extremites d’une serie

La transformation M(Xt) ne fonctionne pas pour les valeurs de t proches de 1 et deT . On peut construire une moyenne mobile non centree pour les donnees recentes :

M(XT ) =0∑

i=−m

αiXT+i

On peut egalement predire les valeurs futures et calculer la moyenne mobile centree al’aide de ces dernieres.

2.4.6 Avantages et inconvenients

L’approche moyenne mobile est tres souple et resiste mieux aux changements de regimeque le modele lineaire par exemple. Elle permet de prendre en compte et d’eliminer lesperturbations. Par contre le choix de l’ordre et des coefficients est empirique et reclamede l’experience.

Page 24: Analyse de Séries Chronologiques

24 CHAPITRE 2. ETUDE DE LA PARTIE DETERMINISTE

Page 25: Analyse de Séries Chronologiques

25

Chapitre 3

Modelisation de la partie aleatoire

3.1 Processus stochastique

3.1.1 Definition et exemples

On appellera ici processus stochastique (a temps discret) une suite {Xt} de variablesaleatoires indicee par le temps.

Il faut bien noter que

– les Xt ne sont pas forcement independants les uns des autres,

– la loi de Xt depend de t :

Xt ∼ Ft.

La notion de processus generalise celle de variable aleatoire : la realisation d’un pro-cessus est une serie chronologique (on emploie egalement le terme de trajectoire).

Exemples :

– La suite {Xt} dans laquelle les Xt sont i.i.d. gaussiens constitue un echantillon maisegalement un processus. On montre ici deux de ses trajectroires :

Echantillon gaussien standard

Dans cet exemple, on a

Xt ∼ N (0, 1)

Cov(Xt, Xs) = 0, ∀(t, s).

– Un exemple plus interessant de processus est le processus Yt des cumulants del’echantillon {Xt} :

Yt =t∑

s=1

Xs, Y0 = 0.

Page 26: Analyse de Séries Chronologiques

26 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Les trajectoires de ce processus correspondant a celles de {Xt} presentees plus hautsont :

Cumul d’un echantillon gaussien standard

Dans cet exemple, on a

E(Yt) =∑t

s=1 E(Xs) = 0

V(Yt) =∑t

s=1 V(Xs) = t

}⇒ Yt ∼ N (0, t)

et

Cov(Ys, Yt) = E(YsYt) = E

(s∑

r=1

Xr ×t∑

r=1

Xr

)=

min(s,t)∑r=1

E(X2r )

= min(s, t),

E(Yt|Ys = ys) = E

(t∑

r=1

Xr

∣∣∣∣∣s∑

r=1

Xr

)=

s∑r=1

xr + E

(t∑

r=s+1

Xr

)=

s∑r=1

xr

= ys pour t > s.

Les variables aleatoires Yt ne sont evidemment pas independantes : la loi de Yt dependdes valeurs prises par le processus aux dates anterieures.

3.1.2 Processus stationnaire

Dans la suite, on n’etudiera que des processus stationnaires c’est a dire des processusdont la loi ne varie pas au cours du temps.

Plus precisement, un processus est dit stationnaire si la loi de tout k-uplets est inva-riante par translation dans le temps :

∀k, ∀(t1, t2, ...tk), L(Xt1 , Xt2 , ...Xtk) = L(Xt1+h, Xt2+h, ...Xtk+h).

Cette hypothese de stabilite temporelle de la loi du processus facilite evidemment biendes analyses. Pratiquement, cette hypothese implique notamment que la covariance entreles valeurs prises en 2 dates distinctes par le processus ne depend que de la longueur dela periode qui les separe (et pas de la date initiale) :

E(Xt), V(Xt) et Cov(Xt, Xt−h) ne dependent pas de t,

soit

E(Xt) = µ,

V(Xt) = σ2,

Cov(Xt, Xt−h) = γh.

Page 27: Analyse de Séries Chronologiques

3.1. PROCESSUS STOCHASTIQUE 27

Dans les exemples vus plus haut, il est clair que l’echantillon {Xt} est un processusstationnaire, mais pas {Yt} ( puisque Cov(Ys, Yt) = s ∧ t ).

La stationnarite est donc une hypothese essentielle pour pouvoir estimer les parametrescaracteristiques du processus : elle implique notamment que le processus n’a pas de ten-dance.

En l’absence de stationnarite, chaque Xt est une variable aleatoire avec son esperanceet sa variance propres et on dispose d’une seule realisation (xt) de cette variable. Lesestimations de son esperance et de sa variance devraient donc se fonder sur une seuleobservation, ce qui est impossible.

Processus faiblement stationnaire : Un processus est dit faiblement stationnaire sises moments d’ordre 1 et 2 sont stationnaires :

E(Xt) ≡ µ, V(Xt) ≡ σ2, Cov(Xt, Xt−h) = γh.

– La stationnarite entraıne la faible stationnarite.

– Un processus gaussien faiblement stationnaire est stationnaire.

3.1.3 Bruit blanc

Un processus {Xt} est un bruit blanc s’il consitue un echantillon i.i.d. d’esperancenulle :

∀t : Xt ∼ F, E(Xt) = 0,

∀t 6= s : (Xt, Xs) independants.

Un tel processus n’a ni tendance ni memoire : la connaissance de la valeur du processusa une date donnee n’apporte aucune information pour la prediction de sa valeur a unedate ulterieure :

∀t > s : L(Xt|Xs) = L(Xt).

Bruit blanc faible : Un processus est un bruit blanc faible s’il constitue un echantillonnon correle :

∀t : Xt ∼ F, E(Xt) = 0,

∀t 6= s : Cov(Xt, Xs) = 0.

– Un bruit blanc est un bruit blanc faible

– Un bruit blanc faible gaussien est un bruit blanc.

Page 28: Analyse de Séries Chronologiques

28 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

3.1.4 Autocorrelations

Definition 1 : On etudie la ”memoire” d’un processus en calculant son autocorrelationde retard h note ρh :

ρh = Corr(Xt, Xt−h) =Cov(Xt, Xt−h)√V(Xt)V(Xt−h)

qui mesure le lien entre les valeurs du processus a deux dates distantes de h.Pour un processus stationnaire, ρh prend une forme plus simple :

ρh =Cov(Xt, Xt−h)

V(Xt)=

γh

γ0

.

On peut tracer la courbe ρh = f(h) qui est appelee (auto-)correlogramme.

Definition 2 : De meme, on definit l’autocorrelation partielle de retard h comme lacorrelation entre (Xt − X∗

t ) et (Xt−h − X∗t−h) ou X∗

t designe la regression de Xt sur les(h− 1) valeurs {Xt−1, Xt−2, ...Xt−h+1} :

τh = Corr(Xt −X∗t , Xt−h −X∗

t−h) =Cov(Xt −X∗

t , Xt−h −X∗t−h)√

V(Xt −X∗t )V(Xt−hX∗

t−h)

avec

X∗t =

h−1∑k=1

αkXt−k, X∗t−h =

h−1∑k=1

βkXt−k

ou les αk et les βk sont les coefficients des regressions.Cette quantite rend compte de l’intensite de la liaison entre Xt et Xt−h en supprimant

les liaisons induites par des variables intermediaires {Xt−1, Xt−2, ...Xt−h+1}.On peut ainsi remarquer que pour tout processus,

ρ1 = τ1

puisque qu’il n’y a aucune variable intermediaire entre Xt et Xt−1.Comme en regression multiple, l’estimation des τh nous permet de mesurer le retard

qu’il faut remonter pour trouver une information originale sur Xt.

Estimation : En pratique, les ρh sont evidemment inconnus mais sur une serie {xt, 1 ≤t ≤ T} on peut les estimer avec la formule naturelle

ρh =

∑t=Tt=h+1(xt − x)(xt−h − x)∑t=T

t=1 (xt − x)2.

ou x represente la moyenne des valeurs observees.

Page 29: Analyse de Séries Chronologiques

3.2. OPERATEURS B ET ∆ 29

Il n’existe pas de forme simple des estimateurs des τh : les autocorrelations partiellessont generalement estimees par recurrence. Ainsi, on sait que τ2 vaut

τ2 =Corr(Xt, Xt−2)− Corr(Xt, Xt−1)Corr(Xt−2, Xt−1)√

(1− Corr(Xt, Xt−1)2) (1− Corr(Xt−2, Xt−1)2)

et peut donc etre estime, en utilisant la stationnarite, par

τ2 =ρ2 − ρ2

1

1− ρ21

.

Syntaxe SAS : Les correlogrammes (ainsi que d’autres analyses) d’une serie {Xt} conte-nue dans un tableau ”TAB” peuvent etre obtenus par la procedure ARIMA de SAS :

proc ARIMA data=TAB;

identify var=X;

3.2 Operateurs B et ∆

Pour etudier les processus (et donc les series chronologiques), on definit des operateursretard et de differenciation.

3.2.1 Operateur retard

L’operateur B decale le processus d’une unite de temps vers le passe :

B(Xt) = Xt−1.

Si on applique h fois cette operateur, on decale le processus de h unites de temps :

B(B(...B︸ ︷︷ ︸h fois

(Xt)...)) = Bh(Xt) = Xt−h.

Syntaxe SAS : Dans les etapes ’data’ de SAS, l’operateur retard est note ’lag’ :

X︸︷︷︸Xt

=

1359

⇒ lag(X)︸ ︷︷ ︸B(Xt)

=

.135

⇒ lag2(X)︸ ︷︷ ︸B2

(Xt)

=

..13

.

Dans le programme suivant :

data TAB;

infile ’serie.don’;

input T X;

Page 30: Analyse de Séries Chronologiques

30 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Y=lag(X);

proc Corr data=TAB;

var X;

with Y;

la sortie de la procedure Corr donne l’autocorrelation d’ordre 1 de la serie {Xt}.

3.2.2 Operateur difference

L’operateur ∆ fait la difference entre le processus et sa version decalee de une unitede temps. Cet operateur se construit en utilisant l’operateur precedent :

∆(Xt) = Xt −Xt−1 = Xt − B(Xt)

⇐⇒ ∆ = I− B

ou I est l’operateur identite :

I(Xt) = Xt.

Dans la litterature, cet operateur est parfois note ∇.

Proprietes :

– Elimination de la tendance :

L’operateur ∆ elimine les tendances lineaires. Pour un processus de la forme

Xt = at + b + Et

ou Et est stationnaire, on a

∆(Xt) = Xt −Xt−1 = (at + b + Et)− (a(t− 1) + b + Et−1) = a + (Et − Et−1)).

De facon generale, l’operateur ∆d elimine les tendances polynomiales de degre d.Par exemple, pour une tendance de degre 2

Xt = at2 + bt + c + Et

on a

∆2 = (I−B)2 = I−2B+B2

et donc

∆2(Xt) = Xt − 2Xt−1 + Xt−2 = ... = 2a + (Et − 2Et−1 + Et−2).

Il faut bien noter que l’operateur ∆d raccourcit la serie des xt de d valeurs puisque∆dXt n’est defini que pour t > d.

Page 31: Analyse de Séries Chronologiques

3.3. MODELE AUTOREGRESSIF 31

– Elimination de la saisonnalite :

L’operateur ∆ω = (I−Bω) elimine une saisonnalite de periode ω (ω entier). Si on aun processus de la forme

Xkω+j = sj + Ekω+j

ou Et est stationnaire, on a

∆ω(Xkω+j) = (I−Bω)(Xkω+j) = Xkω+j −X(k−1)ω+j

= (sj + Ekω+j)− (sj + E(k−1)ω+j) = Ekω+j − E(k−1)ω+j.

On utilise frequement les operateurs ∆12 pour les donnees mensuelles, ∆7 pour lesdonnees journalieres, ∆24 pour les donnees horaires, etc.

Cet operateur est egalement couteux en information puisqu’il raccourcit la serie deω valeurs, les ω premieres servant de references pour la saisonnalite.

Syntaxe SAS : Il n’existe pas de syntaxe specifique pour l’operateur ∆ dans SAS maisil se reconstruit facilement avec l’operateur ’lag’ :

X︸︷︷︸Xt

=

1359

⇒ lag(X)︸ ︷︷ ︸B(Xt)

=

.135

⇒ X-lag(X)︸ ︷︷ ︸∆(Xt)=Xt−B(Xt)

=

.224

.

3.3 Modele autoregressif

Dans l’etude d’une serie chronologique, il est naturel de penser que la valeur de la seriea la date t peut dependre des valeurs prises aux dates precedentes :

Xt = f(Xt−1, Xt−2, ...).

Il n’est generalement pas necessaire de prendre en compte tout le passe de la serie eton peut le plus souvent se limiter a p valeurs :

Xt = f(Xt−1, Xt−2, ...Xt−p) + Et

ou {Et} est un bruit blanc.

3.3.1 Processus autoregressif AR(1)

Le processus autoregressif d’ordre 1, note AR(1), est stationnaire et verifie l’equation

Xt = ϕXt−1 + Et = ϕB(Xt) + Et

ou Et est un bruit blanc de variance σ2.On a donc, a toute date t,

E(Xt) = µ, V(Xt) = σ2X .

Page 32: Analyse de Séries Chronologiques

32 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Esperance, variance, stationnarite : On a

E(Xt) = ϕE(Xt−1) + E(Et) = ϕE(Xt−1),

et V(Xt) = ϕ2V(Xt−1) + V(Et) = ϕ2V(Xt−1) + σ2.

La stationnarite implique que{µ = ϕµσ2

X = ϕ2σ2X + σ2 ⇒

{µ = 0 ou ϕ = 1(1− ϕ2)σ2

X = σ2 ⇒{

µ = 0|ϕ| < 1

.

Remarque : La contrainte µ = 0 n’est pas tres forte puisqu’on passe d’un processusd’esperance µ a un processus d’esperance nulle par simple translation.

Autocorrelation : On a

Xt = ϕXt−1 + Et = ϕ(ϕXt−2 + Et−1) + Et = ϕ2Xt−2 + ϕEt−1 + Et

= ϕhXt−h +h−1∑k=0

ϕkEt−k

donc

γh = Cov(Xt, Xt−h) = E(Xt, Xt−h) = E

((ϕhXt−h +

h−1∑k=0

ϕkEt−k

)Xt−h

)= ϕhE(X2

t−h) = ϕhV(Xt−h) = ϕhσ2X .

Le coefficient d’autocorrelation vaut donc

ρh =γh

γ0

=ϕhσ2

X

σ2X

= ϕh.

Ce dernier resultat implique que, puisque |ϕ| < 1, les correlogrammes auront desallures decroissantes amorties :

ϕ = 0.9 ϕ = 0.3

ϕ = −0.9 ϕ = −0.3

Le processus ”oublie” progressivement les valeurs passees.

Autocorrelation partielle : En ce qui concerne les autocorrelations, la definition memedu processus nous montre que

– τ1 = ρ1 = 1 (voir plus haut),

Page 33: Analyse de Séries Chronologiques

3.3. MODELE AUTOREGRESSIF 33

– τh = 0 pour h > 1 : la regression de Xt sur {Xt−1, Xt−2, ...Xt−h+1} vaut

X∗t = ϕXt−1

et donc

Xt −X∗t = Et,

or les Et sont non correles par hypothese.

Les correlogrammes partiels auront donc la forme suivante :

ϕ = 0.9 ϕ = −0.9

Cette forme de correlogramme partiel rappelle que, conditionnellement a Xt−1, laconnaissance de Xt−2 n’apporte aucune information sur Xt.

3.3.2 Processus autoregressif AR(2)

Un processus AR(2) est un processus stationnaire qui verifie une equation de la forme

Xt = ϕ1Xt−1 + ϕ2Xt−2 + Et = ϕ1B(Xt) + ϕ2B2(Xt) + Et.

Dans un tel modele, l’influence du passe se manifeste par une regression lineaire surles deux valeurs anterieures.

Selon les valeurs de ϕ1 et ϕ2, il n’est pas toujours possible de trouver un processusstationnaire verifiant cette equation.

Dans le cas des processus stationnaires, on peut montrer que

ρh −→h→∞

0.

Plus precisement, l’autocorrelation decroıt a vitesse exponentielle ; on a par exemple

ρ1 = − ϕ1

1 + ϕ2

, ρ2 = −ϕ21 − ϕ2(1 + ϕ2)

1 + ϕ2

Le correlogramme d’un AR(2) est assez semblable a celui d’un AR(1).D’autre part, la regression sur les deux dates precedentes donne

X∗t = ϕ1Xt−1 + ϕ2Xt−2

et donc Xt −X∗t = Et.

L’autocorrelation partielle τh est donc nulle des que h est superieur a 2 :

h > 2 ⇒ τh = 0.

Page 34: Analyse de Séries Chronologiques

34 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

3.3.3 Processus autoregressif AR(p)

De facon generale, un processus AR(p) est un processus qui depend lineairement desp valeurs anterieures :

Xt = ϕ1Xt−1 + ...ϕpXt−p + Et

ou {Et} est un bruit blanc.On peut, sans restriction de generalite, supprimer le terme constant et obtenir un

modele de la forme

Xt =∑

1≤k≤p

ϕkXt−k + Et ⇔ Φ(B)Xt = Et

ou Φ est le polynome de degre p dont les coefficients sont (1,−ϕ1, ...− ϕp).

Autocorrelation : On montre que les autocorrelations sont solutions des equations Yuleet Walker

ρh +∑

1≤k≤p

ϕkρh−k = 0.

Comme pour les processus AR(1) et AR(2), on montre que ρh decroit exponentiellement.

Autocorrelation partielle : Dans un tel processus, Xt et Xt−p+1sont independantsconditionnellement aux valeurs intermediaires {Xt−1, Xt−2, ...Xt−p} et donc

h > p ⇒ τh = 0.

La valeur a la date t depend des p dates precedentes et pas des autres.Cette propriete sert a l’identification des modeles et a determiner l’ordre p d’un pro-

cessus AR(p) au vu du correlogramme partiel.

Estimation des coefficients : Par ailleurs, les coefficients ϕk du modele peuvent s’es-timer a partir de l’estimation des ρh en utilisant le systeme de Yule et Walker :

ρh =

p∑k=1

ϕkρh−k pour h ≥ 1

ou par d’autres methodes comme le maximum de vraisemblance ou les moindres carres.

Syntaxe SAS : Pour l’analyse d’une serie autoregressive d’ordre 2 par SAS, la syntaxeest :

proc ARIMA data=TAB;

identify var=X;

estimate p=2;

La valeur de p n’etant pas connue a priori, on execute d’abord une fois la procedureARIMA sans l’instruction ’estimate’ pour evaluer p au vu des correlogrammes puis onexecute une seconde fois la procedure, cette fois avec l’instruction ’estimate’.

Page 35: Analyse de Séries Chronologiques

3.4. MODELE MOYENNE MOBILE 35

3.4 Modele moyenne mobile

Le terme Et est souvent presente comme un ”choc” (une innovation pour les econometres) :il rend compte d’un element nouveau dans l’evolution du processus. On peut envisager queces chocs (non-correles et d’esperances nulles) aient des effets sur l’evolution du processusnon seulement a la date a laquelle ils se produisent mais aussi a des dates ulterieures.

3.4.1 Processus moyenne mobile MA(1)

Un processus moyenne mobile d’ordre 1, note MA(1), est un processus stationnaire dela forme

Xt = Et + θEt−1

ou {Et} est un bruit blanc de variance σ2.Pour un tel processus, on a

E(Xt) = E(Et) + θE(Et−1) = 0,

V(Xt) = V(Et) + θ2V(Et−1) = (1 + θ2)σ2.

Autocorrelation : On a

γ1 = Cov(Xt, Xt−1) = Cov(Et + θEt−1, Et−1 + θEt−2) = θV(Et−1) = θσ2

Le coefficient d’autocorrelation d’ordre 1 vaut donc

ρ1 =γ1

γ0

=θσ2

(1 + θ2)σ2=

θ

(1 + θ2).

Pour h > 1, on a

γh = Cov(Xt, Xt−h) = Cov(Et + θEt−1, Et−h + θEt−h−1) = 0

donc les coefficients d’autocorrelations d’ordre superieur a 1 sont nuls :

h > 1 ⇒ ρh = 0.

Si on inverse la formule de ρ1, on obtient

(1 + θ2)ρ1 = θ ⇔ θ2ρ1 − θ + ρ1 = 0

equation en θ qui n’admet de solution que si

∆ = 1− 4ρ21 > 0 ⇔ ρ2

1 < 1/4 ⇔ |ρ1| < 1/2.

Pour un processus MA(1), l’autocorrelation d’ordre 1 est inferieure a 1/2 en valeur absolue.Les correlogrammes d’un processus MA(1) seront donc de la forme

θ = 0.9 θ = −0.9

Page 36: Analyse de Séries Chronologiques

36 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Autocorrelation partielle : Le calcul du coefficient d’autocorrelation partielle est pluscomplexe, il se resout en manipulant l’equation

Xt = (I + θB)Et ⇔ 1

I + θBXt = Et ⇔

(∞∑

k=0

(−θ)kBk

)Xt = Et

ce qui permet de donner une autre equation d’un processus MA(1) sous la forme

Xt = Et −

(∞∑

k=1

(−θ)kBk

)Xt = Et −

∞∑k=1

(−θ)kXt−k.

On peut ainsi montrer que

τh =(−θ)h(θ2 − 1)

1− θ2(h+1)

qui nous donne des correlogrammes partiels de la forme

θ = 0.9 θ = 0.3

θ = −0.9 θ = −0.3

3.4.2 Processus moyenne mobile MA(2)

Un processus MA(2) est defini par une equation du type

Xt = Et + θ1Et−1 + θ2Et−2 = (I+θ1B + θ2B2)Et

on a

E(Xt) = E(Et) + θ1E(Et−1) + θ2E(Et−2) = 0,

V(Xt) = V(Et) + θ21V(Et−1) + θ2

2V(Et−2) = (θ22 + θ2

1 + 1)σ2,

Cov(Xt, Xt−1) = Cov(Et + θ1Et−1 + θ2Et−2, Et−1 + θ1Et−2 + θ2Et−3)

= θ1V(Et−1) + θ2θ1V(Et−2) = θ1(1 + θ2)σ2,

Cov(Xt, Xt−2) = Cov(Et + θ1Et−1 + θ2Et−2, Et−2 + θ1Et−3 + θ2Et−4)

= θ2V(Et−2) = θ2σ2,

Cov(Xt, Xt−h) = Cov(Et + θ1Et−1 + θ2Et−2, Et−h + θ1Et−h−1 + θ2Et−h−2)

= 0 pour h > 2.

On a donc

ρ1 =θ1(1 + θ2)

(θ22 + θ2

1 + 1), ρ2 =

θ2

(θ22 + θ2

1 + 1), ρh = 0 pour h > 2.

Enfin, on peut montrer que l’autocorrelation partielle decroıt de facon exponentielle :

τh →h→∞

0.

Page 37: Analyse de Séries Chronologiques

3.4. MODELE MOYENNE MOBILE 37

3.4.3 Processus moyenne mobile MA(q)

Il s’agit d’un processus verifiant l’equation

Xt = Et + θ1Et−1 + ... + θqEt−q = Θ(B)Et

ou Θ est le polynome de degre q dont les coefficients sont {1, θ1, ...θq}.Dans un tel modele, on suppose de plus que l’influence des chocs passes se manifeste

au travers d’une fonction lineaire.Un tel modele est appele moyenne mobile d’ordre q car Xt est une moyenne mobile

(en anglais moving average) appliquee aux variables aleatoires Et, Et−1, ...Et−q. Le termemoyenne est a prendre dans un sens tres large dans la mesure ou la somme des coefficientsθk n’est pas necessairement egale a 1.

Autocorrelation : Pour un tel processus, on peut montrer que l’autocorrelation ρh estnulle pour h > q :

ρh =θh+

∑k=q−hk=1 θkθh−k

1+∑k=h

k=1 θ2k

si h ≤ q

= 0 sinon

Cette propriete est evidemment tres precieuse pour l’identification du modele et ladetermination de l’ordre q d’un processus MA(q).

Autocorrelation partielle : Les autocorrelations partielles τh d’un processus moyennemobile d’ordre q ont un comportement semblable a celui des autocorrelations ρh d’unprocessus autoregressif de meme ordre : elle s’amortissent a vitesse exponentielle.

Remarque : Un processus autoregressif d’ordre 1 peut s’exprimer sous forme de moyennemobile en inversant l’equation :

(I−ϕB)Xt = Et ⇔ Xt =1

I−ϕBEt =

(∞∑

k=0

ϕkBk

)Et,

on obtient ainsi une moyenne mobile d’ordre q infini dont les coefficients decroissentexponentiellement

AR(1) ∼ MA(∞).

Syntaxe SAS : Pour l’analyse d’une serie moyenne-mobile d’ordre 1 par SAS, la syntaxeest :

proc ARIMA data=TAB;

identify var=X;

estimate q=1;

Page 38: Analyse de Séries Chronologiques

38 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

3.5 Modele autoregressif − Moyenne mobile

3.5.1 Processus ARMA(p, q)

On peut bien evidemment envisager de combiner les deux modeles precedents en in-troduisant

– une dependance du processus vis-a-vis de son passe : modele AR(p),

– un effet retarde des chocs : modele MA(q).

Un tel modele, appele autoregressif - moyenne mobile (ARMA), est caracterise par leparametre p de la partie autoregressive et le parametre q de la partie moyenne mobile.Un processus ARMA(p, q) verifie l’equation

Xt = ϕ1Xt−1 + ... + ϕpXt−p + Et + θ1Et−1 + ... + θqEt−q

soitΦ(B)Xt = Θ(B)Et.

Le traitement d’un tel processus est plus complexe que celui des 2 precedents. Onpeut cependant montrer que ses autocorrelations et ses autocorrelations partielles sontdes fonctions amorties tendant vers 0 en valeur absolue a vitesses exponentielles.

On peut ainsi dresser un tableau comparatif des correlogrammes et correlogrammespartiels des processus

Processus Autocorrelation ρh Autocorrelation partielle τh

AR(p) amortie nulle pour h > pMA(q) nulle pour h > q amortie

ARMA(p, q) amortie amortie

.

L’analyse des correlogrammes constitue un des outils privilegies dans l’identificationdu modele.

Syntaxe SAS : Pour l’analyse d’une serie autoregressive (2) - moyenne-mobile (1) parSAS, la syntaxe est :

proc ARIMA data=TAB;

identify var=X;

estimate p=2 q=1;

3.5.2 Modeles ARIMA et SARIMA

La condition de stationnarite des modeles presentes ici n’est evidemment pas tou-jours convenable. On peut integrer certains types de non-stationnarites en elargissant lemodele ARMA. Ces elargissements consistent en une serie d’operations prealables visanta eliminer la tendance ou la saisonnalite.

Page 39: Analyse de Séries Chronologiques

3.5. MODELE AUTOREGRESSIF − MOYENNE MOBILE 39

Modele ARIMA : On a vu que si un processus Xt admet une tendance polynomialede degre d, le processus differencie d fois est stationnaire :

Yt = ∆dXt = (I−B)dXt.

Le modele ARIMA revient a appliquer un modele ARMA sur le processus differencie :

Yt = ARMA(p, q) ⇔ Xt = ARIMA(p, d, q).

L’equation d’un modele ARIMA(p, d, q) est donc donnee par

Φ(B)Yt = Θ(B)Et ⇔ Φ(B)∆dXt = Θ(B)Et

ou Φ et Θ sont deux polynomes de degres respectifs p et q.

Le ’I’ de ARIMA signifie ’integrated’ comme reciproque de la differenciation.

Evidemment, le degre d n’est generalement pas connu. Pour le determiner on peutagir par tatonnements ou avoir recours a des tests de stationnarite : puisqu’un processusARMA(p, q) est stationnaire, on cherche d tel qu’on puisse accepter l’hypothese de sta-tionnarite pour le processus Yt = ∆dXt. De facon generale, on se refere a un principe deparcimonie et cherche la valeur satisfaisante minimale de d. Cette discussion sera meneeplus en detail dans le chapitre concernant le choix de modeles.

Modele SARIMA : La saisonnalite est un autre facteur de non-stationnarite. On avu qu’une facon simple d’eliminer une saisonnalite de periode ω consiste a appliquerl’operateur ∆ω.

Zt = ∆ωXt = (I−Bω)Xt. = Xt −Xt−ω.

De facon general, on peut supposer que l’influence des chocs se transmet entre datesdistantes d’un nombre entier de periodes selon un processus ARIMA(P , D, Q) :

Φω(Bω)∆Dω Xt = Θω(Bω)Ut

et que ces chocs eux-memes suivent un modele ARIMA(p, d, q)

Φ(B)∆dUt = Θ(B)Et

ou {Et} est un bruit blanc.

Un tel modele est note SARIMA(p, d, q)×(P, D, Q)ω et son equation generale est

Φ(B)Φω(Bω)∆d∆Dω Xt = Θ(B)Θω(B)Et

ou Φ, Φω, Θ et Θω sont des polynomes de degres respectifs p, P , q, Q.

Page 40: Analyse de Séries Chronologiques

40 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Exemple : Un modele SARIMA(0,1,1)×(0,1,1)12 a pour objet d’eliminer l’effet an-nuel par un modele de la forme

∆12Xt = (1− θB12)Ut

puis a poser pour {Ut} un modele ARIMA(0,1,1) :

∆Ut = (1− ϑB)Et.

On obtient ainsi∆∆12Xt = (1− ϑB)(1− θB12)Et

soitXt −Xt−1 −Xt−12 + Xt−13 = Et − ϑEt−1 − θEt−12 + θϑEt−13.

Syntaxe SAS : Le principe des modeles est de se ramener a un modele ARMA(p, q)en operant des differenciations sur la serie. Dans SAS cette operation se fait en indiquantles differentiations a effectuer dans la procedure ARIMA elle-meme. Ainsi le programme

proc ARIMA data=TAB;

identify var=X(1,12);

analyse non pas la serie Xt mais la serie ∆∆12Xt. Et le programme

proc ARIMA data=TAB;

identify var=X(1,1,12);

analyse la serie ∆∆∆12Xt = ∆2∆12Xt.

3.6 Identification et estimation des parametres

3.6.1 Identification du modele : methode de Box & Jenkins

Le choix entre les differents modeles presentes ici (AR(p), MA(q), ARMA(p, q), ARIMA(p,d, q), SARIMA, etc.) ne peut generalement pas se faire a priori. On est le plus souventreduit a des tatonnements par un systeme d’essais / erreurs.

Une methodologie generale a ete proposee par Box & Jenkins qui peut se resumer dansl’organigramme suivant :

Il s’agit d’une methodologie ”pas a pas” qui implique la remise en cause de chaquemodele envisage jusqu’a obtenir un modele acceptable.

Un modele est acceptable lorsqu’il prend en compte toute la structure de la par-tie aleatoire et ne laisse qu’un bruit blanc. Par exemple, on considere qu’un modeleARMA(p, q) est acceptable si on peut accepter l’hypothese selon laquelle {Et} = {Xt

− ϕ1Xt−1 + ... + ϕpXt−p + θ1Et−1 + ... + θqEt−q} est un bruit blancIl faut bien noter qu’il est tout a fait possible d’obtenir plusieurs modeles satisfaisants.

On a alors besoin de criteres de comparaison de modele comme le R2 ou le critere d’Akaike.Cette discussion sera menee plus en detail dans le chapitre concernant le choix de modeles.

Page 41: Analyse de Séries Chronologiques

3.6. IDENTIFICATION ET ESTIMATION DES PARAMETRES 41

3.6.2 Determination du type et de l’ordre du modele

On s’interesse ici a l’identification d’un processus stationnaire : on se limite aux pro-cessus ARMA(p, q).

On suppose donc que la saisonnalite et la tendance ont ete supprimees. Comme onl’a vu precedemment, cette elimination peut s’operer au moyen de differentiations dedifferents types :

– ∆d = (I−B)d pour eliminer une tendance polynomiale de degre d,

– ∆ω = (I−Bω) pour eliminer une saisonnalite de periode ω.

Exemple : Pour une serie de donnees mensuelles presentant une tendance apparementlineaire, on combine les deux filtres ∆ et ∆ω pour eliminer la tendance et une saisonnalitede periode 12. Cela revient a travailler sur la serie

Yt = ∆∆12Xt = ∆(Xt −Xt−12) = Xt −Xt−1 −Xt−12 + Xt−13.

Si la serie xt comprend T valeurs, la serie transformee n’en contient plus que T − 13 c’esta dire que l’analyse du modele ARMA(p, q) se fait sur une serie raccourcie de plus d’unan.

Une fois cette manipulation effectuee, on tente de reconnaıtre le type de proces-sus auquel on a affaire en etudiant les correlogrammes. Leurs formes theoriques etantconnues, on choisit alors un modele autoregressif, moyenne mobile ou ARMA. La lecturedes correlogrammes se fait en recherchant les chutes

– dans le correlogramme partiel pour un AR(p),

– dans le correlogramme pour un MA(q),

– etc.

3.6.3 Estimation des parametres et prevision

Methodes des moments : On a vu dans le paragraphe sur les methodes empiriquescomment estimer les autocorrelations et on a donne dans ce chapitre leurs valeurs theoriquespour les processus classiques. La methode des moments est une des plus utilisees : pourun modele donne, on sait que les autocorrelations ρh et τh dependent des parametresϕ1, ...ϕp, θ1, ...θd selon des equations theoriques connues :

(ρ1, ρ2, ..., τ1, τ2, ...) = F (ϕ1, ...ϕp, θ1, ...θd).

Or on sait facilement estimer les autocorrelations ρh et τh, il suffit donc d’inverser lesequations pour estimer les parametres :

(ϕ1, ...ϕp, θ1, ...θd) = F−1(ρ1, ρ2, ..., τ1, τ2, ...).

Il n’est pas necessaire d’expliciter ici la forme des resultats.

Page 42: Analyse de Séries Chronologiques

42 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Maximum de vraisemblance : L’autre methode classique d’estimation est le maxi-mum de vraisemblance. Elle necessite de faire des hypotheses sur la loi du bruit blanc{Et}. L’hypothese la plus frequemment retenue est qu’il s’agit d’un bruit blanc gaussiende variance σ2.

On obtient alors des estimateurs du maximum de vraisemblance des parametres ϕ1, ...ϕp, θ1, ...θd

et de σ.Cette methode peut donner lieu a des calculs tres lourds aussi bien mathematiquement

que numeriquement a cause de la forme tres ”tourmentee” des fonctions de vraisemblance.Pour eviter des temps de calculs colossaux, on a le plus souvent recours a des algorithmesqui utilisent des approximations plus ou moins fortes.

Test sur les parametres : Sous l’hypothese que le bruit blanc est gaussien, on peutmontrer que les estimateurs ϕj et θl sont approximativement gaussiens. On peut donceffectuer des tests sur les parametres en utilisant la loi de Student :

ϕj√V(ϕj)

≈ T .

Dans le cadre d’un modele ARMA(p, q), on peut remarquer que le test sur un pa-rametre ϕp

H0 : ”ϕp = 0” contre HA : ”ϕp 6= 0”

est equivalent au test sur les modeles

H0 : ”ARMA(p, q)” contre HA : ”ARMA(p− 1, q)”

puisque ϕp est le parametre du dernier terme de la partie autoregressive du modele.

Prevision : Une fois les parametres ϕ1, ...ϕp, θ1, ...θd estimes, il est possible de donnerune prediction de la serie a la date t en utilisant l’equation du modele

Φ(B)Xt = Θ(B)Et

soit Xt = {ϕ1Xt−1 + ... + ϕpXt−p + θ1Et−1 + ... + θqEt−q}+ Et

Les Xt−k (1 ≤ k ≤ p) sont connus a la date t− 1 et la partie restante (Et) est nulle enesperance.

On prend donc comme prevision de Xt la quantite

Xt = ϕ1Xt−1 + ... + ϕpXt−p + θ1Et−1 + ... + θqEt−q,

ou les Et sont definis parEt = Xt − Xt,

les Et−k (1 ≤ k ≤ q) etant calculables a la date t.Evidemment, la prevision ne peut etre envisagee qu’apres une etape de validation du

modele.

Page 43: Analyse de Séries Chronologiques

3.6. IDENTIFICATION ET ESTIMATION DES PARAMETRES 43

3.6.4 Validation

Test du bruit blanc : Dans l’analyse des series chronologiques par processus, le bruitblanc joue un role particulier puisque c’est un processus sans aucune structure. Quand,pour un processus {Xt}, on a elimine toute tendance, toute saisonnalite et toute dependancevis-a-vis du passe, il reste un processus {Et} completement imprevisible sur lequel il n’ya plus grand chose a dire.

Le test preliminaire concerne justement ce processus. Quand on etudie une serie xt lapremiere hypothese testee est

H0 : ”{Xt} est un bruit blanc”.

Si on accepte cette hypothese, l’analyse de la serie est virtuellement achevee : la serieetudiee n’a aucune structure.

On peut citer

– le test ”Portmanteau” (”fourre-tout” en anglais) fonde sur la somme des carre desautocorrelations :

Q1({xt}) = TH∑

h=1

ρ2h(x)

ou T est le nombre d’observations, ρh(x) l’autocorrelation d’ordre h estimee sur laserie {xt, 1 ≤ t ≤ T} et H une quantite suffisament grande.

– le test fonde sur la statistique de Ljung et Box :

Q2({xt}) = T (T + 2)H∑

h=1

1

T − hρ2

h(x)

Sous l’hypothese d’un bruit blanc gaussien, ces deux statistiques suivent des lois duχ2 a H − p− q degres de libertes.

Validation : Les tests de bruit blanc permettent egalement de ”valider” le modele. Sile processus est bien un ARMA(p, q), le processus residuel {Et} = {Xt− Xt} doit etre unbruit blanc. On accepte (ou rejette) cette hypothese en effectuant un des tests fondes surune statistique Q({et}). Pour cela, il faut donc estimer les autocorrelations du processus

{Et}.On ne peut envisager d’effectuer des predictions qu’une fois qu’on a accepte l’hypothese

H0 : ”{Et} = {Xt − ϕ1Xt−1 + ... + ϕpXt−p + θ1Et−1 + ... + θqEt−q}est un bruit blanc”.

Page 44: Analyse de Séries Chronologiques

44 CHAPITRE 3. MODELISATION DE LA PARTIE ALEATOIRE

Page 45: Analyse de Séries Chronologiques

45

Chapitre 4

Choix de modeles

4.1 Analyse spectrale : Recherche des periodicites

On a vu dans les paragraphes precedents qu’il pouvait y avoir des composantes sai-sonnieres ou des composantes cycliques dans la partie deterministe d’un processus aleatoire,et comment on peut les modeliser en introduisant des termes en sinus et cosinus, a condi-tion de connaıtre les periodes de ces composantes. On peut utiliser le correlogramme pourdetecter les periodicites eventuelles. On peut aussi faire une analyse spectrale. L’idee del’analyse spectrale est empruntee au domaine de la physique et consiste a utiliser l’hy-pothese que la serie chronologique est composee de sinus et de cosinus de differentesfrequences (analogie avec le son par exemple). Les deux approches seront comparees,chacune d’elles ayant des avantages et des inconvenients.

4.1.1 Rappels sur les fonctions deterministes

Fonctions periodiques

Une fonction f(t) est periodique si elle satisfait l’egalite :

f(t) = f(t + kp) ∀ t

k est un entier positif ou negatif. p est la periode. C’est le plus petit nombre pour lequell’egalite precedente est satisfaite.

Les fonctions periodiques les plus courantes sont les fonctions sinus et cosinus. Parexemple :

A sin ωt et B cos ωt

sont deux fonctions periodiques, chacune de periode

p =2π

ω.

Page 46: Analyse de Séries Chronologiques

46 CHAPITRE 4. CHOIX DE MODELES

La quantite ω = 2πp

est appelee frequence angulaire, la quantite 1p

est appelee frequence

(c’est la frequence angulaire divisee par 2π), et les constantes A et B sont appelees am-plitudes.

Ces deux fonctions jouent un role majeur dans l’etude des fonctions periodiques, carJoseph Fourier a montre que toute fonction periodique bien conformee de periode p peuts’exprimer comme une somme (qui peut etre infinie) de sinus et de cosinus et que l’onappelle ”serie de Fourier” :

f(t) =1

2a0+

∞∑r=1

[ar sin

2πr

pt + br cos

2πr

pt

]=

∞∑r=0

Areiωrt =

∞∑r=0

Are2πifrt

avec

Ar =

12(ar − ibr) r > 0

12a0 r = 0

12(a|r| + ib|r|) r < 0

, ωr =2πr

pet fr =

r

p.

Par analogie, ωr est appelee la frequence angulaire, et |Ar| = 12[(a2

r + b2r)]

12 est appelee

amplitude. On peut interpreter chacun des termes de cette serie. Le premier terme cor-respondant a r = 0 est un terme constant, le deuxieme (r = 1) represente les oscillationsde periode de base p, le troisieme (r = 2) represente les oscillations de periode p

2, le

quatrieme, celles de periode p3, etc...

On peut aussi introduire la notion d’energie totale sur l’intervalle de temps (−p2, p

2) :

∫ p2

−p2

f 2(t)dt = ‖f(t)‖2 =p

2

[1

2a2

0 +∞∑

r=1

(a2r + b2

r)

]= p

∞∑r=0

c2r

avec

cr =

[1

2(a2

r + b2r)

] 12

On appelle l’egalite qui donne l’energie totale ”relation de Parseval”. c2r est la contri-

bution de la composante de periode pr

a l’energie totale.On associe a cette notion d’energie totale, la notion de puissance totale :

Puissance totale =energie totale

p=

∞∑r=0

c2r

Spectre discret

On peut tracer le graphe des c2r en fonction de la periode, on obtient alors un diagramme

en batons, que l’on appelle spectre discret.

Page 47: Analyse de Séries Chronologiques

4.1. ANALYSE SPECTRALE : RECHERCHE DES PERIODICITES 47

Extension aux fonctions non periodiques

Une fonction non periodique peut etre consideree comme une fonction periodique deperiode infinie. On peut reprendre la serie precedente en faisant tendre p vers l’infini. Lasomme se transforme alors en integrale sous certaines conditions mathematiques :

f(t) =

∫ ∞

0

[a(ω) sin ωt + b(ω) cos ωt] dω =1√2π

∫ ∞

−∞G(ω)eiωtdω

L’egalite precedente n’est valable que si la fonction f est absolument integrable.La fonction G(ω) est appelee ”transformee de Fourier” de f(t). C’est sur cette

fonction qu’est fondee l’analyse spectrale. On peut montrer que si la fonction f(t) a debonnes propietes mathematiques, on peut exprimer sa transformee de Fourier en fonctionde f(t) par la relation :

G(ω) =1√2π

∫ ∞

−∞f(t)e−iωtdt