Analisi delle Serie Temporali - Siriosirio.stat.unipd.it/files/ts02-03/ts2.pdf · Guido Masarotto e...
Transcript of Analisi delle Serie Temporali - Siriosirio.stat.unipd.it/files/ts02-03/ts2.pdf · Guido Masarotto e...
Analisi delle Serie Temporali(lucidi delle lezioni)
Guido Masarotto
Facoltà di Scienze Statistiche
Università di Padova
6 gennaio 2003
Indice
A. Introduzione, 1
Che cos’è una serie temporale (o storica)?, 2 Esempio 1: medie giornaliere delle polveri rilevate in una dellecentraline per il controllo atomosferico in Padova, 3 Esempio 2: linci catturate annualmente in Canada, 4Esempio 3: portata del Nilo, 5 Esempio 4: consumo di gas, 6 Esempio 5: consumo di vino bianco secco, 7Esempio 6: vendite di un certo prodotto (e una serie che dovrebbe anticiparne le variazioni), 8 Esempio 7:indice di qualità di un processo produttivo, 9 Esempio 8: input e output di una centrale a gas, 10 Esempio 9:diametro delle gonne all’orlo, 11 Il problema. . . , 12 Principali applicazioni, 13 Caratteristiche del corso, 14
B. Kolmogorov perdono!, 15
Che cos’è un processo stocastico?, 16 Serie temporali e processi stocastici, 17 Caratteristiche “interessanti”di un processo stocastico, 18 Il problema della stazionarietà, 19 Processi stocastici stazionari, 21 Proprietàdella funzione di autocorrelazione di un processo stocastico stazionario, 23
C. Stima della funzione di autocorrelazione, 24
Stima di alcune caratteristiche “interessanti”, 25 Una “banda” ci viene in aiuto, 27 Quattro serie tempora-li. . . , 30 . . . il loro correlogramma. . . , 31 . . . qualche commento . . . , 32 . . . un esercizio e. . . , 33 . . . la suasoluzione, 38 La temperatura al castello di Nottingham, 39 Un correlogramma a Nottingham, 40 A castel-lo è meglio essere corretti, 41 Nottingham: grafici di “autodispersione”, 42 Esercizio, 44 La produzione diautomobili in Giappone, 45 Esercizio, 47 Il test di Ljung-Box (e quello di Box-Pierce), 48
D. Scomposizione di una serie temporale in componenti ele-
mentari, 50
E se il processo non è stazionario?, 51 Componenti di una serie temporale, 52 Modelli di composizione, 53Esempio di una serie “additiva”, 54 Esempio di una serie “moltiplicativa”, 55 Destagionalizzazione di unaserie temporale, 56 Perchè destagionalizzare?, 57
E. Stima della media e sua scomposizione mediante modello di
regressione, 61
CO2 a Mauna Loa, 62 CO2: un modello lineare, 66 CO2: serie destagionalizzata, 70 Altri modelli diregressione: cenni, 71 Appendice: richiami sul modello di regressione lineare multiplo, 72
i
F. Scomposizione di una serie temporale: un approccio flessibi-
le, 76
Il punto debole. . . , 77 Regressione non parametrica: cenni, 78 Stima del trend in assenza di stagionalità, 97Medie mobili e filtri lineari, 98 Stima della componente stagionale in assenza di trend, 99 Stima simulta-nea delle componenti di trend e stagionali: l’algoritmo di backfitting, 104 In pratica, 106 Passeggeri delleaerolinee, 107 Scomposizioni con “problemi”, 126 Estensioni e cautele, 131
G. Modelli dinamici basati sull’idea di lisciamento esponenziale
, 132
Struttura di un modello dinamico, 133 Un modello basato sul lisciamento esponenziale, 135 Serie alla “deriva”, 142Introduzione di una componente stagionale, 150 Innovazione additiva o moltiplicativa?, 157 Sintesi dei mo-delli considerati: le quattro forme di base, 159 Sintesi dei modelli considerati: casi particolari, 160 “Nomi”assegnati ad alcuni casi particolari, 161 Costruzione empirica di un modello, 162 Stima dei parametri, 163Scelta di un modello, 167 Verifica dell’adattamento, 168 Una serie temporale di vendite, 169 Previsione:considerazioni generali, 176 Previsione con i modelli basati sul lisciamento esponenziale, 179 Previsionedella serie delle vendite, 185 Una serie con le bollicine, 188
H. I modelli ARMA e ARIMA, 203
Introduzione, 204 Modelli a media mobile, 205 Invertibilità di un modelloMA(q), 207 Modelli autoregressivi, 210La funzione di autocorrelazione parziale, 212 Modelli autoregressivi a media mobile, 214 L’operatore diritardo, 216 Modelli integrati ovvero metti un po’ di trend in un modello ARMA, 217 Identificazione di unmodello ARMA/ARIMA, 221 Esempio con serie non stagionali, 222 Modelli ARIMA stagionali, 223 Esempiocon serie stagionali, 224
I. Serie temporali bivariate: cenno, 225
ii
Materiale didattico
1. Questi lucidi
2. Guido Masarotto e Giovanna Capizzi (2002), “Materiali per il laboratorio con R”, http://sirio.stat.unipd.it/ts
3. C. Chatfield (1996), “The analysis of time series: an introduction”, Chapman and Hall, Londra
4. T. Di Fonzo e F. Lisi (2001), “Complementi di statistica economica. Analisi delle serie storiche univariate”, CleupEditrice, Padova
Unità A
Introduzione
Che cos’è una serie temporale (o storica)?
Non è infrequente, nelle applicazioni, che le osservazionisulle variabili di interesse, siano raccolte sequenzialmen-
te nel tempo (vedi esempi nelle pagine seguenti).
Nel caso in cui, siano rilevate k variabili in n istanti di
tempo, i dati prendono quindi la forma
variabili rilevate
tempo Y1 Ykt1 y11
... yk1
t2 y12... yk2
... ... ... ...tn y1n
... ykn
e costituiscono quello che è usualmente chiamata una
serie temporale (o storica) k-variata. Spesso, e
sarà l’unico caso che consideremo, le osservazioni sonoequispaziate nel tempo (ovvero ti − ti−1 = costante).
Ovviamente, consideremo solo il caso in cui i fenomeni
rilevati siano “statistici”, ovvero, mostrino una variabilità
non irrilevante e siano non deterministici.
Unità A: Introduzione 2
Esempio 1: medie giornaliere delle polveri
rilevate in una delle centraline per il
controllo atomosferico in Padova
Unità A: Introduzione 3
Esempio 2: linci catturate annualmente in
Canada
lynx
1820 1840 1860 1880 1900 1920
010
0020
0030
0040
0050
0060
0070
00
E’ evidente una componente ciclica con una frequenzapoco più lunga di 10 anni (ci sono 12 “minimi” e 12
“massimi” in circa 110 anni).
Unità A: Introduzione 4
Esempio 3: portata del Nilo
Time
Nile
1880 1900 1920 1940 1960
600
800
1000
1200
1400
Qual’è la distribuzione del massimo in 500 anni delle
portate?
Unità A: Introduzione 5
Esempio 4: consumo di gas
Time
UK
gas
1960 1965 1970 1975 1980 1985
200
400
600
800
1000
1200La serie è trimestrale. Si osservi sia l’aumento nel tempo
che la presenza di oscillazioni di tipo stagionale la cuiampiezza aumenta con l’aumentare del livello della serie
stessa.
Unità A: Introduzione 6
Esempio 5: consumo di vino bianco secco
1980 1985 1990 1995
2000
3000
4000
5000
Si osservi sia l’aumento nel tempo che la presenza di
oscillazioni di tipo stagionale.
Unità A: Introduzione 7
Esempio 6: vendite di un certo prodotto (e
una serie che dovrebbe anticiparne le
variazioni)
200
220
240
260
BJs
ales
1011
1213
14
BJs
ales
.lead
0 50 100 150
Il grafico di sopra mostra le vendite di una azienda. Il
grafico sotto una serie che anticipa i cambiamenti dellaprima serie. Si vedano gli istanti di tempo indicati
dalle linee tratteggiate verticali. Sono punti di svolta
per la seconda serie che anticipano simili andamenti
nella prima. Il problema è come è possibile utilizzarequeste informazioni per calcolare delle previsioni
delle vendite (che ad esempio, potrebbero essereutilizzate per decidere “quanto produrre”, quante scorte
mantenere,. . . )Unità A: Introduzione 8
Esempio 7: indice di qualità di un processo
produttivo
5 10 15 20 25
12.0
12.5
13.0
13.5
14.0
14.5
25 giorni di misurazioni (5 misure al giorno) su di
un parametro che misura la qualità di un processoproduttivo.
Tutte le oscillazioni sono casuali? Oppure, nascosto nel“rumore”, c’è qualcosa di sistematico e quindi magari di
eliminabile?
Unità A: Introduzione 9
Esempio 8: input e output di una centrale a
gas
5055
60
GF
outp
ut
−2
−1
01
23
GF
inpu
t
0 50 100 150 200 250 300
Il grafico di sopra mostra una serie di misurazioni
condotte su un parametro che può essere interpreta-to come un indice di qualità della produzione di una
fornace a gas. Il grafico di sotto una caratteristica dellafornace che può essere controllata dal personale tecnico.
Il problema è capire come fissare i valori della secondaserie per “far correre” la prima il più possibile vicino al
suo valore obbiettivo (cioè 60).
Unità A: Introduzione 10
Esempio 9: diametro delle gonne all’orlo
1870 1880 1890 1900 1910
600
700
800
900
1000
Unità A: Introduzione 11
Il problema. . .
. . . è quello di capire la dinamica della serie osservata,ovvero, il meccanismo con cui si evolve nel tempo.
In particolare, in questo corso, ci occuperemo di
? descrivere/modellare le variazioni nel tempo dellamedia (ed, eventualmente di altre caratteristiche).
? descrivere/modellare le relazioni dinamiche di tipolineare esistenti (ovvero tra le osservazioni ieri, oggi,
domani, . . . ).
Unità A: Introduzione 12
Principali applicazioni
• Previsione: al tempo tn vogliamo prevedere i valoriche la serie temporale assumerà al tempo t > tn.
• Controllo: si supponga di avere a che fare, persemplicità, con due sole variabili (k = 2) e che:
i) le variazioni di y1t influenzino y2t;
ii) y1t sia controllabile (ovvero possiamo fissarne ivalori);
iii) non possiamo controllare y2t; però, desideremmo
che y2t risulti uguale ad un valore prefissato,diciamo η, per ogni t.
Il problema è: quali valori scegliamo per la prima
variabile affinchè la seconda si discosti il menopossibile dal valore desiderato?
Osservazione: Per dare una risposta ad ambedue i
problemi dobbiamo ovviamente dare una risposta alledomande del lucido di pagina 12.
Esercizio: Spiegare perchè è vera la precedenteosservazione.
Unità A: Introduzione 13
Caratteristiche del corso
1. E’ introduttivo: vuole presentare solo alcune idee etecniche di base. Considereremo solo
• dati equispaziati nel tempo (ti − ti−1 = ∆);
• situazioni in cui le variabili rilevate sianonumeriche ed (almeno assimilabili a variabili) reali,
• quasi sempre il caso di serie univariate,
• solo relazioni dinamiche di tipo lineare.
2. E’ operativo: vuole sviluppare la capacità di
analizzare concretamente delle serie reali (perquesto le esercitazioni nel laborario informatico
costituiscono una parte integrante del corso).
Unità A: Introduzione 14
Unità B
Kolmogorov perdono!
• 2 cose 2 sui processi stocastici ovvero sul modelloprobabilistico di riferimento
• funzione di autocovarianza e di autocorrelazione
• stazionarietà
Che cos’è un processo stocastico?
? Per quello che ci riguarda, trascurando definizioni piùgenerali, un processo stocastico consiste semplicemen-
te in una successione di variabili casuali Y = {Yt :
−∞ < t < +∞} ordinate nel tempo e con arbitrarie
relazione di dipendenza interne.
? Un’esperimento su Y ci fornisce quindi una particolare
successione numerica {yt : −∞ < t < +∞} incui ciascuna yt è il risultato di un esperimento sulla
variabile casuale Yt. Una particolare successionegenerata dal processo viene usualmente chiamata
realizzazione o traiettoria del processo.
? Ovviamente, a meno di casi degeneri, esperimenti
diversi su Y risulteranno in traiettorie diverse, ovvero,
il processo può generare differenti (tipicamenteinfinite) successioni. In caso contrario, il meccanismo
sarebbe deterministico non stocastico.
? Le varie traiettorie generabili dal processo non avranno
però in generale tutte la stessa probabilità, ovvero,avremmo traiettorie più probabili e traiettorie meno
probabili.
Unità B: Kolmogorov perdono! 16
Serie temporali e processi stocastici
? L’analisi delle serie temporali è rivolta alla comprensio-ne di fenomeni che si evolvono nel tempo in maniera
non deterministica.? I processi stocastici sono modelli matematici utili per
descrivere la “legge” probabilistica (o stocastica -dalgreco “che ha a che fare con il caso”) con cui un certo
fenomeno fisico si può evolvere nel tempo (o nello
spazio, o nel tempo e nello spazio,. . . ). In questosenso, costituiscono il modello probabilistico naturale
di riferimento per l’analisi delle serie temporali.? Possiamo “guardare” alle osservazioni disponibili (la
serie storica osservata) come ad “un pezzettino” diuna realizzazione di un processo stocastico e utilizzare
questi dati per cercare di capire la legge probabilisti-ca (o alcuni dei suoi aspetti) del processo stocastico
che li ha generati, ovvero, ricondurre l’analisi delle
serie temporali ad un problema di inferenza statisticasu processi stocastici.
? Questo è quello che faremo. Si osservi comunqueche non è “filosoficamente indolore”. Ovvero, spesso
l’esperimento che ha generato la serie osservata èirripetibile. A noi quindi interessa la serie osservata,
non il meccanismo con cui potrebbero esserne generatealtre di analoghe ma, a questo punto, in mondi in cui
non abitiamo. Però. . .
Unità B: Kolmogorov perdono! 17
Caratteristiche “interessanti” di un
processo stocastico
? E’ possibile dimostrare che la distribuzione di
probabibilità di un processo stocastico è completamen-te caratterizzata dall’insieme di tutte le distribuzioni
di probabilità finite-dimensionali del processo, ovvero,dalle distribuzioni di probabilità di (Yt1, . . . , Ytk) per
qualsivoglia k e per qualsivoglia scelta associata di
t1, . . . , tk.
? Stimare però dai dati tutte queste distribuzioniè, soprattutto in assenza di forti informazioni sul
processo, praticamente impossibile.
? Molto spesso ci si limita perciò a considerare
solamente particolari momenti del processo. Inparticolare noi ci concentreremo sui momenti primi e
secondi e considereremo le seguenti “funzioni” (che
supporremmo “tranquillamente” esistere tolto in casiparticolari che saranno evidenziati):
media: ηt = E(Yt),
varianza: σ2t = var(Yt),
autocovarianza: γ(t ′, t ′′) = cov(Yt ′,Yt ′′),
e la associata funzione di autocorrelazione
ρ(t ′, t ′′) =γ(t ′, t ′′)
σt ′σt ′′Unità B: Kolmogorov perdono! 18
Il problema della stazionarietà
• Supponiamo di avere a disposizione 1000 osservazio-ni su di una serie temporale univariata (ovvero
conosciamo y1, . . . ,y1000) e di voler calcolare unaprevisione per il valore che la serie assumerà al tempo
1001 (ovvero per y1001).
• Sulla base delle cose che sappiamo dai corsi
precedenti potremmo ad esempio pensare di utilizzareun modello di regressione lineare semplice in cui
y1001 sia la variabile dipendente utilizzando comevariabile esplicativa l’osservazione “nota” più “vicina”
nel tempo ovvero y1000. Questo, utilizzando le
formule note dal corso di Statistica Descrittiva e lanotazione del lucido (18), ci portà a pensare ad una
previsione calcolata come
y1001 = η1001 +γ(1001, 1000)
σ21000
(y1000 − η1000)
Unità B: Kolmogorov perdono! 19
• E’ però evidente che questa formula non è utilizzabi-le senza ipotesi aggiuntive sul processo stocastico che
genera i dati. Infatti, anche se abbiamo un certonumero di osservazioni (1000), poichè non abbiamo
nessuna osservazione su Y1001 non abbiamo nessundato che ci fornisca “direttamente” informazioni su
η1001. Analogamente, nei dati non abbiamo nessunainformazione “diretta” sulla covarianza tra Y1000 e
Y1001 (ci servirebbero dei dati generati dalla variabile
casuale bivariata (Y1000, Y1001)). E anche “su” Y1000
abbiamo una sola osservazione. Un po’ poco per
stimare in maniera affidabile η1000 e completamenteinsufficiente per stimare dai dati σ1000
• Il problema è generale. Ovvero non c’entra laformula della pagina precedente. Infatti, per calcolare
delle previsioni dovremmo conoscere che relazioneesiste tra quello che è accaduto fino ad oggi e
che conosciamo, ovvero (y1, . . . ,y1000), e quello cheaccadrà domani, ovvero y1001. Ma nei dati, in assenza
di ipotesi aggiuntive, non abbiamo informazioni“dirette”, sulla dipendenza tra passato, presente e
futuro per il semplice e ovvio fatto che il futuro non lo
abbiamo per definizione osservato.
• L’ipotesi di stazionarietà è una ipotesi aggiuntiva
spesso utilizzata (ovvero, che si è rivelata utileempiricamente) per risolvere il problema precedente
(ed altri analoghi).
Unità B: Kolmogorov perdono! 20
Processi stocastici stazionari
Un processo stocastico è detto stazionario
in senso forte se per qualsiasi h, k, t1,. . . e tk (tuttiinteri) la distribuzione di probabilità di
(Yt1, . . . , Ytk)
è uguale alla distribuzione di probabilità di
(Yt1+h, . . . ,Ytk+h);
in senso debole se per qualsiasi h, t ′ e t ′′ (interi)
E(Yt ′) = E(Yt ′′)
var(Yt ′) = var(Yt ′′)
cov(Yt ′,Yt ′′) = cov(Yt ′+h,Yt ′′+h)
Si osservi che la prima definizione implica la seconda
(almeno se i momenti coinvolti esistono).
Unità B: Kolmogorov perdono! 21
Nel caso un processo stocastico sia stazionario possiamoscrivere, con un leggero abuso di notazione rispetto a
quanto fatto prima,
E(Yt) = η
var(Yt) = σ2
cov(Yt+h, Yt) = γ(h)
corr(Yt+h, Yt) = ρ(h)
per qualsivoglia t e h
ovvero, se un processo è stazionario,
? la media e la varianza non variano con il tempo
? le covarianze (e quindi le autocorrelazioni) è solofunzione della distanza nel tempo tra le due variabili
casuali coinvolte1
1questa relazione si ottiene dalla definizione di stazionarietà debole ponendoh = −t ′
Unità B: Kolmogorov perdono! 22
Proprietà della funzione di
autocorrelazione di un processo stocastico
stazionario
• ρ(h) = γ(h)/σ2;
• ρ(0) = 1 (beh, se “quello che capita oggi” non fossecorrelato perfettamente con “quello che capita oggi”
avremmo veramente da preoccuparci; formalmenteσ2 = γ(0));
• −1 ≤ ρ(h) ≤ 1 ∀h (sono coefficienti di correlazione);
• ρ(h) = ρ(−h). E’ una conseguenza del fatto che per
qualsiasi coppia di variabili casuali, diciamo X e Y,
cov(X,Y) = cov(Y,X);
• Per qualsiasi k e per qualsiasi scelta di (a1, . . . ,ak)
(numeri qualsiasi)
k∑
i=0
k∑
j=0
aiajρ(i − j) ≥ 0
Infatti, la quantità sul lato sinistro è la varianza di∑k
i=0 aiYt−i divisa per σ2.
Unità B: Kolmogorov perdono! 23
Unità C
Stima della funzione di autocorrela-zione
• Stimatori
• Bande nel “correlogramma”
• Test di Ljung-Box (e Box-Pierce)
Stima di alcune caratteristiche
“interessanti”
Nel caso di un processo stazionario, i valori attesi ditutte le osservazioni (qualsiasi sia t) sono uguali ad una
costante η. Possiamo quindi pensare di stimare il valorecomune della media mediante
η = y =1
n
n∑
t=1
yt.
In maniera analoga, sfruttando le altre “invarianze” nel
tempo, possiamo stimare la funzione di autocovarianza
e di autocorrelazione mediante
γ(h) =1
n
n∑
t=h+1
(yt − y)(yt−h − y)
ρ(h) =γ(h)
γ(0)
Unità C: Stima della funzione di autocorrelazione 25
Nota 1: Si osservi che dividiamo per “n” e non per“n−h” che è il numero degli addendi. E’ usuale fare così
poichè in questo modo anche la stima (e non solo quelloche si vuole stimare) gode delle proprietà descritte
nel lucido (23). Ad esempio, dividendo per “n − h”potremmo ottenere stime dei coefficienti di autocorrela-
zione, in modulo, più grandi di 1. Dividendo per n peròintroduciamo una distorsione verso lo zero nello stima
(=sottostiamo in maniera sistematica la correlazione
esistente).
Nota 2: γ(h) non è definito se h > n − 1. Questoè scontato. Con n osservazioni non abbiamo nessuna
coppia di osservazioni distanti n o n + 1 o così via.
Nota 3: Si osservi tra l’altro che “ha senso” calcolare
γ(h) solo se n − h, ovvero il numero di addendi su cuiè basata la stima, è sufficientemente grande. Questo
non è un grande problema nelle applicazioni visto chetipicamente si è interessati alla funzione di autocovarian-
za (o di autocorrelazione) solamente per ritardi non
grandi. Però va sempre tenuto presente.
Nota 4: Per il calcolo di ρ(h) ovviamente non ènecessaria la stazionarietà. Delle volte si usa ρ(h) per
avere una idea “media nel tempo” della dipendenza
lineare esistente.
Nota 5: Il grafico di ρ(h) verso h viene chiamatocorrelogramma.
Unità C: Stima della funzione di autocorrelazione 26
Una “banda” ci viene in aiuto
? E’ possibile dimostrare che se non esiste autocorrela-zione nel processo (ovvero se ρ(h) = 0 quando h 6=0, ovvero se come si usa dire il processo osservato èun rumore bianco (white noise)) allora la distribuzione
asintotica di√nρ(h) è una normale di media nulla e
varianza uno.
? Quindi nel caso di una serie senza autocorrelazione,ρ(h) “cadrà” nell’intervallo
[−z1−α/2/√n, z1−α/2/
√n]
(dove zζ è il quantile ζ-simo di una normale standard)con una probabilità approssimativamente uguale a 1 −
α (ovviamente n deve essere sufficientemente grande –n > 50 sembra essere sufficiente).
? Per questo nei grafici della funzione di autocorrelazio-ne empirica (ovvero quella stimata dai dati), sono spesso
indicate delle bande del tipo [−1,96/√n, 1,96/
√n]
(z0.975 = 1,96).
Unità C: Stima della funzione di autocorrelazione 27
? Valori di ρ(h), per quanto diversi da zero, maall’interno di queste bande suggeriscono che l’autocorre-
lazione “stimata” potrebbe essere in realtà dovuta al caso(ovvero non essere una proprietà del processo).
? Si osservi, comunque, che anche in assenza diautocorrelazione, ci aspettiamo, utilizzando le bande
precedenti, un ρ(h) ogni 20 “fuori” dalle bande.
? Ovvero, se calcoliamo i primi 30 coefficienti di
autocorrelazione, trovarne uno, due o anche tre fuoridalle bande può essere attribuito all’effetto del caso.
? Ovviamente però ce li aspettiamo non di molto esterni
alle bande stesse.
Unità C: Stima della funzione di autocorrelazione 28
Pochi ρ(h) fuori di poco dalle bande possono essere attribuiti all’errore di stima. Il primo correlogramma mostra
quindi una situazione probabilmente di incorrelazione. Nel secondo, un solo ρ(h) è esterno alle bande. Però è molto
più grande dei limiti disegnati. Probabilmente indica una autocorrelazione reale.
0 5 10 15 20
−1.0
−0.5
0.0
0.5
1.0
Lag
AC
F
0 5 10 15 20
−1.0
−0.5
0.0
0.5
1.0
Lag
AC
F
Unità C: Stima della funzione di autocorrelazione 29
Quattro serie temporali. . .(a)
0 20 40 60 80 100
−4
−2
02
(b)
0 20 40 60 80 100
−3
−2
−1
01
23
(c)
0 20 40 60 80 100
−4
−2
02
46
(d)
0 20 40 60 80 100
−2
−1
01
2
Unità C: Stima della funzione di autocorrelazione 30
. . . il loro correlogramma. . .
0 5 10 15 20
−0.
50.
00.
51.
0
(a)
0 5 10 15 20
−0.
50.
00.
51.
0
(b)
0 5 10 15 20
−0.
20.
20.
61.
0
(c)
0 5 10 15 20
−0.
20.
20.
61.
0
(d)
Unità C: Stima della funzione di autocorrelazione 31
. . . qualche commento . . .
? Il grafico della prima serie mostra la presenza di“onde” che però non hanno lunghezza e ampiezza
costante. Le onde “a smorzare” nel correlogram-ma ci raccontano esattamente la presenza di questa
componente. Il correlogramma ci dice anche che la“lunghezza media” delle onde è di 6 periodi.
? La serie (c) è caratterizzata da oscillazioni molto piùrapide. Il correlogramma ci segnala un comportamen-
to addirittura di tipo “alternante”: ad una “osservazio-ne grande” tendenzialmente segue una “osservazione
piccola” e così via.
? Dal grafico della serie (c), come del resto in quello
della serie (a), si individua facilmente la presenza diautocorrelazione positiva a ritardo 1 (una “osservazio-
ne grande” è tendelzialmente seguita da un’altra
“osservazione grande”, una “piccola” da una “piccola”).Il correlogramma ci racconta che questa è l’unica
correlazione esistente: osservazioni più distanti sonoincorrelate.
? Il correlogramma della serie (d) ci indica che si trattadi un white noise.
Unità C: Stima della funzione di autocorrelazione 32
. . . un esercizio e. . .
Le figure nelle prossime pagine riportano i grafici di ytdisegnato verso yt−h per alcuni valori di h. Chiameremo
questo tipo di grafici di autodispersione (lag plot nellaletteratura anglosassone). Le serie utilizzate sono quelle
precedenti. Ogni pagina si riferisce ad una delleserie. Ma le pagine non sono nell’ordine utilizzato
precedentemente. Completare il seguente “schemetto”:
la figura si riferisce
a pagina alla serie
34 . . . . . .35 . . . . . .
36 . . . . . .37 . . . . . .
La soluzione è a pagina 38.
Unità C: Stima della funzione di autocorrelazione 33
lag 1
a−
3−
2−
10
12
3
−3 −2 −1 0 1 2 3
lag 2
a
lag 3
a
−3 −2 −1 0 1 2 3
lag 4
a
lag 5
a
lag 6
a
−3
−2
−1
01
23
lag 7
a−
3−
2−
10
12
3
lag 8
a
lag 9
a
lag 10
a
lag 11
a
−3 −2 −1 0 1 2 3lag 12
a
−3
−2
−1
01
23
Unità C: Stima della funzione di autocorrelazione 34
lag 1
a−
2−
10
12
−3 −2 −1 0 1 2
lag 2
a
lag 3
a
−3 −2 −1 0 1 2
lag 4
a
lag 5
a
lag 6
a
−2
−1
01
2lag 7
a−
2−
10
12
lag 8
a
lag 9
a
lag 10
a
lag 11
a
−3 −2 −1 0 1 2lag 12
a
−2
−1
01
2
Unità C: Stima della funzione di autocorrelazione 35
lag 1
a−
4−
20
2
−4 −2 0 2 4
lag 2
a
lag 3
a
−4 −2 0 2 4
lag 4
a
lag 5
a
lag 6
a
−4
−2
02
lag 7
a−
4−
20
2
lag 8
a
lag 9
a
lag 10
a
lag 11
a
−4 −2 0 2 4lag 12
a
−4
−2
02
Unità C: Stima della funzione di autocorrelazione 36
lag 1
a−
4−
20
24
6
−6 −4 −2 0 2 4 6 8
lag 2
a
lag 3
a
−6 −4 −2 0 2 4 6 8
lag 4
a
lag 5
a
lag 6
a
−4
−2
02
46
lag 7
a−
4−
20
24
6
lag 8
a
lag 9
a
lag 10
a
lag 11
a
−6 −4 −2 0 2 4 6 8lag 12
a
−4
−2
02
46
Unità C: Stima della funzione di autocorrelazione 37
. . . la sua soluzione
.
la figura si riferisce
a pagina alla serie
34 (b)35 (d)
36 (a)37 (c)
Unità C: Stima della funzione di autocorrelazione 38
La temperatura al castello di Nottingham
Time
notte
m
1920 1925 1930 1935 1940
3035
4045
5055
6065
E’ evidente la presenza (come atteso) di una importantecomponente stagionale.
Unità C: Stima della funzione di autocorrelazione 39
Un correlogramma a Nottingham
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
Si osservi come le onde nel periodogramma “si
smorzino” lentamente. A 10 anni di distanza1 c’èancora della dipendenza. Tenendo presente che “stiamo
dividendo per n” (vedi pagina 25), la diminuzionepotrebbe addirittura essere un artefatto. Infatti. . .
1Si osservi che i ritardi nel grafico della funzione di autocorrelazione, fatto inR, sono etichettati utilizzando gli anni non i mesi.Unità C: Stima della funzione di autocorrelazione 40
A castello è meglio essere corretti
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
. . . se “dividiamo per n − h” il correlogramma non“diminuisce più”.
Unità C: Stima della funzione di autocorrelazione 41
Nottingham: grafici di “autodispersione”
lag 12
notte
m30
4050
60
30 40 50 60 70
lag 24
notte
m
lag 36
notte
m
30 40 50 60 70
lag 48
notte
m
lag 60
notte
m
lag 72
notte
m
3040
5060
lag 84
notte
m30
4050
60
lag 96
notte
m
lag 108
notte
m
lag 120
notte
m
lag 132
notte
m
30 40 50 60 70lag 144
notte
m
3040
5060
Si osservi che sono mostrati solo i “ritardi” stagionali.Quindi, l’ultimo grafico, mostra il digramma di
dispersione tra la temperatura di “oggi” e quella di “12anni fa”.
Unità C: Stima della funzione di autocorrelazione 42
lag 6
notte
m30
4050
60
30 40 50 60 70
lag 18no
ttem
lag 30
notte
m
30 40 50 60 70
lag 42
notte
m
lag 54
notte
m
lag 66
notte
m
3040
5060
lag 78
notte
m30
4050
60
lag 90
notte
m
lag 102
notte
m
lag 114
notte
m
lag 126
notte
m
30 40 50 60 70lag 138
notte
m
3040
5060
Rispetto al grafico di prima i ritardi sono stati sfasatidi 6 mesi. Con un pò di licenza potremmo dire che
stiamo guardando alla correlazione tra la temperaturanell’inverno/primavera/estate/autunno di un anno e
quella nell’estate/autunno/inverno/primavera di 1, 2, . . .anni prima.Unità C: Stima della funzione di autocorrelazione 43
Esercizio
lag 1
notte
m30
4050
60
30 40 50 60 70
lag 2
notte
m
lag 3
notte
m
30 40 50 60 70
lag 4
notte
m
lag 5
notte
m
lag 6
notte
m
3040
5060
lag 7
notte
m30
4050
60
lag 8
notte
m
lag 9
notte
m
lag 10
notte
m
lag 11
notte
m
30 40 50 60 70lag 12
notte
m
3040
5060
La figura mostra i diagrammi di autodispersione per iprimi 12 ritardi. In alcuni dei grafici compaiono delle
sorta di anelli. Spiegare perche’.
Unità C: Stima della funzione di autocorrelazione 44
La produzione di automobili in Giappone
Il grafico mostra il numero di automobili (in migliaia)prodotte in Giappone dal 1949 al 1989. La serie è
evidentemente non stazionaria visto l’aumento dellamedia (trend) negli anni.
1950 1960 1970 1980 1990
020
0040
0060
0080
0010
000
1200
0
Unità C: Stima della funzione di autocorrelazione 45
Il correlogramma è quelo tipico in questo casi: positivoe vicino ad uno all’inizio, poi decresce lentamente
e inverte il suo segno ad un ritardo pari adapprossimativamente la metà della lunghezza della serie
osservata.
0 5 10 15 20 25 30
−1.
0−
0.5
0.0
0.5
1.0
0 5 10 15 20 25 30−
1.0
0.0
0.5
1.0
Il secondo correlogramma è stato ottenuto “dividendoper n−h”. Si osservi come in questo caso la correlazione
negativa a ritardi elevati diventi addirittura inferiore a
−1!!!
Unità C: Stima della funzione di autocorrelazione 46
Esercizio
La figura mostra i diagrammi dia autodispersione per laserie considerata nelle pagine precedenti. Indicando con
yt la variabile posta sulle ascisse in ogni grafico, dire sesulle ordinate è stato disegnato yt−h o yt+h per i valori
prescelti di h (in questo caso 1, . . . , 12)?
lag 1
d0
2000
6000
1000
0
0 2000 6000 10000
lag 2
d
lag 3
d
0 2000 6000 10000
lag 4
d
lag 5
d
lag 6
d
020
0060
0010
000
lag 7
d0
2000
6000
1000
0
lag 8
d
0 2000 6000 10000lag 9
d
Unità C: Stima della funzione di autocorrelazione 47
Il test di Ljung-Box (e quello di Box-Pierce)
Una statistica test che può essere utilizzata per verificare
l’ipotesi che il processo sia un white noise è
TL&B = n(n + 2)
H∑
h=1
ρ2(h)
n− h
dove H è un intero prescelto. Sotto l’ipotesinulla (assenza di autocorrelazione) TL&B si distribuisce
asintoticamente come una variabile casuale χ2 con H
gradi di libertà. Valori troppo grandi rispetto a quelli
che ci aspettiamo da questa distribuzione sono evidenzache l’autocorrelazione “non è solo apparente”.
Un test, asintoticamente analogo a quello di Ljung e Box,
si basa sulla statistica test proposta e studiata da Box e
Pierce
TB&P = n
H∑
h=1
ρ2(h).
La differenza tra le due statistiche consiste semplicemen-
te nella differente ponderazione adottata: nella primail quadrato di ρ(h) “entra” con peso n(n + 2)/(n −
h) mentre nella seconda con peso n. Asintotica-mente sono equivalenti. Si può però mostrare che
la prima statistica converge più rapidamente alla suadistribuzione asintotica. E’ quindi consigliabile utilizzare
TL&B.Unità C: Stima della funzione di autocorrelazione 48
Esempio 1. Con i dati del primo esempio di pagina29, TL&B calcolato sulla base dei primi 20 coefficien-
ti di autocorrelazione campionari vale 26,63. Unaapprossimazione del livello di significativà del test è
quindiProb(χ2
20 ≥ 26,63) ≈ 0,15.
Le differenze da zero delle autocorrelazioni campionarie
potrebbero quindi essere semplicemente dovute al erroredi stima.
Esempio 2. Con i dati del secondo esempio di pagina
29, TL&B calcolato sulla base dei primi 20 coefficien-
ti di autocorrelazione campionari vale 87,65. Unaapprossimazione del livello di significativà del test è
quindiProb(χ2
20 ≥ 87,65) ≈ 2 × 10−10.
Questo valore ci dice che applicando la medesimaprocedura a serie storiche incorrelate ci aspettiamo un
valore della statistica test grande come quello osservato
circa due volte ogni dieci miliardi di occasioni. Quindi,ci suggerisce che l’autocorrelazione segnalata dal grafico
è reale (e non semplicemente dovuta all’errore di stima).
Unità C: Stima della funzione di autocorrelazione 49
Unità D
Scomposizione di una serie temporalein componenti elementari
• trend, stagionalità e componente irregolare
• differenti modelli di composizione delle componenti
• serie destagionalizzate
E se il processo non è stazionario?
Molte serie temporali contengono evidenti segni di non-stazionarietà In particolare in posizione e dispersione.
In questi casi, è abbastanza comune per non perderei vantaggi assicurati dalla stazionarietà, cercare di
trasformare la serie originale in una serie stazionaria.
Ovviamente, una possibilità per realizzare il “programma
precedente” consiste nello stimare la parte non
stazionaria della serie osservata per poi rimuoverla.
Questo tra l’altro è un problema spesso interessante diper se.
Unità D: Scomposizione di una serie . . . 51
Componenti di una serie temporale
Non è infrequente che una serie storica possa esserepensata come la composizione di varie componenti.
In particolare, spesso, anche solo guardando il graficodella serie, sono evidenti:
[trend] una componente che varia lentamente nel tempo
e che essenzialmente determina il livello della serie;
[stagionalità] una o più componenti periodiche, ovveroche si “ritrovano” uguali o quasi a distanza fissa nel
tempo (ad esempio, in serie mensili ogni 12 mesi, inserie trimestrali ogni 4 trimesti, in serie giornaliere,
ogni 7 giorni);[componente irregolare] una componente più erratica
che determina nella serie delle oscillazioni tipicamentedi breve periodo. Normalmente può essere assimilato
ad un processo stocastico stazionario.
Unità D: Scomposizione di una serie . . . 52
Modelli di composizione
Indichiamo con Tt, St e It le tre componenti. Le manierein cui possono interagire per “formare” la serie osservata
possono essere differenti. Alcuni esempi sono i seguenti“modelli” di composizione
additivo: yt = Tt + St + It;
moltiplicativo: yt = TtStIt;
moltiplicativo con comp. irr. additiva yt = TtSt + It.
Unità D: Scomposizione di una serie . . . 53
Esempio di una serie “additiva”
2200
2600
3000
y
2400
2600
2800
3000
3200
tren
d
−10
0−
500
5010
0
seas
−10
0−
500
5010
015
0
irr
2 4 6 8 10
Time
L’ampiezza delle oscillazioni stagionali e della componente irregolare nella serie (primo grafico del pannello) è la
stessa a prescindere dal livello della serie stessa.
Unità D: Scomposizione di una serie . . . 54
Esempio di una serie “moltiplicativa”0
1000
3000
5000
y
200
600
1000
1400
tren
d
0.5
1.0
1.5
2.0
2.5
seas
12
34
irr
2 4 6 8 10
Time
Le oscillazioni stagionali e la componente irregolare “entrano” nella serie (primo grafico del pannello) con una
ampiezza che dipende dal livello della serie (ovvero dal trend).
Unità D: Scomposizione di una serie . . . 55
Destagionalizzazione di una serie
temporale
Nelle prossime unità vedremo alcune tecniche utili perscomporre una serie temporale nelle sue componenti
elementari e quindi, in particolare, per stimarne lacomponente stagionale.
Un’utilizzo di queste tecniche consiste nella produzionedi cosidette serie destagionalizzate ovvero serie in cui la
parte periodica e predicibile sia stata rimossa.
I dettagli di come può essere fatto dipendono dal
modello di composizione. Ad esempio, nel caso di unmodello [additivo, moltiplicativo] è sufficiente [sottrarre
dalla,dividere la] serie originale [,per] la componentestagionale.
Esercizio: Proporre una formula per destagionalizzareuna serie per cui si è adottato un modello moltiplicativo
con componente irregolare additiva.
Unità D: Scomposizione di una serie . . . 56
Perchè destagionalizzare?
? Si supponga che qualcuno vi dica che la media dellaCO2 a Padova è risultata a novembre il 20% più elevata
che a ottobre.
? Possiamo affermare che l’inquinamento è “realmente”
aumentato? Boh!!!
? L’aumento potrebbe essere semplicemente “stagionale”
e ad esempio legato al maggiore utilizzo delleautomobili e del riscaldamento privato dovuto alle
temperature più fredde (traffico e riscaldamento sonole fonti maggiori di CO2);
? Nella serie destagionalizzata questa componenteprevedibile “speriamo” di averla eliminata.
? Ovviamente lo stesso discorso può essere fatto inmoltissime altre situazioni. Ad esempio, un aumento
degli occupati nell’agricoltura del 10% tra giugno emaggio è una indicazione di un vero e proprio boom
economico?
Unità D: Scomposizione di una serie . . . 57
? Inoltre la componente stagionale costituisce spesso unaparte della serie storica la cui esistenza è scontata e la
cui spiegazione è quindi nota e perciò non particolar-mente interessante. Nello stesso tempo però può
essere sufficientemente “grande” per mascherare altriandamenti.
? Un esempio è mostrato nei prossimi due grafici:
i) il primo mostra la serie mensile dei passegeri su
tratte aeree internazionali (in migliaia) dai 1949al 1960; è evidente un trend crescente e una forte
componente stagionale;
ii) nel secondo grafico viene mostrata una versione
“destagionalizzata” della stessa serie con aggiuntauna stima della componente di trend.
Si noti come nel secondo grafico sia evidente i duerallentamenti nella crescita avvenuti tra il 1953/54
(guerra di Corea?) e il 1957/58 (conseguenza di alcuni“disastri”?) Lo stesso non si può dire con riferimento al
primo grafico dove i due rallentamenti sono “coperti”
dalla componente stagionale.
Unità D: Scomposizione di una serie . . . 58
Passegeri delle linee aree internazionaliSerie osservata
AirP
asse
nger
s
1950 1952 1954 1956 1958 1960
100
200
300
400
500
600
Unità D: Scomposizione di una serie . . . 59
Passegeri delle linee aree internazionaliSerie destagionalizzata
1950 1952 1954 1956 1958 1960
200
300
400
500
serie destagionalizzatastima del trend
Unità D: Scomposizione di una serie . . . 60
Unità E
Stima della media e sua scomposizio-ne mediante modello di regressione
? richiami sul modello lineare di regressione multipla
? rappresentazione del trend mediante un polinomio
? rappresentazione della stagionalità mediante variabilidummies
CO2 a Mauna Loa
Illustriamo le tecniche di questo unità utilizzando laseguente serie mensile di misurazioni di CO2 a Mauna
Loa (una località delle Haway).
Time
co2
1960 1970 1980 1990
320
330
340
350
360
Sono evidenti
- una componente di trend sufficientemente regolare
(potrebbe essere un polinomio del secondo ordine)- una componente stagionale
che rendono la serie non stazionaria.
Unità E: Stima della media e sua . . . 62
Il grafico è stato costruito nella seguente maniera:
- per prima cosa, ad ogni osservazione è stata sottratta lamedia delle 12 osservazioni del “suo” anno
- poi, separatamente per ogni anno, i 12 scarti sono stati
disegnati verso il numero d’ordine del mese.
2 4 6 8 10 12
−2
02
4
Il grafico mostra che il profilo stagionale è sostanzialmen-
te rimasto lo stesso per tutti i 39 anni considerati.
Unità E: Stima della media e sua . . . 63
Questo porta a pensare ad un modello del tipo
yt = (Trend)t + (Stagionalità)t + (Errore)t
dove
- (Trend)t è un polinomio del secondo ordine, ovvero,
(Trend)t = α0 + α1t+ α2t2
- (Stagionalità)t è una componente periodica che siripete di anno in anno, ovvero,
(Stagionalità)t+12 = (Stagionalità)t.
Unità E: Stima della media e sua . . . 64
Una conferma giunge anche dal grafico seguente chemostra le sotto-serie mensili (ovvero la serie di tutti
i gennaii disegnata contro l’anno,. . . ). Se vale ilmodello precedente in questo grafico dovremmo infatti
osservare 12 curve approssimamente parallele, ciascunaapprossimabile da un “pezzettino” di parabola).
1960 1970 1980 1990
320
330
340
350
360
1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9
1
1
1
1
1
1
1
1
1
Unità E: Stima della media e sua . . . 65
CO2: un modello lineare
Poniamo
φi = (Stagionalità)i per i = 1, . . . , 12
Allora, il modello prima formulato per la CO2 può esserescritto come un modello lineare del tipo
yt = α0 +α1t+α2t2 +φ1d1,t+ · · ·+φ12d12,t + (Errore)t
dove, d1,t è una variabile che vale 1 se siamo nel mese di
gennaio e zero altrove, d2,j è una variabile che vale 1 sesiamo nel mese di febbraio e zero altrove,. . . . Variabili
indicatrici di questo tipo sono usualmente chiamatedummy (=mute).
Scritto in termini matriciali il modello diventa
y1
y2...
y11
y12
y13......
y468
=
1 1 12 1 0 ... 0 0
1 2 22 0 1 ... 0 0... ... ... ... ... ... ... ...
1 11 112 0 0 ... 1 01 12 122 0 0 ... 0 1
1 13 132 1 0 ... 0 0... ... ... ... ... ... ... ...... ... ... ... ... ... ... ...
1 468 4682 0 0 ... 0 1
α0
α1
α2
φ1
φ2...φ11
φ12
+ ε
Unità E: Stima della media e sua . . . 66
Si osservi che in un modello del tipo
(serie osservata)=(trend)+(stagionalità)+(errore)
il livello medio dei tre addendi in cui viene scompostala serie osservata è in una qualche forma arbitrario.
Ad esempio, assegnata una scomposizione di questo
tipo, possiamo generarne un’altra perfettamente validaaggiungendo un valore arbitrario, indichiamolo con δ,
al trend e sottraendo δ/3 alla componente stagionale e2δ/3 alla componente di errore.
Possiamo superare questa ambiguità imponendo deivincoli in maniera tale che la prima componente, quella
di trend, sia interpretabile come quella che ci fornisce illivello della serie osservata.
In particolare, sembra sensato chiedere che la sommadella componente stagionale in un anno sia nulla. Nel
caso del modello lineare precedente, questo diventa ilseguente vincolo lineare sui parametri
φ1 + · · · + φ12 = 0.
Le stime a minimi quadrati possono quindi essere
ottenuti con la procedura indicata nel lucido (75).
Esercizio: Formulare i dettagli (in particolare cosa è a e
β?)Unità E: Stima della media e sua . . . 67
320
340
360
data
320
340
360
tren
d
−3
−1
01
23
seas
onal
−2
−1
01
2
rem
aind
er
1960 1970 1980 1990
Time
co2 ~ p(2) + c
Il primo grafico mostra la serie originale, il secondo lacomponente di trend stimata, il terzo la componente
stagionale, l’ultimo la componente erratica.
Unità E: Stima della media e sua . . . 68
Si osservi come la componente di errore sia evidentemen-te autocorrelata positivamente (si spieghi perche’
basandosi sul terzo grafico precedente; può essereconveniente costruirsi ad esempio un diagramma di
autodispersione su cui disegnare approssimativamente(Errore)t−1 sull’asse delle ascisse e (Errore)t−1 sull’asse
delle ordinate) e forse, addirittura, non stazionaria inmedia.
Questo ci è confermato dal correlogramma empirico
0 1 2 3 4 5
−1.0
−0.5
0.0
0.5
1.0
Lag
ACF
che “decresce lentamente” e forse mostra la presenzauna residua componente stagionale (Esercizio: Perche’?)
Unità E: Stima della media e sua . . . 69
CO2: serie destagionalizzata
Avendo stimato la componente stagionale possiamo“eliminarla” ottenendo la cosidetta serie destagiona-
lizzata. In questo caso, ci basta sottrarre dalla serieoriginale la componente stagionale
Time
1960 1970 1980 1990
320
330
340
350
360
Osservazione: Poichè la componente erratica mostra
qualche segno di stagionalità, la procedura utilizzataper ottenere la serie destagionalizzata è criticabile.
Ritorneremo nella prossima unità su questo punto. Inogni caso, trend e stagionalità “spiegano” più del 99%
della varianza della co2 (l’R2 del modello vale 0,997).Quindi, “l’ombra” di stagionalità magari è presente ma
di certo non è importante.
Unità E: Stima della media e sua . . . 70
Altri modelli di regressione: cenni
• Al posto di variabili dummy, possiamo utilizzarefunzioni trigonometriche per introdurre in un
modello di regressione una componente periodica.
• Possiamo anche introdurre interazioni tra trend e
stagionalità ad esempio introducendo nel modello deitermini che sono il prodotto di quelli visti nell’appli-
cazione fatta. Nel contesto in cui stiamo operandoci servirebbero, ad esempio, per modellare una
componente stagionale che varia nel tempo.
• In alcuni campi applicativi è comune utilizzare per
stimare la componente di trend funzioni diverse daipolinomi.
• . . .
Non affrontiamo questi argomenti in parte per problemidi tempo in parte perchè nei corsi di Modelli I e II
sviluppate capacità di questo tipo. E quindi. . .
Unità E: Stima della media e sua . . . 71
Appendice: richiami sul modello di
regressione lineare multiplo
situazione: una variabile dipendente (y) e k variabiliesplicative (x1, . . . , xk).
relazione “lineare”:
yi = β0 + β1x1i + · · · + βkxki + (errore)i
dove
- yi indica l’i-sima osservazione sulla variabile dipendente
mentre- xji indica l’osservazione i-sima sulla j-sima variabile
dipendente.
scrittura matriciale: n osservazioni possono essere
scritte compattamente come
y = Xβ+ ε
ovvero
y1......
yn
=
1 x11... xk1
... ... ... ...
... ... ... ...
1 x1n... xkn
β0...βk
+
errore1......
erroren
Unità E: Stima della media e sua . . . 72
minimi quadrati: la stima a minimi quadrati deiparametri di regressione, ovvero, il valore di β =
(β0, . . . ,βk) che minimizza
(y− Xβ)T(y− Xβ) =
n∑
i=1
(yi − β0 − β1x1i − · · · − βkxki)2
valeβ = (XTX)−1XTy
valori previsti: il valore “previsto”/”interpolato” dalmodello “alle” variabili esplicative (x1, . . . , xk), ovvero,
β0 + β1x1 + · · · + βkxk
è una combinazione lineare delle “y” originali, ovvero, è
del tipon∑
i=1
wiyi
Infatti,
β0+β1x1+· · ·+βkxk = (1, x1, . . . , xk)(XTX)−1XTy = wTy.
Ovviamente i pesi w dipendono dalla matrice di disegno
X e dalle “x” a cui vogliamo calcolare la “previsione”.
Unità E: Stima della media e sua . . . 73
minimi quadrati ponderati: nella soluzione precedentediamo lo stesso peso a tutte le osservazioni. In alcuni
vedremo però che ci interesserà calcolare il vettore β cheminimizza la seguente somma dei quadrati ponderata
n∑
i=1
wi(yi − β0 − β1x1i − · · · − βkxki)2
dove w = (w1, . . . ,wn) sono pesi noti assegnati ad ogniosservazione. E’ possibile in questo caso far vedere che
la soluzione è data da
β(w) = (XTWX)−1XTWy
dove W = diag(w1, . . . ,wn) ovvero è una matricediagonale in cui w1 è l’elemento (1, 1), w2 l’elemento
(2, 2) e così via.
Nota: Anche in questo caso i valori previsti dal modello
sono funzione lineare delle “y”.
Unità E: Stima della media e sua . . . 74
minimi quadrati con un vincolo: Supponiamo ora divoler stimare il modello ma di sapere a priori che il
vettore dei parametri, β, soddisfa esattamente al vincolo
aTβ = 0
dove a è un qualsiasi vettore noto.
E’ possibile dimostrare che, tra tutti i vettori che
soddisfano il vincolo, quello che minimizza la somma deiquadrati degli scarti delle osservazioni dai valori previsti
dal modello, ovvero che risolve il problema di minimovincolato
{minβ0,...,βk
∑ni=1(yi − β0 − β1x1i − · · · − βkxki)2
con il vincolo che a0β0 + · · · + akβk = 0
è
β(a) = β−aTβ
aTaa
dove β è lo stimatore a minimi quadrati.
Nota: La formula in se non è molto interessante.L’importante è che il problema abbia una soluzione
facilmente calcolabile.
Unità E: Stima della media e sua . . . 75
Unità F
Scomposizione di una serie temporale:un approccio flessibile
Il punto debole. . .
. . . dell’approccio precededente è che i risultati dipendonoin maniera cruciale dalla capacità e dalla possibilità di
scegliere in maniera appropriata le “funzioni” con cuiinterpolare il trend e la componente stagionale.
In questa unità studieremo un approccio più “flessibile”.
La trattazione è orientata
∗ al mostrare le connessioni esistenti con i problemi di
regressione non parametrica;
∗ all’analisi esplorativa ed interattiva dei dati più che alla
produzione di statistiche ufficiali.
Unità F: Scomposizione di una serie . . . 77
Regressione non parametrica: cenni
[il problema] - sono disponibili dei dati bivariati deltipo
{(x1,y1), . . . , (xn,yn)}
su due variabili X e Y;
- la relazione tra “la X” e “la Y” può essere scritta nella
formayi = f(xi) + εi (F.1)
dove f(·) = E(Y|X = x) mentre le “εi” sono dellevariabili casuali (visto quanto detto con media nulla);
- non sappiamo come specificare f(·) parametricamente(ad esempio, non è una retta, non è un polinomio,. . . );
- però sappiamo che f(·) è una funzione continua e
senza oscillazioni particolarmente violente;- vogliamo utilizzare i dati per costruire una stima di f(·)
Unità F: Scomposizione di una serie . . . 78
[medie locali] Si supponga che
f(x) = η per quasivoglia x
dove η indica una costante coincidente con la mediadella variabile Y1
In questo caso degenere, potremmo stimare f(·)mediante
f(x) = η = y =1
n
n∑
i=1
yi per qualsivoglia x
ovvero, semplicemente calcolando la media delle “y”.
3 4 5 6 7
1214
1618
2022
x
y
f(x) = y
1Si ricordi che, per la (F.1), possiamo scrivere yi = η + εi e che le “ε” hannomedia nullaUnità F: Scomposizione di una serie . . . 79
La media delle “Y” non può essere la soluzione generale.
0 1 2 3 4 5
−4
02
46
8
x
y
f(x) = y
Però, se le oscillazioni di f(·) sono dolci, possiamopensare di stimare f(·) mediante delle medie locali del
tipo
f(x) =
media delle yi tali che |xi − x|
sia minore di una costanteprescelta
o, del tipo,
f(x) =
media ponderata delle yi conpesi costruiti in maniera che
risultino “grandi” se xi ≈ x e“piccoli” se xi è “lontano” da x
Unità F: Scomposizione di una serie . . . 80
Questo ci porta a degli stimatori del tipo
f(x) =
n∑
i=1
wi(x)yi (F.2)
dove wi(x) è il peso che assegnamo a yi quandocalcoliamo la stima di f(·) a x.
−4
−2
02
46
8
0.00
0.02
0.04
0.06
0.08
0.10
pesi usati per stimare f(1)
0.00
0.02
0.04
0.06
0.08
0.10
pesi usati per stimare f(4)
0 1 2 3 4 5
Unità F: Scomposizione di una serie . . . 81
[pesi costruiti da un nucleo] Supponiamo di scegliereuna funzione k(·) non decrescente per x < 0 e non
crescente per x > 0 e tale che k(x) ≈ 0 quando |x| èsufficientemente grande. Una possibilità per generare i
pesi consiste nel porre
wi(x) =
k
(
xi − x
h
)
n∑
i=1
k
(
xi − x
h
)
e, quindi,
f(x) =
n∑
i=1
k
(
xi − x
h
)
yi
n∑
i=1
k
(
xi − x
h
)
La funzione k(·) è usualmente indicata come nucleo(kernel in inglese) e lo stimatore risultante stimatore
basato sul metodo del nucleo.
Ad esempio, l’esempio della pagina precedente è stato
costruito utilizzando come nucleo la densità di unadistribuzione normale standard.
Unità F: Scomposizione di una serie . . . 82
Esempi di “nuclei”
I(x<
2)ex
p(−
0.5x
2 )2π
I(x≤
2)(1
−(x
2)2 )2
−3 −2 −1 0 1 2 3
Unità F: Scomposizione di una serie . . . 83
[regressione locale] Una possibilità diversa consistenell’utilizzare come stima di f(x) il valore assunto ad x
da un polinomio adattato utilizzando solo le osservazioni“vicine”.
Ad esempio, uno degli stimatori più utilizzati è lostimatore loess che stima f(x) mediante
f(x) = b0(x) + b1(x)x+ · + bp(x)xp
dove i coefficienti b0(x), . . . ,b1(x), che si osservidipendono da x, sono determinati minimizzando
∑
i
k
(
xi − x
h(x)
)
(yi − b0(x) − b1(x)x− · · · − bp(x)xp)2
con
k(x) =
{(1 − |x|3)3 se |x| ≤ 1
0 altrove
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
0.0
0.2
0.4
0.6
0.8
1.0
x
(1−
x3 )3
Unità F: Scomposizione di una serie . . . 84
h(x) è usualmente determinato in maniera tale che solos osservazioni ricevono un peso maggiore di 0 (con s
valore prefissato).
Per i risultati del lucido 74 anche questo stimatore è del
tipo (F.2) anche se non è detto che i pesi sommino ad 1e che siano positivi.
Unità F: Scomposizione di una serie . . . 85
y
(2, f(2))
w
0 1 2 3 4 5
pesi utilizzati per determinare la retta
La figura illustra come viene determinata la stima perx = 2 nel caso in cui si scelga di adattare una retta (p=1)
utilizzando il 25% delle osservazioni più vicine.
Unità F: Scomposizione di una serie . . . 86
Stima con loess (p=1,s=25%)
0 1 2 3 4 5
−4
−2
02
46
8
x
y
Unità F: Scomposizione di una serie . . . 87
[spline] Una smoothing splines è la soluzione delseguente problema: trovare la funzione f(·) che
minimizza tra tutte le possibili funzioni f : R → R laseguente somma dei quadrati penalizzata
SQp =
n∑
i=1
[yi − f(xi)]2 + v
∫ x(n)
x(1)
[f ′′(x)]2dx
dove x(1) = min(x1, . . . , xn) e x(n) = max(x1, . . . , xn).
Si osservi che
- il primo addendo è una usuale somma dei quadrati
degli scarti tra le osservazioni e i valori previsti dal“modello”; diventa piccolo ovviamente più il “modello”
prevede bene le osservazioni ed, in particolare, diventanullo per ogni funzione che interpoli esattamente i dati
stessi;
- il secondo addendo viceversa è una penalità chediventa grande più la derivata seconda è grande (in
modulo), ovvero più varia la derivata prima, ovveropiù f(·) si allontana da una retta (per una retta la
derivata seconda è sempre nulla); penalizza quindi lefunzioni “non liscie”, quelle con molte oscillazioni e
cambi di pendenza;
Unità F: Scomposizione di una serie . . . 88
- v è un coefficiente che controlla il peso relativo dei dueaddendi; in particolare se v è piccolo la penalizzazio-
ne non “pesa”; in questo caso, otteniamo una f(·)che tende ad interpolare molto bene anche a costo
di essere troppo poco “liscia” (ovvero può interpolareanche la componente erratica); viceversa se h è grande
la penalità pesa molto e quindi otteniamo una stimamolto “liscia” (per v → ∞ otteniamo, qualsiasi siano i
dati, una retta visto che in ogni altro caso la penalità
dominerebbe SQp). Si veda l’esempio a pag. 90.
E’ possibile dimostrare che
? la soluzione del problema è una funzione continua conle prime due derivate continue che
? in ognuno degli intervalli determinato dai valori
distinti nelle “x” è un polinomio del terzo ordine;
Ad esempio se supponiamo che tutte le “x” sianodifferenti e “già ordinate” (ovvero x1 < x2 < · · · < xn)
la soluzione è un polinomio cubico in tutti gli intervalli
[xi−xi+1], i = 1, . . . ,n−1; i coefficienti dei vari polinomiche “rappresentano” localmente la funzione non sono
completamente liberi ma soddisfano a dei vincoli chegarantiscono la continuità della soluzione e delle sue
prime due derivate.
E’ inoltre possibile far vedere che anche questo stimatore
è del tipo (F.2).
Unità F: Scomposizione di una serie . . . 89
0 1 2 3 4 5
−4
−2
02
46
8
x
y
v "giusto"
v "piccolo"
v "grande"
Unità F: Scomposizione di una serie . . . 90
[numero di parametri equivalenti] Gli stimatori vistihanno un parametro “aggiustabile” che controlla il grado
di lisciamento (h nel caso dello stimatore del nucleo, snel caso dello stimatore loess, v nel caso delle spline).
Al di là dei dettagli formali, è possibile inoltre far vedereche una volta fissato h o s o v, lo stimatore che si
ottiene ha, nella sostanza, la flessibilità di un modello diregressione con un certo numero di parametri, numero
che viene usualmente chiamato numero di parametri
equivalenti.
Ovviamente più il numero di parametri equivalenti ègrande più lo stimatore è flessibile e viceversa.
Il numero di parametri equivalenti costituisce quindi una
maniera unificata per fissare il grado di lisciamento
desiderato.
Tra l’altro, stimatori diversi (ad esempio “loess” o“spline”) con un numero di parametri equivalenti uguali
producono di norma stime molte simili (si vedano i
grafici nelle prossime pagine).
Unità F: Scomposizione di una serie . . . 91
0 1 2 3 4 5
−4
−2
02
46
8
x
y
spline npe=3
loess npe=3
npe: numero di parametri equivalenti
Unità F: Scomposizione di una serie . . . 92
0 1 2 3 4 5
−4
−2
02
46
8
x
y
spline npe=10
loess npe=10
npe: numero di parametri equivalenti
Unità F: Scomposizione di una serie . . . 93
0 1 2 3 4 5
−4
−2
02
46
8
x
y
spline npe=30
loess npe=30
npe: numero di parametri equivalenti
Unità F: Scomposizione di una serie . . . 94
[scelta del grado di lisciamento] La/e costante/i checontrollano il grado di lisciamento (ad esempio, il
“numero di parametri equivalenti”) può/possono esserescelta/e “ad occhio” utilizzando un procedimento di
prova ed errore e cercando di bilanciare il grado dilisciamento con la capacità della curva stimata di
descrivere i dati.
Esistono poi procedure più formali. Alcune tra le
più popolari sono basate su tecniche di validazione
incrociata. Nella forma più semplice la validazione
incrociata funziona ± così:
? i dati sono divisi (casualmente) in due sottoinsiemi;
? f(·) viene stimata sul primo sottoinsieme utilizzandovari valori per la costante che controlla il lisciamento;
? le varie stime vengono utilizzate per prevedere leosservazioni del secondo sottoinsieme;
? il parametro di lisciamento della “curva migliore”,ovvero quella che ha previsto in maniera migliore il
secondo gruppo di dati viene adottato per produrre la
stima “finale” di f·) che ovviamente sarà basata su tuttii dati.
Esistono poi varie varianti a questo schema di base
(più di due sottoinsiemi,. . . ). Non li approfondiamo
anche perchè la “validazione incrociata” non funziona
particolarmente bene quando i residui intorno alla f(·)sono autocorrelati.
Unità F: Scomposizione di una serie . . . 95
Un approccio alternativo si basa sull’utilizzo di criteri deltipo
n log(σ2p) + cp
dove
- indicata con fp(·) la stima di f(·) ottenuta utilizzandop parametri equivalenti,
σ2p =
1
n
n∑
i=1
(
yi − fp(xi))2
- mentre c è una appropriata costante positiva(eventualmente dipendente da n ma non da p)
La scelta di p avviene minimizzando il criterio.
Il primo addendo misura quanto la stima di f(·)“prevede” bene le osservazioni e quindi, usualmente,decresce al crescere di p (più p è grande più lo stimatore
usato è flessibile, quindi meglio riesce a riprodurre i datiosservati). Il secondo addendo invece penalizza i valori
grandi di p.
“Famosi” criteri di questo tipo sono
Akaike Information Criterion: lo si ottiene ponendo
c = 2; è spesso indicato con la sigla AICSchwarz Information Criterion o Bayesian Information
Criterion: lo si ottiene ponendo c = log(n) ; spesso
viene indicato con la sigla BIC.
Unità F: Scomposizione di una serie . . . 96
Stima del trend in assenza di stagionalità
Per una serie non stagionale i metodi appena descrittisono utilizzabili direttamente per la stima della
componente del trend. Il ruolo delle “x” sarà in questocaso giocato dal tempo, ovvero xi = ti dove ti indica
l’istante di tempo in cui è stato osservato l’i-simo valoredella serie temporale, mentre ovviamente le “y” saranno
i valori della serie stessa.
Unità F: Scomposizione di una serie . . . 97
Medie mobili e filtri lineari
Lo stimatore del trend che si ottiene nella parte centraledelle osservazioni (ovvero per t non troppo vicino
all’inizio e alla fine del periodo osservato) è della forma
Tt =
m∑
i=−m
wiyt+i (F.3)
dovem è un intero appropriato e wi sono opportuni pesiche sommano a 1 (
∑iwi = 1). Si osservi che i pesi non
dipendono da t. Una trasformazione di questo tipo vieneusualmente indicata con il termine di media mobile. Il
suo caso generale, ovvero quando la somma dei pesi èarbitraria, viene chiamata filtro lineare.
Le medie mobili hanno una lunga tradizione diutilizzo nella scomposizione di una serie temporale.
Affrontare questo problema partendo dalla regressionenon parametrica presenta però alcuni vantaggi:
• permette di costruire i pesi in maniera più naturale;• chiarisce cosa può essere fatto all’inizio e alla fine
della serie (si osservi infatti che una formula del tipo(F.3) è incalcolabile se t ≤m o t > n−m);
• permette di trattare anche serie con valori mancanti
senza “moltiplicarli” come accadrebbe se si rimanesselegati alla (F.3).
Unità F: Scomposizione di una serie . . . 98
Stima della componente stagionale in
assenza di trend
Il grafico nel lucido 100 mostra una serie mensile“solo stagionale” ovvero senza visibili traccie di una
componente di trend. La componente stagionale sembraperò evolversi nel tempo. In particolare la sua ampiezza
aumenta.
Il grafico nel lucido 101 mostra le 12 sottoserie mensili:
(i) il grafico in basso a sinistra mostra i valori osservatinei vari mesi di gennaio; (ii) quello alla sua destra i
valori osservati nei vari mesi di febbraio; (iii) e così via;l’ordinamento è da sinistra verso destra e dal basso in
alto (ovvero il grafico sulla seconda riga, terza colonna
riporta i valori osservati nei vari anni durante il mese diluglio)
Una possibilità per stimare la componente stagionale
consiste nel “lisciare” ciascuna di queste sottoserie
utilizzando i metodi presentati all’inizio dell’unità. Sivedano i grafici nei lucidi 102 e 103.
Unità F: Scomposizione di una serie . . . 99
Una serie “solo” stagionale
2 4 6 8 10 12
0.8
0.9
1.0
1.1
1.2
1.3
Unità F: Scomposizione di una serie . . . 100
Grafico delle sottoserie mensili0.
80.
91.
01.
11.
21.
3
2 4 6 8 10 12 2 4 6 8 10 12
0.8
0.9
1.0
1.1
1.2
1.3
2 4 6 8 10 12
0.8
0.9
1.0
1.1
1.2
1.3
2 4 6 8 10 12
Given : cycle(y)
Unità F: Scomposizione di una serie . . . 101
Grafico delle sottoserie mensili “lisciate” utilizzandouna “spline” con 3 parametri equivalenti.
0.8
0.9
1.0
1.1
1.2
1.3
2 4 6 8 10 12 2 4 6 8 10 12
0.8
0.9
1.0
1.1
1.2
1.3
2 4 6 8 10 12
0.8
0.9
1.0
1.1
1.2
1.3
2 4 6 8 10 12
Given : cycle(y)
Unità F: Scomposizione di una serie . . . 102
Serie osservata (cerchietti) con stima della componentestagionale (linea continua)
2 4 6 8 10 12
0.8
0.9
1.0
1.1
1.2
1.3
Unità F: Scomposizione di una serie . . . 103
Stima simultanea delle componenti di trend
e stagionali: l’algoritmo di backfitting
Supponiamo che la serie osservata presenti sia unacomponente di trend che una componente stagionale
che si combinino tra di loro in accordo al modellomoltiplicativo (lucido 53). Supponiamo inoltre, per il
momento, di avere a disposizione una stima preliminare
della componente di trend (indichiamola con T(0)t ).
Una possibilità per stimare simultaneamente le due
componenti consiste nell’utilizzare un approccio basato
sul cosidetto algoritmo di backfitting che si concretizzanei seguenti passi:
1. Poniamo i uguale ad 1;
2. Calcoliamo una versione della serie “senza trend”
a(i)t = yt/T
(i−1)t e poi una stima della componente
stagionale, indichiamola con S(i)t “lisciando” le
sottoserie stagionali di a(i)t .
3. Calcoliamo una versione della serie destagionalizzata
b(i)t = yt/S
(i)t e una stima della componente di trend,
indichiamola con T(i)t , “lisciando” b
(i)t .
4. Poniamo i = i+ 1 e ritorniamo al passo 2 a meno che
l’algoritmo non sia arrivato a convergenza, ovvero T(i)t
non sia sufficientemente vicino a T(i−1)t .
Unità F: Scomposizione di una serie . . . 104
Note
1. Se l’algoritmo viene bloccato dopo i iterazioni,
utilizziamo le ultime stime prodotte, ovvero T(i)t e S
(i)t
come stime della componenti di trend e stagionali-
tà. La componente irrregolare diventa quindi It =
yt/(T(i)t S
(i)t ).
2. Nel caso il modello di composizione sia additivo
possiamo utilizzare l’algoritmo di prima sempliceme-mente ridefinendo
a(i)t = yt − T
(i−1)t
b(i)t = yt − S
(i)t
It = yt − T(i)t − S
(i)t
3. “Partendo” con una stima preliminare della componentestagionale possiamo procedere in maniera essenzialmen-
te analoga semplicemente invertendo i passi 2 e3.
Unità F: Scomposizione di una serie . . . 105
In pratica
L’utilizzo dell’approccio precedente richiede una serie
di scelte da parte dell’analista che possono essere
convenientemente organizzate nel seguente ordine
Come si combinano trend estagionalità? In maniera additiva
o moltiplicativa?
��
oo
Scelta dello stimatore e del gradodi lisciamento del trend; sua
stima preliminare
��
Scelta dello stimatore e del grado
di lisciamento per la stima dellacomponente stagionale
��
Stima simultanea dellecomponenti di trend e stagionali
mediante backfitting
��
I risultati sembranosoddisfacenti?
��
//
Se NO:rivediamo le
scelte fatteprecedente-
mente
OO
Se SI:
interpretiamo ed utilizziamo lascomposizione ottenuta
Unità F: Scomposizione di una serie . . . 106
Passeggeri delle aerolinee
Illustriamo la procedura precedente utilizzando la serieil cui grafico è mostrato nel lucido 59
[tipo di composizione.] Il grafico mostra chiaramente
che l’ampiezza della componente stagionale aumentaall’aumentare del livello della serie osservata (ovvero
del suo trend). Adottiamo quindi in prima ipotesi unmodello moltiplicativo.
[scelta di uno stimatore per il trend] La presenza di
una forte componente stagionale rende difficile capiredalla serie originale quanto sia necessario “lisciare” per
ottenere ragionevoli stime del trend (vedi lucido 111).
Inoltre, se si usa uno stimatore “flessibile” del trend e
lo si applica direttamente alla serie originale, le stimerisentono della componente stagionale (vedi lucido
112).
Per questi motivi è conveniente ragionare con unaversione pre-destagionalizzata della serie osservata
(lucidi 113-116). In questo caso la serie pre-destagionalizzata è molto regolare (la componente di
rumore è bassa). Provando a lisciarla utilizzandostimatori con vari livelli di flessibilità (lucido 117)
vediamo che una spline con 20 gradi di libertà(parametri equivalenti) sembra essere in grado di
descrivere in trend.Unità F: Scomposizione di una serie . . . 107
[scelta di uno stimatore per la stagionalità] Lisciandola serie pre-destagionalizzata con una spline con 20
gradi di libertà otteniamo una stima preliminare deltrend. Dividendo la serie osservata per questa stima
otteniamo una serie in cui la componente di trend è stataapprossimativamente rimossa (lucido 118).
Guardando ad un grafico delle sottoserie (lucido119) possiamo decidere come stimare la componente
stagionale. In questo caso, anche per tenere il“modello” semplice e quindi per ottenere delle stime
stabili abbiamo deciso di lisciare le sottoserie mensilisemplicemente utilizzando delle rette. La capacità
di queste di spiegare le variazioni nella componentestagionale sembra infatti sufficiente (lucido 120).
[lisciamento suggerito da BIC] Il grafico nel lucido121 mostra, utilizzando un grafico a scala di grigio, come
varia il criterio BIC al variare del numero di parametriequivalenti degli stimatori utilizzati per il trend e la
stagionalità. Nel grafico, ambedue le componenti sono
stimate utilizzando delle “spline”.
Il grafico sostanzialmente conferma la scelta fatta a“occhio”. Indica infatti che il numero di parametri
equivalenti da utilizzare per il trend dovrebbe essere
scelto tra 10 e 20 e quello per la stagionalità vicino a2 (2 è ovviamente il numero di parametri liberi in una
retta).
Unità F: Scomposizione di una serie . . . 108
[scomposizione della serie] Avendo deciso, almenopreliminarmente, come stimare trend e stagionali-
tà possiamo stimarli simultaneamente utilizzandol’algoritmo di backfitting. Il risultato è mostrato nel
lucido 122.
Si osservi come i risultati ottenuti indichino che con
il passare degli anni ci sia stato un aumento diimportanza del picco “estivo” mentre abbia via via perso
di importanza il picco “primaverile” osservabile nei primianni. Questi effetti sono ovviamente al netto dell’aumen-
to della ampiezza delle oscillazioni stagionali dovuto altrend (la serie “stagionale” disegnata nel grafico è quella
dei coefficienti “moltiplicativi”).
Unità F: Scomposizione di una serie . . . 109
[verifica della bontà della scomposizione] Verifiche chepossono essere condotte sono
i) disegnare la serie destagionalizzata e il trend per
vedere se quest’ultimo fornisce una descrizione
adeguata delle variazioni di lungo periodo dellamedia; la serie destagionalizzata è ovviamente
quella calcolata con i coefficienti stagionali ottenutialla fine dell’algoritmo di backfitting non quelli
preliminari;ii) disegnare le sottoserie stagionali della serie con
il trend rimosso e verificare l’adattamento deicoefficienti stagionali stimati;
iii) calcolare la funzione di autocorrelazione dellacomponente irregolare; quest’ultima non dovrebbe
indicare residui di stagionalità, ovvero, i coefficienti
di autocorrelazione ai ritardi stagionali dovrebberoessere piccoli; sarebbe inoltre auspicabile che la
componente irregolare presenti al più solamentedella correlazione di breve periodo (solo ai primi
ritardi).
Nel caso in esame i tre grafici sono riportati rispettiva-
mente nei lucidi 123, 124 e 125 e non sembrano indicarela presenza di particolari problemi.
Unità F: Scomposizione di una serie . . . 110
Due stime del trend10
020
030
040
050
060
010
020
030
040
050
060
0
1950 1952 1954 1956 1958 1960
Nel primo grafico, la stima è basata su una spline con
4 “parametri equivalenti”, nel secondo su di una splinecon 20 “parametri equivalenti”. Qualè delle due stime è
migliore? Un pò difficile da dirsi! 2
2Le stime sono state ottenute “lisciando” la serie pre-destagionalizzata (vedilucido 113).Unità F: Scomposizione di una serie . . . 111
Una stima del “trend” che non ci piace!
1950 1952 1954 1956 1958 1960
100
200
300
400
500
600
La stima del trend è stata ottenuta lisciando la serieosservata con una spline con 20 parametri equivalenti.
Si noti come risenta della componente stagionale equindi non sia accettabile come stima del trend.
Unità F: Scomposizione di una serie . . . 112
Pre-destagionalizzazione
Vogliamo mostrare come sia possibile in maniera
approssimativa (e quindi utile soprattutto in una fase
“esplorativa”) ma molto semplice trasformare la serieoriginale in maniera tale da eliminare la componente
stagionale ed “esporre” il trend.
Nel modello moltiplicativo
yt = TtStIt.
Consideriamo, per un prefissato t, gli istanti di tempo
t− 6, . . . , t− 1, t, t+ 1, . . . , t+ 6
che, visto che la serie è mensile, costituiscono leosservazioni di un intero anno più un mese.
Unità F: Scomposizione di una serie . . . 113
Assunzioni sensate sulle componenti sono:
i) Tt ≈ Tt−i per i = −6, . . . , 6 ovvero il trend variamolto lentamente nel tempo;
ii) St ≈ St−12, ovvero la componente stagionale si ripete
quasi uguale in due anni vicini;iii) (St−5 + · · · + St+6)/12 = 1 ovvero, nel corso di
un anno le oscillazioni stagionali si compensano; incaso contrario Tt non sarebbe interpretabile come il
“livello” di yt;iv) la media di It vale 1 per qualsivoglia t; di nuovo, se
questo non accadesse non potremmo interpretare Ttcome il “livello” della serie osservata.
Ma allora
dt =12yt−6 + yt−5 + · · · + yt+5 + 1
2yt+6
12≈ TtIt
dove It = (It−6/2+It−5+ · · ·+It+5+It+6/2)/12 ha media
uno.
Quindi, almeno approssimativamente, dt è una serie
temporale
a) con la componente di trend della seria originale
b) ma in cui la componente stagionale è stata eliminata
Osservazione: dt è calcolabile solo per t = 7, . . . ,n − 6
dove con n abbiamo indicato la lunghezza della serie.
Unità F: Scomposizione di una serie . . . 114
Osservazione. Si osservi che le assunzioni i) e ii)precedenti potrebbero essere sostituite dalla
Tt−5St−5 + · · · + Tt+6St+6
12≈ Tt
ovvero dall’ipotesi che la media della parte sistematica
della serie fatta su di un periodo lungo un anno siaapprossimativamente uguale al trend in uno dei mesi
centrali.
Nel caso avessimo adottato un modello additivo,
avremmo potuto procedere nella medesima maniera.Infatti in questo caso yt = Tt + St + It ed è ragionevole
assumere che
i) Tt ≈ Tt−i per i = −6, . . . , 6;
ii) St ≈ St−12;iii) (St−5 + · · · + St + · · · + St+5 + St+6)/12 = 0
iv) la media di It vale 0 per qualsivoglia t.
Quindi, in questo caso,
dt =12yt−6 + yt−5 + · · · + yt+5 + 1
2yt+6
12≈ Tt + It
dove It = (It−6/2+It−5+ · · ·+It+5+It+6/2)/12 ha media
zero.
Unità F: Scomposizione di una serie . . . 115
Passeggeri delle aerolinee: serie
predestagionalizzata
1950 1952 1954 1956 1958 1960
150
200
250
300
350
400
450
Esercizio. Si estenda il ragionamento precedente al caso
di una serie con una frequenza qualsiasi distinguendo ilcaso in cui il periodo stagionale sia pari o dispari.
Unità F: Scomposizione di una serie . . . 116
Stime preliminari della componente di trend
ottenute “lisciando” la serie
pre-destagionalizzata
spline con 2 gradi di liberta’ spline con 5 gradi di liberta’
spline con 10 gradi di liberta’ spline con 20 gradi di liberta’
Unità F: Scomposizione di una serie . . . 117
Stima preliminare della serie “senza trend”
1950 1952 1954 1956 1958 1960
0.8
0.9
1.0
1.1
1.2
1.3
La serie disegnata è stata ottenuta come
serie osservata
stima preliminare del trend
Unità F: Scomposizione di una serie . . . 118
Grafici delle sottoserie mensili della serie
“senza trend”
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958 1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
Given : cycle(y)
Unità F: Scomposizione di una serie . . . 119
Grafici delle sottoserie mensili della serie
“senza trend”
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958 1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
time(y)
y
Given : cycle(y)
Le varie sottoserie sono state interpolate con una retta
adattata a minimi quadrati.
Unità F: Scomposizione di una serie . . . 120
BIC in funzione dei gradi di lisciamento
utilizzati
−850
−800
−750
−700
−650
5 10 15 20 25 30 35
2
3
4
5
6
Il grafico è basato su di un modello moltiplicativo.
Sia il trend che la stagionalità sono stimati utilizzandodelle “spline”. L’asse delle x mostra il numero di
parametri equivalenti utilizzato per il trend, quello delle
y l’analogo numero utilizzato per stimare la stagionalità.
Unità F: Scomposizione di una serie . . . 121
Scomposizione della serie
100
200
300
400
500
600
data
200
300
400
500
tren
d
0.8
0.9
1.0
1.1
1.2
1.3
seas
onal
0.92
0.96
1.00
1.04
rem
aind
er
1950 1952 1954 1956 1958 1960
Time
AirPassengers ~ s(20) * p(1)
Unità F: Scomposizione di una serie . . . 122
Serie destagionalizzata e trend stimato
1950 1952 1954 1956 1958 1960
200
300
400
500
Unità F: Scomposizione di una serie . . . 123
Serie con il trend eliminato:sottoserie mensili e stagionalità stimata
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958 1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
time(y)
y
Given : cycle(y)
Unità F: Scomposizione di una serie . . . 124
Componente irregolare:funzione di autocorrelazione campionaria
0 1 2 3 4 5
−1.
0−
0.5
0.0
0.5
1.0
Unità F: Scomposizione di una serie . . . 125
Scomposizioni con “problemi”
Nel lucido 127, sono riportati i correlogrammi dellacomponente irregolare di alcune scomposizioni ottenute
con scelte non felici dei gradi di lisciamento.
Nella situazione in alto a sinistra c’è troppa correlazio-
ne a ritardi alti (ad esempio 4 anni= 48ritardi).Normalmente accade quando il trend è stato “lisciato”
troppo (si veda anche il grafico nel lucido 128).
Nella situazione in alto a destra, il correlogramma indica
un residuo di stagionalità nella componente irregolare.Di norma succede quando le sottoserie stagionali sono
“lisciate” troppo (vedi anche il grafico nel lucido 129).
I correlogrammi nella seconda riga, in particolare quello
a destra, indicano un sovraaggiustamento stagionale
(autocorrelazione a ritardo 12 negativa). Di solito
accade quando la componente stagionale viene “lisciata”troppo poco (vedi anche il grafico nel lucido 130). Può
anche accadere se la componente di trend è lisciatatroppo. In questo caso infatti, l’algoritmo di backfitting
non potendo attribuire la parte “giusta” di variabilità
della serie osservata alla componente di trend cercadi utilizzare il più possibile la componente stagionale
finendo per “farlo troppo”.
Unità F: Scomposizione di una serie . . . 126
Correlogrammi che indicano “problemi”
0 1 2 3 4 5
−1.
0−
0.5
0.0
0.5
1.0
trend: polinomio grado 2
stagionalita’: retta
0 1 2 3 4 5
−1.
0−
0.5
0.0
0.5
1.0
stagionalita’: costante
trend: spline 20 gdl
0 1 2 3 4 5
−1.
0−
0.5
0.0
0.5
1.0
trend: spline 20 gdl
stagionalita’: spline 3 gdl
0 1 2 3 4 5
−1.
0−
0.5
0.0
0.5
1.0
trend: spline 20 gdl
stagionalita’: spline 6 gdl
Unità F: Scomposizione di una serie . . . 127
Serie destagionalizzata e trend
1950 1952 1954 1956 1958 1960
200
300
400
500
Il trend è stato stimato utilizzando un polinomio di grado
2. La componente stagionale utilizzando delle rette perinterpolare le sottoserie mensili.
Unità F: Scomposizione di una serie . . . 128
Serie con il trend eliminato:sottoserie mensili e stagionalità stimata
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958 1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
time(y)
y
Given : cycle(y)
Il trend è stato stimato utilizzando una spline con 20
gradi di libertà. La componente stagionale utilizzando
una costante per interpolare le sottoserie mensili.
Unità F: Scomposizione di una serie . . . 129
Serie con il trend eliminato:sottoserie mensili e stagionalità stimata
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958 1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
0.8
0.9
1.0
1.1
1.2
1.3
1950 1954 1958
time(y)
y
Given : cycle(y)
Il trend è stato stimato utilizzando una spline con 20
gradi di libertà. La componente stagionale utilizzando
una spline con 6 gradi di libertà per interpolare lesottoserie mensili.
Unità F: Scomposizione di una serie . . . 130
Estensioni e cautele
- Spesso prima di procedere alla scomposizione laserie osservata viene “aggiustata” per altri fattori
noti (ad esempio, nel caso di serie mensili suproduzione, vendite,. . . , sulla base dei giorni di
effettiva “apertura”);
- Non abbiamo, per motivo di tempo, considerato i
problemi che sorgono quando la serie storica contienedei valori anomali (outliers) la cui presenza può,
purtroppo distorcere i risultati.
- Dovrebbe essere chiaro che, indipendente dal metodo
utilizzato, esiste un qualche elemento di arbitrarietàin una qualsiasi scomposizione di questo tipo. Tutto
sommato, stiamo “moltiplicando i dati”:osserviamo una
serie sola e poi la trasformiamo in tre serie distinte. E’quindi importante non sovra-interpretare i risultati.
Unità F: Scomposizione di una serie . . . 131
Unità G
Modelli dinamici basati sull’idea dilisciamento esponenziale
In questa unità, vengono presentati alcuni modelli
dinamici spesso utilizzati per la previsione a brevetermine di serie storiche in particolare in ambito
aziendale.
Struttura di un modello dinamico
∗ Un modello dinamico cerca di descrivere la “legge”con cui un certo processo stocastico si evolve nel tempo.
∗ Molti sono basati su di una relazione del tipo
valoreosservato
al tempo t
=
( parte
determinatadal passato
)
+ (innovazione)
dove (i) il primo addendo costituisce la parte di yt“prevedibile” sulla base della traiettoria precedente della
serie osservata, ovvero di yt−1,yt−2, . . ., mentre (ii) ilsecondo addendo rappresenta “quello che di nuovo e
quindi di imprevedibile” accade al tempo t.
∗ Tentando di tradurre in formule la relazione
precedente arriviamo ad una struttura del tipo
yt = gt(yt−1,yt−2, . . .) + ut (G.1)
dove gt(· · ·) e ut indicano rispettivamente la parte del
presente determinata dal passato e l’innovazione.
∗ Un modello di questo tipo può essere specificatoassegnando le “funzioni” gt(· · ·) e la legge di probabilità
di ut.
Unità G: Modelli dinamici basati sull’idea di . . . 133
∗ L’interpretazione che abbiamo dato a ut “regge”, se utnon è prevedibile sulla base di yt−1,yt−2, . . ..
Una maniera “minima” per formalizzare questa idea
consiste nel richiedere qualche cosa del tipo
E(ut|yt−1,yt−2, . . .) = 0 (G.2)
Un alternativa utilizzata nel caso il modello sia “tutto
lineare”, ovvero quando g(· · ·) è una funzione linearenei suoi argomenti ed inoltre si è interessati solamente
a “spiegare” la dipendenza lineare tra le osservazioni,consiste nel richiedere che ut abbia media nulla e sia
incorrelato con yt−1,yt−2, . . ..
∗ Trascurando alcuni problemi tecnici, la (G.1) ci
dice che il “passato” di ut può essere calcolato dayt−1,yt−2, . . .. Quindi, l’interpretazione data a utregge se ut “non è prevedibile” anche sulla base diut−1,ut−2, . . ..
E’ quindi usuale richiedere che . . . ,ut,ut+1, . . . sia ouna successione di variabili casuali di media nulla
indipendenti o almeno incorrelate
Unità G: Modelli dinamici basati sull’idea di . . . 134
Un modello basato sul lisciamento
esponenziale
• Per iniziare consideriamo il caso in cui y1,y2, . . . siauna successione di v.c. indipendenti di media costante
ed uguale ad η. Volendo complicarci la vita, possiamopensare che la successione sia generata dal seguente
paio di equazioni alle differenze
{yt = lt−1 + utlt = lt−1 (l0 = η)
dove, ut = yt − η.
La prima equazione ci dice che yt è ottenuto come lasomma di due addendi
- il primo, lt−1, fornisce il livello della serie osservata(infatti E(ut) = 0); la notazione e, in particolare, il
pedice utilizzato per il livello, è stata scelta in manierada enfatizzare il fatto che il livello delle osservazioni al
tempo t è già noto al tempo t− 1;- il secondo, ut, costituisce la deviazione del valore
corrente dal livello determinato precedentemente.
La seconda equazione ci dice che per questo modello
particolarmente semplice il livello della serie rimanecostante (ovvero era noto non solo al tempo t − 1 ma
anche ai tempi di Adamo e Eva).
Unità G: Modelli dinamici basati sull’idea di . . . 135
• Una variante molto semplice del modello precedenteche “permette” al livello di evolversi si concretizza
nell’assumere che
{yt = lt−1 + utlt = (1 − α)lt−1 + αyt (l0 = η, 0 ≤ α ≤ 1)
(G.3)
La prima equazione è rimasta invariata. La seconda
equazione è viceversa stata modificata introducendo
un “aggiornamento” del livello sulla base dell’ultimaosservazione. In particolare, il livello della prossima
osservazione, lt, viene ottenuto come media (pesata) dellivello precedente, lt−1, e dell’osservazione corrente yt.
Con sostituzioni successive è facile mostrare che
lt = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + · · ·· · · + α(1 − α)t−1y1 + +(1 − α)tl0 =
=
t−1∑
i=0
α(1 − α)iyt−i + (1 − α)tl0 (G.4)
Quindi lt è una media pesata di yt, . . . ,y1, l0. La sommadei pesi vale 1. Se 0 < α < 1, i pesi assegnati alle
osservazioni passate decrescono geometricamente; sonoquindi posti su una curva di tipo esponenziale – da cui il
nome lisciamento esponenziale. Si osservi anche come
il peso assegnato ad l0 converga a zero per t→ +∞.
Unità G: Modelli dinamici basati sull’idea di . . . 136
Pesi “esponenziali” per tre differenti valoridi α
0.00
0.05
0.10
0.15
0.20
α = 0.2
0.0
0.1
0.2
0.3
0.4
0.5
α = 0.5
0.0
0.2
0.4
0.6
0.8
α = 0.8
5 10 15
Si osservi come all’aumentare di α i pesi assegnati alle
osservazioni più “lontane nel tempo” decrescano. Quindipiù α è grande più la memoria del processo diminuisce.
Unità G: Modelli dinamici basati sull’idea di . . . 137
Tre serie simulate
−5
05
10
α = 0.2
−5
05
10
α = 0.5
−5
05
10
α = 0.80 100 200 300 400 500
Le tre serie sono state simulate ponendo l0 = 0 e
utilizzando sempre la stessa sequenza di numeri pseudo-
casuali normali (di media nulla e varianza unitaria).Si osservi come l’ampiezza delle variazioni del livello
aumenti all’aumentare di α.
Unità G: Modelli dinamici basati sull’idea di . . . 138
• Si osservi che
– se α = 0 ritorniamo al modello con livello costante;– se α = 1, lt = yt ovvero il livello della prossima
osservazione coincide con l’osservazione corrente.
• Sostituendo la prima equazione della (G.3) nella
seconda, possiamo scrivere
{yt = lt−1 + utlt = lt−1 + αut (l0 = η)
• Dalla rappresentazione precedente, possiamo vedere
come
yt = l0 + ut + α
t−1∑
i=1
ut−i
lt = l0 + α
t−1∑
i=0
ut−i
Unità G: Modelli dinamici basati sull’idea di . . . 139
Ricordando che
- la media di una somma di v.c. è la somma delle medie;- la varianza di una somma di v.c. incorrelate è la
somma della varianze;
- stiamo supponendo che l0 sia una costante;- le {ut} sono v.c. indipendenti (e quindi incorrelate) di
media nulla,
troviamo che
E(yt) = E(lt) = l0
var(yt) = var(ut) + α2
t−1∑
i=1
var(ut−i)
var(lt) = α2
t−1∑
i=0
var(ut−i)
La prima relazione ci dice che la media della serie
osservata (e del suo livello) è costante.
Unità G: Modelli dinamici basati sull’idea di . . . 140
Le altre due ci dicono però che se l’innovazione nonè degenere (ovvero se var(ut) non è zero) allora, le
varianze di yt e di lt aumentano all’aumentare di t. Inparticolare, se, per qualsivoglia t, var(ut) = σ2 abbiamo
chevar(yt) = (1 + α2(t− 1))σ2.
Quindi, per t sufficientemente grande yt può “essere
dovunque”.
Dall’altra parte però, poichè
var(yt−yt−1) = var(ut+(α−1)ut−1) = (1+(1−α)2)σ2
è vero che yt “può arrivare per t arbitrariamente grande
dappertutto” ma, a meno che σ2 non sia “enorme” si puòmuovere solo a “piccoli passi”.
Unità G: Modelli dinamici basati sull’idea di . . . 141
Serie alla “deriva”
[il problema] Molte serie temporali contengono unaevidente componente di deriva (drift in inglese) ovvero
tendono per lunghi periodi ad aumentare o a diminuiresistematicamente. Vediamo allora come sia possibile
introdurre esplicitamente una componente di questotipo nel modello.
[deriva additiva costante] Un modello con una derivacostante nel tempo è
{yt = lt−1 + d+ utlt = (1 − α)(lt−1 + d) + αyt = lt−1 + d+ αut
(G.5)
dove d è il parametro di deriva, mentre, al solito, l0 = η
e 0 ≤ α ≤ 1.
Si osservi come, nella (G.5), il livello “tendenzialmente”aumenti di d unità in ogni istante di tempo.
Inoltre, come è facile verificare,
E(yt) = l0 + d · t
ovvero, la serie osservata “contiene” una componentedi trend esattamente lineare. Se α > 0 comunque
var(yt) aumenta all’aumentare di t e quindi la serie può“allontanarsi” anche di molto dal suo valore medio.Unità G: Modelli dinamici basati sull’idea di . . . 142
Alcune serie simulate0
1020
3040
50
α = 0.2
010
2030
4050
α = 0.5
010
2030
4050
α = 0.8
0 100 200 300 400 500
In tutte le serie è stato utilizzato l0 = 0 e d =
0,1. L’innovazione è stata generata utilizzando un
generatore di normali standard. La sequenza dei valoridell’innovazione è la stessa nelle tre simulazioni che
quindi differiscono solo per il valore di α.Unità G: Modelli dinamici basati sull’idea di . . . 143
[deriva additiva “adattiva”] Una estensione del modelloprecedente che permette alla componente di “deriva” di
evolversi nel tempo è
yt = lt−1 + dt−1 + utlt = (1 − α)(lt−1 + dt−1) + αytdt = (1 − β)dt−1 + β(lt − lt−1)
Si osservi lt − lt−1 è il coefficiente angolare della rettapassante per i punti (t−1, lt−1) e (t, lt). Quindi, la deriva,
che, come è facile verificare con sostituzioni successivepuò essere scritta come
dt =
t−1∑
i=0
β(1 − β)i(lt−i − lt−i−1) + (1 − β)td0
è, nella sostanza, una media ottenuta con pesi chedecrescono geometricamente dei coefficienti angolari
della spezzata che passa per i punti (0, l0), (1, l1),. . . ,(t, lt).
Si osservi che il modello può anche essere scritto in una
forma che enfatizza il ruolo dell’innovazione come
yt = lt−1 + dt−1 + utlt = lt−1 + dt−1 + αutdt = dt−1 + αβut
Unità G: Modelli dinamici basati sull’idea di . . . 144
[deriva additiva a “smorzare” (damped)] Una estensionedel modello precedente che risulta a volte utile si
concretizza nell’assumere che
yt = lt−1 + dt−1 + utlt = lt−1 + dt−1 + αutdt = φdt−1 + αβut
dove φ è un ulteriore parametro (0 < φ ≤ 1).
Se φ = 1 riotteniamo il modello precedente. Viceversa,
quando φ < 1 la deriva “tende” a contrarsi verso lozero. In questi casi otteniamo quindi un modello in cui i
cambiamenti di direzione sono più probabili.
Unità G: Modelli dinamici basati sull’idea di . . . 145
Due serie simulate. . .
010
030
050
00
2040
6080
0 50 100 150 200 250 300
La prima serie è stata simulata a partire da una sequenza
ut di numeri pseudo-casuali normali di media 0 evarianza 9 ponendo α = 0,5, β = 0.1, l0 = 0 e d0 = 0.1
e φ = 1 (modello con deriva addittiva “normale”). Laseconda a partire dalla stessa sequenza di numeri pseudo
casuali e con gli stessi valori per α, β, l0 e d0 ma ponendoφ = 0.9 (modello con deriva addittiva “a smorzare”).
Unità G: Modelli dinamici basati sull’idea di . . . 146
. . . e le rispettive derive
z
0 50 100 150 200 250 300
01
23
4
φ = 1φ = 0.9
Si osservi come nel caso φ = 0.9 la deriva “tenda” a
rimanere vicino allo zero.
Unità G: Modelli dinamici basati sull’idea di . . . 147
[deriva moltiplicativa] Il punto di riferimento per imodelli precedenti è un trend lineare. In realtà,
soprattuto nella versione con deriva che si evolve, ilmodello riesce ad approssimare anche trend di natura
diversa.
Esiste comunque una versione del modello precedente
che “ingloba” esplicitamente l’idea di una crescita ditipo esponenziale. Si osservi innanzitutto che una serie
temporale del tipo
yt = exp(a+ bt) + ut
può essere rappresentata dal sistema di equazioni alledifferenze
yt = lt−1dt−1 + utlt = lt−1dt−1 (l0 = exp(a))
dt = dt−1 (d0 = exp(b))
La maniera usuale di rendere “adattivo” sia il livello
lt che l’incremento percentuale dt si concretizza nel
generalizzare le equazioni precedenti nella seguentemodo
yt = lt−1dt−1 + utlt = (1 − α)lt−1dt−1 + αyt = lt−1dt−1 + αutdt = (1 − β)dt−1 + β(lt/lt−1) = dt−1 + αβut
Unità G: Modelli dinamici basati sull’idea di . . . 148
Una serie simulate con deriva moltiplicativa
0 100 200 300 400 500
2040
6080
100
La serie è stata generata a partire usando una sequenzadi numeri casuali normali standard per l’innovazione e
ponendo α = 0,5, β = 0.05, l0 = 10 e d0 = 1,002.
Unità G: Modelli dinamici basati sull’idea di . . . 149
Introduzione di una componente stagionale
[modello di riferimento per il trend] Supponiamo, persemplificare il discorso successivo, di avere a che fare
con una serie temporale il cui trend possa essere bendescritto da un modello con deriva additiva adattiva. Gli
altri casi sono trattabili in maniera analoga.
[stagionalità additiva] Una componente stagionale,
additiva di periodo f può facilmente essere introdottaponendo
yt = lt−1 + dt−1 + st−f + utlt = (1 − α)(lt−1 + dt−1) + α(yt − st−f)
dt = (1 − β)dt−1 + β(lt − lt−1)
st = (1 − γ)st−f + γ(yt − lt−1 − dt−1)
dove l0, d0 e s0, . . . , s1−f sono valori arbitrari (diinizializzazione) mentre α, β e γ sono parametri di
lisciamento che assumono valori tra 0 e 1.
Si osservi in particolare che se γ = 0 allora st è una
successione deterministica di periodo f (ovvero abbiamouna serie che presenta una stagionalità costante).
Viceversa, se γ > 0 la stagionalità tende ad evolversi
nel tempo.
Unità G: Modelli dinamici basati sull’idea di . . . 150
Si osservino inoltre le equazioni con cui vengonoaggiornati lt, che ora è interpretabile come il livello del
trend, e st, la componente stagionale. In particolaresi noti come combinino in una certa qual misura l’idea
del lisciamento esponenziale con l’idea dell’algoritmo dibackfitting presentato a pagina 104. Infatti, lt e st sono
una media ponderata
− dei valori precedenti, lt−1 e st−f rispettivamente,
− e del valore corrente della serie, yt, da cui vieneeliminata nel caso di lt la componente stagionale e
nel caso di st la componente di trend.
La forma che rende eplicito il ruolo dell’innovazione del
modello precedente è
yt = lt−1 + dt−1 + st−f + utlt = lt−1 + dt−1 + αutdt = dt−1 + αβutst = st−f + γut
Unità G: Modelli dinamici basati sull’idea di . . . 151
Una serie simulata con stagionalitàadditiva. . .
5 10 15 20 25
020
040
060
080
010
00
La serie è stata simulata a partire da una successione di
numeri pseudo-casuali normali di media nulla e varianza25 utilizzando α = 0,5, β = 0,1, γ = 0,5, l0 = 0, d0 =
0,1 e s1−i = 50 sin(2π(i/12)) e f = 12.
Unità G: Modelli dinamici basati sull’idea di . . . 152
e le sue componenti0
200
600
1000
leve
l
01
23
45
67
drift
−60
−20
2060
seas
onal
ity
−10
05
1015
inno
vatio
n
0 5 10 15 20 25
Unità G: Modelli dinamici basati sull’idea di . . . 153
[stagionalità moltiplicativa] Seguendo lo stesso ordinedi idee possiamo definire un modello con una
componente stagionale moltiplicativa ponendo
yt = (lt−1 + dt−1)st−f + ut
lt = (1 − α)(lt−1 + dt−1) + αytst−f
dt = (1 − β)dt−1 + β(lt − lt−1)
st = (1 − γ)st−f + γyt
lt−1 + dt−1
La forma basata sulle innovazioni diventa in questa caso
yt = (lt−1 + dt−1)st−f + utlt = lt−1 + dt−1 + α utst−fdt = dt−1 + αβutst = st−f + γ
utlt−1 + dt−1
Unità G: Modelli dinamici basati sull’idea di . . . 154
Una serie simulata con stagionalitàmoltiplicativa. . .
5 10 15 20 25
050
100
150
200
250
300
350
La serie è stata simulata a partire da una successione dinumeri pseudo-casuali normali di media nulla e varianza
1 utilizzando α = 0,5, β = 0,1, γ = 0,1, l0 = 1, d0 = 0,1e s1−i = 1 + 0,1 sin(2π(i/12)) e f = 12.
Unità G: Modelli dinamici basati sull’idea di . . . 155
e le sue componenti
050
150
250
leve
l
0.0
0.5
1.0
1.5
drift
0.9
1.0
1.1
1.2
1.3
seas
onal
ity
−3
−2
−1
01
2
inno
vatio
n
0 5 10 15 20 25
Unità G: Modelli dinamici basati sull’idea di . . . 156
Innovazione additiva o moltiplicativa?
[notazione] Tutti i modelli precedenti possono esserescritti nella forma
{yt = gt + utequazioni aggiuntive per calcolare gt
dove gt è la parte di yt predicibile sulla base del passato.
[innovazione additiva] Per molte serie temporali la
varianza di ut, ovvero dell’innovazione, non sembradipendere dal livello della serie (ovvero da gt).
Supponendo che la varianza sia anche costante nel
tempo possiamo allora scrivere
var(ut) = σ2
dove σ è una costante appropriata.
Si parla, in questi casi, di innovazione addittiva.
Unità G: Modelli dinamici basati sull’idea di . . . 157
[innovazione moltiplicativa] In altri casi però lavariabilità di ut sembra dipendere da gt ed in
particolare, lo scarto quadratico medio di ut sembraessere proporzionale a gt. E’ quindi usuale considerare
anche la possibilità che
var(ut) = σ2g2t
In questi casi, si parla di innovazione moltiplicativa.
Infatti il modello può anche essere scritto come
{yt = gt(1 + at)
equazioni aggiuntive per calcolare gt
dove at = ut/gt.
nota: Si osservi che nel caso moltiplicativo abbiamoassunto gt > 0.
Unità G: Modelli dinamici basati sull’idea di . . . 158
Sintesi dei modelli considerati: le quattro
forme di base
In tutti i modelli
yt = gt + ut
dove
tipo di tipo di equazioni per il
deriva stagionalità calcolo di gt
additiva additiva
gt = lt−1 + dt−1 + st−flt = lt−1 + dt−1 + αutdt = φdt−1 + αβutst = st−f + γut
additiva moltiplicativa
gt = (lt−1 + dt−1)st−flt = lt−1 + dt−1 + αut/st−fdt = φdt−1 + αβut/st−fst = st−f + γut/(lt−1 + dt−1)
moltiplicativa additiva
gt = lt−1dt−1 + st−flt = lt−1dt−1 + αutdt = dt−1 + αβut/lt−1
st = st−f + γut
moltiplicativa moltiplicativa
gt = lt−1dt−1st−flt = lt−1dt−1 + αut/st−fdt = dt−1 + αβut/(lt−1st−f)
st = st−f + γut/(lt−1dt−1)
Unità G: Modelli dinamici basati sull’idea di . . . 159
Sintesi dei modelli considerati: casi
particolari
Deriva
tipo di nome in ast per vincoli
deriva l’argomento drift sui parametri
additivo none β = 0, φ = 1, d0 = 0
additivo additive φ = 1
additivo c/additive β = 0, φ = 1
additivo d/additive nessuno
moltiplicativo multiplicative nessuno
moltiplicativo c/multiplicative β = 0
Stagionalità
tipo di nome in ast per vincoli
stagionalità l’argomento seasonality sui parametri
additivo none γ = 0, si = 0 se i ≤ 0
additivo additive nessuno
additivo c/additive γ = 0
moltiplicativo multiplicative nessuno
moltiplicativo c/multiplicative γ = 0
Innovazione
tipo di nome in ast per
innovazione l’argomento innovation assunzioni
additiva additive var(ut) = σ2
moltiplicativa multiplicative var(ut) = σ2g2t
Unità G: Modelli dinamici basati sull’idea di . . . 160
“Nomi” assegnati ad alcuni casi particolari
[modello di Holt] Modello senza deriva e senza stagionalità.
E’ chiamato anche lisciamento esponenziale semplice.In ast:
drift=”none” e seasonality=”none”.
[lisciamento esponenziale doppio] Modello senza stagionalità e
con deriva additiva non a smorzare. In ast: drift=”additive” e
seasonality=”none”.
[modello di Holt-Winters additivo] Modello con deriva additiva
(non a smorzare) e stagionalità additiva. E’ chiamato
anche lisciamento esponenziale triplo additivo. In ast:
drift=”additive” e seasonality=”additive”.
[modello di Holt-Winters moltiplicativo] Modello con deriva additiva
(non a smorzare) e stagionalità moltiplicativa. E’ chiamato
anche lisciamento esponenziale triplo moltiplicativo. In ast:
drift=”additive” e seasonality=”multiplicative”.
[theta method] Modello senza stagionalità con deriva additiva
costante. In ast: drift=”c/additive” e seasonality=”none”.
Unità G: Modelli dinamici basati sull’idea di . . . 161
Costruzione empirica di un modello
Per costruire un modello appartenente alla classe
descritta è possibile seguire il seguente approccio
scelta di uno dei modelli della
classe��
oo
stima dei parametri del modelloscelto
��
il modello sembra descrivere in
maniera adeguata il meccanismogeneratore della serie temporale
osservata?��
//
NO:rivediamo le
scelte fatte
precedente-mente
OO
SI:utilizziamo il modello, ad
esempio, per calcolare delleprevisioni della serie.
Si osservi comunque che non è detto che il meccanismoche genera la serie osservata possa essere approssima-
to da uno dei modelli descritti. In particolare, nientenei modelli considerati è stato introdotto per spiegare
l’autocorrelazione di un processo stazionario. Quindi, èanche possible che l’esito sia “nessuno dei modelli della
classe è accettabile!”.Unità G: Modelli dinamici basati sull’idea di . . . 162
Stima dei parametri
Iniziamo occupandoci del problema della stima deiparametri di un modello visto che, come vedremo, è
preliminare anche alla fase di scelta di un modello.
[notazione] Indichiamo con ϑ il vettore dei parametri
di un particolare modello, ovvero, il vettore che ha comeelementi
(i) le costanti di lisciamento non vincolate (ovvero, ivari α, β,. . . ),
(ii) le condizioni iniziali per le equazioni alledifferenze che definiscono il modello (ovvero, l0 e
se “servono” d0 e s0, s−1, . . .) e(iii) il parametro di dispersione dell’innovazione (σ).
Tutti i modelli di questa unità possono essere scritti nellaforma
yt = gt(ϑ) + vt(ϑ)at
dove gt(ϑ) è, al solito la parte di yt predicibile sulla base
del passato, at = ut/vt(ϑ) e
vt(ϑ) =
{1 se l’innovazione è additivagt(ϑ) se l’innovazione è moltiplicativa
Nella notazione stiamo enfatizzando, rispetto a quanto
fatto precedentemente, il ruolo dei parametri.
Unità G: Modelli dinamici basati sull’idea di . . . 163
[stimatori di massima verosimiglianza] Una possibilitàper stimare ϑ è offerta dagli stimatori di massima
verosimiglianza, che, nel contesto in cui siamo vengonodi solito calcolati sotto l’ipotesi che a1,a2, . . . sia una
successione di variabili casuali normali ed indipendenti.
Sotto questa ipotesi il calcolo della verosimiglianza è
molto agevole. Innanzitutto ricordiamoci che
p(y1, . . . ,yn; ϑ) = p(y1;ϑ) × p(y2|y1; ϑ) × · · ·· · · × p(yn|yn−1, . . . ,y1; ϑ)
dove p(·;ϑ) indica la funzione di densità del primo
argomento calcolata sotto l’ipotesi che il vero valore deiparametri sia ϑ. Osserviamo poi che, dalla struttura del
modello, segue immediatamente che
(yt|yt−1, . . . ,y1) ∼ N(gt(ϑ),σ2vt(ϑ)
2)
Infatti, assegnate le osservazioni passate e ϑ, gt(ϑ) e
vt(ϑ) sono assimilabili a delle quantità non stocastiche.
Unità G: Modelli dinamici basati sull’idea di . . . 164
La funzione di verosimiglianza, a meno di terminimoltiplicativi non dipendenti da ϑ è quindi
L(ϑ) =
n∏
t=1
1
σvt(ϑ)exp
(
−1
2
(
yt − gt(ϑ)
σvt(ϑ)
)2)
Gli stimatori di massima verosimiglianza possono essere
ottenuti massimizzando L(ϑ). Per nessuno dei modelliconsiderati gli stimatori sono esprimibili in forma chiusa.
E’ quindi necessario utilizzare delle opportune procedurenumeriche.
Esercizio. Si partizioni ϑ come (ψ,σ) dove ψ indica ilvettore di tutti i parametri escluso σ. Si osservi che gt(ϑ),
qualsiasi sia il modello non dipende da σ e quindi puòessere scritto come gt(ψ). Si dimostri inoltre che nel
caso l’innovazione sia additiva gli stimatori di massima
verosimiglianza possono essere ottenuti minimizzandoin ψ la somma dei quadrati degli errori di previsione un
passo in avanti
s2(ψ) =
n∑
t=1
(yt − gt(ψ))2
e, indicata la stima di ψ con ψ, stimando σ2 mediante
σ2 =1
ns2(ψ)
Unità G: Modelli dinamici basati sull’idea di . . . 165
[osservazioni e cautele] E’ possibile far vedere che leproprietà (almeno quelle asintotiche) degli stimatori
non dipendono dall’assunzione di normalità fatta nelcalcolo della verosimiglianza (nel senso che, sotto ipotesi
piuttosto deboli, la distribuzione asintotica, almeno deiparametri di lisciamento e di σ è la stessa sia se at è
normale sia se non lo è). E’ però bene tenere presenteche
(i) I parametri che descrivono le condizioni iniziali
(l0, d0, s0,. . . ) non vengono stimati, in generale, in
maniera consistente. Questa non è una caratteristi-ca degli stimatori di massima verosimiglianza. E’ una
caratteristica dei modelli ed in particolare del fattoche gt(ϑ) dipende “solo debolmente” dalle condizioni
iniziali quando t è grande (si ricordi ad esempio comel’importanza di l0 diminuisse nell’equazione (G.4)).
Fanno ovviamente eccezione i casi in cui l’effetto dellacondizione iniziale non scompare da gt(ϑ). Esempi sono
i modelli con deriva o stagionalità costante nel tempo.
(ii) I parametri di lisciamento (α,. . . ) variano nell’inter-
vallo [0, 1]. La teoria asintotica standard per questiparametri vale ma solamente se il vero valore dei
parametri è interno all’intervallo. Negli altri casi la teoriastandard non si applica. Si tratta di una situazione
sfortunata visto che molte ipotesi di interesse vedono“coivolti” punti estremi (ad esempio, per verificare se
la deriva è fissa o no saremmo interessati a verificarel’ipotesi β = 0).Unità G: Modelli dinamici basati sull’idea di . . . 166
Scelta di un modello
Una possibile strategia consiste nello
(a) stimare tutti i possibili modelli (almeno tutti quellicompatibili con le caratteristiche della serie, ovvero, ad
esempio, non ha senso considerare i modelli stagionaliper una serie che stagionale non è);
(b) ordinare i modelli stimati utilizzando un criterio del
tipo di quelli considerati a pagina 96 che nel presentecaso sono definiti come
−2logL(ϑ) + cn(numero parametri del modello)
dove ϑ indica lo stimatore di massima verosimiglian-za mentre cn è una costante (per cn = 2 otteniamo il
criterio AIC, per cn = log(n) il criterio BIC). Ricordandoche L(ϑ) può essere interpretata come una misura della
capacità del modello con una particolare struttura eparametri ϑ di “spiegare” i dati osservati, la logica degli
indici descritti è quella del lucido 96.
(c) scegliere il modello migliore (quello con il criterio
più basso) o, se questo non è soddisfacente, uno dei“migliori”.
Esercizio. Dimostrare che se si confrontano modelli
con innovazione additiva i criterio scritti sopra sonoequivalenti ai criteri nlogσ2 + cn(num. par. modello)Unità G: Modelli dinamici basati sull’idea di . . . 167
Verifica dell’adattamento
Si basano usualmente sull’analisi delle innovazionistandardizzate del modello stimato, ovvero di
at =yt − gt(ϑ)
vt(ϑ)
Verifiche “standard” sono:
(i) disegnare at verso t per verificare se la media è nullae la varianza costante per ogni t.
(ii) calcolare e disegnare la funzione di autocorrelazio-ne di at e magari anche verificare l’ipotesi che at sia
assimilabile ad un rumore bianco utilizzando il test diBox-Ljung.
(iii) è inoltre usuale anche utilizzare un normal
probability plot per verificare la normalità di at;
per quanto non strettamente richiesta, la normalità,almeno approssimata, di at garantisce la “sensatezza”
dell’approccio utilizzato per la stima, può essere utileper calcolare previsioni intervallari (vedi lucido 176);
il grafico può inoltre segnalare la presenza di eventuali
osservazioni anomale il cui effetto deve essere indagato.
Unità G: Modelli dinamici basati sull’idea di . . . 168
Una serie temporale di vendite
Riportiamo l’analisi, inclusi i comandi per R, peranalizzare la serie mostrata nel primo grafico della figura
nel lucido 8. La serie comprende 150 osservazioni.Per costruire un modello noi useremo le prime 144
osservazioni. In questa maniera potremmo poi utilizzareil modello per prevedere le ultime 6 osservazioni e
confrontare le previsioni con quanto effettivamente
avvenuto.
Unità G: Modelli dinamici basati sull’idea di . . . 169
Innanzitutto carichiamo i dati, selezioniamo le prime144 osservazioni e disegnamo la serie “osservata”.
> data(BJsales)
> y <- window(BJsales,end=144)
> plot(y)
Time
y
0 20 40 60 80 100 120 14020
021
022
023
024
025
026
0
Unità G: Modelli dinamici basati sull’idea di . . . 170
Poi stimiamo tutti i modelli compatibili con la serieosservata (ovvero tutti i modelli non stagionali) e
ordiniamoli utilizzando BIC
> esId(y)
drift sea inn np BIC AIC rankAIC
1 d n a 5 825.1447 810.2957 1
2 a n a 4 826.2208 814.3416 2
3 m n a 4 827.2143 815.3351 3
4 a n m 4 830.0236 818.1444 4
5 m n m 4 830.8629 818.9837 5
6 c/a n a 3 838.0757 829.1662 6
7 c/m n a 3 838.2286 829.3191 7
8 c/m n m 3 842.4375 833.5281 8
9 n n a 2 844.9391 838.9995 9
10 n n m 2 849.0382 843.0986 10
11 d n m 5 1610.2699 1595.4208 11
12 c/a n m 3 2356.4463 2347.5368 12
I differenti modelli sono idenficati nell’output con le
“iniziali” del tipo di deriva (drift), stagionalità (sea) einnovazione (inn). L’output del comando mostra anche
il numero di parametri del modello (np), i valori di BICe AIC e in numero d’ordine del modello quando se si
utilizzasse AIC per ordinare i vari modelli (rankAIC). Inquesto caso, i due criteri sono perfettamente concordi
e suggeriscono un modello con deriva additiva “a
smorzare” (damped) e innovazione addittiva.
Unità G: Modelli dinamici basati sull’idea di . . . 171
Stimiamo quindi questo modello (output rieditatospezzando alcune delle righe originali)
> m <- esFit(y,drift="d/additive",
+ seasonality="none",
+ innovation="additive")
> m
Call: esFit(y = y, drift = "d/additive",
seasonality = "none",
innovation = "additive")
drift=d/additive,
seasonality=none,
innovation=additive
alpha phi beta
0.94758225 0.87909108 0.27893611
l.start d.start sigma
200.03953950 -0.08819421 1.34164674
-2log(likelihood)= 800.2957
AIC= 810.2957 BIC= 825.1447
Unità G: Modelli dinamici basati sull’idea di . . . 172
Il comando tsdiag può essere utilizzato per ottenere ilgrafico delle at, della loro autocorrelazione campionaria
e dei livelli di significatività osservati del test di Ljung-Box calcolato sul primo coefficiente di autocorrelazio-
ne, sui primi due,. . . , sui primi gof.lag coefficienti diautocorrelazione dove gof.lag è il secondo argomento
di tsdiag.
> tsdiag(m,20)Standardized Residuals
Time
0 20 40 60 80 100 120 140
−3
−1
12
3
0 5 10 15 20
−0.
20.
20.
61.
0
Lag
AC
F
ACF of Residuals
5 10 15 20
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Unità G: Modelli dinamici basati sull’idea di . . . 173
Mostriamo anche il normal proability plot di at.
> qqnorm(residuals(m))
−2 −1 0 1 2
−4
−2
02
4
Normal Q−Q Plot
Theoretical QuantilesS
ampl
e Q
uant
iles
Unità G: Modelli dinamici basati sull’idea di . . . 174
La funzione di autocorrelazione e i valori del test diLjung-Box sono molto buoni. Il grafico dei residui non
segnala deviazioni particolarmente rilevanti da quantoatteso (al più una leggera diminuzione della variablibità
con il passare del tempo).
Il normal probability plot indica un buon adattamento
della distribuzione normale alle at.
In conclusione adottiamo il modello suggerito da BIC e
AIC come un possibile “modello generatore” della serie.
Unità G: Modelli dinamici basati sull’idea di . . . 175
Previsione: considerazioni generali
[il problema] Vogliamo, sulla base delle osservazioni,indichiamole con (y1, . . . ,yn), “prevedere” il valore della
serie in un istante futuro, diciamo n+h. In altre parole,vogliamo “farci raccontare” dalle osservazioni y1, . . . ,ynquello che “sanno” su yn+h.
[futuro|passato] La soluzione generale è offerta dalla
distribuzione di yt+h condizionata a (y1, . . . ,yn).
Infatti, P(yn+h|y1, . . . ,yn) ci dice dove ci aspettiamo di
trovare il processo al tempo t + h sapendo che al tempo1 era a y1, al tempo 2 a y2,. . . , al tempo n a yn.
Ad esempio, se fosse vero che P(0 ≤ yt+h ≤1|y1, . . . ,yn) = 0 allora nessuna delle realizzazioni del
processo che “passano” al tempo 1 per y1,. . . , al tempon per yn, poi, al tempo t + h “si trovano” nell’intervallo
[0, 1].
Mentre, se fosse vero che P(0 ≤ yt+h ≤ 1|y1, . . . ,yn) =
0,9 allora 9 traiettorie su 10 del processo che “passano”al tempo 1 per y1,. . . , si trovano al tempo t + h
nell’intervallo [0, 1].
Quindi, in termini generali, la soluzione del problema
consiste nel calcolare (almeno approssimativamen-te) questa distribuzione condizionata o qualche suo
parametro caratteristico.
Unità G: Modelli dinamici basati sull’idea di . . . 176
[media/mediana condizionati] Media e mediana delladistribuzione condizionata possono essere utilizzate per
fornire una idea di dove dovrebbe trovarsi il processoal tempo yt+h. Tra l’altro si osservi che per una nota
proprietà della media
E((yn+h − yn+h|n)2|Yn) ≤ E((yn+h − ψ(Yn))
2|Yn)
dove
- Yn = (y1, . . . ,yn) indica le osservazioni,
- yn+h|n = E(yn+h|Yn) indica la media condizionata e- ψ(·) indica una generica funzione.
Quindi, la media condizionata gode della proprietàdi minimizzare la media degli errori di previsione al
quadrato.
Si osservi, che poichè per qualsiasi variabile casuale
u, E(u) = EYn(E(u|Yn)) (la media marginale è lamedia delle medie condizionate), la disuguaglianza può
estendersi anche ai valori attesi non condizionati.
Ricordando la proprietà simile della mediana, possiamo
anche affermare che la mediana condizionata minimizzala media dei valori assoluti degli errori di previsione.
Unità G: Modelli dinamici basati sull’idea di . . . 177
[intervalli di previsione] I quantili della distribuzionecondizionata sono particolarmente interessanti poichè
permettono di costruire agevolmente degli intervalli
di previsione, ovvero degli intervalli che includono
i valore futuro con una probabilità preassegna-ta. Intervalli di previsione sono nelle applicazioni
importanti. Permettono infatti di “esporre” in manieraintuitiva e non tecnica il grado di precisione con cui
“conosciamo il futuro”.
Si supponga di voler determinare [an+h|n,bn+h|n] tali che
P(an+h|n ≤ yn+h ≤ bn+h|n|y1, . . . ,yn) = 1 − ε
dove ε è una costante assegnata (ε ∈ [0, 1]).
Esistono varie possibilità. Ma quella che si adottacomunemente consiste nel porre
an+h|n = y(ε/2)
n+h|ne bn+h|n = y
(1−ε/2)
n+h|n
dove y(p)
n+h|nindica il quantile p della distribuzione
condizionata, ovvero
P(yn+h|n ≤ y(p)
n+h|n|y1, . . . ,yn) = p.
Unità G: Modelli dinamici basati sull’idea di . . . 178
Previsione con i modelli basati sul
lisciamento esponenziale
⇒ Ci comporteremo “come se” la struttura prescelta peril modello (tipo di deriva,. . . ) e i parametri stimati
coincidano con la “vera” struttura e i “veri” parametri,ovvero, “come se” il “vero” modello fosse noto.
Si tratta di una ipotesi non realistica che però semplificain maniera drastica la trattazione, e fornisce soluzioni
“sensate” ampiamente utilizzate nelle applicazioni.L’effetto principale è quello di sovrastimare la precisione
delle previsioni (ci siamo persi per strada un pezzo divariabilità!).
⇒ Una soluzione generale per approssimare la distribuzio-ne condizionata e quindi per calcolarne i momenti e i
quantili consiste nel procedere per simulazione.
Unità G: Modelli dinamici basati sull’idea di . . . 179
Algoritmo di simulazione
1. calcolare ln, dn, sn,. . . ,sn−f+1 da y1,. . . , yn;2. generare dalla distribuzione dell’innovazione an+1,. . . ,
an+l;3. utilizzando le equazioni alle differenze che definiscono
il modello simulare a partire dalle quantità determinateai passi 1 e 2, yn+1, . . . ,yn+h;
4. ripetere i passi 2 e 3 un certo numero di volte,indichiamolo con B;
5. alla fine ci troviamo con B traiettorie futuresimulate e quindi B possibili “yn+l” tutti estratti
dalla distribuzione condizionata (visto che siamo
sempre partiti da ln, dn,. . . ). Possiamo quindi“stimare” la distribuzione condizionata usando queste
pseudo-determinazioni di yt+l.
Unità G: Modelli dinamici basati sull’idea di . . . 180
Alcuni futuri simulati (e uno vero!!!)
100 110 120 130 140 150
250
255
260
265
270
Il grafico mostra la serie delle vendite osservata. Le
osservazioni con 100 ≤ t ≤ 144 sono disegnate
con la linea continua, quelle dopo 144 (che nonabbiamo utilizzato per costruire il modello) con una
linea tratteggiata. Sono stati poi aggiunti 5 “futuri”simulati utilizzando il modello stimato e ipotizzando la
normalità delle innovazioni.
Unità G: Modelli dinamici basati sull’idea di . . . 181
Per quanto riguarda la simulazione dell’innovazione“futura” sono spesso considerate due possibilità:
(a) Al posto delle innovazioni future an+1,an+2, . . .
vengono utilizzati dei numeri pseudo casuali
N(0,σ2)1. Si parla in questo caso di simulazioni odi bootstrap parametrico.
E’ un approccio sensato ovviamente nei soli casiin cui la distribuzione di at sembra essere almeno
approssimativamente normale.(b) Un approccio alternativo, utilizzabile quando
at non sembra essere normale, si concretizzanel generare an+1,an+2,. . . , ricampionando le
innovazioni effettivamente osservate. Ovvero, alpasso 1 dell’algoritmo di simulazione calcoliamo
ln,. . . dalla serie osservata. Simultaneamente
calcoliamo quindi anche u1,. . . ,un e perciò anchea1,. . . ,an
2.
Per simulare il futuro, an+1 viene generatoscegliendo a caso una delle a1,. . . ,an, an+2 viene
generata nella stessa maniera,. . . . L’estrazio-ne avviene in maniera tale che ciascuna delle
innovazioni osservata possa essere estratta con lastessa probabilità.
Si parla in questo caso di ricampionamento o
bootstrap non parametrico.
1in realtà nelle applicazioni si usa σ2, ovvero la varianza stimata2in realtà sono “a” non “a” visto che usiamo i parametri stimati
Unità G: Modelli dinamici basati sull’idea di . . . 182
⇒ Nel caso di modelli “tutti additivi” (deriva, stagionali-tà e innovazione non moltiplicativi) la media condiziona-
ta di yn+h può essere calcolata simulando il futuro
facendo a finta che un+1 = 0, un+2 = 0,. . . ovvero
supponendo che il futuro non ci riservi “niente di nuovo”.
Esercizio: Si dimostri l’affermazione precedente.
Aiuto: è sufficiente osservare che sempre per sostituzio-ni successive yn+h = yn+h+(combinazione lineare di
un+1,. . . ,un+h) e ricordare che la media dell’innovazioneè nulla.
⇒ Per modelli con “qualcosa di moltiplicativo” èpossibile far vedere che simulare il futuro facendo a
finta che tutte le innovazioni future siano nulle puòessere utilizzato per calcolare delle buone approssima-
zioni della media condizionata. Chiameremo questeprevisioni ingenue o naif (in inglese e in ast naive).
⇒ Sempre per i modelli “tutti additivi” e se l’innovazio-ne si distribuisce come una normale, è possibile far
vedere che la distribuzione di yn+h data la serie osservataè normale e può essere determinata in forma chiusa. I
dettagli non sono presentati visto che sono molto similia quello che faremo nella prossima unità per un modello
ARIMA.
Unità G: Modelli dinamici basati sull’idea di . . . 183
⇒ Si osservi inoltre che, a prescindere dalla strutturadel modello, la distribuzione di yn+1 dato (y1, . . . ,yn)
è sempre e immediatamente determinabile dalladistribuzione dell’innovazione standardizzata an+1. Ad
esempio, come già osservato,
poichè yn+1 = gn+1 + vn+1an+1, se an+1 ∼ N(0,σ2)
allora yn+1 ∼ N(gn+1,σ2v2n+1)
In generale,
P(yn+1 ≤ f|y1, . . . ,yn) =
= P(an+1 ≤ (f− gn+1)/vn+1|y1, . . . ,yn)
Unità G: Modelli dinamici basati sull’idea di . . . 184
Previsione della serie delle vendite
Con il seguente comando, se m è l’oggetto ritornato daesFit, chiediamo a R di generare 1000 “futuri”3 per
le 144 osservazioni utilizzate per stimare il modello.L’innovazione viene simulata da una distribuzione
normale. Il metodo predict in questo caso ritornauna serie temporale multivariate contenenti le stime
della media, della mediana e di alcuni altri percentilidella distribuzione condizionata. L’ultimo comando sotto
(il cui output è stato “tagliato”) può essere utilizzato
per mostrare le stime della media, della mediana e unintervallo di previsione al 90% per i valori futuri.
> yg <- predict(m,6,method="gauss")
> colnames(yg)
[1] "2.5%" "5%" "25%" "median" "mean"
"75%" "95%" "97.5%"
> yg[,c("5%","median","mean","95%")]
Time Series:
Start = 145
End = 150
Frequency = 1
5% median mean 95%
145 259.6545 261.8513 261.8354 263.9763
.......................................
150 256.2099 264.5428 264.5254 272.9976
3il numero è variabile utilizzando l’argomento n.series
Unità G: Modelli dinamici basati sull’idea di . . . 185
Per ottenere le previsione ingenue o l’analogo di quantoappena vista ma calcolato ricampionando le innovazioni
è sufficiente cambiare “metodo”.
> predict(m,6,method="naive")
Time Series:
Start = 145
End = 150
Frequency = 1
Series 1
[1,] 261.8299
.............
[6,] 264.5363
> predict(m,6,method="resample")[,
+ c("5%","median","mean","95%")]
Time Series:
Start = 145
End = 150
Frequency = 1
5% median mean 95%
145 259.7755 261.7510 261.7610 263.9980
.......................................
150 255.9069 264.2205 264.2492 272.4579
Unità G: Modelli dinamici basati sull’idea di . . . 186
Con i seguenti comandi disegnamo la media delladistribuzione condizionata, un intervallo di previsione al
90% e, per confronto, le vere osservazioni sulle vendite.
> a <- c("5%","mean","95%")
> plot(yg[,a],plot.type="s",lty="dotdash")
> points(window(BJsales,start=145),pch="*",cex=2)
Time
yg[,
c("5
%",
"m
ean"
, "95
%")
]
145 146 147 148 149 150
260
265
270
* * ** * *
Unità G: Modelli dinamici basati sull’idea di . . . 187
Una serie con le bollicine
Una delle serie temporali inclusa in ast si riferisce
alle vendite di champagne di una particolare aziendaproduttrice. Si tratta di una serie storica mensile.
Anche in questo caso, per vedere la capacità previsivadel modello “in azione” non utilizzeremo le ultime 12
osservazioni per costruire il modello.> data(champagne)
> end(champagne)
[1] 1972 9
> bollicine <- window(champagne,end=c(1971,9))
> plot(bollicine)
Time
bollic
ine
1964 1966 1968 1970
2000
4000
6000
8000
1000
012
000
1400
0
Unità G: Modelli dinamici basati sull’idea di . . . 188
Vediamo quali modelli suggeriscono AIC e BIC. Conkeep=2 “avvisiamo” esId di “ritornare” solo i due modelli
con il BIC più piccolo e, se diversi, i due modelli con ilmiglior AIC.
> esId(bollicine,keep=2)
drift sea inn np BIC AIC rankAIC
1 n c/m a 14 1660.724 1625.268 3
2 m c/m a 16 1664.543 1624.022 1
3 a c/m a 16 1665.408 1624.887 2
In questo caso c’e’ un parziale disaccordo tra idue criteri. Il modello migliore per BIC è terzo
per AIC, quello secondo per BIC è il miglioreper AIC,. . . . Ambedue i criteri suggeriscono come
appropriata una stagionalità costante e moltiplicativa
(seasonality=”c/multiplicative”) e una innovazioneadditiva (innovation=”additive”). Però, nel miglior
modello per BIC la deriva è assente (drift=”none”).Mentre AIC suggerisce una delibera moltiplicativa
(drift=”multiplicative”) o, in subordine, additivadrift=”additive”).
Unità G: Modelli dinamici basati sull’idea di . . . 189
Proviamo a stimare i tre modelli migliori per ambedue icriteri e verifichiamone l’adattamento.
> m1 <- esFit(bollicine,"n","c/m","a")
> tsdiag(m1)
Standardized Residuals
Time
1964 1966 1968 1970
−3
−1
13
0.0 0.5 1.0 1.5
−0.
20.
20.
61.
0
Lag
AC
F
ACF of Residuals
0 5 10 15 20 25 30 35
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Unità G: Modelli dinamici basati sull’idea di . . . 190
> m2 <- esFit(bollicine,"m","c/m","a")
> tsdiag(m2)
Standardized Residuals
Time
1964 1966 1968 1970
−2
02
4
0.0 0.5 1.0 1.5
−0.
20.
20.
61.
0
Lag
AC
F
ACF of Residuals
0 5 10 15 20 25 30 35
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Unità G: Modelli dinamici basati sull’idea di . . . 191
> m3 <- esFit(bollicine,"a","c/m","a")
> tsdiag(m3)
Standardized Residuals
Time
1964 1966 1968 1970
−2
02
4
0.0 0.5 1.0 1.5
−0.
20.
20.
61.
0
Lag
AC
F
ACF of Residuals
0 5 10 15 20 25 30 35
0.0
0.4
0.8
p values for Ljung−Box statistic
lag
p va
lue
Unità G: Modelli dinamici basati sull’idea di . . . 192
Per tutti e tre i modelli l’autocorrelazione dei residuinon sembra indicare particolari problemi. Comunque i
modelli suggeriti da BIC sembra essere marginalmentemigliore (sopratutto se guardiamo ai livelli di significati-
vità dei test di Ljung-Box basati su 13 o più coefficientidi autocorrelazione).
Inoltre, il modello suggerito da BIC è più parsimonioso,ovvero utilizza meno parametri, e quindi è quello che
rischia meno di cogliere caratteristiche spurie della serieosservata. Sembra quindi sensato sceglierlo.
Il grafico dei residui di tutti e tre i modelli mostra peròun caratteristica non del tutto “piacevole” e che merita
di essere investigata.
Unità G: Modelli dinamici basati sull’idea di . . . 193
La caratteristica è ancora più evidenziata dal normal
probability plot. Una delle osservazioni, i grafici
precedenti dei residui la collocano intorno al 1967, èanomala rispetto alle altre.
> qqnorm(residuals(m1))
−2 −1 0 1 2
−10
000
1000
2000
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Unità G: Modelli dinamici basati sull’idea di . . . 194
Vediamo qual’è e cerchiamo di capire che cosa è successofacendo uno “zoom” sulla serie.
> start(bollicine)
[1] 1964 1
> which.max(abs(residuals(m1)))
[1] 37
> #l’osservazione "incriminata" e’ quindi
> #il gennaio 1967
> z <- window(bollicine,start=c(1964,12),
+ end=c(1969,2))
> plot(z)
> points(z,pch=month.name[cycle(z)])
> arrows(1967+0.5,bollicine[37]+200,
+ 1967,bollicine[37])
Time
z
1965 1966 1967 1968 1969
2000
4000
6000
8000
1000
0
D
JF
MA
M
JJ
A
S
O
N
D
JF
M
AMJ
J
A
S
O
N
D
J
F
M
AMJ
J
A
S
O
N
D
J
FMA
MJ
J
A
S
O
N
D
JF
Unità G: Modelli dinamici basati sull’idea di . . . 195
Il grafico mostra chiaramente che cosa è successo.Almeno negli anni vicini, dopo il picco natalizio le
vendite calano a gennaio fino ad un livello uguale odaddirittura più basso di quello nei mesi immediatamente
successivi.
Questa diminuzione avviene solo parzialmente a
gennaio 1967. Il modello sbaglia quindi la previsione.
Per capire se questo pesa sul modello, costruiamo “una
serie pulita” sostituendo al valore di gennaio 1967 lamedia dei gennaii degli anni vicini e vediamo cosa
succede.
> z <- window(y,start=c(1964,12),
+ end=c(1969,2))
> #comandi come prima
> #gennaio ’67 adesso sembra ‘‘normale’’
Time
z
1965 1966 1967 1968 1969
2000
4000
6000
8000
1000
0
D
JF
MA
M
JJ
A
S
O
N
D
JF
M
AMJ
J
A
S
O
N
D
JF
M
AMJ
J
A
S
O
N
D
J
FMA
MJ
J
A
S
O
N
D
JF
Unità G: Modelli dinamici basati sull’idea di . . . 196
I modelli suggeriti dai due criteri non cambiano. Questoè consolante. Ovvero, l’osservazione anomala non
sembra particolarmente influente.
> esId(y,keep=2)
drift sea inn np BIC AIC rankAIC
1 n c/m a 14 1639.490 1604.033 3
2 m c/m a 16 1641.137 1600.615 1
3 a c/m a 16 1642.633 1602.112 2
Unità G: Modelli dinamici basati sull’idea di . . . 197
Stimiamo il modello suggerito da BIC.
> m1bis <- esFit(y,"n","c/m","a")
> tsdiag(m1bis)
Standardized Residuals
Time
1964 1966 1968 1970
−3
−1
01
2
0.0 0.5 1.0 1.5
−0.
20.
20.
61.
0
Lag
AC
F
ACF of Residuals
0 5 10 15 20 25 30 350.
00.
40.
8
p values for Ljung−Box statistic
lag
p va
lue
Unità G: Modelli dinamici basati sull’idea di . . . 198
L’autocorrelazione dei residui non preoccupa. Anche ilnormal probability plot è diventato più normale.
> qqnorm(residuals(m1bis))
−2 −1 0 1 2
−15
00−
1000
−50
00
500
1000
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Unità G: Modelli dinamici basati sull’idea di . . . 199
Proviamo a vedere se ci sono differenze nella distribuzio-ne prevista per le prossime 12 osservazioni. Nella figura
(vedi prossimo lucido per le istruzioni R) i tre graficiconfrontano (dall’alto verso il basso) i percentili 0.5 e
0.95 e la media calcolati utilizzando i due modelli egenerando le innovazioni future con i due metodi visti
(in ogni grafico ci sono 4 curve).
1971.8 1972.0 1972.2 1972.4 1972.6
2000
4000
6000
8000
1200
0
1971.8 1972.0 1972.2 1972.4 1972.6
4000
8000
1200
020
0060
0010
000
Unità G: Modelli dinamici basati sull’idea di . . . 200
Istruzioni R per costruire il grafico sul lucido 200.
> a <- c("5%","95%","mean")
> p1 <- predict(m1,12,method="g")[,a]
> p2 <- predict(m1,12,method="r")[,a]
> p3 <- predict(m1bis,12,method="g")[,a]
> p4 <- predict(m1bis,12,method="r")[,a]
> oldp <- par(mfrow=c(3,1),mar=c(1,1,1,1))
> for (i in 1:3)
+ plot(cbind(p1[,i],p2[,i],p3[,i],p4[,i]),
+ plot.type="s",ylab="")
> par(oldp)
Unità G: Modelli dinamici basati sull’idea di . . . 201
Visto che le differenze nelle previsioni tra i vari modellie i vari metodi sembrano irrilevanti usiamo il modello
originale e generiamo le innovazioni assumendo lanormalità. Al grafico, per vedere il modello “in azione”
aggiungiamo anche le vere osservazioni (che si tengaconto, non sono state in nessuna maniera utilizzate
nell’analisi).
> plot(p1,plot.type="s",lty="dotdash")
> points(champagne,pch="*",cex=2)
Time
p1
1971.8 1972.0 1972.2 1972.4 1972.6
2000
4000
6000
8000
1000
012
000
1400
0
*
*
*
**
* * **
*
*
*
Unità G: Modelli dinamici basati sull’idea di . . . 202
Unità H
I modelli ARMA e ARIMA
Introduzione
⇒ Nella prima parte dell’unità vengono presentatii modelli a media mobile (MA(q)), autoregres-
sivi (AR(p)) e autoregressivi a media mobile(ARMA(p,q)),
Sono modelli dinamici lineari che generano processistazionari. La loro caratteristica principale consiste
nella capacità di rappresentare/approssimare la
struttura di autocorrelazione di un qualsiasi processostazionario.
Vedremo poi una estensione di questi modelli (icosidetti modelli autoregressivi a media mobile
integrati o ARIMA(p,d,q)) che estendono i modelliARMA nella direzione della non-stazionarietà.
Consideremo poi le varianti “stagionali” di questeclassi di modelli.
⇒ In tutti questi modelli, la serie osservata à generata
a partire da un processo, {ut}, l’innovazione delprocesso, che supporremo essere un rumore bianco
(vedi pagina 27) di media nulla e varianza σ2u.
⇒ Contrariamente a quanto fatto nell’unità precedente
ipotizzeremo che il processo di interesse inizi a −∞,non a 1. Il “periodo di osservazione” però, al solito,
inizia a 1 e finisce con n.
Unità H: I modelli ARMA e ARIMA 204
Modelli a media mobile
Un processo stocastico, {yt}, è detto generato da unmodello a media mobile di ordine q (moving average in
inglese, da cui la “sigla/acronimo” MA(q)) se
yt = η + ut + ϑ1ut−1 + · · · + ϑqut−q
dove (η,ϑ1, . . . , ϑq) è un vettore di parametri costanti.
E’ immediato verificare che
E(yt) = η
e che, per 0 ≤ h ≤ q,
cov(yt,yt−h) = (ϑh + ϑ1ϑh+1 + · · · + ϑq−hϑq)σ2u
mentrese h > q allora cov(yt,yt−h) = 0 (H.1)
La (H.1) mostra come caratteristica di un modello
MA(q) sia quello di avere una memoria finita1.
Poichè la media è costante e cov(yt,yt−h) dipende soloda h, il processo è stazionario, almeno del secondo
ordine.
1almeno quella che si manifesta attraverso la dipendenza lineare.Unità H: I modelli ARMA e ARIMA 205
Funzioni di autocorrelazione di alcuni modelliMA(1) e MA(2)
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut + 0.8ut−1
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut − 0.8ut−1
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut + 0.8ut−1 + 0.6ut−2
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut − 0.8ut−1 − 0.2ut−2
Unità H: I modelli ARMA e ARIMA 206
Invertibilità di un modello MA(q)
Un modelloMA(q) è detto invertibile se, per ogni t, ut ècalcolabile a partire da yt,yt−1, . . ..
Questo non è automatico. Si consideri infatti un modelloMA(1), per semplicità di media nulla,
yt = ut + ϑut−1.
Con sostituzioni successive troviamo
ut = yt − ϑut−1 =
= yt − ϑyt−1 + ϑ2ut−2 =
= yt − ϑyt−1 + ϑ2yt−2 − ϑ3ut−3 =...
= yt − ϑyt−1 + · · · + (−ϑ)myt−m + (−ϑ)m+1ut−m−1
Unità H: I modelli ARMA e ARIMA 207
In definitiva sembrerebbe che dovremmo arrivare a
ut =
∞∑
i=0
(−ϑ)iyt−i.
Ma è difficile pensare di dare un senso alla sommatoria
infinita che abbiamo appena scritto se i pesi assegnatialle “y” esplodono, ovvero se |ϑ| ≥ 1. E dall’altra parte
se |ϑ| ≥ 1 allora non ci aspettiamo neanche che il termine(−ϑ)m+1ut−m−1 che compariva prima “svanisca” quando
m è grande. Infatti, è possibile far vedere che un modelloMA(1) è invertibile se e solo se |ϑ| < 1.
In generale è possibile dimostrare che condizionenecessaria per l’invertilità di un modello MA(q) è che
le q soluzioni dell’equazione
1 + ϑ1x+ · · · + ϑqxq = 0 (H.2)
siano in modulo maggiori di uno (si osservi che le radici
possono anche essere numeri complessi). Nel seguitosupporremmo di avere sempre a che fare con modelli
invertibili o al più con modelli in cui le soluzioni della(H.2) siano in modulo uguale a 1. Questo non è un
limite. Infatti è possibile dimostrare che se un processoè rappresentabile da un modello MA(q) con radici della
(H.2) minori in modulo di 1, allora può anche essere
rappresentato da un modello MA(q) invertibile.Unità H: I modelli ARMA e ARIMA 208
Nel caso un modello MA(q) sia invertibile è possibilemostrare che esiste una successione di pesi λ1, λ2, · · · per
cui
ut = yt −
∞∑
i=1
λiyt−i
dove l’uguaglianza è da intendersi nel senso dellaconvergenza in media quadratica, ovvero,
limm→∞
E
[
ut −
(
yt −
m∑
i=1
λiyt−i
)]2
= 0
I pesi convergono a zero è in particolare
∞∑
i=1
λ2i < ∞
Si osservi che quindi possiamo anche scrivere
yt =
∞∑
i=1
λiyt−i + ut (H.3)
ovvero, che un modello MA(q) invertibile può essere
visto come una specie di modello di regressione infinitoin cui le variabili esplicative sono il “passato” di yt.
Gli infiniti coefficienti di regressione λ1, λ2, . . . non sonoperò completamente liberi. Tutti sono infatti funzione
dei q coefficienti ϑ1, . . . , ϑq.Unità H: I modelli ARMA e ARIMA 209
Modelli autoregressivi
Un processo stocastico, {yt}, è detto generato da un
modello autoregressivo di ordine p (“sigla/acronimo”
AR(p)) se
yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) + ut
dove (η,φ1, . . . ,φp) è un vettore di parametri costanti.
Come si può vedere si tratta di un normale modello diregressione lineare in cui la variabile risposta è il valore
presente del processo mentre le variabili esplicative sonoi valori passati del processo stesso.
E’ possibile dimostrare che il processo generato da un
processo AR(p) è stazionario se e solo se le radicidell’equazione
1 − φ1x− · · · − φpxp = 0 (H.4)
sono in modulo maggiori di uno. In questo caso, ηcoincide con la media di yt e è possible far vedere che
il processo è rappresentabile come una “media mobile
infinita” ovvero che esistono dei pesi ψ1,ψ2, . . . tali che
yt = η + ut +
∞∑
i=1
ψiut−i (H.5)
Unità H: I modelli ARMA e ARIMA 210
Funzioni di autocorrelazione di alcuni modelli AR(1)e AR(2)
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = 0.8yt−1 + ut
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = − 0.8yt−1 + ut
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = 0.8yt−1 − 0.6yt−2 + ut
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = 0.6yt−1 + 0.3yt−2 + ut
E’ possibile far vedere che la funzione di autocorrelazio-ne di un processo AR(1) soddisfa l’equazione ρ(h) =
φ1ρ(h − 1), ρ(0) = 1 e quindi che ρ(h) = φh1. Sinoti l’andamento diverso a seconda del segno di φ1.
Si osservi inoltre l’andamento oscillatorio a smorzarepossibile per alcuni modelli AR(2).Unità H: I modelli ARMA e ARIMA 211
La funzione di autocorrelazione parziale
La figura precedente mostra come per un modello AR(1)
l’autocorrelazione ai ritardi superiori al primo sia diversa
da zero e possa anche essere non banale.
In realtà noi sappiamo che in un certo senso quellacorrelazione è spuria. Ad esempio la correlazione che
troviamo a ritardo 2 è legata al fatto che yt−1 è generatoa partire da yt−2 e yt a partire da yt−1. Quindi, la
correlazione tra yt e yt−2 è diversa da zero ma tutta“mediata” da yt−1.
Per un processo AR(2) viceversa una parte dellacorrelazione a ritardo 2 è “mediata” da yt−1 mentre una
parte e esprime l’impatto “diretto” di yt−2, non mediato,
di yt−2 su yt.
Per isolare la correlazione “diretta” dalla correlazio-
ne “mediata” è possibile utilizzare i coefficienti diautocorrelazione parziale
π(h) = corr(yt,yt−h|yt−1, . . . ,yt−h+1) h = 1, 2, . . .
che misura la correlazione esistente tra yt e yt−hquando da ambedue le variabili venga eliminato la parte
“spiegabile linearmente” da yt−1, . . . ,yt−h+1. Per unprocesso AR(p)
π(h) = 0 se h > pUnità H: I modelli ARMA e ARIMA 212
Funzioni di autocorrelazione parziale di alcunimodelli AR e MA
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = 0.8yt−1 + ut
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut + 0.8ut−1
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut − 0.8ut−1
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
yt = ut − 0.8ut−1 + 0.6ut−2
Si osservi come la funzione di autocorrelazione parzialedi un processo MA(q) converga verso zero ma senza
diventare esattamente zero. Ed inoltre, come la funzionedi autocorrelazione parziale di un MA(m) possa, a
parte il segno, mostrare gli andamenti qualitativi dellafunzione di autocorrelazione di un AR(m) e viceversa.Unità H: I modelli ARMA e ARIMA 213
Modelli autoregressivi a media mobile
Combinano le due classi di modelli appena viste.Un processo stocastico {yt} si dice generato da un
modello autoregressivo a media mobile di ordine(p,q) (abbreviato in ARMA(p,q)) quando è generato
dall’equazione alle differenze
yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) +
+ut + ϑ1ut−1 + · · · + ϑqut−q (H.6)
Il processo è invertibile se tutte le radici dell’equazioneanaloga alla (H.2) sono in modulo maggiore di 1. In
questo caso gode anche di una rappresentazione AR(∞)
del tipo della (H.3).
Il processo è stazionario se tutte le radici dell’equazio-ne analoga alla (H.4) sono in modulo maggiore di 1.
In questo caso gode anche di una rappresentazioneMA(∞) del tipo della (H.5).
La funzione di autocorrelazione può avere andamentimolto diversi. La regola generale è che “i primi
q coefficienti sono sostanzialmente arbitrari; dopola funzione di autocorrelazione converge verso lo
zero come fa, a partire da zero, la funzione diautocorrelazione di un AR(p)”.
Unità H: I modelli ARMA e ARIMA 214
Funzioni di autocorrelazione di un modelloARMA(1,2)
0 2 4 6 8 10
−1.
0−
0.5
0.0
0.5
1.0
0:10
AR
MA
acf(
ar =
c(0
.7),
ma
= c
(0, −
0.95
), la
g =
10) yt = 0.7yt−1 + ut − 0.95ut−2
Si osservi come la convergenza verso lo zero in accordo
all’equazione ρ(h) = φ1ρ(h − 1) che caraterizza ilmodello AR(1) (vedi lucido 211) in questo caso inizi da
h = q = 2.
Unità H: I modelli ARMA e ARIMA 215
L’operatore di ritardo
Questi modelli sono scrivibili in termini compattiutilizzando l’operatore di ritardo2
Byt = yt−1.
Usandolo possiamo riscrivere l’equazione (H.6) come
φ(B)(yt − η) = ϑ(B)ut
dove
φ(B) = 1 − φ1B− φ2B2 − · · · − φpBp
ϑ(B) = 1 − ϑ1B− ϑ2B2 − · · · − ϑqBq
2uso la lettera B mutuandola dalla letteratura anglosassone dove èl’abbreviazione di backward visto che abbiamo già troppi R in questi lucidiUnità H: I modelli ARMA e ARIMA 216
Modelli integrati ovvero metti un po’ di
trend in un modello ARMA
Si supponga che yt = ζ + ηt, ovvero di considerare unprocesso deterministico la cui realizzazione è una retta.
Ovviamente
(1 − B)yt = yt − yt−1 = η
ovvero, le “differenze” di una serie costituita solo da un
trend lineare è una serie costante.
Che cosa ci aspettiamo di ottenere se sostituiamo nellaequazione precedente a η un processo stocastico, ad
esempio un ARMA(p,q) di media η? Ovvero, quali
caratteristiche avranno le traiettorie di un processogenerato da una equazione alle differenze del tipo
yt = yt−1 + zt
dove {zt} indica un processo stazionario di media η
generato da un modello ARMA? La risposta è facile.
Mediamente, yt dovrebbe aumentare di η unità per ogniunità di tempo. Quindi ci aspettiamo che yt esibisca un
trend lineare.
Unità H: I modelli ARMA e ARIMA 217
Un processo simulato
−4
−2
02
4
z
050
100
150
200
y
0 100 200 300 400
Il processo nel primo grafico è stato generato utilizzando
l’equazione
zt =1
2+ 0,8
(
zt−1 −1
2
)
+ ut (z−100 = 0)
dove ut ∼ N(0, 1). Il processo nel secondo è stato
generato a partire dal primo utilizzando l’equazione
yt = yt−1 + zt (y0 = 0)
Unità H: I modelli ARMA e ARIMA 218
Un altro processo simulato
0 200 400 600 800 1000
−10
0−
500
50
La serie è stata simulata utilizzando
yt = yt−1 + zt dove zt = 0,8zt−1 + ut (ut ∼ N(0, 1))
Si osservi come usando una ARMA di media nulla
otteniamo una serie che esibisce anch’essa unacomponente di trend (in questo caso, solo “localmente”
lineare).
Unità H: I modelli ARMA e ARIMA 219
Queste semplici considerazioni ed esempi suggerisconodi considerare modelli del tipo
(1 − B)dyt = zt con φ(B)(zt − η) = ϑ(B)ut (H.7)
per approssimare il meccanismo generatore di una serie
temporale non stazionaria. Si parla in questo casodi modello autoregressivo a media mobile integrato3 di
ordine (p,d,q) (abbreviazione ARIMA(p,d,q)).
Si osservi che possiamo non menzionare esplicitamen-
te {zt} nella definizione di un modello ARIMA(p,d,q).Infatti, sottraendo η e poi applicando l’operatoreφ(B) ad
ambedue i termini della prima equazione che compare
nella (H.7) otteniamo
φ(B)(1 − B)dyt = δ+ φ(B)(zt − η)
dove δ = φ(B)η = η(1 − φ1 − · · · − φp).Sostituendo quindi la seconda equazione della (H.7)
otteniamo
φ(B)(1 − B)dyt = δ + ϑ(B)ut
3il nome “integrato” discende dal fatto che yt = y0 +∑t
i=0 zi e che la “somma”è l’analogo a tempo discreto di un integrale.Unità H: I modelli ARMA e ARIMA 220
Identificazione di un modello ARMA/ARIMA
trasformazione della serieosservata in maniera tale che
diventi stazionaria (incluso l’usodi differenze, ovvero la scelta di
d).��
oo
scelta di p e q
��
stima dei parametri del modelloscelto
��
il modello sembra descrivere in
maniera adeguata il meccanismogeneratore della serie temporale
osservata?��
//
NO:rivediamo le
scelte fatte
precedente-mente
OO
SI:
utilizziamo il modello, adesempio, per calcolare delle
previsioni della serie.
Unità H: I modelli ARMA e ARIMA 221
Esempio con serie non stagionali
Unità H: I modelli ARMA e ARIMA 222
Modelli ARIMA stagionali
La versione “stagionale” dei modelliARIMA normalmenteconsiderata si concretizza nell’assumere che il processo
osservato è generato in accordo all’equazione alledifferenze
φ(B)Φ(Bf)(1 − B)d(1 − Bf)Dyt = ϑ(B)Θ(Bf)ut
dove:
- f indica la lunghezza del periodo stagionale (12 nelcaso di dati mensili,. . . );
- φ(B) = 1 − φ1B − · · · − φpBp è un operatore
autoregressivo “non-stagionale”;-Φ(Bf) = 1 − Φ1B
f − · · · − φpBPf è un operatore
autoregressivo che “vede” solo i ritardi stagionali;- ϑ(B) = 1 + ϑ1B + · · · + ϑqB
q è un operatore a media
mobile “non-stagionale”;- Θ(Bf) = 1+Θ1B
f+ · · ·+φQBQf è un operatore a media
mobile stagionale.
Eventualmente, come prima, possiamo aggiungere un
termine costante δ al secondo termine.
Unità H: I modelli ARMA e ARIMA 223
Esempio con serie stagionali
Unità H: I modelli ARMA e ARIMA 224
Unità I
Serie temporali bivariate: cenno