Analisi delle Serie Temporali - Siriosirio.stat.unipd.it/files/ts02-03/ts2.pdf · Guido Masarotto e...

Analisi delle Serie Temporali(lucidi delle lezioni)

Guido Masarotto

Facoltà di Scienze Statistiche

Università di Padova

[email protected]

6 gennaio 2003

Indice

A. Introduzione, 1

Che cos’è una serie temporale (o storica)?, 2 Esempio 1: medie giornaliere delle polveri rilevate in una dellecentraline per il controllo atomosferico in Padova, 3 Esempio 2: linci catturate annualmente in Canada, 4Esempio 3: portata del Nilo, 5 Esempio 4: consumo di gas, 6 Esempio 5: consumo di vino bianco secco, 7Esempio 6: vendite di un certo prodotto (e una serie che dovrebbe anticiparne le variazioni), 8 Esempio 7:indice di qualità di un processo produttivo, 9 Esempio 8: input e output di una centrale a gas, 10 Esempio 9:diametro delle gonne all’orlo, 11 Il problema. . . , 12 Principali applicazioni, 13 Caratteristiche del corso, 14

B. Kolmogorov perdono!, 15

Che cos’è un processo stocastico?, 16 Serie temporali e processi stocastici, 17 Caratteristiche “interessanti”di un processo stocastico, 18 Il problema della stazionarietà, 19 Processi stocastici stazionari, 21 Proprietàdella funzione di autocorrelazione di un processo stocastico stazionario, 23

C. Stima della funzione di autocorrelazione, 24

Stima di alcune caratteristiche “interessanti”, 25 Una “banda” ci viene in aiuto, 27 Quattro serie tempora-li. . . , 30 . . . il loro correlogramma. . . , 31 . . . qualche commento . . . , 32 . . . un esercizio e. . . , 33 . . . la suasoluzione, 38 La temperatura al castello di Nottingham, 39 Un correlogramma a Nottingham, 40 A castel-lo è meglio essere corretti, 41 Nottingham: grafici di “autodispersione”, 42 Esercizio, 44 La produzione diautomobili in Giappone, 45 Esercizio, 47 Il test di Ljung-Box (e quello di Box-Pierce), 48

D. Scomposizione di una serie temporale in componenti ele-

mentari, 50

E se il processo non è stazionario?, 51 Componenti di una serie temporale, 52 Modelli di composizione, 53Esempio di una serie “additiva”, 54 Esempio di una serie “moltiplicativa”, 55 Destagionalizzazione di unaserie temporale, 56 Perchè destagionalizzare?, 57

E. Stima della media e sua scomposizione mediante modello di

regressione, 61

CO2 a Mauna Loa, 62 CO2: un modello lineare, 66 CO2: serie destagionalizzata, 70 Altri modelli diregressione: cenni, 71 Appendice: richiami sul modello di regressione lineare multiplo, 72

i

F. Scomposizione di una serie temporale: un approccio flessibi-

le, 76

Il punto debole. . . , 77 Regressione non parametrica: cenni, 78 Stima del trend in assenza di stagionalità, 97Medie mobili e filtri lineari, 98 Stima della componente stagionale in assenza di trend, 99 Stima simulta-nea delle componenti di trend e stagionali: l’algoritmo di backfitting, 104 In pratica, 106 Passeggeri delleaerolinee, 107 Scomposizioni con “problemi”, 126 Estensioni e cautele, 131

G. Modelli dinamici basati sull’idea di lisciamento esponenziale

, 132

Struttura di un modello dinamico, 133 Un modello basato sul lisciamento esponenziale, 135 Serie alla “deriva”, 142Introduzione di una componente stagionale, 150 Innovazione additiva o moltiplicativa?, 157 Sintesi dei mo-delli considerati: le quattro forme di base, 159 Sintesi dei modelli considerati: casi particolari, 160 “Nomi”assegnati ad alcuni casi particolari, 161 Costruzione empirica di un modello, 162 Stima dei parametri, 163Scelta di un modello, 167 Verifica dell’adattamento, 168 Una serie temporale di vendite, 169 Previsione:considerazioni generali, 176 Previsione con i modelli basati sul lisciamento esponenziale, 179 Previsionedella serie delle vendite, 185 Una serie con le bollicine, 188

H. I modelli ARMA e ARIMA, 203

Introduzione, 204 Modelli a media mobile, 205 Invertibilità di un modelloMA(q), 207 Modelli autoregressivi, 210La funzione di autocorrelazione parziale, 212 Modelli autoregressivi a media mobile, 214 L’operatore diritardo, 216 Modelli integrati ovvero metti un po’ di trend in un modello ARMA, 217 Identificazione di unmodello ARMA/ARIMA, 221 Esempio con serie non stagionali, 222 Modelli ARIMA stagionali, 223 Esempiocon serie stagionali, 224

I. Serie temporali bivariate: cenno, 225

ii

Materiale didattico

1. Questi lucidi

2. Guido Masarotto e Giovanna Capizzi (2002), “Materiali per il laboratorio con R”, http://sirio.stat.unipd.it/ts

3. C. Chatfield (1996), “The analysis of time series: an introduction”, Chapman and Hall, Londra

4. T. Di Fonzo e F. Lisi (2001), “Complementi di statistica economica. Analisi delle serie storiche univariate”, CleupEditrice, Padova

Unità A

Introduzione

Che cos’è una serie temporale (o storica)?

Non è infrequente, nelle applicazioni, che le osservazionisulle variabili di interesse, siano raccolte sequenzialmen-

te nel tempo (vedi esempi nelle pagine seguenti).

Nel caso in cui, siano rilevate k variabili in n istanti di

tempo, i dati prendono quindi la forma

variabili rilevate

tempo Y1 Ykt1 y11

... yk1

t2 y12... yk2

... ... ... ...tn y1n

... ykn

e costituiscono quello che è usualmente chiamata una

serie temporale (o storica) k-variata. Spesso, e

sarà l’unico caso che consideremo, le osservazioni sonoequispaziate nel tempo (ovvero ti − ti−1 = costante).

Ovviamente, consideremo solo il caso in cui i fenomeni

rilevati siano “statistici”, ovvero, mostrino una variabilità

non irrilevante e siano non deterministici.

Unità A: Introduzione 2

Esempio 1: medie giornaliere delle polveri

rilevate in una delle centraline per il

controllo atomosferico in Padova


Esempio 2: linci catturate annualmente in

Canada

lynx

1820 1840 1860 1880 1900 1920

010

0020

0030

0040

0050

0060

0070

00

E’ evidente una componente ciclica con una frequenzapoco più lunga di 10 anni (ci sono 12 “minimi” e 12

“massimi” in circa 110 anni).


Esempio 3: portata del Nilo

Time

Nile

1880 1900 1920 1940 1960

600

800

1000

1200

1400

Qual’è la distribuzione del massimo in 500 anni delle

portate?


Esempio 4: consumo di gas

Time

UK

gas

1960 1965 1970 1975 1980 1985

200

400

600

800

1000

1200La serie è trimestrale. Si osservi sia l’aumento nel tempo

che la presenza di oscillazioni di tipo stagionale la cuiampiezza aumenta con l’aumentare del livello della serie

stessa.


Esempio 5: consumo di vino bianco secco

1980 1985 1990 1995

2000

3000

4000

5000

Si osservi sia l’aumento nel tempo che la presenza di

oscillazioni di tipo stagionale.


Esempio 6: vendite di un certo prodotto (e

una serie che dovrebbe anticiparne le

variazioni)

200

220

240

260

BJs

ales

1011

1213

14

BJs

ales

.lead

0 50 100 150

Il grafico di sopra mostra le vendite di una azienda. Il

grafico sotto una serie che anticipa i cambiamenti dellaprima serie. Si vedano gli istanti di tempo indicati

dalle linee tratteggiate verticali. Sono punti di svolta

per la seconda serie che anticipano simili andamenti

nella prima. Il problema è come è possibile utilizzarequeste informazioni per calcolare delle previsioni

delle vendite (che ad esempio, potrebbero essereutilizzate per decidere “quanto produrre”, quante scorte

mantenere,. . . )Unità A: Introduzione 8

Esempio 7: indice di qualità di un processo

produttivo

5 10 15 20 25

12.0

12.5

13.0

13.5

14.0

14.5

25 giorni di misurazioni (5 misure al giorno) su di

un parametro che misura la qualità di un processoproduttivo.

Tutte le oscillazioni sono casuali? Oppure, nascosto nel“rumore”, c’è qualcosa di sistematico e quindi magari di

eliminabile?


Esempio 8: input e output di una centrale a

gas

5055

60

GF

outp

ut

−2

−1

01

23

GF

inpu

t

0 50 100 150 200 250 300

Il grafico di sopra mostra una serie di misurazioni

condotte su un parametro che può essere interpreta-to come un indice di qualità della produzione di una

fornace a gas. Il grafico di sotto una caratteristica dellafornace che può essere controllata dal personale tecnico.

Il problema è capire come fissare i valori della secondaserie per “far correre” la prima il più possibile vicino al

suo valore obbiettivo (cioè 60).


Esempio 9: diametro delle gonne all’orlo

1870 1880 1890 1900 1910

600

700

800

900

1000


Il problema. . .

. . . è quello di capire la dinamica della serie osservata,ovvero, il meccanismo con cui si evolve nel tempo.

In particolare, in questo corso, ci occuperemo di

? descrivere/modellare le variazioni nel tempo dellamedia (ed, eventualmente di altre caratteristiche).

? descrivere/modellare le relazioni dinamiche di tipolineare esistenti (ovvero tra le osservazioni ieri, oggi,

domani, . . . ).


Principali applicazioni

• Previsione: al tempo tn vogliamo prevedere i valoriche la serie temporale assumerà al tempo t > tn.

• Controllo: si supponga di avere a che fare, persemplicità, con due sole variabili (k = 2) e che:

i) le variazioni di y1t influenzino y2t;

ii) y1t sia controllabile (ovvero possiamo fissarne ivalori);

iii) non possiamo controllare y2t; però, desideremmo

che y2t risulti uguale ad un valore prefissato,diciamo η, per ogni t.

Il problema è: quali valori scegliamo per la prima

variabile affinchè la seconda si discosti il menopossibile dal valore desiderato?

Osservazione: Per dare una risposta ad ambedue i

problemi dobbiamo ovviamente dare una risposta alledomande del lucido di pagina 12.

Esercizio: Spiegare perchè è vera la precedenteosservazione.


Caratteristiche del corso

1. E’ introduttivo: vuole presentare solo alcune idee etecniche di base. Considereremo solo

• dati equispaziati nel tempo (ti − ti−1 = ∆);

• situazioni in cui le variabili rilevate sianonumeriche ed (almeno assimilabili a variabili) reali,

• quasi sempre il caso di serie univariate,

• solo relazioni dinamiche di tipo lineare.

2. E’ operativo: vuole sviluppare la capacità di

analizzare concretamente delle serie reali (perquesto le esercitazioni nel laborario informatico

costituiscono una parte integrante del corso).


Unità B

Kolmogorov perdono!

• 2 cose 2 sui processi stocastici ovvero sul modelloprobabilistico di riferimento

• funzione di autocovarianza e di autocorrelazione

• stazionarietà

Che cos’è un processo stocastico?

? Per quello che ci riguarda, trascurando definizioni piùgenerali, un processo stocastico consiste semplicemen-

te in una successione di variabili casuali Y = {Yt :

−∞ < t < +∞} ordinate nel tempo e con arbitrarie

relazione di dipendenza interne.

? Un’esperimento su Y ci fornisce quindi una particolare

successione numerica {yt : −∞ < t < +∞} incui ciascuna yt è il risultato di un esperimento sulla

variabile casuale Yt. Una particolare successionegenerata dal processo viene usualmente chiamata

realizzazione o traiettoria del processo.

? Ovviamente, a meno di casi degeneri, esperimenti

diversi su Y risulteranno in traiettorie diverse, ovvero,

il processo può generare differenti (tipicamenteinfinite) successioni. In caso contrario, il meccanismo

sarebbe deterministico non stocastico.

? Le varie traiettorie generabili dal processo non avranno

però in generale tutte la stessa probabilità, ovvero,avremmo traiettorie più probabili e traiettorie meno

probabili.

Unità B: Kolmogorov perdono! 16

Serie temporali e processi stocastici

? L’analisi delle serie temporali è rivolta alla comprensio-ne di fenomeni che si evolvono nel tempo in maniera

non deterministica.? I processi stocastici sono modelli matematici utili per

descrivere la “legge” probabilistica (o stocastica -dalgreco “che ha a che fare con il caso”) con cui un certo

fenomeno fisico si può evolvere nel tempo (o nello

spazio, o nel tempo e nello spazio,. . . ). In questosenso, costituiscono il modello probabilistico naturale

di riferimento per l’analisi delle serie temporali.? Possiamo “guardare” alle osservazioni disponibili (la

serie storica osservata) come ad “un pezzettino” diuna realizzazione di un processo stocastico e utilizzare

questi dati per cercare di capire la legge probabilisti-ca (o alcuni dei suoi aspetti) del processo stocastico

che li ha generati, ovvero, ricondurre l’analisi delle

serie temporali ad un problema di inferenza statisticasu processi stocastici.

? Questo è quello che faremo. Si osservi comunqueche non è “filosoficamente indolore”. Ovvero, spesso

l’esperimento che ha generato la serie osservata èirripetibile. A noi quindi interessa la serie osservata,

non il meccanismo con cui potrebbero esserne generatealtre di analoghe ma, a questo punto, in mondi in cui

non abitiamo. Però. . .


Caratteristiche “interessanti” di un

processo stocastico

? E’ possibile dimostrare che la distribuzione di

probabibilità di un processo stocastico è completamen-te caratterizzata dall’insieme di tutte le distribuzioni

di probabilità finite-dimensionali del processo, ovvero,dalle distribuzioni di probabilità di (Yt1, . . . , Ytk) per

qualsivoglia k e per qualsivoglia scelta associata di

t1, . . . , tk.

? Stimare però dai dati tutte queste distribuzioniè, soprattutto in assenza di forti informazioni sul

processo, praticamente impossibile.

? Molto spesso ci si limita perciò a considerare

solamente particolari momenti del processo. Inparticolare noi ci concentreremo sui momenti primi e

secondi e considereremo le seguenti “funzioni” (che

supporremmo “tranquillamente” esistere tolto in casiparticolari che saranno evidenziati):

media: ηt = E(Yt),

varianza: σ2t = var(Yt),

autocovarianza: γ(t ′, t ′′) = cov(Yt ′,Yt ′′),

e la associata funzione di autocorrelazione

ρ(t ′, t ′′) =γ(t ′, t ′′)

σt ′σt ′′Unità B: Kolmogorov perdono! 18

Il problema della stazionarietà

• Supponiamo di avere a disposizione 1000 osservazio-ni su di una serie temporale univariata (ovvero

conosciamo y1, . . . ,y1000) e di voler calcolare unaprevisione per il valore che la serie assumerà al tempo

1001 (ovvero per y1001).

• Sulla base delle cose che sappiamo dai corsi

precedenti potremmo ad esempio pensare di utilizzareun modello di regressione lineare semplice in cui

y1001 sia la variabile dipendente utilizzando comevariabile esplicativa l’osservazione “nota” più “vicina”

nel tempo ovvero y1000. Questo, utilizzando le

formule note dal corso di Statistica Descrittiva e lanotazione del lucido (18), ci portà a pensare ad una

previsione calcolata come

y1001 = η1001 +γ(1001, 1000)

σ21000

(y1000 − η1000)


• E’ però evidente che questa formula non è utilizzabi-le senza ipotesi aggiuntive sul processo stocastico che

genera i dati. Infatti, anche se abbiamo un certonumero di osservazioni (1000), poichè non abbiamo

nessuna osservazione su Y1001 non abbiamo nessundato che ci fornisca “direttamente” informazioni su

η1001. Analogamente, nei dati non abbiamo nessunainformazione “diretta” sulla covarianza tra Y1000 e

Y1001 (ci servirebbero dei dati generati dalla variabile

casuale bivariata (Y1000, Y1001)). E anche “su” Y1000

abbiamo una sola osservazione. Un po’ poco per

stimare in maniera affidabile η1000 e completamenteinsufficiente per stimare dai dati σ1000

• Il problema è generale. Ovvero non c’entra laformula della pagina precedente. Infatti, per calcolare

delle previsioni dovremmo conoscere che relazioneesiste tra quello che è accaduto fino ad oggi e

che conosciamo, ovvero (y1, . . . ,y1000), e quello cheaccadrà domani, ovvero y1001. Ma nei dati, in assenza

di ipotesi aggiuntive, non abbiamo informazioni“dirette”, sulla dipendenza tra passato, presente e

futuro per il semplice e ovvio fatto che il futuro non lo

abbiamo per definizione osservato.

• L’ipotesi di stazionarietà è una ipotesi aggiuntiva

spesso utilizzata (ovvero, che si è rivelata utileempiricamente) per risolvere il problema precedente

(ed altri analoghi).


Processi stocastici stazionari

Un processo stocastico è detto stazionario

in senso forte se per qualsiasi h, k, t1,. . . e tk (tuttiinteri) la distribuzione di probabilità di

(Yt1, . . . , Ytk)

è uguale alla distribuzione di probabilità di

(Yt1+h, . . . ,Ytk+h);

in senso debole se per qualsiasi h, t ′ e t ′′ (interi)

E(Yt ′) = E(Yt ′′)

var(Yt ′) = var(Yt ′′)

cov(Yt ′,Yt ′′) = cov(Yt ′+h,Yt ′′+h)

Si osservi che la prima definizione implica la seconda

(almeno se i momenti coinvolti esistono).


Nel caso un processo stocastico sia stazionario possiamoscrivere, con un leggero abuso di notazione rispetto a

quanto fatto prima,

E(Yt) = η

var(Yt) = σ2

cov(Yt+h, Yt) = γ(h)

corr(Yt+h, Yt) = ρ(h)

per qualsivoglia t e h

ovvero, se un processo è stazionario,

? la media e la varianza non variano con il tempo

? le covarianze (e quindi le autocorrelazioni) è solofunzione della distanza nel tempo tra le due variabili

casuali coinvolte1

1questa relazione si ottiene dalla definizione di stazionarietà debole ponendoh = −t ′


Proprietà della funzione di

autocorrelazione di un processo stocastico

stazionario

• ρ(h) = γ(h)/σ2;

• ρ(0) = 1 (beh, se “quello che capita oggi” non fossecorrelato perfettamente con “quello che capita oggi”

avremmo veramente da preoccuparci; formalmenteσ2 = γ(0));

• −1 ≤ ρ(h) ≤ 1 ∀h (sono coefficienti di correlazione);

• ρ(h) = ρ(−h). E’ una conseguenza del fatto che per

qualsiasi coppia di variabili casuali, diciamo X e Y,

cov(X,Y) = cov(Y,X);

• Per qualsiasi k e per qualsiasi scelta di (a1, . . . ,ak)

(numeri qualsiasi)

k∑

i=0

k∑

j=0

aiajρ(i − j) ≥ 0

Infatti, la quantità sul lato sinistro è la varianza di∑k

i=0 aiYt−i divisa per σ2.


Unità C

Stima della funzione di autocorrela-zione

• Stimatori

• Bande nel “correlogramma”

• Test di Ljung-Box (e Box-Pierce)

Stima di alcune caratteristiche

“interessanti”

Nel caso di un processo stazionario, i valori attesi ditutte le osservazioni (qualsiasi sia t) sono uguali ad una

costante η. Possiamo quindi pensare di stimare il valorecomune della media mediante

η = y =1

n

n∑

t=1

yt.

In maniera analoga, sfruttando le altre “invarianze” nel

tempo, possiamo stimare la funzione di autocovarianza

e di autocorrelazione mediante

γ(h) =1

n

n∑

t=h+1

(yt − y)(yt−h − y)

ρ(h) =γ(h)

γ(0)

Unità C: Stima della funzione di autocorrelazione 25

Nota 1: Si osservi che dividiamo per “n” e non per“n−h” che è il numero degli addendi. E’ usuale fare così

poichè in questo modo anche la stima (e non solo quelloche si vuole stimare) gode delle proprietà descritte

nel lucido (23). Ad esempio, dividendo per “n − h”potremmo ottenere stime dei coefficienti di autocorrela-

zione, in modulo, più grandi di 1. Dividendo per n peròintroduciamo una distorsione verso lo zero nello stima

(=sottostiamo in maniera sistematica la correlazione

esistente).

Nota 2: γ(h) non è definito se h > n − 1. Questoè scontato. Con n osservazioni non abbiamo nessuna

coppia di osservazioni distanti n o n + 1 o così via.

Nota 3: Si osservi tra l’altro che “ha senso” calcolare

γ(h) solo se n − h, ovvero il numero di addendi su cuiè basata la stima, è sufficientemente grande. Questo

non è un grande problema nelle applicazioni visto chetipicamente si è interessati alla funzione di autocovarian-

za (o di autocorrelazione) solamente per ritardi non

grandi. Però va sempre tenuto presente.

Nota 4: Per il calcolo di ρ(h) ovviamente non ènecessaria la stazionarietà. Delle volte si usa ρ(h) per

avere una idea “media nel tempo” della dipendenza

lineare esistente.

Nota 5: Il grafico di ρ(h) verso h viene chiamatocorrelogramma.


Una “banda” ci viene in aiuto

? E’ possibile dimostrare che se non esiste autocorrela-zione nel processo (ovvero se ρ(h) = 0 quando h 6=0, ovvero se come si usa dire il processo osservato èun rumore bianco (white noise)) allora la distribuzione

asintotica di√nρ(h) è una normale di media nulla e

varianza uno.

? Quindi nel caso di una serie senza autocorrelazione,ρ(h) “cadrà” nell’intervallo

[−z1−α/2/√n, z1−α/2/

√n]

(dove zζ è il quantile ζ-simo di una normale standard)con una probabilità approssimativamente uguale a 1 −

α (ovviamente n deve essere sufficientemente grande –n > 50 sembra essere sufficiente).

? Per questo nei grafici della funzione di autocorrelazio-ne empirica (ovvero quella stimata dai dati), sono spesso

indicate delle bande del tipo [−1,96/√n, 1,96/

√n]

(z0.975 = 1,96).


? Valori di ρ(h), per quanto diversi da zero, maall’interno di queste bande suggeriscono che l’autocorre-

lazione “stimata” potrebbe essere in realtà dovuta al caso(ovvero non essere una proprietà del processo).

? Si osservi, comunque, che anche in assenza diautocorrelazione, ci aspettiamo, utilizzando le bande

precedenti, un ρ(h) ogni 20 “fuori” dalle bande.

? Ovvero, se calcoliamo i primi 30 coefficienti di

autocorrelazione, trovarne uno, due o anche tre fuoridalle bande può essere attribuito all’effetto del caso.

? Ovviamente però ce li aspettiamo non di molto esterni

alle bande stesse.


Pochi ρ(h) fuori di poco dalle bande possono essere attribuiti all’errore di stima. Il primo correlogramma mostra

quindi una situazione probabilmente di incorrelazione. Nel secondo, un solo ρ(h) è esterno alle bande. Però è molto

più grande dei limiti disegnati. Probabilmente indica una autocorrelazione reale.

0 5 10 15 20

−1.0

−0.5

0.0

0.5

1.0

Lag

AC

F

0 5 10 15 20

−1.0

−0.5

0.0

0.5

1.0

Lag

AC

F


Quattro serie temporali. . .(a)

0 20 40 60 80 100

−4

−2

02

(b)

0 20 40 60 80 100

−3

−2

−1

01

23

(c)

0 20 40 60 80 100

−4

−2

02

46

(d)

0 20 40 60 80 100

−2

−1

01

2


. . . il loro correlogramma. . .

0 5 10 15 20

−0.

50.

00.

51.

0

(a)

0 5 10 15 20

−0.

50.

00.

51.

0

(b)

0 5 10 15 20

−0.

20.

20.

61.

0

(c)

0 5 10 15 20

−0.

20.

20.

61.

0

(d)


. . . qualche commento . . .

? Il grafico della prima serie mostra la presenza di“onde” che però non hanno lunghezza e ampiezza

costante. Le onde “a smorzare” nel correlogram-ma ci raccontano esattamente la presenza di questa

componente. Il correlogramma ci dice anche che la“lunghezza media” delle onde è di 6 periodi.

? La serie (c) è caratterizzata da oscillazioni molto piùrapide. Il correlogramma ci segnala un comportamen-

to addirittura di tipo “alternante”: ad una “osservazio-ne grande” tendenzialmente segue una “osservazione

piccola” e così via.

? Dal grafico della serie (c), come del resto in quello

della serie (a), si individua facilmente la presenza diautocorrelazione positiva a ritardo 1 (una “osservazio-

ne grande” è tendelzialmente seguita da un’altra

“osservazione grande”, una “piccola” da una “piccola”).Il correlogramma ci racconta che questa è l’unica

correlazione esistente: osservazioni più distanti sonoincorrelate.

? Il correlogramma della serie (d) ci indica che si trattadi un white noise.


. . . un esercizio e. . .

Le figure nelle prossime pagine riportano i grafici di ytdisegnato verso yt−h per alcuni valori di h. Chiameremo

questo tipo di grafici di autodispersione (lag plot nellaletteratura anglosassone). Le serie utilizzate sono quelle

precedenti. Ogni pagina si riferisce ad una delleserie. Ma le pagine non sono nell’ordine utilizzato

precedentemente. Completare il seguente “schemetto”:

la figura si riferisce

a pagina alla serie

34 . . . . . .35 . . . . . .

36 . . . . . .37 . . . . . .

La soluzione è a pagina 38.


lag 1

a−

3−

2−

10

12

3

−3 −2 −1 0 1 2 3

lag 2

a

lag 3

a

−3 −2 −1 0 1 2 3

lag 4

a

lag 5

a

lag 6

a

−3

−2

−1

01

23

lag 7

a−

3−

2−

10

12

3

lag 8

a

lag 9

a

lag 10

a

lag 11

a

−3 −2 −1 0 1 2 3lag 12

a

−3

−2

−1

01

23


lag 1

a−

2−

10

12

−3 −2 −1 0 1 2

lag 2

a

lag 3

a

−3 −2 −1 0 1 2

lag 4

a

lag 5

a

lag 6

a

−2

−1

01

2lag 7

a−

2−

10

12

lag 8

a

lag 9

a

lag 10

a

lag 11

a

−3 −2 −1 0 1 2lag 12

a

−2

−1

01

2


lag 1

a−

4−

20

2

−4 −2 0 2 4

lag 2

a

lag 3

a

−4 −2 0 2 4

lag 4

a

lag 5

a

lag 6

a

−4

−2

02

lag 7

a−

4−

20

2

lag 8

a

lag 9

a

lag 10

a

lag 11

a

−4 −2 0 2 4lag 12

a

−4

−2

02


lag 1

a−

4−

20

24

6

−6 −4 −2 0 2 4 6 8

lag 2

a

lag 3

a

−6 −4 −2 0 2 4 6 8

lag 4

a

lag 5

a

lag 6

a

−4

−2

02

46

lag 7

a−

4−

20

24

6

lag 8

a

lag 9

a

lag 10

a

lag 11

a

−6 −4 −2 0 2 4 6 8lag 12

a

−4

−2

02

46


. . . la sua soluzione

.

la figura si riferisce

a pagina alla serie

34 (b)35 (d)

36 (a)37 (c)


La temperatura al castello di Nottingham

Time

notte

m

1920 1925 1930 1935 1940

3035

4045

5055

6065

E’ evidente la presenza (come atteso) di una importantecomponente stagionale.


Un correlogramma a Nottingham

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

Si osservi come le onde nel periodogramma “si

smorzino” lentamente. A 10 anni di distanza1 c’èancora della dipendenza. Tenendo presente che “stiamo

dividendo per n” (vedi pagina 25), la diminuzionepotrebbe addirittura essere un artefatto. Infatti. . .

1Si osservi che i ritardi nel grafico della funzione di autocorrelazione, fatto inR, sono etichettati utilizzando gli anni non i mesi.Unità C: Stima della funzione di autocorrelazione 40

A castello è meglio essere corretti

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

. . . se “dividiamo per n − h” il correlogramma non“diminuisce più”.


Nottingham: grafici di “autodispersione”

lag 12

notte

m30

4050

60

30 40 50 60 70

lag 24

notte

m

lag 36

notte

m

30 40 50 60 70

lag 48

notte

m

lag 60

notte

m

lag 72

notte

m

3040

5060

lag 84

notte

m30

4050

60

lag 96

notte

m

lag 108

notte

m

lag 120

notte

m

lag 132

notte

m

30 40 50 60 70lag 144

notte

m

3040

5060

Si osservi che sono mostrati solo i “ritardi” stagionali.Quindi, l’ultimo grafico, mostra il digramma di

dispersione tra la temperatura di “oggi” e quella di “12anni fa”.


lag 6

notte

m30

4050

60

30 40 50 60 70

lag 18no

ttem

lag 30

notte

m

30 40 50 60 70

lag 42

notte

m

lag 54

notte

m

lag 66

notte

m

3040

5060

lag 78

notte

m30

4050

60

lag 90

notte

m

lag 102

notte

m

lag 114

notte

m

lag 126

notte

m

30 40 50 60 70lag 138

notte

m

3040

5060

Rispetto al grafico di prima i ritardi sono stati sfasatidi 6 mesi. Con un pò di licenza potremmo dire che

stiamo guardando alla correlazione tra la temperaturanell’inverno/primavera/estate/autunno di un anno e

quella nell’estate/autunno/inverno/primavera di 1, 2, . . .anni prima.Unità C: Stima della funzione di autocorrelazione 43

Esercizio

lag 1

notte

m30

4050

60

30 40 50 60 70

lag 2

notte

m

lag 3

notte

m

30 40 50 60 70

lag 4

notte

m

lag 5

notte

m

lag 6

notte

m

3040

5060

lag 7

notte

m30

4050

60

lag 8

notte

m

lag 9

notte

m

lag 10

notte

m

lag 11

notte

m

30 40 50 60 70lag 12

notte

m

3040

5060

La figura mostra i diagrammi di autodispersione per iprimi 12 ritardi. In alcuni dei grafici compaiono delle

sorta di anelli. Spiegare perche’.


La produzione di automobili in Giappone

Il grafico mostra il numero di automobili (in migliaia)prodotte in Giappone dal 1949 al 1989. La serie è

evidentemente non stazionaria visto l’aumento dellamedia (trend) negli anni.

1950 1960 1970 1980 1990

020

0040

0060

0080

0010

000

1200

0


Il correlogramma è quelo tipico in questo casi: positivoe vicino ad uno all’inizio, poi decresce lentamente

e inverte il suo segno ad un ritardo pari adapprossimativamente la metà della lunghezza della serie

osservata.

0 5 10 15 20 25 30

−1.

0−

0.5

0.0

0.5

1.0

0 5 10 15 20 25 30−

1.0

0.0

0.5

1.0

Il secondo correlogramma è stato ottenuto “dividendoper n−h”. Si osservi come in questo caso la correlazione

negativa a ritardi elevati diventi addirittura inferiore a

−1!!!


Esercizio

La figura mostra i diagrammi dia autodispersione per laserie considerata nelle pagine precedenti. Indicando con

yt la variabile posta sulle ascisse in ogni grafico, dire sesulle ordinate è stato disegnato yt−h o yt+h per i valori

prescelti di h (in questo caso 1, . . . , 12)?

lag 1

d0

2000

6000

1000

0

0 2000 6000 10000

lag 2

d

lag 3

d

0 2000 6000 10000

lag 4

d

lag 5

d

lag 6

d

020

0060

0010

000

lag 7

d0

2000

6000

1000

0

lag 8

d

0 2000 6000 10000lag 9

d


Il test di Ljung-Box (e quello di Box-Pierce)

Una statistica test che può essere utilizzata per verificare

l’ipotesi che il processo sia un white noise è

TL&B = n(n + 2)

H∑

h=1

ρ2(h)

n− h

dove H è un intero prescelto. Sotto l’ipotesinulla (assenza di autocorrelazione) TL&B si distribuisce

asintoticamente come una variabile casuale χ2 con H

gradi di libertà. Valori troppo grandi rispetto a quelli

che ci aspettiamo da questa distribuzione sono evidenzache l’autocorrelazione “non è solo apparente”.

Un test, asintoticamente analogo a quello di Ljung e Box,

si basa sulla statistica test proposta e studiata da Box e

Pierce

TB&P = n

H∑

h=1

ρ2(h).

La differenza tra le due statistiche consiste semplicemen-

te nella differente ponderazione adottata: nella primail quadrato di ρ(h) “entra” con peso n(n + 2)/(n −

h) mentre nella seconda con peso n. Asintotica-mente sono equivalenti. Si può però mostrare che

la prima statistica converge più rapidamente alla suadistribuzione asintotica. E’ quindi consigliabile utilizzare

TL&B.Unità C: Stima della funzione di autocorrelazione 48

Esempio 1. Con i dati del primo esempio di pagina29, TL&B calcolato sulla base dei primi 20 coefficien-

ti di autocorrelazione campionari vale 26,63. Unaapprossimazione del livello di significativà del test è

quindiProb(χ2

20 ≥ 26,63) ≈ 0,15.

Le differenze da zero delle autocorrelazioni campionarie

potrebbero quindi essere semplicemente dovute al erroredi stima.

Esempio 2. Con i dati del secondo esempio di pagina

29, TL&B calcolato sulla base dei primi 20 coefficien-

ti di autocorrelazione campionari vale 87,65. Unaapprossimazione del livello di significativà del test è

quindiProb(χ2

20 ≥ 87,65) ≈ 2 × 10−10.

Questo valore ci dice che applicando la medesimaprocedura a serie storiche incorrelate ci aspettiamo un

valore della statistica test grande come quello osservato

circa due volte ogni dieci miliardi di occasioni. Quindi,ci suggerisce che l’autocorrelazione segnalata dal grafico

è reale (e non semplicemente dovuta all’errore di stima).


Unità D

Scomposizione di una serie temporalein componenti elementari

• trend, stagionalità e componente irregolare

• differenti modelli di composizione delle componenti

• serie destagionalizzate

E se il processo non è stazionario?

Molte serie temporali contengono evidenti segni di non-stazionarietà In particolare in posizione e dispersione.

In questi casi, è abbastanza comune per non perderei vantaggi assicurati dalla stazionarietà, cercare di

trasformare la serie originale in una serie stazionaria.

Ovviamente, una possibilità per realizzare il “programma

precedente” consiste nello stimare la parte non

stazionaria della serie osservata per poi rimuoverla.

Questo tra l’altro è un problema spesso interessante diper se.

Unità D: Scomposizione di una serie . . . 51

Componenti di una serie temporale

Non è infrequente che una serie storica possa esserepensata come la composizione di varie componenti.

In particolare, spesso, anche solo guardando il graficodella serie, sono evidenti:

[trend] una componente che varia lentamente nel tempo

e che essenzialmente determina il livello della serie;

[stagionalità] una o più componenti periodiche, ovveroche si “ritrovano” uguali o quasi a distanza fissa nel

tempo (ad esempio, in serie mensili ogni 12 mesi, inserie trimestrali ogni 4 trimesti, in serie giornaliere,

ogni 7 giorni);[componente irregolare] una componente più erratica

che determina nella serie delle oscillazioni tipicamentedi breve periodo. Normalmente può essere assimilato

ad un processo stocastico stazionario.


Modelli di composizione

Indichiamo con Tt, St e It le tre componenti. Le manierein cui possono interagire per “formare” la serie osservata

possono essere differenti. Alcuni esempi sono i seguenti“modelli” di composizione

additivo: yt = Tt + St + It;

moltiplicativo: yt = TtStIt;

moltiplicativo con comp. irr. additiva yt = TtSt + It.


Esempio di una serie “additiva”

2200

2600

3000

y

2400

2600

2800

3000

3200

tren

d

−10

0−

500

5010

0

seas

−10

0−

500

5010

015

0

irr

2 4 6 8 10

Time

L’ampiezza delle oscillazioni stagionali e della componente irregolare nella serie (primo grafico del pannello) è la

stessa a prescindere dal livello della serie stessa.


Esempio di una serie “moltiplicativa”0

1000

3000

5000

y

200

600

1000

1400

tren

d

0.5

1.0

1.5

2.0

2.5

seas

12

34

irr

2 4 6 8 10

Time

Le oscillazioni stagionali e la componente irregolare “entrano” nella serie (primo grafico del pannello) con una

ampiezza che dipende dal livello della serie (ovvero dal trend).


Destagionalizzazione di una serie

temporale

Nelle prossime unità vedremo alcune tecniche utili perscomporre una serie temporale nelle sue componenti

elementari e quindi, in particolare, per stimarne lacomponente stagionale.

Un’utilizzo di queste tecniche consiste nella produzionedi cosidette serie destagionalizzate ovvero serie in cui la

parte periodica e predicibile sia stata rimossa.

I dettagli di come può essere fatto dipendono dal

modello di composizione. Ad esempio, nel caso di unmodello [additivo, moltiplicativo] è sufficiente [sottrarre

dalla,dividere la] serie originale [,per] la componentestagionale.

Esercizio: Proporre una formula per destagionalizzareuna serie per cui si è adottato un modello moltiplicativo

con componente irregolare additiva.


Perchè destagionalizzare?

? Si supponga che qualcuno vi dica che la media dellaCO2 a Padova è risultata a novembre il 20% più elevata

che a ottobre.

? Possiamo affermare che l’inquinamento è “realmente”

aumentato? Boh!!!

? L’aumento potrebbe essere semplicemente “stagionale”

e ad esempio legato al maggiore utilizzo delleautomobili e del riscaldamento privato dovuto alle

temperature più fredde (traffico e riscaldamento sonole fonti maggiori di CO2);

? Nella serie destagionalizzata questa componenteprevedibile “speriamo” di averla eliminata.

? Ovviamente lo stesso discorso può essere fatto inmoltissime altre situazioni. Ad esempio, un aumento

degli occupati nell’agricoltura del 10% tra giugno emaggio è una indicazione di un vero e proprio boom

economico?


? Inoltre la componente stagionale costituisce spesso unaparte della serie storica la cui esistenza è scontata e la

cui spiegazione è quindi nota e perciò non particolar-mente interessante. Nello stesso tempo però può

essere sufficientemente “grande” per mascherare altriandamenti.

? Un esempio è mostrato nei prossimi due grafici:

i) il primo mostra la serie mensile dei passegeri su

tratte aeree internazionali (in migliaia) dai 1949al 1960; è evidente un trend crescente e una forte

componente stagionale;

ii) nel secondo grafico viene mostrata una versione

“destagionalizzata” della stessa serie con aggiuntauna stima della componente di trend.

Si noti come nel secondo grafico sia evidente i duerallentamenti nella crescita avvenuti tra il 1953/54

(guerra di Corea?) e il 1957/58 (conseguenza di alcuni“disastri”?) Lo stesso non si può dire con riferimento al

primo grafico dove i due rallentamenti sono “coperti”

dalla componente stagionale.


Passegeri delle linee aree internazionaliSerie osservata

AirP

asse

nger

s

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600


Passegeri delle linee aree internazionaliSerie destagionalizzata

1950 1952 1954 1956 1958 1960

200

300

400

500

serie destagionalizzatastima del trend


Unità E

Stima della media e sua scomposizio-ne mediante modello di regressione

? richiami sul modello lineare di regressione multipla

? rappresentazione del trend mediante un polinomio

? rappresentazione della stagionalità mediante variabilidummies

CO2 a Mauna Loa

Illustriamo le tecniche di questo unità utilizzando laseguente serie mensile di misurazioni di CO2 a Mauna

Loa (una località delle Haway).

Time

co2

1960 1970 1980 1990

320

330

340

350

360

Sono evidenti

- una componente di trend sufficientemente regolare

(potrebbe essere un polinomio del secondo ordine)- una componente stagionale

che rendono la serie non stazionaria.

Unità E: Stima della media e sua . . . 62

Il grafico è stato costruito nella seguente maniera:

- per prima cosa, ad ogni osservazione è stata sottratta lamedia delle 12 osservazioni del “suo” anno

- poi, separatamente per ogni anno, i 12 scarti sono stati

disegnati verso il numero d’ordine del mese.

2 4 6 8 10 12

−2

02

4

Il grafico mostra che il profilo stagionale è sostanzialmen-

te rimasto lo stesso per tutti i 39 anni considerati.


Questo porta a pensare ad un modello del tipo

yt = (Trend)t + (Stagionalità)t + (Errore)t

dove

- (Trend)t è un polinomio del secondo ordine, ovvero,

(Trend)t = α0 + α1t+ α2t2

- (Stagionalità)t è una componente periodica che siripete di anno in anno, ovvero,

(Stagionalità)t+12 = (Stagionalità)t.


Una conferma giunge anche dal grafico seguente chemostra le sotto-serie mensili (ovvero la serie di tutti

i gennaii disegnata contro l’anno,. . . ). Se vale ilmodello precedente in questo grafico dovremmo infatti

osservare 12 curve approssimamente parallele, ciascunaapprossimabile da un “pezzettino” di parabola).

1960 1970 1980 1990

320

330

340

350

360

1

1

1

2

2

2

3

3

3

4

4

4

5

5

5

6

6

6

7

7

7

8

8

8

9

9

9

1

1

1

1

1

1

1

1

1


CO2: un modello lineare

Poniamo

φi = (Stagionalità)i per i = 1, . . . , 12

Allora, il modello prima formulato per la CO2 può esserescritto come un modello lineare del tipo

yt = α0 +α1t+α2t2 +φ1d1,t+ · · ·+φ12d12,t + (Errore)t

dove, d1,t è una variabile che vale 1 se siamo nel mese di

gennaio e zero altrove, d2,j è una variabile che vale 1 sesiamo nel mese di febbraio e zero altrove,. . . . Variabili

indicatrici di questo tipo sono usualmente chiamatedummy (=mute).

Scritto in termini matriciali il modello diventa

y1

y2...

y11

y12

y13......

y468

=

1 1 12 1 0 ... 0 0

1 2 22 0 1 ... 0 0... ... ... ... ... ... ... ...

1 11 112 0 0 ... 1 01 12 122 0 0 ... 0 1

1 13 132 1 0 ... 0 0... ... ... ... ... ... ... ...... ... ... ... ... ... ... ...

1 468 4682 0 0 ... 0 1

α0

α1

α2

φ1

φ2...φ11

φ12

+ ε


Si osservi che in un modello del tipo

(serie osservata)=(trend)+(stagionalità)+(errore)

il livello medio dei tre addendi in cui viene scompostala serie osservata è in una qualche forma arbitrario.

Ad esempio, assegnata una scomposizione di questo

tipo, possiamo generarne un’altra perfettamente validaaggiungendo un valore arbitrario, indichiamolo con δ,

al trend e sottraendo δ/3 alla componente stagionale e2δ/3 alla componente di errore.

Possiamo superare questa ambiguità imponendo deivincoli in maniera tale che la prima componente, quella

di trend, sia interpretabile come quella che ci fornisce illivello della serie osservata.

In particolare, sembra sensato chiedere che la sommadella componente stagionale in un anno sia nulla. Nel

caso del modello lineare precedente, questo diventa ilseguente vincolo lineare sui parametri

φ1 + · · · + φ12 = 0.

Le stime a minimi quadrati possono quindi essere

ottenuti con la procedura indicata nel lucido (75).

Esercizio: Formulare i dettagli (in particolare cosa è a e

β?)Unità E: Stima della media e sua . . . 67

320

340

360

data

320

340

360

tren

d

−3

−1

01

23

seas

onal

−2

−1

01

2

rem

aind

er

1960 1970 1980 1990

Time

co2 ~ p(2) + c

Il primo grafico mostra la serie originale, il secondo lacomponente di trend stimata, il terzo la componente

stagionale, l’ultimo la componente erratica.


Si osservi come la componente di errore sia evidentemen-te autocorrelata positivamente (si spieghi perche’

basandosi sul terzo grafico precedente; può essereconveniente costruirsi ad esempio un diagramma di

autodispersione su cui disegnare approssimativamente(Errore)t−1 sull’asse delle ascisse e (Errore)t−1 sull’asse

delle ordinate) e forse, addirittura, non stazionaria inmedia.

Questo ci è confermato dal correlogramma empirico

0 1 2 3 4 5

−1.0

−0.5

0.0

0.5

1.0

Lag

ACF

che “decresce lentamente” e forse mostra la presenzauna residua componente stagionale (Esercizio: Perche’?)


CO2: serie destagionalizzata

Avendo stimato la componente stagionale possiamo“eliminarla” ottenendo la cosidetta serie destagiona-

lizzata. In questo caso, ci basta sottrarre dalla serieoriginale la componente stagionale

Time

1960 1970 1980 1990

320

330

340

350

360

Osservazione: Poichè la componente erratica mostra

qualche segno di stagionalità, la procedura utilizzataper ottenere la serie destagionalizzata è criticabile.

Ritorneremo nella prossima unità su questo punto. Inogni caso, trend e stagionalità “spiegano” più del 99%

della varianza della co2 (l’R2 del modello vale 0,997).Quindi, “l’ombra” di stagionalità magari è presente ma

di certo non è importante.


Altri modelli di regressione: cenni

• Al posto di variabili dummy, possiamo utilizzarefunzioni trigonometriche per introdurre in un

modello di regressione una componente periodica.

• Possiamo anche introdurre interazioni tra trend e

stagionalità ad esempio introducendo nel modello deitermini che sono il prodotto di quelli visti nell’appli-

cazione fatta. Nel contesto in cui stiamo operandoci servirebbero, ad esempio, per modellare una

componente stagionale che varia nel tempo.

• In alcuni campi applicativi è comune utilizzare per

stimare la componente di trend funzioni diverse daipolinomi.

• . . .

Non affrontiamo questi argomenti in parte per problemidi tempo in parte perchè nei corsi di Modelli I e II

sviluppate capacità di questo tipo. E quindi. . .


Appendice: richiami sul modello di

regressione lineare multiplo

situazione: una variabile dipendente (y) e k variabiliesplicative (x1, . . . , xk).

relazione “lineare”:

yi = β0 + β1x1i + · · · + βkxki + (errore)i

dove

- yi indica l’i-sima osservazione sulla variabile dipendente

mentre- xji indica l’osservazione i-sima sulla j-sima variabile

dipendente.

scrittura matriciale: n osservazioni possono essere

scritte compattamente come

y = Xβ+ ε

ovvero

y1......

yn

=

1 x11... xk1

... ... ... ...

... ... ... ...

1 x1n... xkn

β0...βk

+

errore1......

erroren


minimi quadrati: la stima a minimi quadrati deiparametri di regressione, ovvero, il valore di β =

(β0, . . . ,βk) che minimizza

(y− Xβ)T(y− Xβ) =

n∑

i=1

(yi − β0 − β1x1i − · · · − βkxki)2

valeβ = (XTX)−1XTy

valori previsti: il valore “previsto”/”interpolato” dalmodello “alle” variabili esplicative (x1, . . . , xk), ovvero,

β0 + β1x1 + · · · + βkxk

è una combinazione lineare delle “y” originali, ovvero, è

del tipon∑

i=1

wiyi

Infatti,

β0+β1x1+· · ·+βkxk = (1, x1, . . . , xk)(XTX)−1XTy = wTy.

Ovviamente i pesi w dipendono dalla matrice di disegno

X e dalle “x” a cui vogliamo calcolare la “previsione”.


minimi quadrati ponderati: nella soluzione precedentediamo lo stesso peso a tutte le osservazioni. In alcuni

vedremo però che ci interesserà calcolare il vettore β cheminimizza la seguente somma dei quadrati ponderata

n∑

i=1

wi(yi − β0 − β1x1i − · · · − βkxki)2

dove w = (w1, . . . ,wn) sono pesi noti assegnati ad ogniosservazione. E’ possibile in questo caso far vedere che

la soluzione è data da

β(w) = (XTWX)−1XTWy

dove W = diag(w1, . . . ,wn) ovvero è una matricediagonale in cui w1 è l’elemento (1, 1), w2 l’elemento

(2, 2) e così via.

Nota: Anche in questo caso i valori previsti dal modello

sono funzione lineare delle “y”.


minimi quadrati con un vincolo: Supponiamo ora divoler stimare il modello ma di sapere a priori che il

vettore dei parametri, β, soddisfa esattamente al vincolo

aTβ = 0

dove a è un qualsiasi vettore noto.

E’ possibile dimostrare che, tra tutti i vettori che

soddisfano il vincolo, quello che minimizza la somma deiquadrati degli scarti delle osservazioni dai valori previsti

dal modello, ovvero che risolve il problema di minimovincolato

{minβ0,...,βk

∑ni=1(yi − β0 − β1x1i − · · · − βkxki)2

con il vincolo che a0β0 + · · · + akβk = 0

è

β(a) = β−aTβ

aTaa

dove β è lo stimatore a minimi quadrati.

Nota: La formula in se non è molto interessante.L’importante è che il problema abbia una soluzione

facilmente calcolabile.


Unità F

Scomposizione di una serie temporale:un approccio flessibile

Il punto debole. . .

. . . dell’approccio precededente è che i risultati dipendonoin maniera cruciale dalla capacità e dalla possibilità di

scegliere in maniera appropriata le “funzioni” con cuiinterpolare il trend e la componente stagionale.

In questa unità studieremo un approccio più “flessibile”.

La trattazione è orientata

∗ al mostrare le connessioni esistenti con i problemi di

regressione non parametrica;

∗ all’analisi esplorativa ed interattiva dei dati più che alla

produzione di statistiche ufficiali.

Unità F: Scomposizione di una serie . . . 77

Regressione non parametrica: cenni

[il problema] - sono disponibili dei dati bivariati deltipo

{(x1,y1), . . . , (xn,yn)}

su due variabili X e Y;

- la relazione tra “la X” e “la Y” può essere scritta nella

formayi = f(xi) + εi (F.1)

dove f(·) = E(Y|X = x) mentre le “εi” sono dellevariabili casuali (visto quanto detto con media nulla);

- non sappiamo come specificare f(·) parametricamente(ad esempio, non è una retta, non è un polinomio,. . . );

- però sappiamo che f(·) è una funzione continua e

senza oscillazioni particolarmente violente;- vogliamo utilizzare i dati per costruire una stima di f(·)


[medie locali] Si supponga che

f(x) = η per quasivoglia x

dove η indica una costante coincidente con la mediadella variabile Y1

In questo caso degenere, potremmo stimare f(·)mediante

f(x) = η = y =1

n

n∑

i=1

yi per qualsivoglia x

ovvero, semplicemente calcolando la media delle “y”.

3 4 5 6 7

1214

1618

2022

x

y

f(x) = y

1Si ricordi che, per la (F.1), possiamo scrivere yi = η + εi e che le “ε” hannomedia nullaUnità F: Scomposizione di una serie . . . 79

La media delle “Y” non può essere la soluzione generale.

0 1 2 3 4 5

−4

02

46

8

x

y

f(x) = y

Però, se le oscillazioni di f(·) sono dolci, possiamopensare di stimare f(·) mediante delle medie locali del

tipo

f(x) =

media delle yi tali che |xi − x|

sia minore di una costanteprescelta

o, del tipo,

f(x) =

media ponderata delle yi conpesi costruiti in maniera che

risultino “grandi” se xi ≈ x e“piccoli” se xi è “lontano” da x


Questo ci porta a degli stimatori del tipo

f(x) =

n∑

i=1

wi(x)yi (F.2)

dove wi(x) è il peso che assegnamo a yi quandocalcoliamo la stima di f(·) a x.

−4

−2

02

46

8

0.00

0.02

0.04

0.06

0.08

0.10

pesi usati per stimare f(1)

0.00

0.02

0.04

0.06

0.08

0.10

pesi usati per stimare f(4)

0 1 2 3 4 5


[pesi costruiti da un nucleo] Supponiamo di scegliereuna funzione k(·) non decrescente per x < 0 e non

crescente per x > 0 e tale che k(x) ≈ 0 quando |x| èsufficientemente grande. Una possibilità per generare i

pesi consiste nel porre

wi(x) =

k

(

xi − x

h

)

n∑

i=1

k

(

xi − x

h

)

e, quindi,

f(x) =

n∑

i=1

k

(

xi − x

h

)

yi

n∑

i=1

k

(

xi − x

h

)

La funzione k(·) è usualmente indicata come nucleo(kernel in inglese) e lo stimatore risultante stimatore

basato sul metodo del nucleo.

Ad esempio, l’esempio della pagina precedente è stato

costruito utilizzando come nucleo la densità di unadistribuzione normale standard.


Esempi di “nuclei”

I(x<

2)ex

p(−

0.5x

2 )2π

I(x≤

2)(1

−(x

2)2 )2

−3 −2 −1 0 1 2 3


[regressione locale] Una possibilità diversa consistenell’utilizzare come stima di f(x) il valore assunto ad x

da un polinomio adattato utilizzando solo le osservazioni“vicine”.

Ad esempio, uno degli stimatori più utilizzati è lostimatore loess che stima f(x) mediante

f(x) = b0(x) + b1(x)x+ · + bp(x)xp

dove i coefficienti b0(x), . . . ,b1(x), che si osservidipendono da x, sono determinati minimizzando

∑

i

k

(

xi − x

h(x)

)

(yi − b0(x) − b1(x)x− · · · − bp(x)xp)2

con

k(x) =

{(1 − |x|3)3 se |x| ≤ 1

0 altrove

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

x

(1−

x3 )3


h(x) è usualmente determinato in maniera tale che solos osservazioni ricevono un peso maggiore di 0 (con s

valore prefissato).

Per i risultati del lucido 74 anche questo stimatore è del

tipo (F.2) anche se non è detto che i pesi sommino ad 1e che siano positivi.


y

(2, f(2))

w

0 1 2 3 4 5

pesi utilizzati per determinare la retta

La figura illustra come viene determinata la stima perx = 2 nel caso in cui si scelga di adattare una retta (p=1)

utilizzando il 25% delle osservazioni più vicine.


Stima con loess (p=1,s=25%)

0 1 2 3 4 5

−4

−2

02

46

8

x

y


[spline] Una smoothing splines è la soluzione delseguente problema: trovare la funzione f(·) che

minimizza tra tutte le possibili funzioni f : R → R laseguente somma dei quadrati penalizzata

SQp =

n∑

i=1

[yi − f(xi)]2 + v

∫ x(n)

x(1)

[f ′′(x)]2dx

dove x(1) = min(x1, . . . , xn) e x(n) = max(x1, . . . , xn).

Si osservi che

- il primo addendo è una usuale somma dei quadrati

degli scarti tra le osservazioni e i valori previsti dal“modello”; diventa piccolo ovviamente più il “modello”

prevede bene le osservazioni ed, in particolare, diventanullo per ogni funzione che interpoli esattamente i dati

stessi;

- il secondo addendo viceversa è una penalità chediventa grande più la derivata seconda è grande (in

modulo), ovvero più varia la derivata prima, ovveropiù f(·) si allontana da una retta (per una retta la

derivata seconda è sempre nulla); penalizza quindi lefunzioni “non liscie”, quelle con molte oscillazioni e

cambi di pendenza;


- v è un coefficiente che controlla il peso relativo dei dueaddendi; in particolare se v è piccolo la penalizzazio-

ne non “pesa”; in questo caso, otteniamo una f(·)che tende ad interpolare molto bene anche a costo

di essere troppo poco “liscia” (ovvero può interpolareanche la componente erratica); viceversa se h è grande

la penalità pesa molto e quindi otteniamo una stimamolto “liscia” (per v → ∞ otteniamo, qualsiasi siano i

dati, una retta visto che in ogni altro caso la penalità

dominerebbe SQp). Si veda l’esempio a pag. 90.

E’ possibile dimostrare che

? la soluzione del problema è una funzione continua conle prime due derivate continue che

? in ognuno degli intervalli determinato dai valori

distinti nelle “x” è un polinomio del terzo ordine;

Ad esempio se supponiamo che tutte le “x” sianodifferenti e “già ordinate” (ovvero x1 < x2 < · · · < xn)

la soluzione è un polinomio cubico in tutti gli intervalli

[xi−xi+1], i = 1, . . . ,n−1; i coefficienti dei vari polinomiche “rappresentano” localmente la funzione non sono

completamente liberi ma soddisfano a dei vincoli chegarantiscono la continuità della soluzione e delle sue

prime due derivate.

E’ inoltre possibile far vedere che anche questo stimatore

è del tipo (F.2).


0 1 2 3 4 5

−4

−2

02

46

8

x

y

v "giusto"

v "piccolo"

v "grande"


[numero di parametri equivalenti] Gli stimatori vistihanno un parametro “aggiustabile” che controlla il grado

di lisciamento (h nel caso dello stimatore del nucleo, snel caso dello stimatore loess, v nel caso delle spline).

Al di là dei dettagli formali, è possibile inoltre far vedereche una volta fissato h o s o v, lo stimatore che si

ottiene ha, nella sostanza, la flessibilità di un modello diregressione con un certo numero di parametri, numero

che viene usualmente chiamato numero di parametri

equivalenti.

Ovviamente più il numero di parametri equivalenti ègrande più lo stimatore è flessibile e viceversa.

Il numero di parametri equivalenti costituisce quindi una

maniera unificata per fissare il grado di lisciamento

desiderato.

Tra l’altro, stimatori diversi (ad esempio “loess” o“spline”) con un numero di parametri equivalenti uguali

producono di norma stime molte simili (si vedano i

grafici nelle prossime pagine).


0 1 2 3 4 5

−4

−2

02

46

8

x

y

spline npe=3

loess npe=3

npe: numero di parametri equivalenti


0 1 2 3 4 5

−4

−2

02

46

8

x

y

spline npe=10

loess npe=10



0 1 2 3 4 5

−4

−2

02

46

8

x

y

spline npe=30

loess npe=30



[scelta del grado di lisciamento] La/e costante/i checontrollano il grado di lisciamento (ad esempio, il

“numero di parametri equivalenti”) può/possono esserescelta/e “ad occhio” utilizzando un procedimento di

prova ed errore e cercando di bilanciare il grado dilisciamento con la capacità della curva stimata di

descrivere i dati.

Esistono poi procedure più formali. Alcune tra le

più popolari sono basate su tecniche di validazione

incrociata. Nella forma più semplice la validazione

incrociata funziona ± così:

? i dati sono divisi (casualmente) in due sottoinsiemi;

? f(·) viene stimata sul primo sottoinsieme utilizzandovari valori per la costante che controlla il lisciamento;

? le varie stime vengono utilizzate per prevedere leosservazioni del secondo sottoinsieme;

? il parametro di lisciamento della “curva migliore”,ovvero quella che ha previsto in maniera migliore il

secondo gruppo di dati viene adottato per produrre la

stima “finale” di f·) che ovviamente sarà basata su tuttii dati.

Esistono poi varie varianti a questo schema di base

(più di due sottoinsiemi,. . . ). Non li approfondiamo

anche perchè la “validazione incrociata” non funziona

particolarmente bene quando i residui intorno alla f(·)sono autocorrelati.


Un approccio alternativo si basa sull’utilizzo di criteri deltipo

n log(σ2p) + cp

dove

- indicata con fp(·) la stima di f(·) ottenuta utilizzandop parametri equivalenti,

σ2p =

1

n

n∑

i=1

(

yi − fp(xi))2

- mentre c è una appropriata costante positiva(eventualmente dipendente da n ma non da p)

La scelta di p avviene minimizzando il criterio.

Il primo addendo misura quanto la stima di f(·)“prevede” bene le osservazioni e quindi, usualmente,decresce al crescere di p (più p è grande più lo stimatore

usato è flessibile, quindi meglio riesce a riprodurre i datiosservati). Il secondo addendo invece penalizza i valori

grandi di p.

“Famosi” criteri di questo tipo sono

Akaike Information Criterion: lo si ottiene ponendo

c = 2; è spesso indicato con la sigla AICSchwarz Information Criterion o Bayesian Information

Criterion: lo si ottiene ponendo c = log(n) ; spesso

viene indicato con la sigla BIC.


Stima del trend in assenza di stagionalità

Per una serie non stagionale i metodi appena descrittisono utilizzabili direttamente per la stima della

componente del trend. Il ruolo delle “x” sarà in questocaso giocato dal tempo, ovvero xi = ti dove ti indica

l’istante di tempo in cui è stato osservato l’i-simo valoredella serie temporale, mentre ovviamente le “y” saranno

i valori della serie stessa.


Medie mobili e filtri lineari

Lo stimatore del trend che si ottiene nella parte centraledelle osservazioni (ovvero per t non troppo vicino

all’inizio e alla fine del periodo osservato) è della forma

Tt =

m∑

i=−m

wiyt+i (F.3)

dovem è un intero appropriato e wi sono opportuni pesiche sommano a 1 (

∑iwi = 1). Si osservi che i pesi non

dipendono da t. Una trasformazione di questo tipo vieneusualmente indicata con il termine di media mobile. Il

suo caso generale, ovvero quando la somma dei pesi èarbitraria, viene chiamata filtro lineare.

Le medie mobili hanno una lunga tradizione diutilizzo nella scomposizione di una serie temporale.

Affrontare questo problema partendo dalla regressionenon parametrica presenta però alcuni vantaggi:

• permette di costruire i pesi in maniera più naturale;• chiarisce cosa può essere fatto all’inizio e alla fine

della serie (si osservi infatti che una formula del tipo(F.3) è incalcolabile se t ≤m o t > n−m);

• permette di trattare anche serie con valori mancanti

senza “moltiplicarli” come accadrebbe se si rimanesselegati alla (F.3).


Stima della componente stagionale in

assenza di trend

Il grafico nel lucido 100 mostra una serie mensile“solo stagionale” ovvero senza visibili traccie di una

componente di trend. La componente stagionale sembraperò evolversi nel tempo. In particolare la sua ampiezza

aumenta.

Il grafico nel lucido 101 mostra le 12 sottoserie mensili:

(i) il grafico in basso a sinistra mostra i valori osservatinei vari mesi di gennaio; (ii) quello alla sua destra i

valori osservati nei vari mesi di febbraio; (iii) e così via;l’ordinamento è da sinistra verso destra e dal basso in

alto (ovvero il grafico sulla seconda riga, terza colonna

riporta i valori osservati nei vari anni durante il mese diluglio)

Una possibilità per stimare la componente stagionale

consiste nel “lisciare” ciascuna di queste sottoserie

utilizzando i metodi presentati all’inizio dell’unità. Sivedano i grafici nei lucidi 102 e 103.


Una serie “solo” stagionale

2 4 6 8 10 12

0.8

0.9

1.0

1.1

1.2

1.3


Grafico delle sottoserie mensili0.

80.

91.

01.

11.

21.

3

2 4 6 8 10 12 2 4 6 8 10 12

0.8

0.9

1.0

1.1

1.2

1.3

2 4 6 8 10 12

0.8

0.9

1.0

1.1

1.2

1.3

2 4 6 8 10 12

Given : cycle(y)


Grafico delle sottoserie mensili “lisciate” utilizzandouna “spline” con 3 parametri equivalenti.

0.8

0.9

1.0

1.1

1.2

1.3

2 4 6 8 10 12 2 4 6 8 10 12

0.8

0.9

1.0

1.1

1.2

1.3

2 4 6 8 10 12

0.8

0.9

1.0

1.1

1.2

1.3

2 4 6 8 10 12

Given : cycle(y)


Serie osservata (cerchietti) con stima della componentestagionale (linea continua)

2 4 6 8 10 12

0.8

0.9

1.0

1.1

1.2

1.3


Stima simultanea delle componenti di trend

e stagionali: l’algoritmo di backfitting

Supponiamo che la serie osservata presenti sia unacomponente di trend che una componente stagionale

che si combinino tra di loro in accordo al modellomoltiplicativo (lucido 53). Supponiamo inoltre, per il

momento, di avere a disposizione una stima preliminare

della componente di trend (indichiamola con T(0)t ).

Una possibilità per stimare simultaneamente le due

componenti consiste nell’utilizzare un approccio basato

sul cosidetto algoritmo di backfitting che si concretizzanei seguenti passi:

1. Poniamo i uguale ad 1;

2. Calcoliamo una versione della serie “senza trend”

a(i)t = yt/T

(i−1)t e poi una stima della componente

stagionale, indichiamola con S(i)t “lisciando” le

sottoserie stagionali di a(i)t .

3. Calcoliamo una versione della serie destagionalizzata

b(i)t = yt/S

(i)t e una stima della componente di trend,

indichiamola con T(i)t , “lisciando” b

(i)t .

4. Poniamo i = i+ 1 e ritorniamo al passo 2 a meno che

l’algoritmo non sia arrivato a convergenza, ovvero T(i)t

non sia sufficientemente vicino a T(i−1)t .


Note

1. Se l’algoritmo viene bloccato dopo i iterazioni,

utilizziamo le ultime stime prodotte, ovvero T(i)t e S

(i)t

come stime della componenti di trend e stagionali-

tà. La componente irrregolare diventa quindi It =

yt/(T(i)t S

(i)t ).

2. Nel caso il modello di composizione sia additivo

possiamo utilizzare l’algoritmo di prima sempliceme-mente ridefinendo

a(i)t = yt − T

(i−1)t

b(i)t = yt − S

(i)t

It = yt − T(i)t − S

(i)t

3. “Partendo” con una stima preliminare della componentestagionale possiamo procedere in maniera essenzialmen-

te analoga semplicemente invertendo i passi 2 e3.


In pratica

L’utilizzo dell’approccio precedente richiede una serie

di scelte da parte dell’analista che possono essere

convenientemente organizzate nel seguente ordine

Come si combinano trend estagionalità? In maniera additiva

o moltiplicativa?

��

oo

Scelta dello stimatore e del gradodi lisciamento del trend; sua

stima preliminare

��

Scelta dello stimatore e del grado

di lisciamento per la stima dellacomponente stagionale

��

Stima simultanea dellecomponenti di trend e stagionali

mediante backfitting

��

I risultati sembranosoddisfacenti?

��

//

Se NO:rivediamo le

scelte fatteprecedente-

mente

OO

Se SI:

interpretiamo ed utilizziamo lascomposizione ottenuta


Passeggeri delle aerolinee

Illustriamo la procedura precedente utilizzando la serieil cui grafico è mostrato nel lucido 59

[tipo di composizione.] Il grafico mostra chiaramente

che l’ampiezza della componente stagionale aumentaall’aumentare del livello della serie osservata (ovvero

del suo trend). Adottiamo quindi in prima ipotesi unmodello moltiplicativo.

[scelta di uno stimatore per il trend] La presenza di

una forte componente stagionale rende difficile capiredalla serie originale quanto sia necessario “lisciare” per

ottenere ragionevoli stime del trend (vedi lucido 111).

Inoltre, se si usa uno stimatore “flessibile” del trend e

lo si applica direttamente alla serie originale, le stimerisentono della componente stagionale (vedi lucido

112).

Per questi motivi è conveniente ragionare con unaversione pre-destagionalizzata della serie osservata

(lucidi 113-116). In questo caso la serie pre-destagionalizzata è molto regolare (la componente di

rumore è bassa). Provando a lisciarla utilizzandostimatori con vari livelli di flessibilità (lucido 117)

vediamo che una spline con 20 gradi di libertà(parametri equivalenti) sembra essere in grado di

descrivere in trend.Unità F: Scomposizione di una serie . . . 107

[scelta di uno stimatore per la stagionalità] Lisciandola serie pre-destagionalizzata con una spline con 20

gradi di libertà otteniamo una stima preliminare deltrend. Dividendo la serie osservata per questa stima

otteniamo una serie in cui la componente di trend è stataapprossimativamente rimossa (lucido 118).

Guardando ad un grafico delle sottoserie (lucido119) possiamo decidere come stimare la componente

stagionale. In questo caso, anche per tenere il“modello” semplice e quindi per ottenere delle stime

stabili abbiamo deciso di lisciare le sottoserie mensilisemplicemente utilizzando delle rette. La capacità

di queste di spiegare le variazioni nella componentestagionale sembra infatti sufficiente (lucido 120).

[lisciamento suggerito da BIC] Il grafico nel lucido121 mostra, utilizzando un grafico a scala di grigio, come

varia il criterio BIC al variare del numero di parametriequivalenti degli stimatori utilizzati per il trend e la

stagionalità. Nel grafico, ambedue le componenti sono

stimate utilizzando delle “spline”.

Il grafico sostanzialmente conferma la scelta fatta a“occhio”. Indica infatti che il numero di parametri

equivalenti da utilizzare per il trend dovrebbe essere

scelto tra 10 e 20 e quello per la stagionalità vicino a2 (2 è ovviamente il numero di parametri liberi in una

retta).


[scomposizione della serie] Avendo deciso, almenopreliminarmente, come stimare trend e stagionali-

tà possiamo stimarli simultaneamente utilizzandol’algoritmo di backfitting. Il risultato è mostrato nel

lucido 122.

Si osservi come i risultati ottenuti indichino che con

il passare degli anni ci sia stato un aumento diimportanza del picco “estivo” mentre abbia via via perso

di importanza il picco “primaverile” osservabile nei primianni. Questi effetti sono ovviamente al netto dell’aumen-

to della ampiezza delle oscillazioni stagionali dovuto altrend (la serie “stagionale” disegnata nel grafico è quella

dei coefficienti “moltiplicativi”).


[verifica della bontà della scomposizione] Verifiche chepossono essere condotte sono

i) disegnare la serie destagionalizzata e il trend per

vedere se quest’ultimo fornisce una descrizione

adeguata delle variazioni di lungo periodo dellamedia; la serie destagionalizzata è ovviamente

quella calcolata con i coefficienti stagionali ottenutialla fine dell’algoritmo di backfitting non quelli

preliminari;ii) disegnare le sottoserie stagionali della serie con

il trend rimosso e verificare l’adattamento deicoefficienti stagionali stimati;

iii) calcolare la funzione di autocorrelazione dellacomponente irregolare; quest’ultima non dovrebbe

indicare residui di stagionalità, ovvero, i coefficienti

di autocorrelazione ai ritardi stagionali dovrebberoessere piccoli; sarebbe inoltre auspicabile che la

componente irregolare presenti al più solamentedella correlazione di breve periodo (solo ai primi

ritardi).

Nel caso in esame i tre grafici sono riportati rispettiva-

mente nei lucidi 123, 124 e 125 e non sembrano indicarela presenza di particolari problemi.


Due stime del trend10

020

030

040

050

060

010

020

030

040

050

060

0

1950 1952 1954 1956 1958 1960

Nel primo grafico, la stima è basata su una spline con

4 “parametri equivalenti”, nel secondo su di una splinecon 20 “parametri equivalenti”. Qualè delle due stime è

migliore? Un pò difficile da dirsi! 2

2Le stime sono state ottenute “lisciando” la serie pre-destagionalizzata (vedilucido 113).Unità F: Scomposizione di una serie . . . 111

Una stima del “trend” che non ci piace!

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600

La stima del trend è stata ottenuta lisciando la serieosservata con una spline con 20 parametri equivalenti.

Si noti come risenta della componente stagionale equindi non sia accettabile come stima del trend.


Pre-destagionalizzazione

Vogliamo mostrare come sia possibile in maniera

approssimativa (e quindi utile soprattutto in una fase

“esplorativa”) ma molto semplice trasformare la serieoriginale in maniera tale da eliminare la componente

stagionale ed “esporre” il trend.

Nel modello moltiplicativo

yt = TtStIt.

Consideriamo, per un prefissato t, gli istanti di tempo

t− 6, . . . , t− 1, t, t+ 1, . . . , t+ 6

che, visto che la serie è mensile, costituiscono leosservazioni di un intero anno più un mese.


Assunzioni sensate sulle componenti sono:

i) Tt ≈ Tt−i per i = −6, . . . , 6 ovvero il trend variamolto lentamente nel tempo;

ii) St ≈ St−12, ovvero la componente stagionale si ripete

quasi uguale in due anni vicini;iii) (St−5 + · · · + St+6)/12 = 1 ovvero, nel corso di

un anno le oscillazioni stagionali si compensano; incaso contrario Tt non sarebbe interpretabile come il

“livello” di yt;iv) la media di It vale 1 per qualsivoglia t; di nuovo, se

questo non accadesse non potremmo interpretare Ttcome il “livello” della serie osservata.

Ma allora

dt =12yt−6 + yt−5 + · · · + yt+5 + 1

2yt+6

12≈ TtIt

dove It = (It−6/2+It−5+ · · ·+It+5+It+6/2)/12 ha media

uno.

Quindi, almeno approssimativamente, dt è una serie

temporale

a) con la componente di trend della seria originale

b) ma in cui la componente stagionale è stata eliminata

Osservazione: dt è calcolabile solo per t = 7, . . . ,n − 6

dove con n abbiamo indicato la lunghezza della serie.


Osservazione. Si osservi che le assunzioni i) e ii)precedenti potrebbero essere sostituite dalla

Tt−5St−5 + · · · + Tt+6St+6

12≈ Tt

ovvero dall’ipotesi che la media della parte sistematica

della serie fatta su di un periodo lungo un anno siaapprossimativamente uguale al trend in uno dei mesi

centrali.

Nel caso avessimo adottato un modello additivo,

avremmo potuto procedere nella medesima maniera.Infatti in questo caso yt = Tt + St + It ed è ragionevole

assumere che

i) Tt ≈ Tt−i per i = −6, . . . , 6;

ii) St ≈ St−12;iii) (St−5 + · · · + St + · · · + St+5 + St+6)/12 = 0

iv) la media di It vale 0 per qualsivoglia t.

Quindi, in questo caso,

dt =12yt−6 + yt−5 + · · · + yt+5 + 1

2yt+6

12≈ Tt + It

dove It = (It−6/2+It−5+ · · ·+It+5+It+6/2)/12 ha media

zero.


Passeggeri delle aerolinee: serie

predestagionalizzata

1950 1952 1954 1956 1958 1960

150

200

250

300

350

400

450

Esercizio. Si estenda il ragionamento precedente al caso

di una serie con una frequenza qualsiasi distinguendo ilcaso in cui il periodo stagionale sia pari o dispari.


Stime preliminari della componente di trend

ottenute “lisciando” la serie

pre-destagionalizzata

spline con 2 gradi di liberta’ spline con 5 gradi di liberta’

spline con 10 gradi di liberta’ spline con 20 gradi di liberta’


Stima preliminare della serie “senza trend”

1950 1952 1954 1956 1958 1960

0.8

0.9

1.0

1.1

1.2

1.3

La serie disegnata è stata ottenuta come

serie osservata

stima preliminare del trend


Grafici delle sottoserie mensili della serie

“senza trend”

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958 1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

Given : cycle(y)


Grafici delle sottoserie mensili della serie

“senza trend”

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958 1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

time(y)

y

Given : cycle(y)

Le varie sottoserie sono state interpolate con una retta

adattata a minimi quadrati.


BIC in funzione dei gradi di lisciamento

utilizzati

−850

−800

−750

−700

−650

5 10 15 20 25 30 35

2

3

4

5

6

Il grafico è basato su di un modello moltiplicativo.

Sia il trend che la stagionalità sono stimati utilizzandodelle “spline”. L’asse delle x mostra il numero di

parametri equivalenti utilizzato per il trend, quello delle

y l’analogo numero utilizzato per stimare la stagionalità.


Scomposizione della serie

100

200

300

400

500

600

data

200

300

400

500

tren

d

0.8

0.9

1.0

1.1

1.2

1.3

seas

onal

0.92

0.96

1.00

1.04

rem

aind

er

1950 1952 1954 1956 1958 1960

Time

AirPassengers ~ s(20) * p(1)


Serie destagionalizzata e trend stimato

1950 1952 1954 1956 1958 1960

200

300

400

500


Serie con il trend eliminato:sottoserie mensili e stagionalità stimata

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958 1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

time(y)

y

Given : cycle(y)


Componente irregolare:funzione di autocorrelazione campionaria

0 1 2 3 4 5

−1.

0−

0.5

0.0

0.5

1.0


Scomposizioni con “problemi”

Nel lucido 127, sono riportati i correlogrammi dellacomponente irregolare di alcune scomposizioni ottenute

con scelte non felici dei gradi di lisciamento.

Nella situazione in alto a sinistra c’è troppa correlazio-

ne a ritardi alti (ad esempio 4 anni= 48ritardi).Normalmente accade quando il trend è stato “lisciato”

troppo (si veda anche il grafico nel lucido 128).

Nella situazione in alto a destra, il correlogramma indica

un residuo di stagionalità nella componente irregolare.Di norma succede quando le sottoserie stagionali sono

“lisciate” troppo (vedi anche il grafico nel lucido 129).

I correlogrammi nella seconda riga, in particolare quello

a destra, indicano un sovraaggiustamento stagionale

(autocorrelazione a ritardo 12 negativa). Di solito

accade quando la componente stagionale viene “lisciata”troppo poco (vedi anche il grafico nel lucido 130). Può

anche accadere se la componente di trend è lisciatatroppo. In questo caso infatti, l’algoritmo di backfitting

non potendo attribuire la parte “giusta” di variabilità

della serie osservata alla componente di trend cercadi utilizzare il più possibile la componente stagionale

finendo per “farlo troppo”.


Correlogrammi che indicano “problemi”

0 1 2 3 4 5

−1.

0−

0.5

0.0

0.5

1.0

trend: polinomio grado 2

stagionalita’: retta

0 1 2 3 4 5

−1.

0−

0.5

0.0

0.5

1.0

stagionalita’: costante

trend: spline 20 gdl

0 1 2 3 4 5

−1.

0−

0.5

0.0

0.5

1.0


stagionalita’: spline 3 gdl

0 1 2 3 4 5

−1.

0−

0.5

0.0

0.5

1.0


stagionalita’: spline 6 gdl


Serie destagionalizzata e trend

1950 1952 1954 1956 1958 1960

200

300

400

500

Il trend è stato stimato utilizzando un polinomio di grado

2. La componente stagionale utilizzando delle rette perinterpolare le sottoserie mensili.



0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958 1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

time(y)

y

Given : cycle(y)

Il trend è stato stimato utilizzando una spline con 20

gradi di libertà. La componente stagionale utilizzando

una costante per interpolare le sottoserie mensili.



0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958 1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

0.8

0.9

1.0

1.1

1.2

1.3

1950 1954 1958

time(y)

y

Given : cycle(y)

Il trend è stato stimato utilizzando una spline con 20

gradi di libertà. La componente stagionale utilizzando

una spline con 6 gradi di libertà per interpolare lesottoserie mensili.


Estensioni e cautele

- Spesso prima di procedere alla scomposizione laserie osservata viene “aggiustata” per altri fattori

noti (ad esempio, nel caso di serie mensili suproduzione, vendite,. . . , sulla base dei giorni di

effettiva “apertura”);

- Non abbiamo, per motivo di tempo, considerato i

problemi che sorgono quando la serie storica contienedei valori anomali (outliers) la cui presenza può,

purtroppo distorcere i risultati.

- Dovrebbe essere chiaro che, indipendente dal metodo

utilizzato, esiste un qualche elemento di arbitrarietàin una qualsiasi scomposizione di questo tipo. Tutto

sommato, stiamo “moltiplicando i dati”:osserviamo una

serie sola e poi la trasformiamo in tre serie distinte. E’quindi importante non sovra-interpretare i risultati.


Unità G

Modelli dinamici basati sull’idea dilisciamento esponenziale

In questa unità, vengono presentati alcuni modelli

dinamici spesso utilizzati per la previsione a brevetermine di serie storiche in particolare in ambito

aziendale.

Struttura di un modello dinamico

∗ Un modello dinamico cerca di descrivere la “legge”con cui un certo processo stocastico si evolve nel tempo.

∗ Molti sono basati su di una relazione del tipo

valoreosservato

al tempo t

=

( parte

determinatadal passato

)

+ (innovazione)

dove (i) il primo addendo costituisce la parte di yt“prevedibile” sulla base della traiettoria precedente della

serie osservata, ovvero di yt−1,yt−2, . . ., mentre (ii) ilsecondo addendo rappresenta “quello che di nuovo e

quindi di imprevedibile” accade al tempo t.

∗ Tentando di tradurre in formule la relazione

precedente arriviamo ad una struttura del tipo

yt = gt(yt−1,yt−2, . . .) + ut (G.1)

dove gt(· · ·) e ut indicano rispettivamente la parte del

presente determinata dal passato e l’innovazione.

∗ Un modello di questo tipo può essere specificatoassegnando le “funzioni” gt(· · ·) e la legge di probabilità

di ut.

Unità G: Modelli dinamici basati sull’idea di . . . 133

∗ L’interpretazione che abbiamo dato a ut “regge”, se utnon è prevedibile sulla base di yt−1,yt−2, . . ..

Una maniera “minima” per formalizzare questa idea

consiste nel richiedere qualche cosa del tipo

E(ut|yt−1,yt−2, . . .) = 0 (G.2)

Un alternativa utilizzata nel caso il modello sia “tutto

lineare”, ovvero quando g(· · ·) è una funzione linearenei suoi argomenti ed inoltre si è interessati solamente

a “spiegare” la dipendenza lineare tra le osservazioni,consiste nel richiedere che ut abbia media nulla e sia

incorrelato con yt−1,yt−2, . . ..

∗ Trascurando alcuni problemi tecnici, la (G.1) ci

dice che il “passato” di ut può essere calcolato dayt−1,yt−2, . . .. Quindi, l’interpretazione data a utregge se ut “non è prevedibile” anche sulla base diut−1,ut−2, . . ..

E’ quindi usuale richiedere che . . . ,ut,ut+1, . . . sia ouna successione di variabili casuali di media nulla

indipendenti o almeno incorrelate


Un modello basato sul lisciamento

esponenziale

• Per iniziare consideriamo il caso in cui y1,y2, . . . siauna successione di v.c. indipendenti di media costante

ed uguale ad η. Volendo complicarci la vita, possiamopensare che la successione sia generata dal seguente

paio di equazioni alle differenze

{yt = lt−1 + utlt = lt−1 (l0 = η)

dove, ut = yt − η.

La prima equazione ci dice che yt è ottenuto come lasomma di due addendi

- il primo, lt−1, fornisce il livello della serie osservata(infatti E(ut) = 0); la notazione e, in particolare, il

pedice utilizzato per il livello, è stata scelta in manierada enfatizzare il fatto che il livello delle osservazioni al

tempo t è già noto al tempo t− 1;- il secondo, ut, costituisce la deviazione del valore

corrente dal livello determinato precedentemente.

La seconda equazione ci dice che per questo modello

particolarmente semplice il livello della serie rimanecostante (ovvero era noto non solo al tempo t − 1 ma

anche ai tempi di Adamo e Eva).


• Una variante molto semplice del modello precedenteche “permette” al livello di evolversi si concretizza

nell’assumere che

{yt = lt−1 + utlt = (1 − α)lt−1 + αyt (l0 = η, 0 ≤ α ≤ 1)

(G.3)

La prima equazione è rimasta invariata. La seconda

equazione è viceversa stata modificata introducendo

un “aggiornamento” del livello sulla base dell’ultimaosservazione. In particolare, il livello della prossima

osservazione, lt, viene ottenuto come media (pesata) dellivello precedente, lt−1, e dell’osservazione corrente yt.

Con sostituzioni successive è facile mostrare che

lt = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + · · ·· · · + α(1 − α)t−1y1 + +(1 − α)tl0 =

=

t−1∑

i=0

α(1 − α)iyt−i + (1 − α)tl0 (G.4)

Quindi lt è una media pesata di yt, . . . ,y1, l0. La sommadei pesi vale 1. Se 0 < α < 1, i pesi assegnati alle

osservazioni passate decrescono geometricamente; sonoquindi posti su una curva di tipo esponenziale – da cui il

nome lisciamento esponenziale. Si osservi anche come

il peso assegnato ad l0 converga a zero per t→ +∞.


Pesi “esponenziali” per tre differenti valoridi α

0.00

0.05

0.10

0.15

0.20

α = 0.2

0.0

0.1

0.2

0.3

0.4

0.5

α = 0.5

0.0

0.2

0.4

0.6

0.8

α = 0.8

5 10 15

Si osservi come all’aumentare di α i pesi assegnati alle

osservazioni più “lontane nel tempo” decrescano. Quindipiù α è grande più la memoria del processo diminuisce.


Tre serie simulate

−5

05

10

α = 0.2

−5

05

10

α = 0.5

−5

05

10

α = 0.80 100 200 300 400 500

Le tre serie sono state simulate ponendo l0 = 0 e

utilizzando sempre la stessa sequenza di numeri pseudo-

casuali normali (di media nulla e varianza unitaria).Si osservi come l’ampiezza delle variazioni del livello

aumenti all’aumentare di α.


• Si osservi che

– se α = 0 ritorniamo al modello con livello costante;– se α = 1, lt = yt ovvero il livello della prossima

osservazione coincide con l’osservazione corrente.

• Sostituendo la prima equazione della (G.3) nella

seconda, possiamo scrivere

{yt = lt−1 + utlt = lt−1 + αut (l0 = η)

• Dalla rappresentazione precedente, possiamo vedere

come

yt = l0 + ut + α

t−1∑

i=1

ut−i

lt = l0 + α

t−1∑

i=0

ut−i


Ricordando che

- la media di una somma di v.c. è la somma delle medie;- la varianza di una somma di v.c. incorrelate è la

somma della varianze;

- stiamo supponendo che l0 sia una costante;- le {ut} sono v.c. indipendenti (e quindi incorrelate) di

media nulla,

troviamo che

E(yt) = E(lt) = l0

var(yt) = var(ut) + α2

t−1∑

i=1

var(ut−i)

var(lt) = α2

t−1∑

i=0

var(ut−i)

La prima relazione ci dice che la media della serie

osservata (e del suo livello) è costante.


Le altre due ci dicono però che se l’innovazione nonè degenere (ovvero se var(ut) non è zero) allora, le

varianze di yt e di lt aumentano all’aumentare di t. Inparticolare, se, per qualsivoglia t, var(ut) = σ2 abbiamo

chevar(yt) = (1 + α2(t− 1))σ2.

Quindi, per t sufficientemente grande yt può “essere

dovunque”.

Dall’altra parte però, poichè

var(yt−yt−1) = var(ut+(α−1)ut−1) = (1+(1−α)2)σ2

è vero che yt “può arrivare per t arbitrariamente grande

dappertutto” ma, a meno che σ2 non sia “enorme” si puòmuovere solo a “piccoli passi”.


Serie alla “deriva”

[il problema] Molte serie temporali contengono unaevidente componente di deriva (drift in inglese) ovvero

tendono per lunghi periodi ad aumentare o a diminuiresistematicamente. Vediamo allora come sia possibile

introdurre esplicitamente una componente di questotipo nel modello.

[deriva additiva costante] Un modello con una derivacostante nel tempo è

{yt = lt−1 + d+ utlt = (1 − α)(lt−1 + d) + αyt = lt−1 + d+ αut

(G.5)

dove d è il parametro di deriva, mentre, al solito, l0 = η

e 0 ≤ α ≤ 1.

Si osservi come, nella (G.5), il livello “tendenzialmente”aumenti di d unità in ogni istante di tempo.

Inoltre, come è facile verificare,

E(yt) = l0 + d · t

ovvero, la serie osservata “contiene” una componentedi trend esattamente lineare. Se α > 0 comunque

var(yt) aumenta all’aumentare di t e quindi la serie può“allontanarsi” anche di molto dal suo valore medio.Unità G: Modelli dinamici basati sull’idea di . . . 142

Alcune serie simulate0

1020

3040

50

α = 0.2

010

2030

4050

α = 0.5

010

2030

4050

α = 0.8

0 100 200 300 400 500

In tutte le serie è stato utilizzato l0 = 0 e d =

0,1. L’innovazione è stata generata utilizzando un

generatore di normali standard. La sequenza dei valoridell’innovazione è la stessa nelle tre simulazioni che

quindi differiscono solo per il valore di α.Unità G: Modelli dinamici basati sull’idea di . . . 143

[deriva additiva “adattiva”] Una estensione del modelloprecedente che permette alla componente di “deriva” di

evolversi nel tempo è

yt = lt−1 + dt−1 + utlt = (1 − α)(lt−1 + dt−1) + αytdt = (1 − β)dt−1 + β(lt − lt−1)

Si osservi lt − lt−1 è il coefficiente angolare della rettapassante per i punti (t−1, lt−1) e (t, lt). Quindi, la deriva,

che, come è facile verificare con sostituzioni successivepuò essere scritta come

dt =

t−1∑

i=0

β(1 − β)i(lt−i − lt−i−1) + (1 − β)td0

è, nella sostanza, una media ottenuta con pesi chedecrescono geometricamente dei coefficienti angolari

della spezzata che passa per i punti (0, l0), (1, l1),. . . ,(t, lt).

Si osservi che il modello può anche essere scritto in una

forma che enfatizza il ruolo dell’innovazione come

yt = lt−1 + dt−1 + utlt = lt−1 + dt−1 + αutdt = dt−1 + αβut


[deriva additiva a “smorzare” (damped)] Una estensionedel modello precedente che risulta a volte utile si

concretizza nell’assumere che

yt = lt−1 + dt−1 + utlt = lt−1 + dt−1 + αutdt = φdt−1 + αβut

dove φ è un ulteriore parametro (0 < φ ≤ 1).

Se φ = 1 riotteniamo il modello precedente. Viceversa,

quando φ < 1 la deriva “tende” a contrarsi verso lozero. In questi casi otteniamo quindi un modello in cui i

cambiamenti di direzione sono più probabili.


Due serie simulate. . .

010

030

050

00

2040

6080

0 50 100 150 200 250 300

La prima serie è stata simulata a partire da una sequenza

ut di numeri pseudo-casuali normali di media 0 evarianza 9 ponendo α = 0,5, β = 0.1, l0 = 0 e d0 = 0.1

e φ = 1 (modello con deriva addittiva “normale”). Laseconda a partire dalla stessa sequenza di numeri pseudo

casuali e con gli stessi valori per α, β, l0 e d0 ma ponendoφ = 0.9 (modello con deriva addittiva “a smorzare”).


. . . e le rispettive derive

z

0 50 100 150 200 250 300

01

23

4

φ = 1φ = 0.9

Si osservi come nel caso φ = 0.9 la deriva “tenda” a

rimanere vicino allo zero.


[deriva moltiplicativa] Il punto di riferimento per imodelli precedenti è un trend lineare. In realtà,

soprattuto nella versione con deriva che si evolve, ilmodello riesce ad approssimare anche trend di natura

diversa.

Esiste comunque una versione del modello precedente

che “ingloba” esplicitamente l’idea di una crescita ditipo esponenziale. Si osservi innanzitutto che una serie

temporale del tipo

yt = exp(a+ bt) + ut

può essere rappresentata dal sistema di equazioni alledifferenze

yt = lt−1dt−1 + utlt = lt−1dt−1 (l0 = exp(a))

dt = dt−1 (d0 = exp(b))

La maniera usuale di rendere “adattivo” sia il livello

lt che l’incremento percentuale dt si concretizza nel

generalizzare le equazioni precedenti nella seguentemodo

yt = lt−1dt−1 + utlt = (1 − α)lt−1dt−1 + αyt = lt−1dt−1 + αutdt = (1 − β)dt−1 + β(lt/lt−1) = dt−1 + αβut


Una serie simulate con deriva moltiplicativa

0 100 200 300 400 500

2040

6080

100

La serie è stata generata a partire usando una sequenzadi numeri casuali normali standard per l’innovazione e

ponendo α = 0,5, β = 0.05, l0 = 10 e d0 = 1,002.


Introduzione di una componente stagionale

[modello di riferimento per il trend] Supponiamo, persemplificare il discorso successivo, di avere a che fare

con una serie temporale il cui trend possa essere bendescritto da un modello con deriva additiva adattiva. Gli

altri casi sono trattabili in maniera analoga.

[stagionalità additiva] Una componente stagionale,

additiva di periodo f può facilmente essere introdottaponendo

yt = lt−1 + dt−1 + st−f + utlt = (1 − α)(lt−1 + dt−1) + α(yt − st−f)

dt = (1 − β)dt−1 + β(lt − lt−1)

st = (1 − γ)st−f + γ(yt − lt−1 − dt−1)

dove l0, d0 e s0, . . . , s1−f sono valori arbitrari (diinizializzazione) mentre α, β e γ sono parametri di

lisciamento che assumono valori tra 0 e 1.

Si osservi in particolare che se γ = 0 allora st è una

successione deterministica di periodo f (ovvero abbiamouna serie che presenta una stagionalità costante).

Viceversa, se γ > 0 la stagionalità tende ad evolversi

nel tempo.


Si osservino inoltre le equazioni con cui vengonoaggiornati lt, che ora è interpretabile come il livello del

trend, e st, la componente stagionale. In particolaresi noti come combinino in una certa qual misura l’idea

del lisciamento esponenziale con l’idea dell’algoritmo dibackfitting presentato a pagina 104. Infatti, lt e st sono

una media ponderata

− dei valori precedenti, lt−1 e st−f rispettivamente,

− e del valore corrente della serie, yt, da cui vieneeliminata nel caso di lt la componente stagionale e

nel caso di st la componente di trend.

La forma che rende eplicito il ruolo dell’innovazione del

modello precedente è

yt = lt−1 + dt−1 + st−f + utlt = lt−1 + dt−1 + αutdt = dt−1 + αβutst = st−f + γut


Una serie simulata con stagionalitàadditiva. . .

5 10 15 20 25

020

040

060

080

010

00

La serie è stata simulata a partire da una successione di

numeri pseudo-casuali normali di media nulla e varianza25 utilizzando α = 0,5, β = 0,1, γ = 0,5, l0 = 0, d0 =

0,1 e s1−i = 50 sin(2π(i/12)) e f = 12.


e le sue componenti0

200

600

1000

leve

l

01

23

45

67

drift

−60

−20

2060

seas

onal

ity

−10

05

1015

inno

vatio

n

0 5 10 15 20 25


[stagionalità moltiplicativa] Seguendo lo stesso ordinedi idee possiamo definire un modello con una

componente stagionale moltiplicativa ponendo

yt = (lt−1 + dt−1)st−f + ut

lt = (1 − α)(lt−1 + dt−1) + αytst−f

dt = (1 − β)dt−1 + β(lt − lt−1)

st = (1 − γ)st−f + γyt

lt−1 + dt−1

La forma basata sulle innovazioni diventa in questa caso

yt = (lt−1 + dt−1)st−f + utlt = lt−1 + dt−1 + α utst−fdt = dt−1 + αβutst = st−f + γ

utlt−1 + dt−1


Una serie simulata con stagionalitàmoltiplicativa. . .

5 10 15 20 25

050

100

150

200

250

300

350

La serie è stata simulata a partire da una successione dinumeri pseudo-casuali normali di media nulla e varianza

1 utilizzando α = 0,5, β = 0,1, γ = 0,1, l0 = 1, d0 = 0,1e s1−i = 1 + 0,1 sin(2π(i/12)) e f = 12.


e le sue componenti

050

150

250

leve

l

0.0

0.5

1.0

1.5

drift

0.9

1.0

1.1

1.2

1.3

seas

onal

ity

−3

−2

−1

01

2

inno

vatio

n

0 5 10 15 20 25


Innovazione additiva o moltiplicativa?

[notazione] Tutti i modelli precedenti possono esserescritti nella forma

{yt = gt + utequazioni aggiuntive per calcolare gt

dove gt è la parte di yt predicibile sulla base del passato.

[innovazione additiva] Per molte serie temporali la

varianza di ut, ovvero dell’innovazione, non sembradipendere dal livello della serie (ovvero da gt).

Supponendo che la varianza sia anche costante nel

tempo possiamo allora scrivere

var(ut) = σ2

dove σ è una costante appropriata.

Si parla, in questi casi, di innovazione addittiva.


[innovazione moltiplicativa] In altri casi però lavariabilità di ut sembra dipendere da gt ed in

particolare, lo scarto quadratico medio di ut sembraessere proporzionale a gt. E’ quindi usuale considerare

anche la possibilità che

var(ut) = σ2g2t

In questi casi, si parla di innovazione moltiplicativa.

Infatti il modello può anche essere scritto come

{yt = gt(1 + at)

equazioni aggiuntive per calcolare gt

dove at = ut/gt.

nota: Si osservi che nel caso moltiplicativo abbiamoassunto gt > 0.


Sintesi dei modelli considerati: le quattro

forme di base

In tutti i modelli

yt = gt + ut

dove

tipo di tipo di equazioni per il

deriva stagionalità calcolo di gt

additiva additiva

gt = lt−1 + dt−1 + st−flt = lt−1 + dt−1 + αutdt = φdt−1 + αβutst = st−f + γut

additiva moltiplicativa

gt = (lt−1 + dt−1)st−flt = lt−1 + dt−1 + αut/st−fdt = φdt−1 + αβut/st−fst = st−f + γut/(lt−1 + dt−1)

moltiplicativa additiva

gt = lt−1dt−1 + st−flt = lt−1dt−1 + αutdt = dt−1 + αβut/lt−1

st = st−f + γut

moltiplicativa moltiplicativa

gt = lt−1dt−1st−flt = lt−1dt−1 + αut/st−fdt = dt−1 + αβut/(lt−1st−f)

st = st−f + γut/(lt−1dt−1)


Sintesi dei modelli considerati: casi

particolari

Deriva

tipo di nome in ast per vincoli

deriva l’argomento drift sui parametri

additivo none β = 0, φ = 1, d0 = 0

additivo additive φ = 1

additivo c/additive β = 0, φ = 1

additivo d/additive nessuno

moltiplicativo multiplicative nessuno

moltiplicativo c/multiplicative β = 0

Stagionalità

tipo di nome in ast per vincoli

stagionalità l’argomento seasonality sui parametri

additivo none γ = 0, si = 0 se i ≤ 0

additivo additive nessuno

additivo c/additive γ = 0

moltiplicativo multiplicative nessuno

moltiplicativo c/multiplicative γ = 0

Innovazione

tipo di nome in ast per

innovazione l’argomento innovation assunzioni

additiva additive var(ut) = σ2

moltiplicativa multiplicative var(ut) = σ2g2t


“Nomi” assegnati ad alcuni casi particolari

[modello di Holt] Modello senza deriva e senza stagionalità.

E’ chiamato anche lisciamento esponenziale semplice.In ast:

drift=”none” e seasonality=”none”.

[lisciamento esponenziale doppio] Modello senza stagionalità e

con deriva additiva non a smorzare. In ast: drift=”additive” e

seasonality=”none”.

[modello di Holt-Winters additivo] Modello con deriva additiva

(non a smorzare) e stagionalità additiva. E’ chiamato

anche lisciamento esponenziale triplo additivo. In ast:

drift=”additive” e seasonality=”additive”.

[modello di Holt-Winters moltiplicativo] Modello con deriva additiva

(non a smorzare) e stagionalità moltiplicativa. E’ chiamato

anche lisciamento esponenziale triplo moltiplicativo. In ast:

drift=”additive” e seasonality=”multiplicative”.

[theta method] Modello senza stagionalità con deriva additiva

costante. In ast: drift=”c/additive” e seasonality=”none”.


Costruzione empirica di un modello

Per costruire un modello appartenente alla classe

descritta è possibile seguire il seguente approccio

scelta di uno dei modelli della

classe��

oo

stima dei parametri del modelloscelto

��

il modello sembra descrivere in

maniera adeguata il meccanismogeneratore della serie temporale

osservata?��

//

NO:rivediamo le

scelte fatte

precedente-mente

OO

SI:utilizziamo il modello, ad

esempio, per calcolare delleprevisioni della serie.

Si osservi comunque che non è detto che il meccanismoche genera la serie osservata possa essere approssima-

to da uno dei modelli descritti. In particolare, nientenei modelli considerati è stato introdotto per spiegare

l’autocorrelazione di un processo stazionario. Quindi, èanche possible che l’esito sia “nessuno dei modelli della

classe è accettabile!”.Unità G: Modelli dinamici basati sull’idea di . . . 162

Stima dei parametri

Iniziamo occupandoci del problema della stima deiparametri di un modello visto che, come vedremo, è

preliminare anche alla fase di scelta di un modello.

[notazione] Indichiamo con ϑ il vettore dei parametri

di un particolare modello, ovvero, il vettore che ha comeelementi

(i) le costanti di lisciamento non vincolate (ovvero, ivari α, β,. . . ),

(ii) le condizioni iniziali per le equazioni alledifferenze che definiscono il modello (ovvero, l0 e

se “servono” d0 e s0, s−1, . . .) e(iii) il parametro di dispersione dell’innovazione (σ).

Tutti i modelli di questa unità possono essere scritti nellaforma

yt = gt(ϑ) + vt(ϑ)at

dove gt(ϑ) è, al solito la parte di yt predicibile sulla base

del passato, at = ut/vt(ϑ) e

vt(ϑ) =

{1 se l’innovazione è additivagt(ϑ) se l’innovazione è moltiplicativa

Nella notazione stiamo enfatizzando, rispetto a quanto

fatto precedentemente, il ruolo dei parametri.


[stimatori di massima verosimiglianza] Una possibilitàper stimare ϑ è offerta dagli stimatori di massima

verosimiglianza, che, nel contesto in cui siamo vengonodi solito calcolati sotto l’ipotesi che a1,a2, . . . sia una

successione di variabili casuali normali ed indipendenti.

Sotto questa ipotesi il calcolo della verosimiglianza è

molto agevole. Innanzitutto ricordiamoci che

p(y1, . . . ,yn; ϑ) = p(y1;ϑ) × p(y2|y1; ϑ) × · · ·· · · × p(yn|yn−1, . . . ,y1; ϑ)

dove p(·;ϑ) indica la funzione di densità del primo

argomento calcolata sotto l’ipotesi che il vero valore deiparametri sia ϑ. Osserviamo poi che, dalla struttura del

modello, segue immediatamente che

(yt|yt−1, . . . ,y1) ∼ N(gt(ϑ),σ2vt(ϑ)

2)

Infatti, assegnate le osservazioni passate e ϑ, gt(ϑ) e

vt(ϑ) sono assimilabili a delle quantità non stocastiche.


La funzione di verosimiglianza, a meno di terminimoltiplicativi non dipendenti da ϑ è quindi

L(ϑ) =

n∏

t=1

1

σvt(ϑ)exp

(

−1

2

(

yt − gt(ϑ)

σvt(ϑ)

)2)

Gli stimatori di massima verosimiglianza possono essere

ottenuti massimizzando L(ϑ). Per nessuno dei modelliconsiderati gli stimatori sono esprimibili in forma chiusa.

E’ quindi necessario utilizzare delle opportune procedurenumeriche.

Esercizio. Si partizioni ϑ come (ψ,σ) dove ψ indica ilvettore di tutti i parametri escluso σ. Si osservi che gt(ϑ),

qualsiasi sia il modello non dipende da σ e quindi puòessere scritto come gt(ψ). Si dimostri inoltre che nel

caso l’innovazione sia additiva gli stimatori di massima

verosimiglianza possono essere ottenuti minimizzandoin ψ la somma dei quadrati degli errori di previsione un

passo in avanti

s2(ψ) =

n∑

t=1

(yt − gt(ψ))2

e, indicata la stima di ψ con ψ, stimando σ2 mediante

σ2 =1

ns2(ψ)


[osservazioni e cautele] E’ possibile far vedere che leproprietà (almeno quelle asintotiche) degli stimatori

non dipendono dall’assunzione di normalità fatta nelcalcolo della verosimiglianza (nel senso che, sotto ipotesi

piuttosto deboli, la distribuzione asintotica, almeno deiparametri di lisciamento e di σ è la stessa sia se at è

normale sia se non lo è). E’ però bene tenere presenteche

(i) I parametri che descrivono le condizioni iniziali

(l0, d0, s0,. . . ) non vengono stimati, in generale, in

maniera consistente. Questa non è una caratteristi-ca degli stimatori di massima verosimiglianza. E’ una

caratteristica dei modelli ed in particolare del fattoche gt(ϑ) dipende “solo debolmente” dalle condizioni

iniziali quando t è grande (si ricordi ad esempio comel’importanza di l0 diminuisse nell’equazione (G.4)).

Fanno ovviamente eccezione i casi in cui l’effetto dellacondizione iniziale non scompare da gt(ϑ). Esempi sono

i modelli con deriva o stagionalità costante nel tempo.

(ii) I parametri di lisciamento (α,. . . ) variano nell’inter-

vallo [0, 1]. La teoria asintotica standard per questiparametri vale ma solamente se il vero valore dei

parametri è interno all’intervallo. Negli altri casi la teoriastandard non si applica. Si tratta di una situazione

sfortunata visto che molte ipotesi di interesse vedono“coivolti” punti estremi (ad esempio, per verificare se

la deriva è fissa o no saremmo interessati a verificarel’ipotesi β = 0).Unità G: Modelli dinamici basati sull’idea di . . . 166

Scelta di un modello

Una possibile strategia consiste nello

(a) stimare tutti i possibili modelli (almeno tutti quellicompatibili con le caratteristiche della serie, ovvero, ad

esempio, non ha senso considerare i modelli stagionaliper una serie che stagionale non è);

(b) ordinare i modelli stimati utilizzando un criterio del

tipo di quelli considerati a pagina 96 che nel presentecaso sono definiti come

−2logL(ϑ) + cn(numero parametri del modello)

dove ϑ indica lo stimatore di massima verosimiglian-za mentre cn è una costante (per cn = 2 otteniamo il

criterio AIC, per cn = log(n) il criterio BIC). Ricordandoche L(ϑ) può essere interpretata come una misura della

capacità del modello con una particolare struttura eparametri ϑ di “spiegare” i dati osservati, la logica degli

indici descritti è quella del lucido 96.

(c) scegliere il modello migliore (quello con il criterio

più basso) o, se questo non è soddisfacente, uno dei“migliori”.

Esercizio. Dimostrare che se si confrontano modelli

con innovazione additiva i criterio scritti sopra sonoequivalenti ai criteri nlogσ2 + cn(num. par. modello)Unità G: Modelli dinamici basati sull’idea di . . . 167

Verifica dell’adattamento

Si basano usualmente sull’analisi delle innovazionistandardizzate del modello stimato, ovvero di

at =yt − gt(ϑ)

vt(ϑ)

Verifiche “standard” sono:

(i) disegnare at verso t per verificare se la media è nullae la varianza costante per ogni t.

(ii) calcolare e disegnare la funzione di autocorrelazio-ne di at e magari anche verificare l’ipotesi che at sia

assimilabile ad un rumore bianco utilizzando il test diBox-Ljung.

(iii) è inoltre usuale anche utilizzare un normal

probability plot per verificare la normalità di at;

per quanto non strettamente richiesta, la normalità,almeno approssimata, di at garantisce la “sensatezza”

dell’approccio utilizzato per la stima, può essere utileper calcolare previsioni intervallari (vedi lucido 176);

il grafico può inoltre segnalare la presenza di eventuali

osservazioni anomale il cui effetto deve essere indagato.


Una serie temporale di vendite

Riportiamo l’analisi, inclusi i comandi per R, peranalizzare la serie mostrata nel primo grafico della figura

nel lucido 8. La serie comprende 150 osservazioni.Per costruire un modello noi useremo le prime 144

osservazioni. In questa maniera potremmo poi utilizzareil modello per prevedere le ultime 6 osservazioni e

confrontare le previsioni con quanto effettivamente

avvenuto.


Innanzitutto carichiamo i dati, selezioniamo le prime144 osservazioni e disegnamo la serie “osservata”.

> data(BJsales)

> y <- window(BJsales,end=144)

> plot(y)

Time

y

0 20 40 60 80 100 120 14020

021

022

023

024

025

026

0


Poi stimiamo tutti i modelli compatibili con la serieosservata (ovvero tutti i modelli non stagionali) e

ordiniamoli utilizzando BIC

> esId(y)

drift sea inn np BIC AIC rankAIC

1 d n a 5 825.1447 810.2957 1

2 a n a 4 826.2208 814.3416 2

3 m n a 4 827.2143 815.3351 3

4 a n m 4 830.0236 818.1444 4

5 m n m 4 830.8629 818.9837 5

6 c/a n a 3 838.0757 829.1662 6

7 c/m n a 3 838.2286 829.3191 7

8 c/m n m 3 842.4375 833.5281 8

9 n n a 2 844.9391 838.9995 9

10 n n m 2 849.0382 843.0986 10

11 d n m 5 1610.2699 1595.4208 11

12 c/a n m 3 2356.4463 2347.5368 12

I differenti modelli sono idenficati nell’output con le

“iniziali” del tipo di deriva (drift), stagionalità (sea) einnovazione (inn). L’output del comando mostra anche

il numero di parametri del modello (np), i valori di BICe AIC e in numero d’ordine del modello quando se si

utilizzasse AIC per ordinare i vari modelli (rankAIC). Inquesto caso, i due criteri sono perfettamente concordi

e suggeriscono un modello con deriva additiva “a

smorzare” (damped) e innovazione addittiva.


Stimiamo quindi questo modello (output rieditatospezzando alcune delle righe originali)

> m <- esFit(y,drift="d/additive",

+ seasonality="none",

+ innovation="additive")

> m

Call: esFit(y = y, drift = "d/additive",

seasonality = "none",

innovation = "additive")

drift=d/additive,

seasonality=none,

innovation=additive

alpha phi beta

0.94758225 0.87909108 0.27893611

l.start d.start sigma

200.03953950 -0.08819421 1.34164674

-2log(likelihood)= 800.2957

AIC= 810.2957 BIC= 825.1447


Il comando tsdiag può essere utilizzato per ottenere ilgrafico delle at, della loro autocorrelazione campionaria

e dei livelli di significatività osservati del test di Ljung-Box calcolato sul primo coefficiente di autocorrelazio-

ne, sui primi due,. . . , sui primi gof.lag coefficienti diautocorrelazione dove gof.lag è il secondo argomento

di tsdiag.

> tsdiag(m,20)Standardized Residuals

Time

0 20 40 60 80 100 120 140

−3

−1

12

3

0 5 10 15 20

−0.

20.

20.

61.

0

Lag

AC

F

ACF of Residuals

5 10 15 20

0.0

0.4

0.8

p values for Ljung−Box statistic

lag

p va

lue


Mostriamo anche il normal proability plot di at.

> qqnorm(residuals(m))

−2 −1 0 1 2

−4

−2

02

4

Normal Q−Q Plot

Theoretical QuantilesS

ampl

e Q

uant

iles


La funzione di autocorrelazione e i valori del test diLjung-Box sono molto buoni. Il grafico dei residui non

segnala deviazioni particolarmente rilevanti da quantoatteso (al più una leggera diminuzione della variablibità

con il passare del tempo).

Il normal probability plot indica un buon adattamento

della distribuzione normale alle at.

In conclusione adottiamo il modello suggerito da BIC e

AIC come un possibile “modello generatore” della serie.


Previsione: considerazioni generali

[il problema] Vogliamo, sulla base delle osservazioni,indichiamole con (y1, . . . ,yn), “prevedere” il valore della

serie in un istante futuro, diciamo n+h. In altre parole,vogliamo “farci raccontare” dalle osservazioni y1, . . . ,ynquello che “sanno” su yn+h.

[futuro|passato] La soluzione generale è offerta dalla

distribuzione di yt+h condizionata a (y1, . . . ,yn).

Infatti, P(yn+h|y1, . . . ,yn) ci dice dove ci aspettiamo di

trovare il processo al tempo t + h sapendo che al tempo1 era a y1, al tempo 2 a y2,. . . , al tempo n a yn.

Ad esempio, se fosse vero che P(0 ≤ yt+h ≤1|y1, . . . ,yn) = 0 allora nessuna delle realizzazioni del

processo che “passano” al tempo 1 per y1,. . . , al tempon per yn, poi, al tempo t + h “si trovano” nell’intervallo

[0, 1].

Mentre, se fosse vero che P(0 ≤ yt+h ≤ 1|y1, . . . ,yn) =

0,9 allora 9 traiettorie su 10 del processo che “passano”al tempo 1 per y1,. . . , si trovano al tempo t + h

nell’intervallo [0, 1].

Quindi, in termini generali, la soluzione del problema

consiste nel calcolare (almeno approssimativamen-te) questa distribuzione condizionata o qualche suo

parametro caratteristico.


[media/mediana condizionati] Media e mediana delladistribuzione condizionata possono essere utilizzate per

fornire una idea di dove dovrebbe trovarsi il processoal tempo yt+h. Tra l’altro si osservi che per una nota

proprietà della media

E((yn+h − yn+h|n)2|Yn) ≤ E((yn+h − ψ(Yn))

2|Yn)

dove

- Yn = (y1, . . . ,yn) indica le osservazioni,

- yn+h|n = E(yn+h|Yn) indica la media condizionata e- ψ(·) indica una generica funzione.

Quindi, la media condizionata gode della proprietàdi minimizzare la media degli errori di previsione al

quadrato.

Si osservi, che poichè per qualsiasi variabile casuale

u, E(u) = EYn(E(u|Yn)) (la media marginale è lamedia delle medie condizionate), la disuguaglianza può

estendersi anche ai valori attesi non condizionati.

Ricordando la proprietà simile della mediana, possiamo

anche affermare che la mediana condizionata minimizzala media dei valori assoluti degli errori di previsione.


[intervalli di previsione] I quantili della distribuzionecondizionata sono particolarmente interessanti poichè

permettono di costruire agevolmente degli intervalli

di previsione, ovvero degli intervalli che includono

i valore futuro con una probabilità preassegna-ta. Intervalli di previsione sono nelle applicazioni

importanti. Permettono infatti di “esporre” in manieraintuitiva e non tecnica il grado di precisione con cui

“conosciamo il futuro”.

Si supponga di voler determinare [an+h|n,bn+h|n] tali che

P(an+h|n ≤ yn+h ≤ bn+h|n|y1, . . . ,yn) = 1 − ε

dove ε è una costante assegnata (ε ∈ [0, 1]).

Esistono varie possibilità. Ma quella che si adottacomunemente consiste nel porre

an+h|n = y(ε/2)

n+h|ne bn+h|n = y

(1−ε/2)

n+h|n

dove y(p)

n+h|nindica il quantile p della distribuzione

condizionata, ovvero

P(yn+h|n ≤ y(p)

n+h|n|y1, . . . ,yn) = p.


Previsione con i modelli basati sul

lisciamento esponenziale

⇒ Ci comporteremo “come se” la struttura prescelta peril modello (tipo di deriva,. . . ) e i parametri stimati

coincidano con la “vera” struttura e i “veri” parametri,ovvero, “come se” il “vero” modello fosse noto.

Si tratta di una ipotesi non realistica che però semplificain maniera drastica la trattazione, e fornisce soluzioni

“sensate” ampiamente utilizzate nelle applicazioni.L’effetto principale è quello di sovrastimare la precisione

delle previsioni (ci siamo persi per strada un pezzo divariabilità!).

⇒ Una soluzione generale per approssimare la distribuzio-ne condizionata e quindi per calcolarne i momenti e i

quantili consiste nel procedere per simulazione.


Algoritmo di simulazione

1. calcolare ln, dn, sn,. . . ,sn−f+1 da y1,. . . , yn;2. generare dalla distribuzione dell’innovazione an+1,. . . ,

an+l;3. utilizzando le equazioni alle differenze che definiscono

il modello simulare a partire dalle quantità determinateai passi 1 e 2, yn+1, . . . ,yn+h;

4. ripetere i passi 2 e 3 un certo numero di volte,indichiamolo con B;

5. alla fine ci troviamo con B traiettorie futuresimulate e quindi B possibili “yn+l” tutti estratti

dalla distribuzione condizionata (visto che siamo

sempre partiti da ln, dn,. . . ). Possiamo quindi“stimare” la distribuzione condizionata usando queste

pseudo-determinazioni di yt+l.


Alcuni futuri simulati (e uno vero!!!)

100 110 120 130 140 150

250

255

260

265

270

Il grafico mostra la serie delle vendite osservata. Le

osservazioni con 100 ≤ t ≤ 144 sono disegnate

con la linea continua, quelle dopo 144 (che nonabbiamo utilizzato per costruire il modello) con una

linea tratteggiata. Sono stati poi aggiunti 5 “futuri”simulati utilizzando il modello stimato e ipotizzando la

normalità delle innovazioni.


Per quanto riguarda la simulazione dell’innovazione“futura” sono spesso considerate due possibilità:

(a) Al posto delle innovazioni future an+1,an+2, . . .

vengono utilizzati dei numeri pseudo casuali

N(0,σ2)1. Si parla in questo caso di simulazioni odi bootstrap parametrico.

E’ un approccio sensato ovviamente nei soli casiin cui la distribuzione di at sembra essere almeno

approssimativamente normale.(b) Un approccio alternativo, utilizzabile quando

at non sembra essere normale, si concretizzanel generare an+1,an+2,. . . , ricampionando le

innovazioni effettivamente osservate. Ovvero, alpasso 1 dell’algoritmo di simulazione calcoliamo

ln,. . . dalla serie osservata. Simultaneamente

calcoliamo quindi anche u1,. . . ,un e perciò anchea1,. . . ,an

2.

Per simulare il futuro, an+1 viene generatoscegliendo a caso una delle a1,. . . ,an, an+2 viene

generata nella stessa maniera,. . . . L’estrazio-ne avviene in maniera tale che ciascuna delle

innovazioni osservata possa essere estratta con lastessa probabilità.

Si parla in questo caso di ricampionamento o

bootstrap non parametrico.

1in realtà nelle applicazioni si usa σ2, ovvero la varianza stimata2in realtà sono “a” non “a” visto che usiamo i parametri stimati


⇒ Nel caso di modelli “tutti additivi” (deriva, stagionali-tà e innovazione non moltiplicativi) la media condiziona-

ta di yn+h può essere calcolata simulando il futuro

facendo a finta che un+1 = 0, un+2 = 0,. . . ovvero

supponendo che il futuro non ci riservi “niente di nuovo”.

Esercizio: Si dimostri l’affermazione precedente.

Aiuto: è sufficiente osservare che sempre per sostituzio-ni successive yn+h = yn+h+(combinazione lineare di

un+1,. . . ,un+h) e ricordare che la media dell’innovazioneè nulla.

⇒ Per modelli con “qualcosa di moltiplicativo” èpossibile far vedere che simulare il futuro facendo a

finta che tutte le innovazioni future siano nulle puòessere utilizzato per calcolare delle buone approssima-

zioni della media condizionata. Chiameremo questeprevisioni ingenue o naif (in inglese e in ast naive).

⇒ Sempre per i modelli “tutti additivi” e se l’innovazio-ne si distribuisce come una normale, è possibile far

vedere che la distribuzione di yn+h data la serie osservataè normale e può essere determinata in forma chiusa. I

dettagli non sono presentati visto che sono molto similia quello che faremo nella prossima unità per un modello

ARIMA.


⇒ Si osservi inoltre che, a prescindere dalla strutturadel modello, la distribuzione di yn+1 dato (y1, . . . ,yn)

è sempre e immediatamente determinabile dalladistribuzione dell’innovazione standardizzata an+1. Ad

esempio, come già osservato,

poichè yn+1 = gn+1 + vn+1an+1, se an+1 ∼ N(0,σ2)

allora yn+1 ∼ N(gn+1,σ2v2n+1)

In generale,

P(yn+1 ≤ f|y1, . . . ,yn) =

= P(an+1 ≤ (f− gn+1)/vn+1|y1, . . . ,yn)


Previsione della serie delle vendite

Con il seguente comando, se m è l’oggetto ritornato daesFit, chiediamo a R di generare 1000 “futuri”3 per

le 144 osservazioni utilizzate per stimare il modello.L’innovazione viene simulata da una distribuzione

normale. Il metodo predict in questo caso ritornauna serie temporale multivariate contenenti le stime

della media, della mediana e di alcuni altri percentilidella distribuzione condizionata. L’ultimo comando sotto

(il cui output è stato “tagliato”) può essere utilizzato

per mostrare le stime della media, della mediana e unintervallo di previsione al 90% per i valori futuri.

> yg <- predict(m,6,method="gauss")

> colnames(yg)

[1] "2.5%" "5%" "25%" "median" "mean"

"75%" "95%" "97.5%"

> yg[,c("5%","median","mean","95%")]

Time Series:

Start = 145

End = 150

Frequency = 1

5% median mean 95%

145 259.6545 261.8513 261.8354 263.9763

.......................................

150 256.2099 264.5428 264.5254 272.9976

3il numero è variabile utilizzando l’argomento n.series


Per ottenere le previsione ingenue o l’analogo di quantoappena vista ma calcolato ricampionando le innovazioni

è sufficiente cambiare “metodo”.

> predict(m,6,method="naive")

Time Series:

Start = 145

End = 150

Frequency = 1

Series 1

[1,] 261.8299

.............

[6,] 264.5363

> predict(m,6,method="resample")[,

+ c("5%","median","mean","95%")]

Time Series:

Start = 145

End = 150

Frequency = 1

5% median mean 95%

145 259.7755 261.7510 261.7610 263.9980

.......................................

150 255.9069 264.2205 264.2492 272.4579


Con i seguenti comandi disegnamo la media delladistribuzione condizionata, un intervallo di previsione al

90% e, per confronto, le vere osservazioni sulle vendite.

> a <- c("5%","mean","95%")

> plot(yg[,a],plot.type="s",lty="dotdash")

> points(window(BJsales,start=145),pch="*",cex=2)

Time

yg[,

c("5

%",

"m

ean"

, "95

%")

]

145 146 147 148 149 150

260

265

270

* * ** * *


Una serie con le bollicine

Una delle serie temporali inclusa in ast si riferisce

alle vendite di champagne di una particolare aziendaproduttrice. Si tratta di una serie storica mensile.

Anche in questo caso, per vedere la capacità previsivadel modello “in azione” non utilizzeremo le ultime 12

osservazioni per costruire il modello.> data(champagne)

> end(champagne)

[1] 1972 9

> bollicine <- window(champagne,end=c(1971,9))

> plot(bollicine)

Time

bollic

ine

1964 1966 1968 1970

2000

4000

6000

8000

1000

012

000

1400

0


Vediamo quali modelli suggeriscono AIC e BIC. Conkeep=2 “avvisiamo” esId di “ritornare” solo i due modelli

con il BIC più piccolo e, se diversi, i due modelli con ilmiglior AIC.

> esId(bollicine,keep=2)


1 n c/m a 14 1660.724 1625.268 3

2 m c/m a 16 1664.543 1624.022 1

3 a c/m a 16 1665.408 1624.887 2

In questo caso c’e’ un parziale disaccordo tra idue criteri. Il modello migliore per BIC è terzo

per AIC, quello secondo per BIC è il miglioreper AIC,. . . . Ambedue i criteri suggeriscono come

appropriata una stagionalità costante e moltiplicativa

(seasonality=”c/multiplicative”) e una innovazioneadditiva (innovation=”additive”). Però, nel miglior

modello per BIC la deriva è assente (drift=”none”).Mentre AIC suggerisce una delibera moltiplicativa

(drift=”multiplicative”) o, in subordine, additivadrift=”additive”).


Proviamo a stimare i tre modelli migliori per ambedue icriteri e verifichiamone l’adattamento.

> m1 <- esFit(bollicine,"n","c/m","a")

> tsdiag(m1)

Standardized Residuals

Time

1964 1966 1968 1970

−3

−1

13

0.0 0.5 1.0 1.5

−0.

20.

20.

61.

0

Lag

AC

F

ACF of Residuals

0 5 10 15 20 25 30 35

0.0

0.4

0.8


lag

p va

lue


> m2 <- esFit(bollicine,"m","c/m","a")

> tsdiag(m2)


Time

1964 1966 1968 1970

−2

02

4

0.0 0.5 1.0 1.5

−0.

20.

20.

61.

0

Lag

AC

F

ACF of Residuals

0 5 10 15 20 25 30 35

0.0

0.4

0.8


lag

p va

lue


> m3 <- esFit(bollicine,"a","c/m","a")

> tsdiag(m3)


Time

1964 1966 1968 1970

−2

02

4

0.0 0.5 1.0 1.5

−0.

20.

20.

61.

0

Lag

AC

F

ACF of Residuals

0 5 10 15 20 25 30 35

0.0

0.4

0.8


lag

p va

lue


Per tutti e tre i modelli l’autocorrelazione dei residuinon sembra indicare particolari problemi. Comunque i

modelli suggeriti da BIC sembra essere marginalmentemigliore (sopratutto se guardiamo ai livelli di significati-

vità dei test di Ljung-Box basati su 13 o più coefficientidi autocorrelazione).

Inoltre, il modello suggerito da BIC è più parsimonioso,ovvero utilizza meno parametri, e quindi è quello che

rischia meno di cogliere caratteristiche spurie della serieosservata. Sembra quindi sensato sceglierlo.

Il grafico dei residui di tutti e tre i modelli mostra peròun caratteristica non del tutto “piacevole” e che merita

di essere investigata.


La caratteristica è ancora più evidenziata dal normal

probability plot. Una delle osservazioni, i grafici

precedenti dei residui la collocano intorno al 1967, èanomala rispetto alle altre.

> qqnorm(residuals(m1))

−2 −1 0 1 2

−10

000

1000

2000

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s


Vediamo qual’è e cerchiamo di capire che cosa è successofacendo uno “zoom” sulla serie.

> start(bollicine)

[1] 1964 1

> which.max(abs(residuals(m1)))

[1] 37

> #l’osservazione "incriminata" e’ quindi

> #il gennaio 1967

> z <- window(bollicine,start=c(1964,12),

+ end=c(1969,2))

> plot(z)

> points(z,pch=month.name[cycle(z)])

> arrows(1967+0.5,bollicine[37]+200,

+ 1967,bollicine[37])

Time

z

1965 1966 1967 1968 1969

2000

4000

6000

8000

1000

0

D

JF

MA

M

JJ

A

S

O

N

D

JF

M

AMJ

J

A

S

O

N

D

J

F

M

AMJ

J

A

S

O

N

D

J

FMA

MJ

J

A

S

O

N

D

JF


Il grafico mostra chiaramente che cosa è successo.Almeno negli anni vicini, dopo il picco natalizio le

vendite calano a gennaio fino ad un livello uguale odaddirittura più basso di quello nei mesi immediatamente

successivi.

Questa diminuzione avviene solo parzialmente a

gennaio 1967. Il modello sbaglia quindi la previsione.

Per capire se questo pesa sul modello, costruiamo “una

serie pulita” sostituendo al valore di gennaio 1967 lamedia dei gennaii degli anni vicini e vediamo cosa

succede.

> z <- window(y,start=c(1964,12),

+ end=c(1969,2))

> #comandi come prima

> #gennaio ’67 adesso sembra ‘‘normale’’

Time

z

1965 1966 1967 1968 1969

2000

4000

6000

8000

1000

0

D

JF

MA

M

JJ

A

S

O

N

D

JF

M

AMJ

J

A

S

O

N

D

JF

M

AMJ

J

A

S

O

N

D

J

FMA

MJ

J

A

S

O

N

D

JF


I modelli suggeriti dai due criteri non cambiano. Questoè consolante. Ovvero, l’osservazione anomala non

sembra particolarmente influente.

> esId(y,keep=2)


1 n c/m a 14 1639.490 1604.033 3

2 m c/m a 16 1641.137 1600.615 1

3 a c/m a 16 1642.633 1602.112 2


Stimiamo il modello suggerito da BIC.

> m1bis <- esFit(y,"n","c/m","a")

> tsdiag(m1bis)


Time

1964 1966 1968 1970

−3

−1

01

2

0.0 0.5 1.0 1.5

−0.

20.

20.

61.

0

Lag

AC

F

ACF of Residuals

0 5 10 15 20 25 30 350.

00.

40.

8


lag

p va

lue


L’autocorrelazione dei residui non preoccupa. Anche ilnormal probability plot è diventato più normale.

> qqnorm(residuals(m1bis))

−2 −1 0 1 2

−15

00−

1000

−50

00

500

1000

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s


Proviamo a vedere se ci sono differenze nella distribuzio-ne prevista per le prossime 12 osservazioni. Nella figura

(vedi prossimo lucido per le istruzioni R) i tre graficiconfrontano (dall’alto verso il basso) i percentili 0.5 e

0.95 e la media calcolati utilizzando i due modelli egenerando le innovazioni future con i due metodi visti

(in ogni grafico ci sono 4 curve).

1971.8 1972.0 1972.2 1972.4 1972.6

2000

4000

6000

8000

1200

0

1971.8 1972.0 1972.2 1972.4 1972.6

4000

8000

1200

020

0060

0010

000


Istruzioni R per costruire il grafico sul lucido 200.

> a <- c("5%","95%","mean")

> p1 <- predict(m1,12,method="g")[,a]

> p2 <- predict(m1,12,method="r")[,a]

> p3 <- predict(m1bis,12,method="g")[,a]

> p4 <- predict(m1bis,12,method="r")[,a]

> oldp <- par(mfrow=c(3,1),mar=c(1,1,1,1))

> for (i in 1:3)

+ plot(cbind(p1[,i],p2[,i],p3[,i],p4[,i]),

+ plot.type="s",ylab="")

> par(oldp)


Visto che le differenze nelle previsioni tra i vari modellie i vari metodi sembrano irrilevanti usiamo il modello

originale e generiamo le innovazioni assumendo lanormalità. Al grafico, per vedere il modello “in azione”

aggiungiamo anche le vere osservazioni (che si tengaconto, non sono state in nessuna maniera utilizzate

nell’analisi).

> plot(p1,plot.type="s",lty="dotdash")

> points(champagne,pch="*",cex=2)

Time

p1

1971.8 1972.0 1972.2 1972.4 1972.6

2000

4000

6000

8000

1000

012

000

1400

0

*

*

*

**

* * **

*

*

*


Unità H

I modelli ARMA e ARIMA

Introduzione

⇒ Nella prima parte dell’unità vengono presentatii modelli a media mobile (MA(q)), autoregres-

sivi (AR(p)) e autoregressivi a media mobile(ARMA(p,q)),

Sono modelli dinamici lineari che generano processistazionari. La loro caratteristica principale consiste

nella capacità di rappresentare/approssimare la

struttura di autocorrelazione di un qualsiasi processostazionario.

Vedremo poi una estensione di questi modelli (icosidetti modelli autoregressivi a media mobile

integrati o ARIMA(p,d,q)) che estendono i modelliARMA nella direzione della non-stazionarietà.

Consideremo poi le varianti “stagionali” di questeclassi di modelli.

⇒ In tutti questi modelli, la serie osservata à generata

a partire da un processo, {ut}, l’innovazione delprocesso, che supporremo essere un rumore bianco

(vedi pagina 27) di media nulla e varianza σ2u.

⇒ Contrariamente a quanto fatto nell’unità precedente

ipotizzeremo che il processo di interesse inizi a −∞,non a 1. Il “periodo di osservazione” però, al solito,

inizia a 1 e finisce con n.

Unità H: I modelli ARMA e ARIMA 204

Modelli a media mobile

Un processo stocastico, {yt}, è detto generato da unmodello a media mobile di ordine q (moving average in

inglese, da cui la “sigla/acronimo” MA(q)) se

yt = η + ut + ϑ1ut−1 + · · · + ϑqut−q

dove (η,ϑ1, . . . , ϑq) è un vettore di parametri costanti.

E’ immediato verificare che

E(yt) = η

e che, per 0 ≤ h ≤ q,

cov(yt,yt−h) = (ϑh + ϑ1ϑh+1 + · · · + ϑq−hϑq)σ2u

mentrese h > q allora cov(yt,yt−h) = 0 (H.1)

La (H.1) mostra come caratteristica di un modello

MA(q) sia quello di avere una memoria finita1.

Poichè la media è costante e cov(yt,yt−h) dipende soloda h, il processo è stazionario, almeno del secondo

ordine.

1almeno quella che si manifesta attraverso la dipendenza lineare.Unità H: I modelli ARMA e ARIMA 205

Funzioni di autocorrelazione di alcuni modelliMA(1) e MA(2)

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut + 0.8ut−1

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut − 0.8ut−1

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut + 0.8ut−1 + 0.6ut−2

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut − 0.8ut−1 − 0.2ut−2


Invertibilità di un modello MA(q)

Un modelloMA(q) è detto invertibile se, per ogni t, ut ècalcolabile a partire da yt,yt−1, . . ..

Questo non è automatico. Si consideri infatti un modelloMA(1), per semplicità di media nulla,

yt = ut + ϑut−1.

Con sostituzioni successive troviamo

ut = yt − ϑut−1 =

= yt − ϑyt−1 + ϑ2ut−2 =

= yt − ϑyt−1 + ϑ2yt−2 − ϑ3ut−3 =...

= yt − ϑyt−1 + · · · + (−ϑ)myt−m + (−ϑ)m+1ut−m−1


In definitiva sembrerebbe che dovremmo arrivare a

ut =

∞∑

i=0

(−ϑ)iyt−i.

Ma è difficile pensare di dare un senso alla sommatoria

infinita che abbiamo appena scritto se i pesi assegnatialle “y” esplodono, ovvero se |ϑ| ≥ 1. E dall’altra parte

se |ϑ| ≥ 1 allora non ci aspettiamo neanche che il termine(−ϑ)m+1ut−m−1 che compariva prima “svanisca” quando

m è grande. Infatti, è possibile far vedere che un modelloMA(1) è invertibile se e solo se |ϑ| < 1.

In generale è possibile dimostrare che condizionenecessaria per l’invertilità di un modello MA(q) è che

le q soluzioni dell’equazione

1 + ϑ1x+ · · · + ϑqxq = 0 (H.2)

siano in modulo maggiori di uno (si osservi che le radici

possono anche essere numeri complessi). Nel seguitosupporremmo di avere sempre a che fare con modelli

invertibili o al più con modelli in cui le soluzioni della(H.2) siano in modulo uguale a 1. Questo non è un

limite. Infatti è possibile dimostrare che se un processoè rappresentabile da un modello MA(q) con radici della

(H.2) minori in modulo di 1, allora può anche essere

rappresentato da un modello MA(q) invertibile.Unità H: I modelli ARMA e ARIMA 208

Nel caso un modello MA(q) sia invertibile è possibilemostrare che esiste una successione di pesi λ1, λ2, · · · per

cui

ut = yt −

∞∑

i=1

λiyt−i

dove l’uguaglianza è da intendersi nel senso dellaconvergenza in media quadratica, ovvero,

limm→∞

E

[

ut −

(

yt −

m∑

i=1

λiyt−i

)]2

= 0

I pesi convergono a zero è in particolare

∞∑

i=1

λ2i < ∞

Si osservi che quindi possiamo anche scrivere

yt =

∞∑

i=1

λiyt−i + ut (H.3)

ovvero, che un modello MA(q) invertibile può essere

visto come una specie di modello di regressione infinitoin cui le variabili esplicative sono il “passato” di yt.

Gli infiniti coefficienti di regressione λ1, λ2, . . . non sonoperò completamente liberi. Tutti sono infatti funzione

dei q coefficienti ϑ1, . . . , ϑq.Unità H: I modelli ARMA e ARIMA 209

Modelli autoregressivi

Un processo stocastico, {yt}, è detto generato da un

modello autoregressivo di ordine p (“sigla/acronimo”

AR(p)) se

yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) + ut

dove (η,φ1, . . . ,φp) è un vettore di parametri costanti.

Come si può vedere si tratta di un normale modello diregressione lineare in cui la variabile risposta è il valore

presente del processo mentre le variabili esplicative sonoi valori passati del processo stesso.

E’ possibile dimostrare che il processo generato da un

processo AR(p) è stazionario se e solo se le radicidell’equazione

1 − φ1x− · · · − φpxp = 0 (H.4)

sono in modulo maggiori di uno. In questo caso, ηcoincide con la media di yt e è possible far vedere che

il processo è rappresentabile come una “media mobile

infinita” ovvero che esistono dei pesi ψ1,ψ2, . . . tali che

yt = η + ut +

∞∑

i=1

ψiut−i (H.5)


Funzioni di autocorrelazione di alcuni modelli AR(1)e AR(2)

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = 0.8yt−1 + ut

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = − 0.8yt−1 + ut

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = 0.8yt−1 − 0.6yt−2 + ut

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = 0.6yt−1 + 0.3yt−2 + ut

E’ possibile far vedere che la funzione di autocorrelazio-ne di un processo AR(1) soddisfa l’equazione ρ(h) =

φ1ρ(h − 1), ρ(0) = 1 e quindi che ρ(h) = φh1. Sinoti l’andamento diverso a seconda del segno di φ1.

Si osservi inoltre l’andamento oscillatorio a smorzarepossibile per alcuni modelli AR(2).Unità H: I modelli ARMA e ARIMA 211

La funzione di autocorrelazione parziale

La figura precedente mostra come per un modello AR(1)

l’autocorrelazione ai ritardi superiori al primo sia diversa

da zero e possa anche essere non banale.

In realtà noi sappiamo che in un certo senso quellacorrelazione è spuria. Ad esempio la correlazione che

troviamo a ritardo 2 è legata al fatto che yt−1 è generatoa partire da yt−2 e yt a partire da yt−1. Quindi, la

correlazione tra yt e yt−2 è diversa da zero ma tutta“mediata” da yt−1.

Per un processo AR(2) viceversa una parte dellacorrelazione a ritardo 2 è “mediata” da yt−1 mentre una

parte e esprime l’impatto “diretto” di yt−2, non mediato,

di yt−2 su yt.

Per isolare la correlazione “diretta” dalla correlazio-

ne “mediata” è possibile utilizzare i coefficienti diautocorrelazione parziale

π(h) = corr(yt,yt−h|yt−1, . . . ,yt−h+1) h = 1, 2, . . .

che misura la correlazione esistente tra yt e yt−hquando da ambedue le variabili venga eliminato la parte

“spiegabile linearmente” da yt−1, . . . ,yt−h+1. Per unprocesso AR(p)

π(h) = 0 se h > pUnità H: I modelli ARMA e ARIMA 212

Funzioni di autocorrelazione parziale di alcunimodelli AR e MA

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = 0.8yt−1 + ut

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut + 0.8ut−1

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut − 0.8ut−1

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

yt = ut − 0.8ut−1 + 0.6ut−2

Si osservi come la funzione di autocorrelazione parzialedi un processo MA(q) converga verso zero ma senza

diventare esattamente zero. Ed inoltre, come la funzionedi autocorrelazione parziale di un MA(m) possa, a

parte il segno, mostrare gli andamenti qualitativi dellafunzione di autocorrelazione di un AR(m) e viceversa.Unità H: I modelli ARMA e ARIMA 213

Modelli autoregressivi a media mobile

Combinano le due classi di modelli appena viste.Un processo stocastico {yt} si dice generato da un

modello autoregressivo a media mobile di ordine(p,q) (abbreviato in ARMA(p,q)) quando è generato

dall’equazione alle differenze

yt = η + φ1(yt−1 − η) + · · · + φp(yt−p − η) +

+ut + ϑ1ut−1 + · · · + ϑqut−q (H.6)

Il processo è invertibile se tutte le radici dell’equazioneanaloga alla (H.2) sono in modulo maggiore di 1. In

questo caso gode anche di una rappresentazione AR(∞)

del tipo della (H.3).

Il processo è stazionario se tutte le radici dell’equazio-ne analoga alla (H.4) sono in modulo maggiore di 1.

In questo caso gode anche di una rappresentazioneMA(∞) del tipo della (H.5).

La funzione di autocorrelazione può avere andamentimolto diversi. La regola generale è che “i primi

q coefficienti sono sostanzialmente arbitrari; dopola funzione di autocorrelazione converge verso lo

zero come fa, a partire da zero, la funzione diautocorrelazione di un AR(p)”.


Funzioni di autocorrelazione di un modelloARMA(1,2)

0 2 4 6 8 10

−1.

0−

0.5

0.0

0.5

1.0

0:10

AR

MA

acf(

ar =

c(0

.7),

ma

= c

(0, −

0.95

), la

g =

10) yt = 0.7yt−1 + ut − 0.95ut−2

Si osservi come la convergenza verso lo zero in accordo

all’equazione ρ(h) = φ1ρ(h − 1) che caraterizza ilmodello AR(1) (vedi lucido 211) in questo caso inizi da

h = q = 2.


L’operatore di ritardo

Questi modelli sono scrivibili in termini compattiutilizzando l’operatore di ritardo2

Byt = yt−1.

Usandolo possiamo riscrivere l’equazione (H.6) come

φ(B)(yt − η) = ϑ(B)ut

dove

φ(B) = 1 − φ1B− φ2B2 − · · · − φpBp

ϑ(B) = 1 − ϑ1B− ϑ2B2 − · · · − ϑqBq

2uso la lettera B mutuandola dalla letteratura anglosassone dove èl’abbreviazione di backward visto che abbiamo già troppi R in questi lucidiUnità H: I modelli ARMA e ARIMA 216

Modelli integrati ovvero metti un po’ di

trend in un modello ARMA

Si supponga che yt = ζ + ηt, ovvero di considerare unprocesso deterministico la cui realizzazione è una retta.

Ovviamente

(1 − B)yt = yt − yt−1 = η

ovvero, le “differenze” di una serie costituita solo da un

trend lineare è una serie costante.

Che cosa ci aspettiamo di ottenere se sostituiamo nellaequazione precedente a η un processo stocastico, ad

esempio un ARMA(p,q) di media η? Ovvero, quali

caratteristiche avranno le traiettorie di un processogenerato da una equazione alle differenze del tipo

yt = yt−1 + zt

dove {zt} indica un processo stazionario di media η

generato da un modello ARMA? La risposta è facile.

Mediamente, yt dovrebbe aumentare di η unità per ogniunità di tempo. Quindi ci aspettiamo che yt esibisca un

trend lineare.


Un processo simulato

−4

−2

02

4

z

050

100

150

200

y

0 100 200 300 400

Il processo nel primo grafico è stato generato utilizzando

l’equazione

zt =1

2+ 0,8

(

zt−1 −1

2

)

+ ut (z−100 = 0)

dove ut ∼ N(0, 1). Il processo nel secondo è stato

generato a partire dal primo utilizzando l’equazione

yt = yt−1 + zt (y0 = 0)


Un altro processo simulato

0 200 400 600 800 1000

−10

0−

500

50

La serie è stata simulata utilizzando

yt = yt−1 + zt dove zt = 0,8zt−1 + ut (ut ∼ N(0, 1))

Si osservi come usando una ARMA di media nulla

otteniamo una serie che esibisce anch’essa unacomponente di trend (in questo caso, solo “localmente”

lineare).


Queste semplici considerazioni ed esempi suggerisconodi considerare modelli del tipo

(1 − B)dyt = zt con φ(B)(zt − η) = ϑ(B)ut (H.7)

per approssimare il meccanismo generatore di una serie

temporale non stazionaria. Si parla in questo casodi modello autoregressivo a media mobile integrato3 di

ordine (p,d,q) (abbreviazione ARIMA(p,d,q)).

Si osservi che possiamo non menzionare esplicitamen-

te {zt} nella definizione di un modello ARIMA(p,d,q).Infatti, sottraendo η e poi applicando l’operatoreφ(B) ad

ambedue i termini della prima equazione che compare

nella (H.7) otteniamo

φ(B)(1 − B)dyt = δ+ φ(B)(zt − η)

dove δ = φ(B)η = η(1 − φ1 − · · · − φp).Sostituendo quindi la seconda equazione della (H.7)

otteniamo

φ(B)(1 − B)dyt = δ + ϑ(B)ut

3il nome “integrato” discende dal fatto che yt = y0 +∑t

i=0 zi e che la “somma”è l’analogo a tempo discreto di un integrale.Unità H: I modelli ARMA e ARIMA 220

Identificazione di un modello ARMA/ARIMA

trasformazione della serieosservata in maniera tale che

diventi stazionaria (incluso l’usodi differenze, ovvero la scelta di

d).��

oo

scelta di p e q

��

stima dei parametri del modelloscelto

��

il modello sembra descrivere in

maniera adeguata il meccanismogeneratore della serie temporale

osservata?��

//

NO:rivediamo le

scelte fatte

precedente-mente

OO

SI:

utilizziamo il modello, adesempio, per calcolare delle

previsioni della serie.


Esempio con serie non stagionali


Modelli ARIMA stagionali

La versione “stagionale” dei modelliARIMA normalmenteconsiderata si concretizza nell’assumere che il processo

osservato è generato in accordo all’equazione alledifferenze

φ(B)Φ(Bf)(1 − B)d(1 − Bf)Dyt = ϑ(B)Θ(Bf)ut

dove:

- f indica la lunghezza del periodo stagionale (12 nelcaso di dati mensili,. . . );

- φ(B) = 1 − φ1B − · · · − φpBp è un operatore

autoregressivo “non-stagionale”;-Φ(Bf) = 1 − Φ1B

f − · · · − φpBPf è un operatore

autoregressivo che “vede” solo i ritardi stagionali;- ϑ(B) = 1 + ϑ1B + · · · + ϑqB

q è un operatore a media

mobile “non-stagionale”;- Θ(Bf) = 1+Θ1B

f+ · · ·+φQBQf è un operatore a media

mobile stagionale.

Eventualmente, come prima, possiamo aggiungere un

termine costante δ al secondo termine.


Esempio con serie stagionali


Unità I

Serie temporali bivariate: cenno

Analisi delle Serie Temporali - Siriosirio.stat.unipd.it/files/ts02-03/ts2.pdf · Guido Masarotto e...

Documents

Transcript of Analisi delle Serie Temporali - Siriosirio.stat.unipd.it/files/ts02-03/ts2.pdf · Guido Masarotto e...