Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di...

61
Appunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni <[email protected]> dalle lezioni del prof. Zappa AA 2001-2002

Transcript of Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di...

Page 1: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Appunti diIdentificazione dei Modelli e

Analisi dei Dati

Massimo Mangoni <[email protected]>dalle lezioni del prof. Zappa

AA 2001-2002

Page 2: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Copyright c© 2002 Massimo Mangoni.

E garantito il permesso di copiare, distribuire e/o modificare questo do-cumento seguendo i termini della Licenza per Documentazione Libera GNU,Versione 1.1 o ogni versione successiva pubblicata dalla Free Software Foun-dation; senza Sezioni Non Modificabili, senza Testi Copertina, e senza i Testidi Retro Copertina. Una copia della licenza e acclusa nella sezione intitolata“GNU Free Documentation License”.

Permission is granted to copy, distribute and/or modify this documentunder the terms of the GNU Free Documentation License, Version 1.1 or anylater version published by the Free Software Foundation; with no InvariantSections, with no Front-Cover Texts, and with no Back-Cover Texts. A copyof the license is included in the section entitled “GNU Free DocumentationLicense”.

1

Page 3: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Sistemi dinamici e processi stocastici. Supponiamo di voler descrivere (20.02)

un fenomeno non deterministico, del tipo rappresentato in figura 1, dove sonomostrate solo alcune delle infinite potenziali realizzazioni dell’esperimento(chiamate anche traiettorie). Al tempo t possiamo avere valori diversi perogni realizzazione: a questo istante si ha cosı una distribuzione di valoriassunti. Questi valori assunti all’istante t sono realizzazioni di una variabilealeatoria. Se le uscite che tratto sono continue, assegnare una probabilitaall’uscita significa essere in grado, dato un qualunque intervallo I su x, didefinire la probabilita che l’osservazione ricada in quell’intervallo (x(t) ∈ I).Si introduce la funzione di densita di probabilita:

f(x; t) :

{f(x; t) ≥ 0∫

f(x; t)dx = 1

P{x(t) ∈ I} =

∫I

f(x; t)dx

Quindi f(x, t) e una famiglia di densita di probabilita (una per ogni t). Ci sipuo domandare se cio che accade ad un certo istante sia o meno indipendenteda quello che accade negli istanti vicini, cioe se le variabili aleatorie sono ono indipendenti. Per descrivere il modo in cui le variabili sono legate tra loroprendiamo due istanti fissati (t1 e t2): adesso possiamo definire la probabilitache l’osservazione cada in un’area I (prodotto di intervalli) definita, ovverola densita di probabilita congiunta

P{(x(t1), x(t2)

)∈ I} =

∫I

f(x1, x2)dx1dx2

In teoria non basta neanche questa caratterizzazione per avere una descri-

t t

x

1o real.

2o real.

...no real.

valori della v.a. X in t

Figura 1: fenomeno stocastico.

zione completa del processo, anche se in pratica ci si ferma qui. Vale infattiil teorema 1.

Teorema 1 (di Kolmogorov) Se ∀n intero conosco le densita di probabi-lita n–variate

f(x1, x2, . . . , xn; t1, t2, . . . , tn)

allora il processo stocastico e completamente caratterizzato.

2

Page 4: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Noi ci limiteremo a considerare densita di probabilita bivariate, cioe facciamoun’analisi del secondo ordine:

1)f(x, t) 2)f(x1, x2; t1, t2)

Il nostro processo di semplificazione continua se vale la proprieta di stazio-narieta (invarianza temporale):

f(x1, x2; t1, t2) = f(x1, x2; t1 + τ, t2 + τ), ∀τ

In particolare, per τ = −t1:

f(x1, x2; t1, t2) = f(x1, x2; 0, t2 − t1)

ovvero la densita di probabilita dipende solo dalla differenza degli istantitemporali.

Il problema di trovare dalle osservazioni la densita di probabilita di unprocesso stocastico non si puo risolvere: ci si accontenta cosı di alcune infor-mazioni piu “grossolane”. Il valore medio (o media) della funzione densita diprobabilita f(x) e un parametro di localizzazione, che ci dice intorno a qualevalore e concentrata la f :

m =

∫xf(x)dx

Se f1(x) = f2(x + l) allora m1 + l = m2.Il secondo parametro importante e un parametro di dispersione, la va-

rianza:

σ2 =

∫(x−m)2f(x)dx

Per le funzioni bivariate f(x1, x2) si ha che f(x1) =∫

f(x1, x2)dx2 e quindi:

m1 =

∫x1f(x1)dx1 =

∫x1f(x1, x2)dx1dx2

m2 =

∫x2f(x1, x2)dx1dx2

σ21 =

∫(x1 −m1)

2f(x1, x2)dx1dx2

σ22 =

∫(x2 −m2)

2f(x1, x2)dx1dx2

Un parametro importante che ci da un’idea del comportamento a istantidiversi e il valore medio di (x1 −m1)(x2 −m2):∫

(x1 −m1)(x2 −m2)f(x1, x2)dx1dx2

Se questo parametro e un numero positivo “grande” allora uno scarto positivo(negativo) all’istante t1 determina uno scarto positivo (negativo) rispetto alla

3

Page 5: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

media all’istante t2; se e un numero negativo “grande” vale il contrario. Disolito si procede ad una normalizzazione:

%1,2 =1√σ2

1σ22

∫(x1 −m1)(x2 −m2)f(x1, x2)dx1dx2, −1 ≤ %1,2 ≤ 1

dove il numero %1,2 prende il nome di coefficiente di correlazione. Se %1,2 = 0non c’e correlazione fra gli scarti di x1 e x2 dalle loro medie.

Poiche ci capitera di usarlo spesso conviene definire la notazione dell’ope-ratore di media E[ · ], per cui:

m1 = E[X1] m2 = E[X2]

σ21 = E

[(X1 −m1)

2]

σ22

[(X2 −m2)

2]

%1,2 =E [(X1 −m1)(X2 −m2)]√

σ21σ

22

=E [(X1 −m1)(X2 −m2)]√

E [(X1 −m1)2] E [(X2 −m2)2]

Se il processo stocastico non e stazionario ha senso definire la funzione dimedia e la funzione di varianza:

m(t) = E[X(t)]

σ2(t) = E[(X(t)−m(t))2

]Infatti se il processo X(t) e stazionario, allora m(t) = m e σ2(t) = σ2 ∀t. Lafunzione di covarianza, detta anche di autocorrelazione, e definita da:

R(t1, t2) = E [(X(t1)−m(t1)) (X(t2)−m(t2))]

La funzione di covarianza si semplifica se il processo X(t) e stazionario, infattivale:

R(t1, t2) = R(t1 + t, t2 + t), ∀t

In particolare, per t = −t1 si ha:

R(t1, t2) = R(0, t2 − t1) = R(τ)

e quindi la R diventa funzione di un solo parametro τ . Il valore R(0) e lavarianza del processo, R(τ) e in generale la covarianza con ritardo τ . Inoltrevale:

R(τ)

R(0)= %(τ)

dove %(τ) e il coefficiente di correlazione riferito al ritardo τ , |%(τ)| ≤ 1.Non tutte le funzioni possono essere candidate ad essere funzioni di co- (22.02)

varianza, infatti le proprieta che una funzione di covarianza deve rispettaresono1:

• simmetria: R(τ) = R(−τ)

1le proprieta sono riportate nel caso di un processo stazionario.

4

Page 6: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

• positivita: R(0) ≥ |R(τ)|

Come conseguenza della seconda proprieta si ha che la funzione covarianza econtenuta fra due rette costanti di valore R(0) e −R(0). Quindi se passiamoda un valore della deviazione standard σ ad uno pari a 2σ, cioe si passa da unvalore della varianza σ2 al valore 4σ2, le traiettorie si dilatano di un fattore2, cioe si distaccano del doppio dal valore medio.

Processo esponenzialmente correlato. Un importante processo sta-zionario, detto esponenzialmente correlato, e definito, una volta fissata unacostante di tempo θ > 0 dalla (1):

R(τ) = R0e−|τ |/θ (1)

dove la costante di tempo ci dice quanto velocemente va a zero la covarianza(fig. 2).

τ

θ � 1

θ = 1

θ � 1

θ = 0.2θ = 1θ = 5

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

R0 = 1

-4 -3 -2 -1 0 1 2 3 4

Figura 2: funzione covarianza per un processo esponenzialmente correlato.

Se campioniamo le traiettorie di un processo tempo–continuo esponen-zialmente correlato con un passo di campionamento costante Tc si ottiene unprocesso tempo–discreto X(k):

X(k) = X(t = kTc)

Allora anche la funzione covarianza verra campionata con lo stesso passo esi avra:

R(l) = R(τ = lTc) = R0e−|l|Tc/θ = R0a

|l|, l = 0,±1,±2, . . .

dove a = e−Tc/θ, 0 < a < 1, ha il ruolo di coefficiente di correlazione. Inrealta si possono avere anche processi stazionari con −1 < a < 0, ma soloda fenomeni intrinsecamente tempo–discreti, non potendo ottenere a < 0 dalcampionamento di un fenomeno tempo–continuo.

5

Page 7: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Un caso limite e quello per a = 0: si ha massima irregolarita, essendo

R(l) =

{R0, l = 00, l 6= 0

cioe si ha un processo stazionario tempo–discreto in cui le traiettorie so-no tra loro scorrelate, che si puo pensare come ottenuto da un processoesponenzialmente correlato campionato con Tc � θ, per cui

R(l) = R0δ(l) (2)

Questo processo generatore di massima incertezza e chiamato rumore bianco.Quindi variando a cambia la velocita di variazione delle oscillazioni e

si nota che il numero dei cambi di segno aumenta al diminuire di a. Sea e negativo aumenta la probabilita che si abbia un cambio di segno (arappresenta il coefficiente di correlazione fra due istanti successivi).

Spettro. Sia X(k) un processo stocastico stazionario tempo–discreto ot-tenuto campionando un processo tempo–continuo. La sua funzione di cova-rianza e definita dai campioni R(l) = R(τ = lTc), (l = 0,±1,±2, . . .). Sidefinisce spettro del processo X(k) la seguente trasformata zeta bilaterale:

Φ(z) =+∞∑

l=−∞

R(l)z−l, z ∈ C (3)

Le proprieta formali piu importanti dello spettro sono:

Φ(z) = Φ(z−1) (4)

Φ(z = ejω) ≥ 0 (5)

Calcolando lo spettro lungo la circonferenza sul piano complesso di raggio 1si ottiene la densita spettrale di potenza:

φ(ωr) = Φ(z = ejωr) (6)

ove ωr e la pulsazione normalizzata, ωr = ωTc, definita in [−π, π], utile perchepermette di astrarre dall’entita del passo di campionamento. La densitaspettrale di potenza gode delle seguenti proprieta:

• φ(ω) = φ(−ω), simmetria che deriva dalla (4).

• φ(ω) ≥ 0, positivita dovuta alla (5).

• φ(ω) = φ(ω + (2kπ)/Tc), periodicita che deriva dalla definizione.

Vediamo adesso come utilizzare i concetti precedentemente introdotti. (25.02)

6

Page 8: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Esempio: calcoliamo lo spettro di un processo stocastico esponenzialmentecorrelato, per cui R(l) = R0a

|l|, dove a = e−Tc/θ ∈ (0, 1). Applicando direttamentela definizione di spettro:

Φ(z) = R0

+∞∑l=−∞

a|l|z−l = R0

(+∞∑l=0

alz−l +0∑

l=−∞a−lz−l − 1

)

Sotto le ipotesi |az−1 < 1 e |az| < 1, cioe |a| < |z| < 1/|a| le due serie convergono:

Φ(z) = R0

(1

1− az−1+

11− az

− 1)

=R0(1− a2)

(1− az)(1− az−1)(7)

Lo spettro di un processo esponenzialmente correlato e dunque una funzione ra-zionale con una costante al numeratore, che converge in una corona circolare checontiene sempre la circonferenza di raggio 1. Notiamo che i coefficienti dei terminiin z e in z−1 devono essere uguali, poiche vale la (4).

Calcoliamo adesso la densita spettrale di potenza:

φ(ω) = Φ(z = ejω) =R0(1− a2)

1 + a2 − a(ejω + e−jω)=

R0(1− a2)1 + a2 − 2a cos ω

(8)

Si puo notare che sono rispettate le proprieta di non–negativita e di simme-tria (funzione pari). Adesso ci domandiamo come varia φ(ω) al variare di a.Precedentemente avevamo notato che al tendere di a a zero le traiettorie diven-

ω

φ(ω)

00.5

11.5

22.5

33.5

44.5

0 π/2 π

a=0a=0.6a=0.5

a=-0.6

Figura 3: densita spettrale di potenza per un processo esponenzialmentecorrelato.

tavano sempre piu irregolari. Dalla (8) segue che φ(0) = R0(1 + a)/(1 − a) eφ(π) = R0(1− a)/(1 + a): quindi quanto piu a si avvicina ad 1, tanto piu la curvacresce per ω = 0 e si avvicina a 0 per ω = π. Se a = 0 la φ non dipende dallapulsazione; per a > 0 le traiettorie oscillano poco, per a < 0 la curva e specularee le traiettorie oscillano molto (fig. 3). �

Supponiamo adesso di osservare un processo stazionario X con media riferimential22.02

nulla (E[X] = 0), e di campionarne una traiettoria con passo di campiona-mento unitario (Tc = 1). Vogliamo stimare la funzione di covarianza avendo

7

Page 9: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

a disposizione soltanto un numero finito di campioni: x1, x2, . . . , xN . PoicheR(l) = E[X(k)X(k + l)] verrebbe naturale stimare la correlazione attraversola formula:

1

N − l

N−l∑k=1

xkxk+l, l > 0 (9)

Tuttavia riveste un ruolo piu importante l’espressione (10):

RN(l) =1

N

N−l∑k=1

xkxk+l (10)

che prende il nome di correlogramma, e fornisce stime simili a quelle dell’e-spressione (9) per l piccolo.

Volendo una stima della densita spettrale di potenza utilizziamo la se-guente equazione, che deriva dalla (3) e la (6)

φ(ω) =+∞∑

l=−∞

R(l)e−jωl

dove sostituiamo alla correlazione la nostra stima (correlogramma):

φN(ω) =+∞∑

l=−∞

RN(l)e−jωl =N−1∑

l=−N+1

RN(l)e−jωl (11)

avendo posto uguale a 0 tutti i termini che non conosciamo.Un altro modo e quello di prendere le nostre osservazioni xk e applicarci

la trasformata discreta di Fourier (D.F.T.):

XN(ω) =1√N

N∑k=1

xke−jωk

Se prendiamo i valori

ωr =2π

Nr, r = 1, 2, . . . , N

allora {XN(ωr)} rappresenta la trasformata discreta di Fourier e contienetutte le informazioni per ricostruire le N osservazioni di partenza, grazie allaformula inversa:

xk =1√N

N∑r=1

XN(ωr)ejωrk

Il modulo al quadrato di XN(ω), |XN(ω)|2 e chiamato periodogramma. Unaimportante proprieta e che trasformando secondo Fourier il correlogrammasi ottiene il periodogramma:

N−1∑l=−N+1

RN(l)e−jωl = |XN(ω)|2

8

Page 10: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Quindi per passare dai dati al periodogramma abbiamo due strade: o sicalcola il correlogramma e si applica la D.F.T., o si applica subito la D.F.T.sui dati e si fa il modulo quadro.

Esempio: Consideriamo un processo sinusoidale con fase aleatoria X(k) =A sin(2πfTck+Φ), dove la v.a. Φ ha una densita di probabilita uniforme in [0, 2π]:f(ϕ) = 1/(2π), ∀ϕ. La media e:

E[X(k)] =A

∫ 2π

0sin(2πfTck + ϕ)dϕ = 0

La funzione covarianza e:

R(k, l) = E[X(k)X(l)] =A2

∫ 2π

0sin(2πfTck + ϕ) sin(2πfTcl + ϕ)dϕ

dopo alcuni calcoli si ottiene:

R(k, l) =A2

2cos (2πfTc(k − l)) = R(k − l)

e quindi il processo e stazionario. Una volta fissata la fase trovo tutta la sinusoide,con un osservazione ad un certo istante si ha la predizione di tutti i valori futuri.

Possiamo adesso trovare lo spettro:

Φ(z) =A2

2

+∞∑l=−∞

cos(2πfTcl)z−l =A2

2

+∞∑l=−∞

ej2πfTcl + e−j2πfTcl

2z−l

Questa espressione puo eventualmente convergere soltanto sulla circonferenza uni-taria; pongo quindi z = ejω e calcolo la densita spettrale di potenza:

φ(ω) =A2

4

+∞∑l=−∞

[ej(2πfTc−ω)l + e−j(2πfTc+ω)l

]Se ω = ±2πfTc allora la serie diverge, mentre si puo dimostrare che negli altri casila serie da 0: si ottiene cosı una combinazione di δ di Dirac

φ(ω) =A2

4[δ(ω − 2πfTc) + δ(ω + 2πfTc)]

per cui la densita spettrale di potenza di questo processo e nulla fuorche allapulsazione della sinusoide (e alla sua simmetrica). �

Adesso estenderemo la definizione (3) al caso tempo–continuo: (27.02)

Φ(s) =

∫ +∞

−∞R(τ)e−τsdτ, τ ∈ R, s ∈ C

Anche lo spettro tempo–continuo gode della proprieta della simmetria

Φ(s) = Φ(−s)

La densita spettrale di potenza e adesso definita come:

φ(ω) = Φ(s = jω) = Φ∗(s = jω) ≥ 0

e anche per questa vale la simmetria (φ(ω) = φ(−ω)), anche se non e perio-dica. Per trovare una relazione tra la funzione periodica φc(ω) e quella nonperiodica φ(ω) facciamo uso del teorema 2.

9

Page 11: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Teorema 2 (del campionamento)

φc(ω) =+∞∑

k=−∞

φ

(ω + k

Tc

)=

+∞∑k=−∞

φ(ω + kωc), ωc =2π

Tc

= 2πfc

Da questa espressione capiamo che se vogliamo risalire da φc(ω) a φ(ω) ladensita spettrale continua φ(ω) deve essere nulla al di fuori della banda[−π/Tc, π/Tc]: in questo caso φc(ω) coincide con φ(ω) e non abbiamo perdi-ta di informazione. Quindi per evitare il fenomeno dell’aliasing, π/Tc deveessere maggiore della banda che contiene il segnale, da cui la condizione:

1

2ωc = πfc =

π

Tc

> ωB

Un problema che sorge e che di solito e presente un disturbo, il qualespesso ha una componente in banda molto alta: utilizzando la regola delcampionamento si ricostruisce anche il disturbo, che con il campionamentoviene alzato in modulo ed appiattito.

Vediamo adesso come si puo ricavare la funzione di covarianza R(l) co-noscendo lo spettro Φ(z). Un modo, utilizzato anche dagli algoritmi di cal-colo, e quello di sfruttare la formula inversa della trasformata zeta lungo lacirconferenza unitaria:

R(l) =1

2πj

∮Φ(z)zl−1dz (12)

Per esprimere l’integrale in funzione della densita spettrale di potenza, ope-riamo la sostituzione z = ejω, da cui dz = jejωdω; pertanto

R(l) =1

2πj

∫ +π

−π

Φ(ejω)ejω(l−1)jejωdω =1

∫ +π

−π

φ(ω)ejωldω

In particolare la varianza ha l’espressione:

R(0) =1

∫ π

−π

φ(ω)dω

Un metodo molto utile per il calcolo di integrali del tipo (12) e quellofornito dal teorema 3.

Teorema 3 (dei residui) Sia F (z), z ∈ C, una funzione che ha zi, i =1, . . . , N singolarita all’interno del cammino di integrazione. Allora:∮

F (z)dz = 2πj

N∑k=1

Res F (zk)

Basta quindi calcolare i residui di Φ(z)zl−1 corrispondenti alle singolarita in-terne alla circonferenza unitaria. Ricordiamo che se la singolarita e semplice,il residuo si calcola:

Res F (zk) = limz→zk

(z − zk)F (z)

10

Page 12: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Esempio: applichiamo il teorema (3) al caso di un processo esponenzialmentecorrelato. Sappiamo quanto vale lo spettro dalla (7). Volendo calcolare la R(0)abbiamo:

F (z) =R0(1− a2)

(1− az)(1− az−1)z−1 =

R0(1− a2)(1− az)(z − a)

che ha singolarita per z = a e per z = 1/a. Poiche a < 1, soltanto z = a e internaal cerchio unitario. Da cui abbiamo la conferma:

limz→a

(z − a)F (z) =R0(1− a2)(1− az)

∣∣∣∣z=a

= R0

Per calcolare R(1) (l = 1) abbiamo:

F (z) =R0(1− a2)

(1− az)(1− az−1)=

R0(1− a2)z(1− az)(z − a)

la cui unica singolarita appartenente al cerchio unitario e per z = a, da cui

R(1) = Res F (a) =R0(1− a2)z

1− az

∣∣∣∣z=a

= R0a

Si consideri un sistema lineare tempo–discreto S, caratterizzato dallafunzione di trasferimento

G(z) =∞∑i=0

giz−i

dove gi sono i campioni della risposta all’impulso. Si supponga il sistema Sstabile BIBO, per cui

∞∑i=0

|gi| < ∞

e sia l’ingresso al sistema u stazionario, di media mu e funzione di covarianzaRu(l) (ovvero spettro Φu(z)). Vale allora il seguente teorema.

Teorema 4 Sotto le ipotesi sopra enunciate l’uscita y del sistema S e asin-toticamente stazionaria, contraddistinta da questa media e questo spettro:

• my = G(1)mu

• Φy(z) = Φu(z)G(z)G(z−1)

Dim. Supponiamo per semplicita mu = 0, per cui my = 0. Abbiamo:

Ry(l) = E[Y (k)Y (k + l)] = E

[∞∑i=0

giU(k − i)∞∑i=0

gjU(k + l − j)

]=

=∞∑i=0

∞∑i=0

gigjRu(l + i− j)

11

Page 13: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Calcoliamo adesso la trasformata zeta per trovare lo spettro:

Φy(z) =+∞∑

l=−∞

Ry(l)z−l =

+∞∑l=−∞

∞∑i=0

∞∑j=0

gigjRu(l + i− j)z−l =

=∞∑i=0

gizi

∞∑j=0

gjz−j

+∞∑l=−∞

Ru(l + i− j)z−(l+i−j) = G(z−1)G(z)Φu(z)

dove all’ultimo passaggio abbiamo operato la sostituzione m = l + i − j equindi i limiti dell’ultima serie, per i e j fissati, vanno sempre tra −∞ e +∞.�

rC(z) P (z)

H(z)

y

v

w

Figura 4: schema di un sistema dinamico controllato.

Consideriamo adesso il sistema di fig. 4, dove v e w sono disturbi. Possoscomporre l’uscita di questo sistema come y = yr +yv +yw, dove la prima e lacomponente deterministica dell’uscita, mentre le altre due sono componentialeatorie, caratterizzate dagli spettri di v e w. Se vogliamo calcolare lo spettroΦyv(z), sapendo che

Gyv(z) =H(z)C(z)P (z)

1 + H(z)C(z)P (z)

basta poi sostituire nella formula enunciata nel teorema (4). Infine possodire che Φy(z) = Φyv(z) + Φyw(z), che e vera se e solo se i due disturbi sonoscorrelati.

Notiamo che la formula del teorema (4), se calcolata per z = ejω, da:

φy(ω) = φu(ω)∣∣G(ejω)

∣∣2ovvero si ha una caratterizzazione del modulo. E per caratterizzare la fase?Abbiamo bisogno di un’analisi incrociata fra l’ingresso e l’uscita.

Prendiamo due processi u e y stazionari e congiuntamente stazionari2.Sia inoltre:

E[u] = E[y] = 0

2due processi stocastici sono definiti congiuntamente stazionari se:

f(x1, . . . , xn, y1, . . . , yn; t1, . . . , tn) = f(x1, . . . , xn, y1, . . . , yn; t1 + τ, . . . , tn + τ), ∀τ

12

Page 14: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

si definisce la funzione di covarianza incrociata

Ruy(l) = E[U(k)Y (k + l)]

Vale la regola:Ruy(l) = Ryu(−l)

dove ha molta importanza l’ordine dei pedici. Facendo la trasformata zetadella covarianza incrociata si ottiene lo spettro incrociato tra u e y:

Φuy(z) =+∞∑

l=−∞

Ruy(l)z−l

Dati due processi stocastici scalari u e y, si definisce il processo stocasticovettoriale:

w(k) =

[u(k)

y(k)

]w e stazionario se e solo se u e y sono singolarmente stazionari e congiunta-mente stazionari.

Per un sistema S con funzione di trasferimento G(z) vale dunque:

Φuy(z) = Φu(z)G(z), Φyu(z) = Φu(z)G(z−1), Φuy(z) = ΦyuG(z−1)

Adesso sia in modulo che in fase vale:

G(z) =Φuy(z)

Φu(z)

ovvero la risposta in frequenza e data da

G(ejω) =φuy(ω)

φu(ω)

Ci sono casi in cui si puo osservare y ma non si e in grado di osservare u:non e allora possibile fare calcoli incrociati. Allora si suppone che lo spettrodell’ingresso sia costante (non dipenda da z), cioe un rumore bianco, e sifa dipendere Φy(z) soltanto dalla G(z) e dalla G(z−1). In pratica si fissaΦu(z) = Φu, per cui la funzione di covarianza dell’ingresso risulta data dalla(2), e quindi u e un processo bianco. L’uscita dipende adesso soltanto dallaG(z) e posso cosı parametrizzare una classe di processi stocastici attraversouna funzione di trasferimento.

Abbiamo visto che riusciamo a descrivere le proprieta del secondo ordine (01.03)

di un processo stocastico ipotizzando che un processo standard (il rumorebianco) passi attraverso una funzione di trasferimento. Questo modello as-segna pero banalmente infinite soluzioni al problema della fattorizzazione,moltiplicando e dividendo per scalari il secondo termine dell’equazione difattorizzazione (13).

Φy(z) = ΦuG(z)G(z−1) (13)

13

Page 15: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Per ovviare a questo inconveniente o si possono seguire due strade: o si fissail valore (costante) dello spettro di ingresso pari a uno (Φu = 1) e si lascialibera la G, oppure, come si preferisce, si lascia libero il valore Φu = φu e siimpone:

G(z) =∞∑i=0

giz−1, g0 = 1

Teorema 5 Sia Φy(z) lo spettro del processo y. Se Φy(z) e razionale, alloraesiste G(z) (razionale) e Φu (costante) che soddisfano alla (13).

Ogni soluzione e detta “fattore spettrale”: si vorrebbe una relazione biu-nivoca fra spettro e fattore spettrale, ma non e cosı.

Esempio: prendiamo un processo stocastico esponenzialmente correlato, peril quale si sa che lo spettro e:

Φy(z) =R0(1− a2)

1 + a2 − az − az−1=

R0(1− a2)(1− az)(1− az−1)

In questo caso e immediato trovare:

G∗(z) =1

1− az−1, Φ∗u = R0(1− a2) (14)

Quindi posso pensare un processo esponenzialmente correlato come generato daun rumore bianco filtrato dalla funzione di trasferimento G∗(z) della (14): infattisi ha

y(k) = ay(k − 1) + u(k)

dove piu a si avvicina a 1 e piu alto e il guadagno del filtro, ovvero, ragionandoin termini di varianza, basta un rumore con varianza piccola per generare unavarianza elevata.

Cerchiamo altri fattori spettrali: se applichiamo un’operatore di ritardo otte-niamo

G(z) = z−1G∗(z) =z−1

1− az−1⇒ G(z)G(z−1) = G∗(z)G∗(z−1)

Si possono quindi inserire quanti ritardi vogliamo senza cambiare la varianzadell’uscita.

Analogamente si possono inserire quanti operatori di anticipo vogliamo: infatti

G(z) = zG∗(z) =z

1− az−1=

z2

z − a

e un nuovo fattore spettrale. �

In generale esiste un altro modo per creare fattori spettrali: occorre so-stituire il polo col suo inverso e conseguentemente modificare anche Φu. Inquesto caso:

G(z) =1

1− 1az−1

⇒ G(z)G(z−1) =a2

1 + a2 − az − az−1

14

Page 16: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Φu =R0(1− a2)

a2= R0

(1

a2− 1

)Per passare da un fattore spettrale ad un altro si possono utilizzare delle

funzioni di trasferimento “passa–tutto”. Prendiamo ad esempio la funzione

F (z) =1− β−1z−1

1− βz−1β

per la quale il polo e l’inverso dello zero. Con un semplice calcolo si vede che

F (z)F (z−1) = 1 ∀z

ovvero la funzione e passa–tutto, dato che:

|F (ejω)|2 = F (ejω)F (e−jω) = 1 ∀ω

Possiamo allora scrivere:

Φy(z) = Φu F (z)G∗(z)︸ ︷︷ ︸G

G∗(z−1)F (z−1)︸ ︷︷ ︸G−1

Per applicare questo metodo all’esempio precedente scegliamo la F dimodo che cancelli il polo di G∗, ovvero poniamo β = 1/a:

F (z) =1− az−1

1− 1az−1

· 1

a

Da cui:

F (z)G∗(z) =1

1− 1az−1

· 1

a

Questo nuovo fattore spettrale ha lo stesso grado del precedente, ma il poloe stato invertito: tuttavia da lo stesso spettro di uscita.

In definitiva i fattori spettrali differiscono tra loro o per fattori di anticipoo di ritardo, o per uno scambio di un polo o di uno zero con il suo inverso.

Fattore spettrale canonico. Vogliamo adesso imporre delle condizio-ni su G(z) in modo da poter associare ad uno spettro un’unica fattorizzazione.La soluzione non deve essere anticipatrice, e nemmeno la sua inversa lo deveessere; pertanto posso soltanto “giocare” sui poli o gli zeri attraverso le fun-zioni passa–tutto. La particolarita di queste funzioni e che, invertendo i polio gli zeri, li fanno attraversare il cerchio unitario. Impongo allora che tutti ipoli e gli zeri siano all’interno del cerchio di raggio unitario, identificando cosıun’unica fattorizzazione. Questa e una condizione di stabilita della funzionedi trasferimento e della sua inversa.

Teorema 6 Esiste un’unica fattorizzazione spettrale tale che G∗ sia causale,stabile (asintoticamente) e la cui inversa sia anch’essa causale e stabile (⇒zeri della G∗ nel cerchio unitario). Tale G∗ si dice fattore spettrale canonico.

15

Page 17: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Esempio: si trovi lo spettro e la densita spettrale di potenza di y sapendo chev e un rumore bianco e x e un rumore esponenzialmente correlato (fig. 5).

Si puo subito fare una semplificazione attraverso una modellizzazione matema-tica: il rumore x esponenzialmente correlato lo si puo pensare come prodotto daun rumore bianco w filtrato da una funzione di trasferimento 1/(1−az−1). Risultaadesso immediato il calcolo dello spettro:

Φx(z) =σ2

w

(1− az)(1− az−1)Φv = σ2

v

Lo spettro di y sara dato dalla somma dei due spettri componenti:

Φy(z) = Φv + Φx(z) =σ2

v(1− az)(1− az−1) + σ2w

(1− az)(1− az−1)

Il segnale risultante avra una densita spettrale di potenza piu alta di prima allealte frequenze, quindi il segnale sara piu irregolare (fig. 6). Dal momento chenon si possono studiare separatamente le proprieta di v e x, avendo a disposizionel’osservazione di y, posso pensare l’uscita y come prodotta (tramite fattorizzazionespettrale) direttamente da un unico filtro G∗(z) con in ingresso rumore bianco, cheha spettro costante Φ∗u:

G∗(z) =1− bz−1

1− az−1

dove un’incognita e b, mentre l’altra e Φ∗u. Applicando l’equazione 13 si ottiene:

σ2v(1− az)(1− az−1) + σ2

w = Φ∗u(1− bz)(1− bz−1)

da cui si ricavano due relazioni, una uguagliando i termini di grado 0 e l’altra quellidi grado 1 (il grado −1 da per simmetria la stessa relazione del grado 1):

σ2v(1 + a2) + σ2

w = Φ∗u(1 + b2)

−aσ2v = −bΦ∗u

Ricavando Φ∗u dalla seconda equazione e sostituendolo nella prima si ottiene un’e-quazione di secondo grado in b che ammette due soluzioni reali di cui solo una havalore assoluto minore di 1 ed e quindi canonica (come previsto dal teorema 6).

Notiamo che se il segnale x fosse ottenuto da w da una funzione di trasferimentogenerica B(z−1)/A(z−1), lo spettro di y avrebbe adesso la forma:

Φy(z) =σ2

vA(z)A(z−1) + σ2wB(z)B(z−1)

A(z)A(z−1)

x(k)w(k)1

1−az−1

v(k)

y(k)

Figura 5: esempio di composizione di rumori.

16

Page 18: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

−π 0 π −π 0 π

φx(ω)

φv

φy(ω)

Figura 6: grafici delle densita spettrali di potenza.

A questo punto G∗(z) = C(z−1)/A(z−1), dove il grado di C e il massimo fra ilgrado di A e quello di B, e l’equazione:

C(z)C(z−1)Φ∗u = σ2vA(z)A(z−1) + σ2

wB(z)B(z−1)

darebbe luogo (supponendo il grado di C pari a n) a n + 1 equazioni in n + 1incognite! Questo problema di fattorizzazione non e quindi risolubile a mano pern > 2. Tuttavia rimane valido l’enunciato del teorema 6, per cui esiste una e unasola soluzione canonica. �

Il fattore spettrale canonico serve anche per parametrizzare i processi.Supponiamo infatti di produrre un segnale facendo filtrare un rumore biancoda una funzione di trasferimento:

G(z) =1

1 + a1z−1 + a2z−2

Facciamo poi crescere in modulo i poli di questo processo (fig. 7, che comevedremo e un AR(2)): quando si arriva nei pressi del cerchio unitario letraiettorie assomigliano sempre di piu a delle sinusoidi. Lo spettro di questoprocesso e:

φ(ω) = |G(ejω)|2

ed avra una risonanza molto marcata in corrispondenza di alcune pulsazioni:dalla pulsazione di queste oscillazioni si puo trovare la localizzazione dei poli(complessi coniugati).

Processi AR, MA, ARMA, ARIMA Le sigle AR, MA e ARMA indi- (04.03)

cano classi di processi stazionari, con spettro razionale. Ricordiamo che noipensiamo il nostro processo stazionario y come generato da un rumore biancou filtrato attraverso una funzione di trasferimento G(z). Dobbiamo quindidefinire la forma della funzione di trasferimento corrispondente a ciascunmodello. In generale:

G(z) =C(z−1)

A(z−1)=

1 + c1z−1 + · · ·+ cmz−m

1 + a1z−1 + · · ·+ anz−n

17

Page 19: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

π4

ejω

λ∗

λ

π4

−π4

ω

φ(ω)

Figura 7: processo autoregressivo di ordine 2.

AR Con questa sigla si indicano i processi stazionari autoregressivi, peri quali la funzione di trasferimento ha soltanto poli e non zeri:

G(z) =1

A(z−1)

Con AR(n) si intende un processo autoregressivo di ordine n:

A(z−1)y(k) = u(k) ⇔ y(k) + a1y(k − 1) + · · ·+ any(k − n) = u(k)

Si vede che e quindi possibile esprimere l’osservazione all’istante k come com-binazione lineare delle osservazioni passate (regressione) e di un termine for-zante che fa da perturbazione (u(k)), il cui ruolo e essenziale, altrimenti siavrebbe un processo deterministico. Infatti se u(k) = 0, per ipotesi di stabi-lita, si ha che la y(k) e combinazione lineare di modi stabili e quindi il segnaleandra a zero. La presenza del rumore bianco invece fa sı che le traiettorie sia-no persistenti e non vadano a zero. I coefficienti dell’A.R. dovranno rispettarealcune regole affinche la f.d.t. risulti stabile.

MA La sigla MA sta per Moving Average, ovvero media mobile. Inquesto caso la funzione di trasferimento ha solo zeri e non poli:

G(z) = C(z−1)

Adesso vale:

y(k) = u(k) + c1u(k − 1) + · · ·+ cmu(k −m)

se il processo e MA(m), ovvero e a media mobile di ordine m. L’osservazioneall’istante k e combinazione lineare dell’ingresso presente e di quelli passati,in una certa finestra (mobile). Non ci sono vincoli sui coefficienti ci, poiche ye comunque stabile. Tuttavia dal punto di vista dell’elaborazione dei segnalipuo essere utile ricavare u da y: cio si puo fare attraverso un filtro inversoche puo essere applicato soltanto sotto condizioni di stabilita.

18

Page 20: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

ARMA Un processo ARMA(n, m) e autoregressivo a media mobile,descritto dalla funzione di trasferimento:

G(z) =C(z−1)

A(z−1)

che quindi ha sia zeri che poli.A questo punto ci si puo chiedere che differenza ci sia tra i modelli AR

e MA. In realta sono entrambe approssimazioni della vera G(z) che non co-nosciamo con precisione. Generalmente aumentando il grado del modellol’approssimazione migliora. Da un punto di vista algoritmico invece la diffe-renza e notevolissima e si preferiscono di gran lunga i modelli autoregressivi.Questo lo si puo capire se si cerca di trovare una relazione tra i coefficienti(ai o ci) e la funzione covarianza nei due casi.

Calcolo dei coefficienti per MA e ARCaso MA: cerchiamo di trovare una relazione tra Ry(l) e i coefficienti ci

del modello a media mobile:

Ry(l) = E[Y (k)Y (k + l)] = E

[m∑

i=0

ciu(k − i)m∑

j=0

cju(k + l − j)

]=

=m∑

i,j=0

cicjE[u(k − i)u(k + l − j)]

dove c0 = 1 per definizione. Poiche u e rumore bianco, il valore atteso deiprodotti e sempre zero, tranne che nel caso in cui k − i = k + l − j, ovveroj = l + i. Si ottiene:

Ry(l) =m∑

i=0

cicl+iφu = (cl + c1cl+1 + · · ·+ cmcl+m)φu

Le incognite compaiono come prodotti, quindi il sistema non e lineare (e delsecondo ordine) e la sua soluzione puo essere molto complicata.

Notiamo che se calcoliamo la covarianza per l = m abbiamo un solotermine in comune che non si annulla:

Ry(m) = E[Y (k)Y (k + m)] = cmφu

Se facciamo aumentare ulteriormente l abbiamo:

Ry(l) = 0, per l > m

Abbiamo la notevole proprieta che la funzione covarianza dei processi MA siannulla dopo un numero finito (m) di passi (memoria finita).

Caso AR: per i processi autoregressivi vale la relazione:

y(k) = a1y(k − 1) + a2y(k − 2) + · · ·+ any(k − n) = u(k) (15)

19

Page 21: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Moltiplicando la (15) per y(k), per y(k − 1), . . . , per y(k − n) si ottiene:

y2(k) + a1y(k)y(k − 1) + · · ·+ any(k)y(k − n) = y(k)u(k)y(k)y(k − 1) + a1y

2(k − 1) + · · ·+ any(k − 1)y(k − n) = y(k − 1)u(k)...

......

y(k)y(k − n) + a1y(k − 1)y(k − n) + · · ·+ any2(k − n) = y(k − n)u(k)

Supponiamo adesso che E[y(k)] = 0 (altrimenti dovrei sottrarre al proces-so la sua media) e sia la densita spettrale di potenza del rumore biancoE[u2(k)] = φu. Applichiamo l’operatore di media (E[· · ·]) ad entrambi imembri di tutte le uguaglianze precedenti, ottenendo cosı delle covarianze.Gli ultimi n membri a destra hanno una forma del tipo E[y(k − i)u(k)] coni = 1, . . . , n. Applicando l’equazione (15) all’istante k − i si ha:

y(k − i) = u(k − i)− a1y(k − i− 1)− · · · − any(k − i− n)

poiche posso esprimere y(k− i−1) come combinazione lineare di u(k− i−1)e di y che vanno indietro nel tempo, e cosı per tutti i termini in y, si ha chey(k − i) e combinazione lineare di infiniti ingressi u passati. Poiche u e unrumore bianco, tutti i prodotti fra u(k) e u agli istanti precedenti daranno uncontributo 0, essendo scorrelati. Quindi gli ultimi n secondi membri saranno0, mentre il secondo membro della prima equazione sara:

E[y(k)u(k)] = −a1 E[y(k − 1)u(k)]︸ ︷︷ ︸0

− · · ·︸︷︷︸0

−E[u2(k)]︸ ︷︷ ︸φu

= φu

Ricordandosi che la nostra funzione di covarianza e simmetrica (R(l) =R(−l)) si ottiene il sistema:

R(0) + a1R(1) + a2R(2) + · · ·+ anR(n) = φu

R(1) + a1R(0) + a2R(1) + · · ·+ anR(n− 1) = 0R(2) + a1R(1) + a2R(0) + · · ·+ anR(n− 2) = 0

...R(n) + a1R(n− 1) + a2R(n− 2) + · · ·+ anR(0) = 0

Otteniamo quindi tutte equazioni lineari; prendendo le ultime n abbiamo unsistema in n incognite di forma particolare:

R(0) R(1) R(2) · · · R(n− 1)

R(1) R(0) R(1). . .

...

R(2) R(1) R(0). . . R(2)

.... . . . . . . . . R(1)

R(n− 1) · · · R(2) R(1) R(0)

a1

a2

a3...

an

= −

R(1)R(2)R(3)

...R(n)

(16)

L’uguaglianza (16), che prende il nome di equazione di Youle–Walker, cipermette di trovare i coefficienti ai, dal momento che la matrice che qui

20

Page 22: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

abbiamo formato e una matrice di Tœplitz 3 e quindi invertibile (se la R euna funzione di covarianza). Una volta calcolati i coefficienti, dalla primaequazione del sistema (16) si ricava φu. La fattorizzazione e quindi piu facileper modelli AR, ed esistono degli algoritmi molto efficienti per il calcolodei coefficienti. Tuttavia se il numero dei coefficienti necessari per avereuna buona approssimazione del processo diventa troppo elevato, allora sipreferisce passare ad un modello ARMA.

Ha senso porsi anche il problema inverso: dato un modello AR, se conoscoi coefficienti come posso calcolare la covarianza? In pratica bisogna scambiareil ruolo dei termini noti con quello delle incognite. Il problema viene lasciatocome esercizio.

ARIMA La sigla significa “auto-regressive integrated moving-average”,ma dal momento che lavoriamo su processi tempo–discreti, l’integrazione haqui senso di sommatoria. I processi ARIMA si ottengono a partire dai proces-si ARMA integrando nel tempo il segnale di uscita di quest’ultimi. Il rumorebianco u, dopo essere stato filtrato da una f.d.t. G∗(z) = C(z−1)/A(z−1),arriva ad un operatore di integrazione discreta (sommatoria), che ha la forma:

1

1− z−1

Questo procedimento aggiunge ai poli dell’ARMA un polo in 1: come conse-guenza viene allargato il campo dei processi stocastici che posso descrivere.Infatti il segnale in uscita non e stazionario.

Consideriamo il piu semplice processo ARIMA, cioe un sistema costituitodal solo integratore:

y(k) = y(k − 1) + u(k) (17)

dove u(k) e un rumore bianco a media nulla. Se il coefficiente di y(k − 1)fosse minore di 1 il processo sarebbe stazionario: appena raggiunge il valore1 le proprieta del sistema cambiano drasticamente. Questo processo non haspettro (trasformando non ottengo niente). Questa e un’equazione ricorsiva:la forma non ricorsiva e:

y(k) =k∑

i=0

u(i) + y(0) (18)

Per semplicita poniamo uguale a zero la condizione iniziale (y(0)). Vediamoche essendo u a media nulla, anche la media di y sara zero.

Quanto vale la varianza?

E[y2(k)] = E

[k∑

i=0

k∑j=0

u(i)u(j)

]3matrice che ha gli elementi lungo le diagonali uguali fra loro.

21

Page 23: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Ricordando che rimangono solo i termini per cui i = j:

E[y2(k)] =k∑

i=0

E[u2(i)] = (k + 1)φu

La varianza del processo y non e costante, ma cresce con k (con il passare deltempo). Quindi queste traiettorie non si collocano entro una fascia attornoal valore medio, ma la fascia diventa un “imbuto”, si allarga: con il passaredel tempo il fenomeno si disperde sempre di piu.

E lasciata come esercizio la verifica che la covarianza e:

E[y(k)y(k + l)] =

{E[y2(k)], l ≥ 0E[y2(k − l)], l ≤ 0

altro chiaro indice di non–stazionarieta del processo.La versione tempo–continua di questo processo e il processo di Wiener,

detto anche “random walk” o moto browniano.

Moto browniano tempo–continuo. Estendiamo adesso il concetto di (06.03)

“random walk” al caso tempo–continuo. Per il caso tempo–discreto vale la(18), da cui si ottiene, per l > k:

y(l)− y(k) =l∑

i=k+1

e(i)

dove e e il rumore bianco tempo–discreto. Come si nota dagli indici dellasommatoria, il valore dell’incremento y(l)−y(k) e incorrelato con y(k). Quin-di l’evoluzione del processo nel futuro e incorrelato con il valore del processoall’istante considerato.

Per analogia possiamo pensare di definire il moto browniano tempo–continuo imponendo che l’incremento y(t + τ) − y(t) sia incorrelato con ilvalore che il processo assume all’istante t e con il valore degli incrementi agliistanti precedenti y(t) − y(t − σ), ∀τ, ∀σ. Se supponiamo di mandare τ azero, rendendo cosı gli incrementi sempre piu piccoli, ha senso parlare di scor-relazione? Se le traiettorie del processo sono derivabili allora non si possonoavere ne salti ne spigoli; non si hanno quindi bruschi cambi di direzione, perquesto l’incremento e correlato con la pendenza della traiettoria all’istante t,per piccoli valori di τ :

y(t + τ)− y(t) ' τ∂y

∂t

∣∣∣∣t

Poiche qui imponiamo la proprieta di incorrelazione ∀τ , introduciamo unprocesso le cui traiettorie non sono derivabili. Il moto browniano e quindiuna estrapolazione teorica che descrive bene il cammino di una particellain sospensione su un liquido, anche se ogni fenomeno fisico ha traiettoriederivabili su scale temporali sufficientemente piccole.

Qui di seguito definiamo il moto browniano tempo–continuo come unprocesso Y (t) con le seguenti proprieta:

22

Page 24: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

• Y (0) = 0 (inizialmente in un punto preciso)

• E[Y (t)] = 0 (in ogni istante ha media nulla)

• E [(Y (t + τ)− Y (t))(Y (t)− Y (t− σ))] = 0 (incorrelazione)

• E[Y 2(t)] = σ2t (la varianza cresce con il tempo)

• E [(Y (t + τ)− Y (t))2] = σ2τ

• le traiettorie sono:

– continue ∀t– non differenziabili ∀t (in ogni punto fa uno “spigolo”)

– a variazione non limitata (curva che su un intervallo finito halunghezza infinita)

– a dimensione frattale (tra 1 e 2)

In analogia alla (17) si puo dire che per il moto browniano tempo–continuovale:

d

dty(t) = e(t)

dove e(t) e il rumore bianco tempo–continuo (qualcosa che fa continuamente“salti”). In realta e una forzatura, visto che la derivata non c‘e. Si puo pensa-re pero di ottenere il moto browniano facendo passare il rumore bianco e(t)attraverso un integratore (G(s) = 1/s). Il rumore bianco tempo–continuonon ha senso fisico, poiche per produrlo entrerebbero in gioco forze infinite:tuttavia e un astrazione utile per poter pensare alcuni segnali importanti co-me generati tramite filtri (come nel caso tempo–discreto). Il rumore biancoha φe(ω) costante: tornando nel dominio del tempo (antitrasformando) si ha:

E[e2(t)] = Re(τ = 0) =1

∫ +∞

−∞φe(ω)dω

Essendo la funzione integranda costante l’integrale diverge e quindi abbiamouna varianza infinita e una potenza infinita. Possiamo cioe pensare al filtroG(s), che se e fisicamente realizzabile e passa–basso, come qualcosa che pren-de in ingresso un processo a potenza infinita e regolarizzandolo da in uscitaun processo a potenza finita.

Esempio: consideriamo un processo esponenzialmente correlato tempo–con-tinuo, definito da

R(τ) = R0e−|τ |/θ

dove θ e la costante di tempo. Se θ diventa sempre piu piccola il processo diven-ta sempre piu scorrelato: cosa succede se la facciamo tendere a 0? Facendo latrasformata di Fourier si trova la densita spettrale di potenza:

φ(ω) =θR0

1 + ω2θ2

23

Page 25: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

per θ → 0 la curva si “schiaccia” e si allarga sempre di piu e al limite va a 0. Nondiventa quindi rumore bianco. Prendiamo allora il processo:

R(τ) =R0

θe−|τ |/θ

per il quale la varianza dipende da θ. Questo processo ha densita:

φ(ω) =R0

1 + ω2θ2

per cui quando θ → 0 tende alla costante R0, ∀ω (potenza infinita). La funzione dicovarianza R(τ) invece, per θ → 0, ha limite 0, quando τ 6= 0 (poiche l’esponenzialevince sul denominatore), mentre quando τ = 0 il limite va a +∞. Si ottiene cosıuna δ di Dirac:

R(τ) = R0δ(τ)

Regioni di confidenza. Il problema della determinazione delle regioni diconfidenza si puo descrivere nel seguente modo: data una funzione densita diprobabilita f(x), con x ∈ Rn in generale, trovare una regione nello spazio Rn

tale che le realizzazioni del processo cui e associata f(x) cadano all’internodi tale regione con una confidenza prefissata α (ad esempio 95%). Nel casoscalare (n = 1), le regioni di confidenza sono sottoinsiemi della retta: lascelta della regione di confidenza non e univoca. Se la funzione f(x) fosse asupporto limitato potremmo definire delle regioni di confidenza al 100% inmodo univoco, tuttavia le funzioni che trattiamo hanno delle “code”.

Chiamando I la regione di confidenza, abbiamo:

P {x ∈ I} =

∫I

f(x)dx = α (19)

dove α e scelto dall’utente. Allargando una regione I la probabilita che ilfenomeno cada in I aumenta; inoltre, a parita della lunghezza della regione,spostandola otteniamo probabilita differenti, cosı come, a parita di proba-bilita possiamo trovare intervalli diversi che soddisfino la (19) al grado diconfidenza desiderato. Il problema viene allora posto in questi termini: scel-to α si vuole determinare la regione I di estensione minima che soddisfi la(19).

Se conosciamo esattamente la funzione f(x) il problema si risolve deter-minando una soglia k > 0 tale che:{

Ik = {x : f(x) ≥ k}P {x ∈ Ik} =

∫Ik

f(x)dx = α

Molto piu complicato e, in generale, risolvere il problema quando nonconosciamo la funzione f(x) ma soltanto media e varianza o, nel caso din > 1, la matrice di varianza

R =

∫ +∞

−∞(x−m)(x−m)T f(x)dx

24

Page 26: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

f(x)

xI

k

f(x)

I2I1

k

I = I1 ∪ I2

x

Figura 8: determinazione della soglia k.

Si fa allora una ipotesi di semplificazione, ovvero si suppone che la f(x) sia“gaussiana”. Nel caso n = 1 (fenomeno scalare) la formula della gaussiana e:

f(x) =1√

2πσ2exp

{−1

2

(x−m)2

σ2

}(20)

una curva a campana (vedi fig. 9), simmetrica rispetto alla media m e la cuiforma e determinata dalla varianza σ2. La regione di confidenza sara alloraun intervallo centrato sulla media. Una volta fissato α esistono delle tavole

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

-4 -2 0 2 4

σ = 0.5σ = 1.0σ = 1.5

Figura 9: gaussiane con media m = 0 e varianza differente.

numeriche che forniscono il valore di γ tale che:

1√2π

∫ +γ

−γ

exp

{−1

2y2

}dy = α

per cui la regione di confidenza sara l’intervallo

I = [m− σγ, m + σγ]

Se n > 1 allora la gaussiana assume la forma:

f(x) =1√

(2π)n det(R)exp

{−1

2(x−m)T R−1(x−m)

}(21)

25

Page 27: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

dove

x =

x1...

xn

, m =

m1...

mn

, R =

R11 · · · R1n...

. . ....

Rn1 · · · Rnn

Nel caso particolare di n = 2 la matrice di varianza diventa

R =

[R11 R12

R21 R22

]che e simmetrica (R12 = R21) e definita positiva, cioe R11 > 0, R22 > 0 (comee ovvio, dal momento che sono varianze) e R11R22 > R2

12 (determinantepositivo). Il coefficiente di correlazione e:

% =R12√R11R22

, |%| < 1 ⇒ R =

[σ2

1 %σ1σ2

%σ1σ2 σ22

]Il problema di trovare l’intervallo I = {x : f(x) ≥ k} si puo risolvere facendoil logaritmo naturale dei due termini della disequazione, ottenendo:

I ={x : (x−m)T R−1(x−m) ≤ k

}, k = −2 ln

(k√

(2π)n det(R))

(22)

Quella che appare nella (22) e l’equazione di un’ellisse, non vuota quandok > 0, cioe quando k < 1/

√2π det(R), la cui estensione dipende da α e la

cui forma dipende da R e da m. Il centro dell’ellisse e dato da (m1, m2):rimangono allora da determinare la lunghezza dei due semiassi e la direzionedi uno di essi (l’altro forma un angolo retto con questo). Per fare cio occorrericordare che R e simmetrica e definita positiva, per cui ha due autovaloriλ1, λ2 reali positivi e due autovettori ortogonali t1, t2. Si puo dimostrare chevale il seguente fatto.

Fatto 7 Sia li la lunghezza del semiasse i–esimo, allora

• li =√

kλi

• i semiassi sono paralleli agli autovettori ti.

Quindi se λ1 = λ2, ovvero R11 = R22, allora l’ellisse e una circonferenza.Inoltre i semiassi sono paralleli agli assi cartesiani solo se R12 = R21 = 0,cioe quando la matrice e diagonale, per cui % = 0, ovvero tra i due fenomeninon c’e correlazione.

Come si determina la soglia k una volta scelto il valore di α? Sia ε l’ellisse (08.03)

ε ={x : (x−m)T R−1(x−m) ≤ k

}dovremmo risolvere

P {x ∈ ε} =

∫ε

f(x)dx = α (23)

26

Page 28: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

il calcolo dell’integrale risulta in generale difficile, ma qui sappiamo che

X ∼ N(m, R)

ovvero che X e un processo gaussiano con densita di probabilita normale dimedia m e di matrice di varianza R. Si definisce la nuova variabile

x = L−1(x−m)

ove la matrice L e legata a R tramite la relazione di fattorizzazione diCholesky

R = LLT (24)

che qui e sempre possibile, essendo R simmetrica e definita positiva. Adessox e una variabile aleatoria con media e varianza normalizzate:

E[x] = 0

E[xxT ] = E[L−1(x−m)(x−m)T L−T ] = L−1E[(x−m)(x−m)T ]L−T =

= L−1RL−T = L−1L︸ ︷︷ ︸I

LT L−T︸ ︷︷ ︸I

= I

Queste relazioni valgono qualunque sia la dimensione dello spazio, per cuitutte le componenti di x hanno varianza unitaria e sono tra loro scorrelate.

Utilizzando la (24), la (23) diventa:

P{(x−m)T L−T L−1(x−m) ≤ k

}= P

{xT x ≤ k

}= P

{n∑

i=1

x2i ≤ k

}= α

(25)

Anche X e gaussiana, poiche e ottenuta per trasformazione lineare da unprocesso gaussiano, e date le sue proprieta vale:

f(x) =1√

(2π)nexp

{−1

2

n∑i=1

x2i

}(26)

Per questa funzione, chiamata distribuzione chi–quadro con n gradi di liberta,esistono delle tabelle che riportano i valori dell’area sottesa alla curva didistribuzione in funzione di

n∑i=1

x2i = χ2

n

Risposta transitoria dei sistemi dinamici ad ingressi stocastici.

27

Page 29: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

������������������������������������������������������������������

������������������������������������������������������������������

������������������������������������������������������������������

������������������������������������������������������������������

θ

x

y

ω

v

vd

vs

Figura 10: robot a guida differenziale.

Modello di robot a guida differenziale. Consideriamo il modello(fig. 10) di un robot in grado di muoversi su un piano, dotato di due ruotemotrici comandate da due motori separati. Dalla cinematica otteniamo dueequazioni che ci dicono quanto valgono la velocita lineare e quella angolare:{

v = 12(vd + vs)

ω = 12d

(vd − vs)

dove d e il diametro della piattaforma. Il modello e descritto dalle equazionidi stato:

x = v cos θy = v sin θ

θ = ω

Si fa una misura di tipo odometrico (sulla strada percorsa), per esempiomettendo dei sensori che contano le tacche delle ruote che passano. Discre-tizzando otteniamo il sistema:

x(k) = x(k − 1) + v(k)Tc cos(θ(k − 1) + ω(k)Tc/2

)y(k) = y(k − 1) + v(k)Tc sin

(θ(k − 1) + ω(k)Tc/2

)θ(k) = θ(k − 1) + ω(k)Tc

L’evoluzione del sistema e pertanto descritta da:{s(k) = [x(k) y(k) θ(k)]T

s(k) = f(k, s(0))

dove s(0) e la condizione iniziale ed f(k, s(0)) dipende dalla successione{v(i), ω(i)}k−1

i=0 . Dobbiamo considerare che per misurare le grandezze uti-lizziamo dei sensori che hanno una certa precisione e sono affetti da errori di

28

Page 30: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

quantizzazione; incertezze sono dovute ad una non perfetta misura del dia-metro della piattaforma o del raggio delle ruote, il quale puo variare in basealla pressione delle ruote stesse; ci sono infine attriti, imperfezioni del piano,possibilita di slittamento delle ruote. A causa di tutto cio, dopo un numeroelevato di passi di campionamento, questo modello puo discostarsi molto dal-la realta. Il rumore di misura si considera di solito bianco, l’incertezza dellemisure si tiene di conto lasciando degli opportuni intervalli di confidenza (es.disturbo additivo), mentre piu difficili da trattare sono i disturbi sul pavi-mento, in quanto sono assolutamente casuali e di notevole entita. Dobbiamocalcolare l’incertezza attorno ad s (ellisse di confidenza).

Consideriamo la stima odometrica nel caso tempo–discreto e lineare, percui

x(k + 1) = Ax(k) + Bu(k) + w(k) (27)

ove

w(k) =

w1(k)...

wn(k)

e un disturbo additivo che agisce sullo stato con media e matrice di varianza:

mw = E[w(k)]

Q = E[(w(k)−mw)(w(k)−mw)T

]Si ipotizza inoltre che i disturbi a istanti diversi siano scorrelati tra loro:

E[(w(k)−mw)(w(l)−mw)T

]= 0, ∀k, l k 6= l

Il processo X e non stazionario, e la sua media evolve partendo da

mx(0) = E[x(0)]

secondo l’equazione lineare

mx(k + 1) = Amx(k) + Bu(k) + mw (28)

Come evolve la sua matrice di varianza P? Definiamo la variabile x(k) =x(k)−mx(k), per cui, sottraendo la (28) dalla (27) abbiamo

x(k + 1)−mx(k + 1) = A(x(k)−mx(k)) + Bu(k)−Bu(k) + w(k)−mw

ovverox(k + 1) = Ax(k) + w(k)

cioe l’evoluzione degli scarti rispetto alla media non dipende dall’ingresso u.Quindi

P (0) = E[x(0)x(0)T

]P (k + 1) = E

[x(k + 1)x(k + 1)T

]= E

[(Ax(k) + w(k))(x(k)T AT + w(k)T )

]29

Page 31: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Analizziamo quest’ultima espressione termine a termine:

E[Ax(k)x(k)T AT

]= A E

[x(k)x(k)T

]AT = AP (k)AT

E[w(k)w(k)T

]= Q

E[Ax(k)w(k)T

]= E

[w(k)x(k)T AT

]= 0

infatti vale

x(k) = Akx(0) + Ak−1w(0) + Ak−2w(1) + · · ·+ w(k − 1)

per cui, avendo ipotizzato che w sia bianco (e quindi anche w lo e) e dalmomento che la condizione iniziale e scorrelata al disturbo, gli ultimi duetermini danno contributo nullo.

Abbiamo ottenuto l’equazione ricorsiva di Lyapunov tempo–discreta:

P (k + 1) = AP (k)AT + Q (29)

Esempio: Sia n = 1, ovvero mettiamoci nell’ipotesi di stato scalare. Lacondizione iniziale e p(0), mentre la varianza evolve secondo

p(k + 1) = a2p(k) + q

Ci domandiamo se per k che tende all’infinito p(k) converga o meno ad un valorecostante, ovvero se esiste il

limk→∞

p(k) = p∞

Se tale limite esiste, allora p∞ = a2p∞ + q, per cui

p∞ =q

1− a2

Se il sistema e asintoticamente stabile (a2 < 1), allora p∞ > 0. Sia p(k) =p(k)− p∞, allora

p(k + 1) = p(k + 1)− p∞ = a2p(k)− p∞ + q = a2(p(k)− p∞) = a2p(k)

quindi lo scostamento dal valore di regime diminuisce con il passare del tempo.Se a2 > 1 le traiettorie divergono e l’incertezza va all’infinito; nel caso limite

in cui a2 = 1 (come quello del robot, o quando sono presenti integratori TD)l’incertezza cresce linearmente con il tempo. �

Generalizzando l’esempio precedente, dobbiamo chiederci se esiste unamatrice P∞ che risolva l’equazione algebrica di Lyapunov:

P∞ = AP∞AT + Q

Per rispondere a questa domanda dobbiamo esaminare gli autovalori di A: sihanno tre casi

• se ∃ |λi(A)| = 1 allora non si ha nessuna soluzione, e se tutti glialtri autovalori hanno modulo minore di 1 allora l’incertezza crescelinearmente.

30

Page 32: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

• se ∃ |λi(A)| > 1 allora la soluzione P∞ esiste, ma non e una varianza,poiche non e definita positiva (non rappresenta niente). Non esiste ilvalore di regime ed il sistema e instabile.

• se |λi(A)| < 1, ∀i allora P∞ esiste ed e definita positiva. P (k) tende alvalore di regime P∞, il sistema e asintoticamente stabile.

L’effetto dei disturbi (Q) tende ad aumentare l’incertezza, mentre la dinamicastabile, attraverso il termine AP (k)AT , tende a far diminuire l’incertezza: aregime i due effetti si compensano perfettamente. Una dinamica instabileinvece contribuisce anch’essa all’aumento dell’incertezza. Piu Q e piccolo,piu le traiettorie si avvicinano tra loro.

Ricordiamo che l’equazione (29) vale solo se il disturbo w(k) e scorrelato (11.03)

nel tempo, ovvero e rumore bianco. I disturbi di misura sono scorrelati, masolitamente i disturbi di processo non lo sono. In questo caso possiamo adot-tare la “tecnica dell’estensione dello stato”, aggiungendo delle componentifittizie al vettore di stato.

Esempio: Siax(k + 1) = ax(k) + w(k)

con w(k) esponenzialmente correlato. Si puo pensare w(k) come prodotto da unrumore bianco e(k) filtrato da una funzione di trasferimento:

G(z) =1

1− %z−1

con % coefficiente di correlazione. Il disturbo puo adesso essere descritto dall’equa-zione ricorsiva:

w(k) = %w(k − 1) + e(k)

Poiche adesso si deve pensare ad e(k) come l’ingresso definiamo uno stato esteso:

x(k) =[

x(k)w(k)

]per cui l’evoluzione del sistema e definita da:

x(k + 1) = Ax(k) + Be(k + 1) =[

a 10 %

]x(k) +

[01

]e(k + 1)

La matrice di varianza e:

P (k) = E[x(k)x(k)T ] =[

P (k) E[x(k)w(k)]E[x(k)w(k)] E[w2(k)]

]da cui:

P (k + 1) = A P (k) AT + E

[[01

]e2(k) [0 1]

]= A P (k) A

T + Q

ove

Q =[

0 00 E[e2(k)]

]31

Page 33: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

In generale si deve trovare una realizzazione (Aw, Bw, Cw, Dw) del sistemaoriginale ed un vettore xw tali che{

xw(k + 1) = Awxw(k) + Bwe(k)w(k) = Cwxw(k) + Dwe(k)

e che:G(z) = Cw(zI − Aw)−1Bw + Dw

In questo modo il vettore esteso x(k) = [x(k) xw(k)]T ha un’evoluzionedeterminata dalle matrici:

A =

[A Cw

0 Aw

], B =

[Dw

Bw

]In questo modo si ha un aumento della complessita computazionale (checresce con n3), ma si puo considerare un modello esteso che ha in ingressoun rumore bianco.

Sistemi tempo–continui. Consideriamo un sistema tempo–continuo diequazione

x(t) = Ax(t) + Bu(t) + w(t) (30)

La media mx(t) = E[x(t)] evolve secondo:

mx(t) = Amx(t) + Bu(t) + mw(t)

Ci chiediamo come evolve la matrice di varianza

P (t) = E[(x(t)−mx(t))(x(t)−mx(t))

T]

Per rispondere a questa domanda dobbiamo fare delle ipotesi su w(t): infattisoltanto se w e un rumore bianco tempo–continuo siamo in grado di trovareuna soluzione semplice. Per cui:

Rw(τ) = δ(τ)Q

Si puo dimostrare che P evolve in base all’equazione differenziale di Lyapu-nov:

P (t) = AP (t) + P (t)AT + Q (31)

Se siamo interessati alla situazione a regime possiamo studiare l’equazionealgebrica di Lyapunov tempo–continua

0 = AP∞ + P∞AT + Q

chiedendosi se esisteP∞ = lim

t→∞P (t)

Se gli autovalori di A hanno parte reale negativa, l’equazione algebrica diLyapunov ammette un’unica soluzione, che e definita positiva. Se ci sonoautovalori a parte reale positiva il limite diverge e la matrice soluzione none definita positiva: l’incertezza cresce sempre di piu. Se ci sono autovalorisull’asse immaginario, se la matrice e diagonalizzabile, l’incertezza crescelinearmente con il tempo.

32

Page 34: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Discretizzazione. Una strada alternativa procede ad una discretizza-zione del sistema tempo–continuo. Dalla (30) segue:

x(t) = eAtx(0) +

∫ t

0

eA(t−s)Bu(s)ds +

∫ t

0

eA(t−s)w(s)ds

Sia Tc il periodo di campionamento; si ha:

x(Tc) = eATc︸︷︷︸A

x(0) +

∫ Tc

0

eA(Tc−s)Bu(s)ds +

∫ Tc

0

eA(Tc−s)w(s)ds︸ ︷︷ ︸w(0)

Adesso facciamo un’approssimazione “pesante”: consideriamo l’ingresso co-me una funzione a gradini, ovvero rimane costante in ogni intervallo dicampionamento. Cosı fra 0 e Tc si ha che u(s) ≡ u(0). Definendo

B =

∫ Tc

0

eA(Tc−s)Bds

si ha:x(1) = Ax(0) + Bu(0) + w(0)

ove w(0) va caratterizzato assegnandone media e varianza.

E[w(0)] =

∫ Tc

0

eA(Tc−s)mw(s)ds = 0

cioe si suppone il rumore a media nulla, e

E[w(0)w(0)T ] =

∫ Tc

0

∫ Tc

0

eA(Tc−s)E[w(s)w(τ)T

]eAT (Tc−τ)ds dτ =∫ Tc

0

∫ Tc

0

eA(Tc−s)Qδ(τ)eAT (Tc−τ)ds dτ =

∫ Tc

0

eA(Tc−s)QeAT (Tc−s)ds = Q

ovvero la varianza del disturbo tempo–discreto w(0) dipende dall’intensitadel rumore bianco tempo–continuo Q; inoltre w(1) e scorrelato da w(0) e cosıvia . . .

Il sistema discretizzato cosı ottenuto ha un’evoluzione di P secondo

P (k + 1) = A P (k) AT

+ Q

Una notevole proprieta e che questa equazione ricorsiva fornisce dei valoriper P che coincidono con i valori di P (tempo–continua) in corrispondenzadei multipli del passo di campionamento, ovvero:

P (t = kTc) = P (k)

Esempio: Si consideri il moto di un veicolo lungo la direzione x, per cui x(t)e la posizione, x(t) e la velocita, e x(t) e l’accelerazione. Quest’ultima non laconsideriamo rigorosamente 0, ma la vediamo come un rumore bianco, quindi:

x(t) = e(t), φe(ω) = q

33

Page 35: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Vogliamo discretizzare questo modello tempo–continuo. Definiamo il vettore distato

s(t) =[x(t)x(t)

]per cui il sistema diventa

s(t) =[

0 10 0

]s(t) +

[01

]e(t)

Sappiamo che

A = eATc = I + ATc +(ATc)2

2!+ · · ·

ma qui A2 = 0 e quindi

A = I + ATc =[

1 Tc

0 1

]Il sistema discretizzato e:

s(k + 1) =[

1 Tc

0 1

]+ w(k)

L’evoluzione della posizione e della velocita e data da:{x(k + 1) = x(k) + Tcx(k) + w1(k)x(k + 1) = x(k) + w2(k)

dove w1(k) e w2(k) sono gli elementi diagonali di Q. Infine:

Q =∫ Tc

0

[1 Tc − s0 1

] [0 00 q

] [1 0

Tc − s 1

]ds =∫ Tc

0

[1 Tc − s0 1

] [0 0

q(Tc − s) q

]ds = q

∫ Tc

0

[(Tc − s)2 Tc − sTc − s 1

]ds =

q

[T 2

c /3 T 2c /2

T 2c /2 Tc

]In definitiva w1(k) = qT 3

c /3 cresce con T 3c per la posizione, mentre w2(k) = qTc

cresce linearmente con Tc per la velocita. La correlazione che c’e fra questi duedisturbi e:

%w1,w2 =qT 2

c /2√qTcqT 3

c /3=√

32

Stima. Supponiamo di volere informazioni sulla posizione di un oggetto in (13.03)

R2: abbiamo delle informazioni a priori che riguardano la distribuzione dellavariabile aleatoria posizione, che supponiamo gaussiana (possiamo tracciarela relativa ellisse di confidenza) e una informazione a posteriori, cioe la misu-ra di una delle due componenti della posizione. Possiamo assegnare a questacomponente una regione di confidenza, centrata sul valore della misura e con

34

Page 36: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

dispersione pari alla deviazione standard del disturbo di misura su quellacomponente. Adesso bisognerebbe fare l’intersezione fra questa regione el’ellisse di confidenza, ma cio e molto oneroso dal punto di vista computa-zionale. Si preferisce allora adottare un altro tipo di approccio, che cerca dicapire come cambia la densita di probabilita in funzione della misura.

Problema della stima. Supponiamo di avere le due variabili:

• X grandezza aleatoria non misurabile

• Y grandezza aleatoria su cui si compiono delle osservazioni

si vuole studiare come si modifica l’incertezza su X per effetto dell’osservazio-ne su Y . La stima ha senso se X e Y non sono variabili aleatorie indipendenti,ma esiste un legame tra loro. Per esplicare questo legame o si suppone notala densita di probabilita congiunta fra X e Y (fX,Y (x, y)) o, come accade inmolti casi, soltanto i suoi parametri caratteristici:

1) la media

m =

[mx

my

]= E

[X

Y

]2) la matrice di varianza

R = E

[([X

Y

]−m

)([X

Y

]−m

)T]

=

[Rx Rxy

Ryx Ry

]

Esempio: Sia Y = X + V , con V disturbo di misura; questo disturbo eindipendente dal valore di X, per cui:

fX,V (x, v) = fX(x)fV (v) = fX(x)fV (y − x)

Vale anche

P {X = x, Y = y} = P {X = x, V = y − x} = P {X = x}P {V = y − x}

cioe:fX,Y (x, y) = fX(x)fV (y − x)

In generale, se Y = h(X) + V , con h non necessariamente lineare, si puodimostrare che se X e V sono indipendenti vale:

fX,Y (x, y) = fX(x)fV (y − h(x))

con

E[Y ] = E[h(X)] + E[V ] =

∫h(x)fX(x)dx

essendo E[V ] = 0.

35

Page 37: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Nel caso particolare in cui Y = CX + V , abbiamo

my = E[CX] + E[V ] = CE[X] = Cmx

Ry = E[(Y −my)(Y −my)

T]

= E[(C(x−mx) + v)(C(x−mx) + v)T

]=

= CE[(x−mx)(x−mx)

T]CT + E[vvT ] + 0 = CRxC

T + Rv

Analogamente si puo dimostrare che

Rxy = RxCT , Ryx = CRx

Riassumendo:

R =

[Rx RxC

T

CRx CRxCT + Rv

]Stimatori. Supponiamo di aver ottenuto un risultato da uno strumento

di misura, vogliamo ricavare il valore vero assunto dalla variabile: questosignifica fare un’inferenza su X ∈ Rx sulla base di un’informazione Y ∈ Ry.A tale scopo occorre una legge che mappa le osservazioni sullo spazio di X(uno stimatore):

g : Ry → Rx : g(Y ) = X

dove X e la stima di X basata su Y , di modo che X − X = X − g(Y ) sia“piccolo”. Dobbiamo precisare il termine piccolo, dopo di che cercheremo lamigliore scelta di g.

La stima X e una variabile aleatoria, essendo funzione deterministica diun’osservazione aleatoria. Anche l’errore di stima

X = X − X = X − g(Y )

e una variabile aleatoria.Sia x ∈ R (scalare), allora l’errore di stima e piccolo se e piccolo E[x2],

l’errore quadratico medio, che si puo pensare come una norma su x che fa daindicatore della qualita della stima:

E[x2] =

∫(x− g(y))2fX,Y (x, y)dx dy (32)

Se abbiamo N osservazioni {xi, yi}Ni=1 allora:

E[x2] ' 1

N

N∑i=1

(xi − g(yi))2

Dal punto di vista matematico il problema e il seguente: data la fX,Y (x, y)trovare lo stimatore g∗ che minimizza la (32).

Uno stimatore g∗ : Ry → Rx e lo stimatore a minimo errore quadraticomedio (MEQM) se:

E[(X − g∗(Y ))2

]≤ E

[(X − g(Y ))2

], ∀g

36

Page 38: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Il problema posto in questi termini e complicato dal fatto che spesso nonsi conosce la fX,Y , ma solo la sua media e la matrice di varianza. Inoltrela funzione g∗ che si ottiene e molto complicata, spesso ottenuta soltantonumericamente. Allora si preferisce “rilassare” questo criterio stringente delmiglior stimatore e ci si limita ad utilizzare stimatori che siano lineari rispettoalle osservazioni.

Uno stimatore ` : Rny → Rnx e lineare se

`(Y ) = LY + l

dove L ∈ Rnxny e l ∈ Rnx (vettore costante). Dobbiamo adesso definire ilmiglior stimatore lineare.

Uno stimatore `∗(·) e lo stimatore a minimo errore quadratico mediolineare se:

E[(X − `∗(Y ))2

]≤ E

[(X − `(Y ))2

], ∀` lineare

Il problema di trovare il

min`

{∫(x− `(y))2fX,Y (x, y)dx dy

}e piu facile e non dipende da fX,Y , ma basta conoscere la sua media e la suavarianza.

Teorema 8 Data fX,Y (x, y) il miglior stimatore lineare dipende solo dal pri-mo e dal secondo momento della densita di probabilita congiunta, mentrel’errore quadratico medio coinvolge soltanto la matrice di varianza. Infatti:

`∗(Y ) = mx + RxyR−1y (Y −my)

ovvero {L = RxyR

−1y

l = mx − Lmy

eE[(X − `∗(Y ))2

]= Rx −RxyR

−1y Ryx

Questo risultato si puo interpretare notando che prima della misura pos-siamo usare Rx per tracciare la regione di confidenza, dopo la misura lavarianza dell’errore di stima si riduce e l’incertezza su X e diminuita, datoche l’ellisse si e contratta.

Il teorema vale anche nel caso generale in cui X ∈ Rn e Y ∈ RN : in tal (15.03)

caso si cerca di minimizzare

minL,l

M(L, l) = minL,l

E[(X − X)(X − X)T

]∈ Rnn

con X = `(Y ), ovvero si cercano i valori ottimali L∗, l∗ tali che:

M(L∗, l∗) ≤ M(L, l) ⇔ M(L, l)−M(L∗, l∗) ≥ 0, ∀L ∈ RnN , l ∈ Rn

cioe la matrice differenza deve essere definita semipositiva. Per dimostrare ilteorema (8) abbiamo bisogno del seguente lemma.

37

Page 39: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Lemma 9 Sia `(Y ) = LY + l un generico stimatore lineare. Vale allora:

E[(X − `∗(Y ))(`∗(Y )− `(Y ))T

]= 0

Dim. Infatti, sostituendo `∗(Y )

E[((X −mx)− L∗(Y −my))((L

∗ − L)(Y −my) + mx − l − Lmy)T]

=

= Rxy(L∗ − L)T + 0− L∗Ry(L

∗ − L)T + 0 = (Rxy − L∗Ry)(L∗ − L)T = 0

avendo usato all’ultimo passaggio la relazione:

L∗ = RxyR−1y ⇒ Rxy − L∗Ry = 0

Dim. (teorema (8)) Dimostriamo che l’EQM di ` e maggiore dell’EQMdi `∗:

M = E[((X − `(Y ))(X − `(Y ))T

]=

E[(X − `∗(Y ) + `∗(Y )− `(Y ))(X − `∗(Y ) + `∗(Y )− `(Y ))T

]=

E[(X − `∗(Y ))(X − `∗(Y ))T

]+ E

[(`∗(Y )− `(Y ))(`∗(Y )− `(Y ))T

]+ 0 + 0

dove all’ultimo passaggio abbiamo applicato il lemma (9). Il primo terminedi questa espressione e M∗, mentre il secondo e una matrice ∆ definita se-mipositiva, dato che presenta il prodotto di un vettore per il suo trasposto.Dunque

M = M∗ + ∆, con ∆ ≥ 0 ⇒ M −M∗ = ∆ ≥ 0

e quindi `∗ e il miglior stimatore. Infine:

M∗ = E[(X − `∗(Y ))(X − `∗(Y ))T

]=

E[((X −mx)− L∗(Y −my))((X −mx)− L∗(Y −my))

T]

=

Rx −RxyL∗T − L∗Ryx + L∗RyL

∗T = Rx − 2RxyR−1y Ryx + RxyR

−1y RyR

−1y Ryx =

= Rx −RxyR−1y Ryx

Esempio: Supponiamo di avere una variabile aleatoria scalare X con mediamx e varianza σ2

x = E[(X −mx)2]. Possiamo misurare Y , che e legata ad X dallarelazione Y = X + V , dove V e un disturbo tale che:

E[V ] = 0, E[V 2] = σ2v , E[V (X −mx)] = 0

dove l’ultima relazione indica che V e X sono scorrelati.Abbiamo E[Y ] = E[X] = mx, inoltre:

E[(Y −my)2

]= E

[((X −mx) + V )2

]= σ2

x + σ2v

E [(X −mx)(Y −my)] = E [(X −mx)(X −mx + V )] = σ2x

Quindi

R =[

σ2x σ2

x

σ2x σ2

x + σ2v

]38

Page 40: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

per cui la migliore stima lineare e:

x = mx +σ2

x

σ2x + σ2

v

(y −mx) =σ2

v

σ2x + σ2

v

mx +σ2

x

σ2x + σ2

v

y (33)

e l’errore quadratico medio di stima:

σ2x = E

[(x− x)2

]= σ2

x −σ4

x

σ2x + σ2

v

=σ2

xσ2v

σ2x + σ2

v

(34)

Dall’esempio appena visto possiamo fare alcune osservazioni. Se facciamouna misura su X avendo delle informazioni a priori (media e varianza), lamigliore stima lineare e una combinazione lineare dei parametri noti tramitei coefficienti (σm, σy) positivi, la cui somma vale 1, che sono l’incertezza sullamisura e sull’evento. Se la varianza del disturbo tende a zero (σ2

v → 0) lastima tende a y, mentre se tende all’infinito la stima tende a mx, come eragionevole aspettarsi. Inoltre E [(x− x)2] < σ2

x, quindi la misura riducel’incertezza su x (rispetto al caso in cui si assegna a x il valore mx) e taleriduzione e maggiore quanto piu σv e vicina a zero, mentre quando σv →∞l’incertezza rimane invariata.

Possiamo interpretare la (34) anche in un altro modo: facendo l’inversodella varianza, che prende il nome di “informazione” si ha

1

σ2x

=σ2

x + σ2v

σ2xσ

2v

=1

σ2x

+1

σ2v

(35)

dove i due termini rappresentano dei “pesi”. Infatti se prendiamo la formaquadratica

(x−mx)2

σ2x

+(x− y)2

σ2v

e la minimizziamo uguagliando a zero la sua derivata rispetto a x riotteniamol’espressione (33). Questo ci fa capire che la stima x si puo trovare risolvendoun problema di ottimo: deve essere vicina alla misura ma anche all’informa-zione a priori (la media), e questa vicinanza viene pesata dalle informazioni(1/σ2

x, 1/σ2v).

Generalizziamo la (35): sia Y = CX + V , con Y ∈ RN e X ∈ Rn; laformula dell’informazione diventa

R−1 = R−1x + CT R−1

v C

dove si puo subito notare che a parita di Rv si ha maggiore informazionequando C e grande. La funzione da minimizzare diventa ora:

(X −mx)T R−1

x (X −mx) + (Y − CX)T R−1v (Y − CX)

derivando e uguagliando a zero la derivata si trova la stima

X = mx + Rx(CRxCT + Rv)

−1(Y − Cmx)

che coincide con la migliore stima suggerita dal teorema (8).

39

Page 41: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Interpretazione geometrica. Supponiamo di lavorare con variabili alea-torie a media nulla, cioe riduciamoci al caso in cui mx = 0 e my = 0. Siainoltre X scalare (dim X = 1), per cui:

X = RxyR−1y Y, Y =

Y1...

YN

∈ RN

Sia H lo spazio vettoriale delle variabili aleatorie a media nulla, per cui x ∈ Hse e solo se x e una variabile aleatoria e E[x] = 0. E uno spazio vettorialeperche si puo mostrare facilmente che:

x1, x2 ∈ H ⇒ α1x1 + α2x2 ∈ H

Lo spazio vettoriale H non ammette una base finita, per cui dim H = ∞.Possiamo definire il prodotto scalare in H:

<x1, x2 >= E[x1x2] =

∫x1x2fX1,X2(x1, x2)dx1dx2

Valgono le proprieta di simmetria, la disuguaglianza triangolare

<x1, x2 >≤ (<x1, x1 ><x2, x2 >)12

e inoltre<x1, x1 >= ‖x1‖2 = E[x2

1] ≥ 0

e quindi la norma di un vettore e la sua varianza. Possiamo mostrare ilparallelismo tra geometria e statistica attraverso la seguente tavola.

Geometria Statistica<x1, x2 > (prodotto scalare) E[x1x2] (varianza incrociata)‖x1‖2 (norma) E[x2

1] (varianza)<x1, x2 >= 0 (ortogonalita) E[x1x2] = 0 (incorrelazione)<x1,x2>‖x1‖‖x2‖ = cos ϕ (angolo fra vettori) E[x1x2]√

E[x21]E[x2

2]= % (coeff. di correlaz.)

La migliore stima lineare diventa:

X = LY =N∑

i=1

`iYi, L = [ `1 · · · `N ]

quindi, una volta fissato Y abbiamo un sottospazio generato dai vettori dibase Y1, . . ., YN , cioe Y = span {Yi}N

i=1: ogni possibile stima e un vettoredi questo sottospazio (x ∈ Y). Invece x /∈ Y , altrimenti conosceremmo concertezza il suo valore. La migliore stima e scelta in modo da minimizzarel’EQM:

EQM = E[(x− x)2

]= ‖x− x‖2

40

Page 42: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Y

O Y1

Y2

x x

x

Figura 11: interpretazione geometrica della stima.

e poiche x = x − x, l’EQM e la varianza dell’errore di stima, o equivalente-mente la sua norma. Dato che l’errore di stima e la differenza fra un vettoredi Y e un vettore che non appartiene a Y , la sua norma e minima quando xe la proiezione ortogonale di x sul sottospazio Y , ovvero quando x = x− x eortogonale al sottospazio e quindi a tutti i vettore della sua base (fig. 11).

Quindi:x− x ⊥ Yi, i = 1, . . . , N

ovvero, dal punto di vista statistico, x− x e scorrelata con tutte le Yi:

E [(x− x)Yi] = 0, i = 1, . . . , N

Ma x ∈ Y , e quindi e combinazione lineare delle Yi:

E

[(x−

N∑j=1

`jYj

)Yi

]= 0, i = 1, . . . , N

che e un sistema di N equazioni in N incognite (`j); risolvendolo si trova ilmiglior stimatore lineare, questa volta per via puramente geometrica. Infatti,introducendo le varianze:

Rxyi=

N∑j=1

`jRxjyi⇒ Rxyi

= LRy[·,i]

dove la notazione [·, i] indica che abbiamo fissato la colonna, mentre la rigae generica. Quindi:

Rxy = LRy ⇒ RxyR−1y = L

L’errore quadratico medio minimo (MEQM) e la norma del vettore di pro-iezione residuo, che geometricamente e un cateto di un triangolo rettangolo.L’ipotenusa e x, mentre l’altro cateto e x = LY , per cui

E[xxT ] = LRyLT = RxyR

−1y Ryx

e quindi:MEQM = Rx −RxyR

−1y Ryx

41

Page 43: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

L’errore di stima e ortogonale alle osservazioni, per cui non possiamo stimarecio che e ortogonale all’informazione disponibile.

Quando X non e uno scalare, tutto questo procedimento lo si puo fareper ogni componente di X (cioe si proietta ogni componente di X su Y).

Se le medie di X e di Y non sono zero, basta definire le due nuove variabili{X = X −mx

Y = Y −my

che hanno media zero, e a cui posso applicare il procedimento precedente.Otterremo

X = RxyR−1y Y = RxyR

−1y Y

da cui, tornando alle variabili originali, otteniamo la formula del teorema (8):

X = mx + RxyR−1y (Y −my)

Stima a MEQM Vogliamo adesso esprimere il legame fra X e Y attraverso (18.03)

la densita di probabilita congiunta fX,Y (x, y). L’obiettivo e di minimizzarel’errore quadratico medio

ming(·)

E[(X − g(Y ))(X − g(Y ))T

]=

∫(x− g(y))(x− g(y))T fX,Y (x, y)dxdy

ove g : RY → RX non e necessariamente lineare. Vogliamo lo stimatoreottimo g∗ tale che:

E[(X − g∗(Y ))(X − g∗(Y ))T

]≤ E

[(X − g(Y ))(X − g(Y ))T

], ∀g

Per trovare la soluzione abbiamo bisogno della densita di probabilita condi-zionata da X a Y , che grazie al teorema di Bayes si puo scrivere

fX|Y (x|y) =fX,Y (x, y)

fY (y)=

fX,Y (x, y)∫fX,Y (x, y)dx

che rappresenta l’incertezza su X dopo aver osservato un particolare valoredi Y .

Lo stimatore ottimo a MEQM e l’operatore di media condizionata:

g∗(y) =

∫xfX|Y (x|y)dx (36)

Notiamo che il problema puo essere risolto solo se si conosce la densita diprobabilita, mentre nel caso lineare bastava conoscere la media e la varianza.

Esempio: Sia Y = X + V e supponiamo di conoscere fX(x) e fV (v). Comevisto nell’esempio di pag. 35, se X e V sono indipendenti, vale:

fX,Y (x, y) = fX(x)fV (y − x)

42

Page 44: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Supponiamo che fX(x) sia gaussiana:

fX(x) =1√

2πσ2exp

{−1

2(x−m)2

σ2

}e che V sia un rumore di quantizzazione, che tipicamente ha densita uniforme inun intervallo, per cui:

fV (v) ={

1/2v, |v| ≤ v0, |v| > v

La densita di probabilita congiunta e:

fX,Y (x, y) =

{1√

2πσ2

12v exp

{−1

2(x−m)2

σ2

}, |y − x| ≤ v

0, |y − x| > v

Per cui:

fY (y) =∫ y+v

y−v

1√2πσ2

12v

exp{−1

2(x−m)2

σ2

}dx

Per cui lo stimatore a MEQM e:

g∗(y) =∫

xfX,Y (x, y)

fY (y)dx =

∫ y+vy−v x exp

{−1

2(x−m)2

σ2

}dx∫ y+v

y−v exp{−1

2(x−m)2

σ2

}dx

Calcoliamo adesso la migliore stima lineare:

x = `∗(y) = m +Rxy

Ry(y −m)

dove Rxy = Rx = σ2 (poiche X e V sono scorrelati), Ry = Rx + Rv = σ2 + Rv e

Rv =∫ v

−vv2 1

2vdv =

13v2

e quindi:

x = m +σ2

σ2 + 13v2

(y −m) =v2/3

σ2 + v2/3m +

σ2

σ2 + v2/3y

Come si vede la dipendenza da y della stima a MEQM e complicata, perchedipende dalla posizione dell’intervallo in cui cade y, mentre nel caso lineare la stimae molto piu semplice. Si puo calcolare la media condizionata per via numerica,ma se dobbiamo iterare questo tipo di calcolo piu volte si hanno via via perdite diinformazione. �

Esiste tuttavia un caso in cui il migliore stimatore lineare non approssi-ma, ma e il migliore stimatore assoluto: e il caso in cui tutte le densita diprobabilita in gioco sono gaussiane. Vale infatti il seguente teorema.

Teorema 10 Se X e Y sono variabili aleatorie congiuntamente gaussiane,allora `∗(Y ) = g∗(Y ), ovvero lo stimatore a MEQM g∗ e lineare.

43

Page 45: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Infatti

E[X|Y ] =

∫xfX|Y (x|y)dx = mx + RxyR

−1y (Y −my)

eMEQM = Rx −RxyR

−1y Ryx

cioe e lo stesso qualsiasi misura Y facciamo (non dipende dal risultato dellamisura).

Se non abbiamo misure su X allora la stima a MEQM di X e la suamedia, infatti:

ming

E[(X − g)2

]= E

[(X −m)2

]= σ2

mx

my

x

y r

s

Figura 12: ellisse di confidenza e stima lineare.

Dal punto di vista geometrico (fig. 12, in due dimensioni) la migliorestima lineare e rappresentata dalla retta r, passante per il centro dell’ellisse,di equazione

x−mx =Rxy

Ry

(y −my)

mentre la retta s ha equazione

y −my =Rxy

Rx

(x−mx)

Se l’ellisse avesse i semiassi paralleli agli assi cartesiani, cosa che avvienequando il coefficiente di correlazione e pari a zero, la migliore stima risul-terebbe la media qualunque fosse il valore di y. Il fatto e ragionevole, dalmomento che quando le due variabili sono indipendenti la misura dell’unanon da informazione sull’altra.

Esempio: Sia x(t) lo stato del sistema dinamico del primo ordine x = αx, (20.03)α < 0. Siamo interessati alla condizione iniziale x(0), di cui si conoscono la mediam(0) = E[x(0)] e la varianza R(0) = E

[(x(0)−m(0))2

]. Facciamo delle misure

su x agli istanti t1, t2, . . . , tk e in ciascun istante misuriamo y(ti) = x(ti) + v(ti),dove il disturbo di misura e tale che E[v(t)] = 0 e E[v2(t)] = σ2

v . Volendo risalirea x(0) ci chiediamo:

44

Page 46: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

1) qual e la politica ottima delle misure?

2) al crescere del numero delle misure, l’incertezza su x(0) va a zero?

Che relazione c’e fra la misura e x(0)? Poiche il sistema e del primo ordine abbiamox(t) = eαtx(0), quindi misuriamo: y(t) = eαtx(0) + v(t).

L’errore quadratico medio e:

Rx = Rx −RxyR−1y Ryx = R(0)− e2αtR2(0)

e2αtR(0) + σ2v

=R(0)σ2

v

e2αtR(0) + σ2v

per cui:R−1

x = R(0)−1 + e2αtσ−2v

Ad ogni nuova misura si puo utilizzare non l’informazione a priori all’istanteiniziale, ma quella all’istante precedente; si ottiene cosı la formula ricorsiva:

R−1x (tk+1) = R−1

x (tk) + e2αtk+1σ−2v

da cui si ricava:

R−1x (tk) =

(k∑

i=1

(e2α)ti

)σ−2

v + R−1x (0)

Poiche α < 0, e2α < 1 e quindi piu grande e ti e piu piccolo e il coefficiente diσ2

v , ovvero con il passare del tempo le misure ci danno sempre meno informazione.Questo lo si puo capire considerando che il rumore ha intensita costante, mentreil segnale si attenua con il tempo.

Supponiamo che l’intervallo minimo tra due misure sia ∆, quindi tk = k∆;allora:

R−1x (ti) =

(k∑

i=1

(e2α∆)i

)σ−2

v + R−1x (0)

Per avere l’incertezza che tende a zero, dobbiamo avere l’informazione che va al-l’infinito, cioe deve divergere la serie; ma essendo α < 0, qualsiasi ∆ prendiamoe2α∆ < 1 e quindi la serie non diverge: anche facendo infinite misure non siamo ingrado di stimare esattamente x(0). �

Il limite di Cramer–Rao. Nella teoria della stima esistono due approcci:quello Bayesiano, in cui il legame fra le variabili aleatorie X e Y e espressotramite la densita di probabilita congiunta fX,Y (x, y), e quello classico (o nonBayesiano) in cui X e completamente sconosciuta, ma il legame fra X e Y eespresso dal modo in cui cambia la fY (y|x) a seconda del valore assunto daX.

Nel contesto Bayesiano, preso uno stimatore g(·) : RY → RX , l’errorequadratico medio dipendeva solo da g:

V (g) = E[(X − g(Y ))2

]=

∫(x− g(y))2fX,Y (x, y)dxdy

e lo stimatore ottimo doveva soddisfare a:

V (g∗) ≤ V (g), ∀g

45

Page 47: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

In un contesto classico invece si fissa un valore di X e si osserva comevaria l’errore di stima al variare di Y :

V (g, x) = Ey

[(X − g(Y ))2

]=

∫(x− g(y))2fY (y|x)dy

che e una funzione di x. In questo caso le richieste a cui deve soddisfare lostimatore ottimo sono due:

1) non polarizzazione, ovvero la media degli errori di stima deve esserenulla:

Ey [x− g∗(Y )] =

∫(x− g∗(y))fY (y|x)dy = 0, ∀x

2) minimo errore quadratico medio, ovvero:

V (g∗, x) ≤ V (g, x), ∀g non polarizzato, ∀x

Il seguente teorema ci dice che esiste un limite inferiore per l’errore quadraticomedio.

Teorema 11 (di Cramer–Rao) Sia g uno stimatore non polarizzato, se ledensita di probabilita sono “sufficientemente regolari”, allora:

V (g, x) ≥ (M(x))−1

dove M(x) prende il nome di quantita di informazione di Fisher:

M(x) = Ey

[(∂ ln f(y|x)

∂x

)2]

=

∫ (∂ ln f(y|x)

∂x

)2

f(y|x)dy

Il teorema vale anche se la grandezza da stimare e vettoriale (θ): in talcaso M(θ) e la matrice di informazione di Fisher ed e definita da

M(θ) = Ey

[(∇f(y|θ)

)(∇f(y|θ)

)T]

Esempio: Sia X incognita e Y (i) = X + V (i), i = 1, . . . , N , dove V (i) ∼N(0, σ2

i ), ovvero possiamo pensare di usare sensori che hanno precisioni di misuradiverse. Si ipotizza che disturbo e misure siano indipendenti, per cui fY (y|x) =fV (y − 1x), dove:

y =

y1...

yN

, 1 =

1...1

Poiche tutti gli N disturbi sono gaussiani:

fY (y|x) =N∏

i=1

fVi(y(i)− x) =N∏

i=1

1√2πσ2

i

exp{−1

2(y(i)− x)2

σ2i

}

46

Page 48: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

che e una funzione di N variabili.Calcoliamo adesso M(x):

ln fY (y|x) =N∑

i=1

ln1√2πσ2

i

− 12

(y(i)− x)2

σ2i

∂ ln fY (y|x)

∂x=

N∑i=1

y(i)− x

σ2i

=N∑

i=1

v(i)σ2

i

I disturbi sono scorrelati, pertanto quadrando e facendo il valore atteso:

Ey

∑i,j

v(i)v(j)σ2

i σ2j

= Ev

∑i,j

v(i)v(j)σ2

i σ2j

= Ev

[N∑

i=1

v(i)2

σ4i

]=

N∑i=1

1σ2

i

Per cui:

M(x) =N∑

i=1

1σ2

i

cioe e una costante (non dipende da x).Ci chiediamo ora se esiste uno stimatore per cui V (g, x) coincide con M(x). Se

tale stimatore esistesse non sarebbe possibile trovarne uno migliore. Prendiamouno stimatore lineare che pesi maggiormente le varianze di disturbo piu piccole:

g(y) =N∑

i=1

giy(i), gi ∼1σ2

i

Lo stimatore deve essere non polarizzato, ovvero:

E

[N∑

i=1

giy(i)

]=

N∑i=1

giE[x + v(i)] =N∑

i=1

gix = x, ∀x

e quindi abbiamo il vincolo:N∑

i=1

gi = 1

Sia

λ =N∑

i=1

1σ2

i

allora gi = 1/λg2i . Per questo stimatore l’errore di stima

x− g(y) = x−N∑

i=1

gi(x + v(i)) = −N∑

i=1

giv(i)

non dipende dal valore di x; inoltre:

Ey

[(x− g(y))2

]= Ev

∑i,j

gigjv(i)v(j)

= Ev

[N∑

i=1

g2i v(i)2

]=

N∑i=1

g2i σ

2i =

47

Page 49: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

che e proprio pari a M(x)−1, per cui g e il miglior stimatore possibile. �

Esempio: Sia Y (i) = X + V (i), i = 1, . . . , N , dove V (i) ∼ N(0, σ2) e σ2 none noto. Il parametro incognito e quindi vettoriale, θ = [x σ2]T :

f(y|θ) = f(y|x, σ2) =(

1√2πσ2

)N

exp

{−1

2

N∑i=1

(y(i)− x)2

σ2

}

e quindi:

ln[f(y|x, σ2] = N ln(

1√2πσ2

)− 1

2

N∑i=1

(y(i)− x)2

σ2

Da cui:

∇ ln f =[∂ ln f

∂x

∂ ln f

∂σ2

]=

[N∑

i=1

y(i)− x

σ2− N

2σ2+

12

N∑i=1

(y(i)− x)2

σ4

]

Prendendo la matrice ottenuta facendo il prodotto

(∇ ln f)(∇ ln f)T

e calcolandone il valore atteso si trova la matrice di informazione di Fisher. Conclu-dendo l’esercizio si potra vedere che poiche tutte le misure hanno la stessa varianza(σ2) la migliore stima di x risulta la media, mentre non e possibile trovare unostimatore per σ2 il cui errore quadratico medio sia pari all’inverso della matrice diFisher: in questo caso il problema non ammette soluzione ottimale. �

Definiamo il concetto di stimatore efficiente: uno stimatore g∗ si diceefficiente se:

• e non polarizzato, E[g∗] = x.

• V (g∗, x) = M(x)−1

Fatto 12 Non tutti i problemi di stima ammettono lo stimatore efficiente.

Teorema 13 Se lo stimatore efficiente esiste, allora e quello di massimaverosimiglianza, dove la stima di massima verosimiglianza e:

g∗(y) = arg maxx{fY (y|x)}

e f(y|x) e detta funzione di massima verosimiglianza di x.

Esempio: Riprendendo l’esempio precedente, fissiamo y e cerchiamo la stima (22.03)a massima verosimiglianza calcolando il massimo rispetto a θ:

maxθ{ln f(y|θ)} = max

θ

{−N

2ln(2πσ2)− 1

2

N∑i=1

(yi − x)2

σ2

}

48

Page 50: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Le componenti del gradiente sono:

∂ ln f

∂x=

N∑i=1

yi − x

σ2

∂ ln f

∂σ2= − N

2σ2+

12σ4

N∑i=1

(yi − x)2

quindi uguagliandole a zero otteniamo:

xML =1N

N∑i=1

yi σ2ML =

1N

N∑i=1

(yi − xML)2

Quindi la stima a massima verosimiglianza, quando il disturbo e gaussiano, e lamedia l’aritmetica; inoltre mentre la stima di x non dipende da σ2, la stima di σ2

cambia a seconda se conosco o meno x.Calcoliamo la matrice di informazione di Fisher:

M11 = E

( N∑i=1

(yi − x)/σ2

)2 = E

( N∑i=1

vi/σ2

)2 =

N∑i=1

E[v2i ]/σ4 =

N

σ2

M12 = E

[(N∑

i=1

vi/σ2

)(− N

2σ2+

12

N∑i=1

v2i /σ4

)]= 0 ⇒ M21 = 0

dove si e sfruttata la proprieta che per fenomeni gaussiani i momenti dispari diordine superiore al primo sono tutti nulli, per cui E[v3

i ] = 0, e:

M22 = E

(− N

2σ2+

12

N∑i=1

v2i /σ4

)2 =

N2

4σ4− 2

N

2σ2

N

2σ4σ2 +

14σ8

E

∑i,j

v2i v

2j

=

= −N2

4σ4+

14σ4

∑i,j:i6=j

E[v2i v

2j ] +

∑i=j

E[v2i v

2j︸︷︷︸

v4i

] =N

2σ4

poiche il momento del quarto ordine di una gaussiana vale 3σ4. Abbiamo quindi:

M =[

Nσ2 00 N

2σ4

]⇒ M−1 =

[σ2

N 00 2σ4

N

]per cui l’informazione e proporzionale al numero delle misure N e inversamenteproporzionale alla varianza del disturbo.

Analizziamo la polarizzazione:

E[xML] = E

[1N

N∑i=1

(x + vi)

]= E[x] +

1N

E

[N∑

i=1

vi

]= x

e dunque questo stimatore non e polarizzato; invece:

E[σ2ML] =

1N

E

[N∑

i=1

(yi − xML)2]

= · · · = N − 1N

σ2 < σ2

cioe lo stimatore σ2ML e polarizzato e sottostima la varianza. Tuttavia per N

elevato la sottostima e trascurabile (l’espressione generale per m gradi di liberta

49

Page 51: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

sarebbe [(N−m)/N ]σ2 e quindi piu gradi di liberta ci sono, di piu misure abbiamobisogno per tenere bassa la sottostima). Lo stimatore

σ2NP =

N

N − 1σ2

ML

invece non e polarizzato (E[σ2NP ] = σ2), ma si puo dimostrare che mentre per la

relazione

Ey

[(xML − x)2

]≥ σ2

N

vale l’uguaglianza e quindi si ha una stima efficiente, per la relazione

E[(σ2

NP − σ2)2]≥ 2σ4

N

vale il maggiore stretto4 e quindi σ2NP non e efficiente. D’altra parte se avessimo

l’uguaglianza violeremmo il teorema (13) che dice che se esiste uno stimatore effi-ciente allora e quello di massima verosimiglianza. �

Filtro di Kalman. Il filtro di Kalman e un’applicazione della stima lineare (27.03)

a minimo errore quadratico medio, storicamente nata in ambito aerospaziale,che cerca di determinare ricorsivamente lo stato di un sistema dinamico dallemisure ingresso–uscita.

Si considera percio il sistema S tempo–discreto descritto dalle equazioni:

x(k + 1) = Ax(k) + Bu(k) + w(k)y(k) = Cx(k) + v(k)

dove w(k) e un disturbo di processo, mentre v(k) e un disturbo di misura:quindi dobbiamo stimare qualcosa che evolve nel tempo e lo fa in manieraaleatoria. Affinche la complessita della stima non cresca nel tempo dobbiamoricorsivamente aggiornare lo stato ad ogni nuovo dato in ingresso. L’obiettivoe quello di stimare x(k) sulla base di misure {y(0), . . . , y(J)}. Introduciamola notazione secondo cui x(k|J) rappresenta la stima dello stato all’istantek basata sulle osservazioni fino all’istante J . Si possono cosı distinguere tretipi di stima:

• se k > J : predizione (stima predittiva)

• se k = J : filtraggio (utile nel controllo)

• se k < J : interpolazione (stima interpolante, “smoothing”)

L’errore di stima si indica con

x(k|J) = x(k)− x(k|J)

4vale 2σ4/(N − 1) > 2σ4/N .

50

Page 52: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

e la sua matrice di varianza e:

P (k|J) = E[x(k|J)x(k|J)T

]La stima migliore e quella che minimizza P (k|J). Essendo

x(k|J) = `(y(0), . . . , y(J))

cioe combinazione lineare delle misure, vogliamo il

min`(·)

P (k|J)

La condizione iniziale ha una densita di probabilita di cui conosciamo la me-dia e la varianza: x(0) ∼ (m0, P0). Le altre informazioni a priori riguardanoi disturbi: w(k) ∼ (mw, Q) e v(k) ∼ (mv, R). Dobbiamo poi ipotizzare chei valori di w e v in istanti diversi siano scorrelati, ovvero che siano processibianchi, e che w e v siano scorrelati tra loro e con la condizione iniziale (comee ragionevole aspettarsi).

In un primo momento semplifichiamo il problema imponendo le seguentisemplificazioni:

u(k) ≡ 0 mw, mv, m0 = 0

dalle quali si ottiene il sistema semplificato:x(k + 1) = Ax(k) + w(k) ∼ (0, Q)y(k) = Cx(k) + v(k) ∼ (0, R)x(0) ∼ (0, P0)

La stima dipende da due indici, per cui dobbiamo decidere quale politicaadottare per l’incremento di questi. Dal momento che risulta piu facile lapredizione che l’interpolazione, la struttura ricorsiva che utilizza il filtro diKalman e la seguente:

x(k|k − 1) −→ x(k|k) −→ x(k + 1|k)

ovvero si parte da una stima predittiva per arrivare ad una stima filtratae poi ricominciare. Inoltre per poter aggiornare x occorre conoscere la ma-trice P , quindi dobbiamo aggiornare contemporaneamente stima e varianzadell’errore di stima (fig. 13).

Il processo di aggiornamento si divide in due parti: una fase di aggior-namento alla misura, dove si suppone di conoscere l’uscita y(k), e la fase diaggiornamento temporale.

Aggiornamento alla misura. Conosciamo il vettore x(k|k− 1), che ela stima a MEQM di x(k) basata su {y(i)}k−1

i=0 , e P (k|k−1). Possiamo fare lapredizione della prossima misura di uscita sulla base della stima dello statoal prossimo istante:

y(k|k − 1) = Cx(k|k − 1)

51

Page 53: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

P (k|k − 1) P (k|k) P (k + 1|k)

x(k + 1|k)

x(k + h|k)y(k)

x(k|k − 1) x(k|k)

agg. temporaleagg. alla misura

Figura 13: aggiornamento del filtro di Kalman.

La grandezza che a questo punto ci interessa e la distanza fra la misuradell’uscita e la predizione:

y(k)− y(k|k − 1) = e(k)

Da cosa e determinato questo errore?

e(k) = Cx(k) + v(k)− Cx(k|k − 1) = Cx(k|k − 1) + v(k)

Quindi l’errore e determinato dal disturbo di misura v(k) e dall’imprecisionedella stima.

O

e(k)

y(k)

y(k|k − 1)

H

span {y(0, . . . , y(k − 1)}

Figura 14: e(k) e ortogonale al sottospazio delle misure fino a k − 1.

Osserviamo (fig. 14) che e(k) e ortogonale a y(j) per j < k, quindi eincorrelato anche con e(k− 1) (dato che e(k− 1) ∈ span {y(i)}k−1

i=0 ). Dunquee(k) e un processo bianco, detto anche processo delle innovazioni del processoy(k), dal momento che dice “cosa c’e di nuovo” in y(k) che non era prevedibiledalle misure passate.

y(k) = y(k|k − 1) + e(k) = Cx(k|k − 1) + e(k)

Possiamo cosı associare al processo y un altro processo con lo stesso contenutoinformativo (e(k)) ma scorrelato. Normalmente la varianza di e e molto piupiccola di quella di y.

E[e(k)e(k)T ] = E[(Cx(k|k − 1) + v(k))(Cx(k|k − 1) + v(k))T

]=

= CE[x(k|k − 1)x(k|k − 1)T ]CT + E[v(k)v(k)T ] + 0 + 0 =

= CP (k|k − 1)CT + R = G(k)

52

Page 54: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

La varianza incrociata tra e e x vale:

E[x(k)e(k)T ] = E[(x(k|k − 1) + x(k|k − 1))e(k)T ] =

= E[x(k|k − 1)e(k)T ] + 0 = E[x(k|k − 1)(x(k|k − 1)T CT + v(k)T )] =

= P (k|k − 1)CT

x(k|k) e la proiezione ortogonale di x nel sottospazio H fino all’istante k.Introduciamo la notazione yk = {y(i)}k

i=0; abbiamo:

x(k|k) = π[x(k)|yk] = π[x(k)|yk−1, e(k)]

ma dato che e e ortogonale a yk−1:

x(k|k) = π[x(k)|yk−1] + π[x(k)|e(k)] =

= x(k|k − 1) + E[x(k)e(k)T ](E[e(k)e(k)T ]

)−1e(k) =

= x(k|k − 1) + P (k|k − 1)CT G(k)−1(y(k)− Cx(k|k − 1)) (37)

dove si e usata la migliore stima di x basata sulla sola conoscenza di e(RxeR

−1e e).

Troviamo adesso l’aggiornamento della matrice

P (k|k) = E[x(k|k)x(k|k)T ]

dove

x(k|k) = x(k)− x(k|k) = x(k)− x(k|k − 1)− P (k|k − 1)CT G(k)−1e(k) =

= x(k|k − 1)− P (k|k − 1)CT G(k)−1e(k)

Quindi

P (k|k) = P − PCT G−1CP − PCT G−1CP + PCT G−1GG−1CP =

= P (k|k − 1)− P (k|k − 1)CT G(k)−1CP (k|k − 1)

Si puo dimostrare che quest’ultima relazione equivale a:

P (k|k)−1 = P (k|k − 1)−1 + CT R−1C

che ci dice come si aggiorna l’informazione sullo stato per effetto della misura.E un’espressione piu semplice, ma per essere usata dovremmo invertire lamatrice ad ogni passo.

Aggiornamento temporale. Siamo arrivati alla seconda fase dell’ag-giornamento del filtro di Kalman. Osservando che il disturbo w(k) e incor-relato con tutte le misure fino all’istante k, abbiamo:

x(k + 1|k) = π[x(k + 1)|yk] = Ax(k|k) + π[w(k)|yk] = Ax(k|k)

53

Page 55: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Quindi

x(k + 1|k) = x(k + 1)− x(k + 1|k) = Ax(k|k) + w(k)

per cui la relativa varianza e:

P (k + 1|k) = E[x(k + 1|k)x(k + 1|k)T ] = AP (k|k)AT + Q

ovvero la varianza evolve in presenza di due effetti: un aumento della varianzadovuto al disturbo w e una dinamica di sistema che riduce la varianza quandoA e stabile.

Al filtro di Kalman adesso manca solo l’inizializzazione, che si puo espri-mere cosı: {

x(0| − 1) = m0

P (0| − 1) = P0

Fra le ipotesi iniziali abbiamo imposto un ingresso u(k) identicamentenullo; in presenza di un ingresso l’aggiornamento della misura non cambia,mentre quello temporale diventa:

x(k + 1|k) = Ax(k|k) + Bu(k)

Se inoltre rimuoviamo l’ipotesi mv, mw = 0 l’aggiornamento della misuraviene cosı modificato rispetto alla (37):

x(k|k) = x(k|k − 1) + P (k|k − 1)CT G(k)−1(y(k)− Cx(k|k − 1)−mv)

mentre l’aggiornamento temporale diventa:

x(k + 1|k) = Ax(k|k) + Bu(k) + mw

Vediamo come l’innovazione viene moltiplicata per un guadagno

K(k) = P (k|k − 1)CT G(k)−1

che prende il nome di guadagno di Kalman.Se uniamo i due passaggi in un’unica equazione otteniamo

P (k + 1|k) = AP (k|k − 1)AT + Q−− AP (k|k − 1)CT (CP (k|k − 1)CT + R)−1CP (k|k − 1)AT

che e l’equazione di Riccati tempo–discreta: questo ci fa capire che c’e unaforte connessione fra il filtro di Kalman ed il controllo LQ.

Confrontiamo adesso i risultati del filtro di Kalman con il ricostruttore (oosservatore dello stato, vedi fig. 15), che come vedremo e ad esso collegato.L’equazione dell’errore di ricostruzione e:

x(k + 1|k) = A(I −KC)x(k|k − 1)

54

Page 56: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

sistemacon statoinaccessibile

B

B

+ z−1

A

AK

C

C

A

z−1

ricostruttore

+

x(0)

x(k)

x(0)w(k) v(k)

e(k)

+ +x(k+1)

x(k|k−1)x(k+1|k)

u(k) y(k)

y(k|k−1)

Figura 15: schema di un ricostruttore.

dove K e la matrice di guadagno del ricostruttore e A(I −KC) deve esserestabile. Se scegliessimo K in modo tale che l’errore vada a zero il piu velo-cemente possibile (come ci suggerisce la Teoria dei Sistemi, che considera ilcaso ideale) esalteremmo anche le dinamiche dovute alle approssimazioni eai disturbi. Dobbiamo quindi tener conto del modello reale, comprensivo deidisturbi v(k) e w(k). L’equazione dell’errore di ricostruzione diventa allora:

x(k + 1|k) = A(I −KC)x(k|k − 1) + w(k)− AKv(k)

dove A(I −KC) deve essere stabile. La varianza dell’errore di stima vale:

P (k + 1|k) = A(I −KC)P (k|k − 1)(I −KC)T AT + Q +

+ AKRKT AT (38)

Si pone il problema in questi termini: trovare K tale che minimizzi (38).Ma questo K dipendera dall’istante k e sara:

K(k) = P (k|k − 1)CT G(k)−1

ovvero il guadagno di Kalman. Quindi il filtro di Kalman e un ricostruttoretempo–variante che minimizza la matrice di varianza dell’errore di stima(risolve il problema di ottimizzazione ad ogni passo).

55

Page 57: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

GNU Free Documentation LicenseVersion 1.1, March 2000

Copyright c© 2000 Free Software Foundation, Inc.59 Temple Place, Suite 330, Boston, MA 02111-1307 USAEveryone is permitted to copy and distribute verbatim copies of this license document, but changing it isnot allowed.

0. PreambleThe purpose of this License is to make a manual, textbook, or other written document “free” in thesense of freedom: to assure everyone the effective freedom to copy and redistribute it, with or withoutmodifying it, either commercially or noncommercially. Secondarily, this License preserves for the authorand publisher a way to get credit for their work, while not being considered responsible for modificationsmade by others.

This License is a kind of “copyleft”, which means that derivative works of the document must them-selves be free in the same sense. It complements the GNU General Public License, which is a copyleftlicense designed for free software.

We have designed this License in order to use it for manuals for free software, because free softwareneeds free documentation: a free program should come with manuals providing the same freedoms thatthe software does. But this License is not limited to software manuals; it can be used for any textual work,regardless of subject matter or whether it is published as a printed book. We recommend this Licenseprincipally for works whose purpose is instruction or reference.

1. Applicability and DefinitionsThis License applies to any manual or other work that contains a notice placed by the copyright holdersaying it can be distributed under the terms of this License. The “Document”, below, refers to any suchmanual or work. Any member of the public is a licensee, and is addressed as “you”.

A “Modified Version” of the Document means any work containing the Document or a portion of it,either copied verbatim, or with modifications and/or translated into another language.

A “Secondary Section” is a named appendix or a front-matter section of the Document that dealsexclusively with the relationship of the publishers or authors of the Document to the Document’s overallsubject (or to related matters) and contains nothing that could fall directly within that overall subject.(For example, if the Document is in part a textbook of mathematics, a Secondary Section may not explainany mathematics.) The relationship could be a matter of historical connection with the subject or withrelated matters, or of legal, commercial, philosophical, ethical or political position regarding them.

The “Invariant Sections” are certain Secondary Sections whose titles are designated, as being thoseof Invariant Sections, in the notice that says that the Document is released under this License.

The “Cover Texts” are certain short passages of text that are listed, as Front-Cover Texts or Back-Cover Texts, in the notice that says that the Document is released under this License.

A “Transparent” copy of the Document means a machine-readable copy, represented in a formatwhose specification is available to the general public, whose contents can be viewed and edited directlyand straightforwardly with generic text editors or (for images composed of pixels) generic paint programsor (for drawings) some widely available drawing editor, and that is suitable for input to text formattersor for automatic translation to a variety of formats suitable for input to text formatters. A copy made inan otherwise Transparent file format whose markup has been designed to thwart or discourage subsequentmodification by readers is not Transparent. A copy that is not “Transparent” is called “Opaque”.

Examples of suitable formats for Transparent copies include plain ASCII without markup, Texinfo in-put format, LATEX input format, SGML or XML using a publicly available DTD, and standard-conformingsimple HTML designed for human modification. Opaque formats include PostScript, PDF, proprietaryformats that can be read and edited only by proprietary word processors, SGML or XML for which theDTD and/or processing tools are not generally available, and the machine-generated HTML produced bysome word processors for output purposes only.

The “Title Page” means, for a printed book, the title page itself, plus such following pages as areneeded to hold, legibly, the material this License requires to appear in the title page. For works in formatswhich do not have any title page as such, “Title Page” means the text near the most prominent appearanceof the work’s title, preceding the beginning of the body of the text.

2. Verbatim CopyingYou may copy and distribute the Document in any medium, either commercially or noncommercially,provided that this License, the copyright notices, and the license notice saying this License applies to theDocument are reproduced in all copies, and that you add no other conditions whatsoever to those of thisLicense. You may not use technical measures to obstruct or control the reading or further copying of the

56

Page 58: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

copies you make or distribute. However, you may accept compensation in exchange for copies. If youdistribute a large enough number of copies you must also follow the conditions in section 3.

You may also lend copies, under the same conditions stated above, and you may publicly displaycopies.

3. Copying in QuantityIf you publish printed copies of the Document numbering more than 100, and the Document’s licensenotice requires Cover Texts, you must enclose the copies in covers that carry, clearly and legibly, all theseCover Texts: Front-Cover Texts on the front cover, and Back-Cover Texts on the back cover. Both coversmust also clearly and legibly identify you as the publisher of these copies. The front cover must presentthe full title with all words of the title equally prominent and visible. You may add other material on thecovers in addition. Copying with changes limited to the covers, as long as they preserve the title of theDocument and satisfy these conditions, can be treated as verbatim copying in other respects.

If the required texts for either cover are too voluminous to fit legibly, you should put the first oneslisted (as many as fit reasonably) on the actual cover, and continue the rest onto adjacent pages.

If you publish or distribute Opaque copies of the Document numbering more than 100, you musteither include a machine-readable Transparent copy along with each Opaque copy, or state in or with eachOpaque copy a publicly-accessible computer-network location containing a complete Transparent copy ofthe Document, free of added material, which the general network-using public has access to downloadanonymously at no charge using public-standard network protocols. If you use the latter option, you musttake reasonably prudent steps, when you begin distribution of Opaque copies in quantity, to ensure thatthis Transparent copy will remain thus accessible at the stated location until at least one year after thelast time you distribute an Opaque copy (directly or through your agents or retailers) of that edition tothe public.

It is requested, but not required, that you contact the authors of the Document well before redistri-buting any large number of copies, to give them a chance to provide you with an updated version of theDocument.

4. ModificationsYou may copy and distribute a Modified Version of the Document under the conditions of sections 2 and3 above, provided that you release the Modified Version under precisely this License, with the ModifiedVersion filling the role of the Document, thus licensing distribution and modification of the ModifiedVersion to whoever possesses a copy of it. In addition, you must do these things in the Modified Version:

• Use in the Title Page (and on the covers, if any) a title distinct from that of the Document, andfrom those of previous versions (which should, if there were any, be listed in the History sectionof the Document). You may use the same title as a previous version if the original publisher ofthat version gives permission.

• List on the Title Page, as authors, one or more persons or entities responsible for authorship ofthe modifications in the Modified Version, together with at least five of the principal authors ofthe Document (all of its principal authors, if it has less than five).

• State on the Title page the name of the publisher of the Modified Version, as the publisher.

• Preserve all the copyright notices of the Document.

• Add an appropriate copyright notice for your modifications adjacent to the other copyright notices.

• Include, immediately after the copyright notices, a license notice giving the public permission touse the Modified Version under the terms of this License, in the form shown in the Addendumbelow.

• Preserve in that license notice the full lists of Invariant Sections and required Cover Texts givenin the Document’s license notice.

• Include an unaltered copy of this License.

• Preserve the section entitled “History”, and its title, and add to it an item stating at least thetitle, year, new authors, and publisher of the Modified Version as given on the Title Page. If thereis no section entitled “History” in the Document, create one stating the title, year, authors, andpublisher of the Document as given on its Title Page, then add an item describing the ModifiedVersion as stated in the previous sentence.

57

Page 59: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

• Preserve the network location, if any, given in the Document for public access to a Transparentcopy of the Document, and likewise the network locations given in the Document for previousversions it was based on. These may be placed in the “History” section. You may omit a networklocation for a work that was published at least four years before the Document itself, or if theoriginal publisher of the version it refers to gives permission.

• In any section entitled “Acknowledgements” or “Dedications”, preserve the section’s title, andpreserve in the section all the substance and tone of each of the contributor acknowledgementsand/or dedications given therein.

• Preserve all the Invariant Sections of the Document, unaltered in their text and in their titles.Section numbers or the equivalent are not considered part of the section titles.

• Delete any section entitled “Endorsements”. Such a section may not be included in the ModifiedVersion.

• Do not retitle any existing section as “Endorsements” or to conflict in title with any InvariantSection.

If the Modified Version includes new front-matter sections or appendices that qualify as SecondarySections and contain no material copied from the Document, you may at your option designate some or allof these sections as invariant. To do this, add their titles to the list of Invariant Sections in the ModifiedVersion’s license notice. These titles must be distinct from any other section titles.

You may add a section entitled “Endorsements”, provided it contains nothing but endorsements ofyour Modified Version by various parties – for example, statements of peer review or that the text hasbeen approved by an organization as the authoritative definition of a standard.

You may add a passage of up to five words as a Front-Cover Text, and a passage of up to 25 wordsas a Back-Cover Text, to the end of the list of Cover Texts in the Modified Version. Only one passage ofFront-Cover Text and one of Back-Cover Text may be added by (or through arrangements made by) anyone entity. If the Document already includes a cover text for the same cover, previously added by you orby arrangement made by the same entity you are acting on behalf of, you may not add another; but youmay replace the old one, on explicit permission from the previous publisher that added the old one.

The author(s) and publisher(s) of the Document do not by this License give permission to use theirnames for publicity for or to assert or imply endorsement of any Modified Version.

5. Combining DocumentsYou may combine the Document with other documents released under this License, under the termsdefined in section 4 above for modified versions, provided that you include in the combination all of theInvariant Sections of all of the original documents, unmodified, and list them all as Invariant Sections ofyour combined work in its license notice.

The combined work need only contain one copy of this License, and multiple identical InvariantSections may be replaced with a single copy. If there are multiple Invariant Sections with the same namebut different contents, make the title of each such section unique by adding at the end of it, in parentheses,the name of the original author or publisher of that section if known, or else a unique number. Make thesame adjustment to the section titles in the list of Invariant Sections in the license notice of the combinedwork.

In the combination, you must combine any sections entitled “History” in the various original docu-ments, forming one section entitled “History”; likewise combine any sections entitled “Acknowledgements”,and any sections entitled “Dedications”. You must delete all sections entitled “Endorsements.”

6. Collections of DocumentsYou may make a collection consisting of the Document and other documents released under this License,and replace the individual copies of this License in the various documents with a single copy that isincluded in the collection, provided that you follow the rules of this License for verbatim copying of eachof the documents in all other respects.

You may extract a single document from such a collection, and distribute it individually under thisLicense, provided you insert a copy of this License into the extracted document, and follow this Licensein all other respects regarding verbatim copying of that document.

7. Aggregation With Independent WorksA compilation of the Document or its derivatives with other separate and independent documents or works,in or on a volume of a storage or distribution medium, does not as a whole count as a Modified Versionof the Document, provided no compilation copyright is claimed for the compilation. Such a compilationis called an “aggregate”, and this License does not apply to the other self-contained works thus compiled

58

Page 60: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

with the Document, on account of their being thus compiled, if they are not themselves derivative worksof the Document.

If the Cover Text requirement of section 3 is applicable to these copies of the Document, then if theDocument is less than one quarter of the entire aggregate, the Document’s Cover Texts may be placedon covers that surround only the Document within the aggregate. Otherwise they must appear on coversaround the whole aggregate.

8. TranslationTranslation is considered a kind of modification, so you may distribute translations of the Document underthe terms of section 4. Replacing Invariant Sections with translations requires special permission fromtheir copyright holders, but you may include translations of some or all Invariant Sections in addition tothe original versions of these Invariant Sections. You may include a translation of this License providedthat you also include the original English version of this License. In case of a disagreement between thetranslation and the original English version of this License, the original English version will prevail.

9. TerminationYou may not copy, modify, sublicense, or distribute the Document except as expressly provided for underthis License. Any other attempt to copy, modify, sublicense or distribute the Document is void, and willautomatically terminate your rights under this License. However, parties who have received copies, orrights, from you under this License will not have their licenses terminated so long as such parties remainin full compliance.

10. Future Revisions of This LicenseThe Free Software Foundation may publish new, revised versions of the GNU Free Documentation Licensefrom time to time. Such new versions will be similar in spirit to the present version, but may differ indetail to address new problems or concerns. See http://www.gnu.org/copyleft/.

Each version of the License is given a distinguishing version number. If the Document specifies thata particular numbered version of this License or any later version applies to it, you have the option offollowing the terms and conditions either of that specified version or of any later version that has beenpublished (not as a draft) by the Free Software Foundation. If the Document does not specify a versionnumber of this License, you may choose any version ever published (not as a draft) by the Free SoftwareFoundation.

ADDENDUM: How to use this License for your

documentsTo use this License in a document you have written, include a copy of the License in the document andput the following copyright and license notices just after the title page:

Copyright c© YEAR YOUR NAME. Permission is granted to copy, distribute and/ormodify this document under the terms of the GNU Free Documentation License, Version1.1 or any later version published by the Free Software Foundation; with the InvariantSections being LIST THEIR TITLES, with the Front-Cover Texts being LIST, and withthe Back-Cover Texts being LIST. A copy of the license is included in the section entitled“GNU Free Documentation License”.

If you have no Invariant Sections, write “with no Invariant Sections” instead of saying which ones areinvariant. If you have no Front-Cover Texts, write “no Front-Cover Texts” instead of “Front-Cover Textsbeing LIST”; likewise for Back-Cover Texts.

If your document contains nontrivial examples of program code, we recommend releasing these exam-ples in parallel under your choice of free software license, such as the GNU General Public License, topermit their use in free software.

59

Page 61: Appunti di Identificazione dei Modelli e Analisi dei …laura.giarre/corsoide/zappa.pdfAppunti di Identificazione dei Modelli e Analisi dei Dati Massimo Mangoni

Indice analitico

aliasing, 10analisi incrociata, 12auto-regressive integrated moving-

average, 21autocorrelazione, 4autoregressivi

processi, 18

coefficiente di correlazione, 4correlogramma, 7covarianza incrociata, 12

densita di probabilita, 2densita spettrale di potenza, 6deviazione standard, 4

fattore spettrale, 14fattore spettrale canonico, 15filtro di Kalman, 50Fisher

quantita di informazione di, 46funzione di covarianza, 4funzione di media, 4funzione di trasferimento

passa–tutto, 15funzione di varianza, 4

guadagno di Kalman, 54

inferenza, 36informazione, 39

massima verosimiglianza, 48media condizionata

operatore di, 42moto browniano, 22Moving Average, 18

operatore di media, 4

periodogramma, 8processi congiuntamente staziona-

ri, 12processo di Wiener, 22processo esponenzialmente correla-

to, 5

prodotto scalare in H, 40pulsazione normalizzata, 6

random walk, 22realizzazione di un sistema, 31realizzazioni, 2regressione, 18rumore bianco, 6

spettro, 6stazionarieta, 3stimatore, 36stimatore efficiente, 48

Tœplitzmatrice di, 21

traiettorie, 2

valore medio, 3variabile aleatoria, 2varianza, 3

Youle–Walkerequazione di, 20

60