Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione...

22
Reti Neurali Ricorrenti

Transcript of Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione...

Page 1: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

Reti Neurali Ricorrenti

Page 2: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RETI NEURALI RICORRENTI RR-1

TLFN focused

Elaborazione di informazione temporale

La memoria è portata dentro la rete

TLFN focused

TLFN distribuite

Reti ricorrenti

Semplice addestramento

Sono presenti connessioni ricorrenti tra neuroni diversi

Page 3: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

SEMPLICI TOPOLOGIE RICORRENTISEMPLICI TOPOLOGIE RICORRENTI

Le TLFN focused sono Le TLFN focused sono mappatori universalimappatori universaliMAMApotrebbe essere necessaria una memoria di dimensione enormepotrebbe essere necessaria una memoria di dimensione enorme

RR-2

•Parametri di feedback fissi

•Non c’e ricorrenza I/O (gli output dello strato Context sono come input esterni

controllati dalla rete

11

Input

Context

JORDAN

Input

Context

ELMAN

Page 4: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-3ADATTARE IL PARAMETRO DI FEEDBACKADATTARE IL PARAMETRO DI FEEDBACK

+

y(n)x(n)

Z-1

1 controlla la profondità della memoria

Adattare 1 per minimizzare l’MSE

L’effetto di una variazione di si ripercuote

solo sul campione correntesolo sul campione corrente

L’effetto di una variazione di 1dura per dura per

sempresempre

BP

statica

La BP statica calcola i gradienti per ogni topologia ordinata, secondo una lista di dipendenze topologica che NON considera la dipendenza temporale tra le variabili.

Page 5: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-4

)()1()( 21 nxnyny

Effetto della ricorsione:

L’effetto di un cambiamento di dura persempre

+

y(n)x(n)

Z-1

1

11

2

11

nyny

ny

nxny

Page 6: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-5CRITERIO DI ERRORECRITERIO DI ERRORE

T

n

usciten

mm

T

nn nJJ

0

_

1

2

0

)( Criterio di performance in un intervallo di tempo (T campioni)

(analogo al batch mode)

Learning di traiettorie

usciten

mm nJ

_

1

2 )( Criterio di performance istantaneo

Learning di un punto fisso

Page 7: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

SVOLGERESVOLGERE UNA RETE RICORRENTE NEL TEMPO UNA RETE RICORRENTE NEL TEMPORR-6

Rete ricorrente Mappaggio tempo-

spazio

Rete feedforward con coefficienti ripetuti

BP statica

Ad ogni istante viene creata una porzione della rete svolta e viene posta in cascata con la porzione precedente.

La rete opera per un tempo finito T campioni = T+1 porzioni

Page 8: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-7

+

y1(n)x(n)

Z-1 w1

+y2(n)

)()1()(

)()(

11

112

nxnyny

nywfny

0)0(1 y

Esempio

y1(0)=0

y2(0)=f(w1y1(0))

+

y2(0)=0

y1(0)=0

w1

Page 9: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-8

y1(0)=0

y2(0)

+

w1

+

w1

x(1)

y1(1)

y2(1)

+

w1

x(1)

y1(1)

y2(1)

+

w1

x(T)

y1(T)

y2(T)

•Rete feedforward

•T+1 input

•T+1 output

Page 10: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-9

Lista della dipendenze

L = w1, y1(0) , y2(0), y1(1) , y2(1), …, y1(T), y2(T)

•pesi

•variabili di stato ordinate secondo la topologia

Ora si può applicare la BackPropagation

Page 11: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-10

BACKPROPAGATION THROUGH TIME BACKPROPAGATION THROUGH TIME (BPTT)(BPTT)

Variabile di stato yh(k)

In questo caso h=1,2; k=0,…T

n dipendenze delle variabili a destra della variabile consideratajnella lista ordinata

d contributo diretto alla derivata

Gli altri contributi alla derivata sono indiretti (attraverso la topologia)

Compare il tempo e

l’informazione topologica)(

)(

)()()( ny

y

y

J

ny

J

ny

J

i

jd

n ij ii

d

i

Page 12: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-11

Derivando rispetto ai pesi w = (w1,)

Sommatoria estesa a tutti gli istanti e a tutti gli stati

)(

)(

)()()( ny

y

y

J

ny

J

ny

J

i

jd

n ij ii

d

i

w

ny

ny

J

w

J kd

n k k

)(

)(

Page 13: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-12

n Il calcolo del gradiente è ANTICIPATORIO

Un sistema anticipatorio risponde prima che l’input sia applicato;

NON E’ FISICAMENTE REALIZZABILE

Un sistema anticipatorio è IMPLEMENTABILE in sistemi digitali con memoria.

OsservazioniOsservazioni

VANTAGGIO

Nel calcolo del gradiente compaiono solo dipendenze DIRETTE di

yj() da yi(n)

Page 14: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-13

CALCOLO DEL GRADIENTECALCOLO DEL GRADIENTE

)()()( 22

nny

J

ny

J d

)(

)(

)()(

)1(

)1(0

)( 1

2

21

1

11 ny

ny

ny

J

ny

ny

ny

J

ny

J

Dipendenze dirette

Nel tempo e nella topologia

1221

))((')()1(

wnnetfny

J

ny

J

Page 15: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-14

)1()(

)(

)(

)())((')(

)(

)(

11

1

1

1221

2

21

nyny

Jny

ny

JJ

nynnetfny

J

w

ny

ny

J

w

J

n

d

n

n

d

n

Page 16: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-14

Backpropagation Through Time

la lista ordinata è invertita non solo nella topologia ma anche nel tempo

•Non è locale nel tempo: compare piu’ di un indice temporale nel gradiente

•Ha un alto costo computazionale

•Ha un’elevata occupazione di memoria

•E’ necessaria

se il segnale desiderato è noto solo alla fine della sequenza di learning

se sono presenti feedback.

Page 17: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

REAL TIME RECURRENT LEARNING (RTRL) REAL TIME RECURRENT LEARNING (RTRL) RR-15

Calcolando il gradiente ad ogni time-step:

Dalla regola a catena applicata alla funzione costo

Njinyw

nw

J

n mm

ijm

ij

,,1,

sia: nyw

n mij

mij

la regola a catena otteniamo:

l

iijmljimm

mij nwnynnetfn '

m

mijm

ij

nnw

J

Page 18: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-15

Il RTRL è locale nel tempo

consente IMPLEMENTAZIONE ON LINE

Il RTRL non è locale nello spazio

compaiono le derivate rispetto a tutti i pesi

Page 19: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-16

+

y1(n)x(n)

Z-1 w

+y2(n)

)()1()(

)()(

11

112

nxnyny

nywfny

y2(n)=f( w1y1(n-1)+w1x(n) ) 1 uscita

w1 , , 2 pesi

f’<1

Page 20: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RR-

Rete costituita da N neuroni totalmente connessi; T campioni

N2 pesi

N3 gradienti a campione

O(N) operazioni/gradiente

O(N4) operazioni a campione

O(TN4) operazioni

O(N3) variabili da immagazzinare

E’ applicabile solo a reti piccole

Page 21: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RETI RICORRENTI RETI RICORRENTI

I modelli dinamici visti finora si generalizzano con le reti ricorrenti completamente interconnesse.Una possibile regola per implementare queste reti è quella di attribuire un ritardo a tutte le connessioni in retroazione

Page 22: Reti Neurali Ricorrenti. RETI NEURALI RICORRENTI RR-1 TLFN focused Elaborazione di informazione temporale La memoria è portata dentro la rete TLFN focused.

RETI DI HOPFIELDRETI DI HOPFIELD

Attratori della funzione energia

Non c'è addestramento!