Post on 24-May-2020
Az idegrendszeri memória modelljei
A memória típusai
● Rövidtávú● Working memory - az aktuális
feladat● Vizuális, auditórikus,...● Prefrontális cortex,
szenzorikus területek● Kapacitás: 7 +-2 minta
● Hosszútávú● Epizodikus, szemantikus● Technikailag: asszociatív● Temporális lebeny, hippokampusz
● Interakció a rendszerek között
H. M.
● Súlyos epilepsziája volt, amit a hippokampusz egy részének eltávolításával orvosoltak1953-ban.
● Ettől kezdve elvesztette az epizodikus memóriaformáció képességét – a korábbi emlékei megmaradtak.
● A rövidtávú memóriája ép maradt, valamint a motoros tanulási képessége is. Megtanult pl. tükörben rajzolni.
● A térbeli memóriája erősen sérült.● Bizonyítékot szolgáltatott a különböző memóriarendszerek
létezésére.
Munkamemória modelljei
● Rekurrens hálózati modellek, serkentő-gátló populációkkal
● Perzisztens aktivitásA kódoló populáció a jel beírása után magasabb rátával tüzel
● Előfeszített állapotA sejtek a beíráskor facilitált állapotba kerülnek, a kiolvasáskor szinkron tüzelés valósul meg
● Oszcillációs modell (később)● Disztrakció: kis zavaró jelet
ignorálni szeretnénk, nagyra viszont elromlik a memória
Perzisztens aktivitás
A majom prefrontális kérgében egyes sejtek megnövekedett aktivitást mutatnak bizonos stimulusok után a késleltetési szakaszban, ami meghatározza az adott választ is.
Szinaptikus modell● Szinaptikus facilitáció és depresszió dinamikája integrate and fire neuronokban
● Fixpont vagy oszcillációs dinamika
● Több elem tárolása
u j t =U−u jt
F
U [1−u j t ]∑k
t−t k j
x j t =1−x j t
D
u j t x jt ∑k
t−t k j
mV i=−V i I irec t I i
ext t
I irec t =∑
j
J ij t ∑k
t−t k j −D ij
J ij t =J ij⋅u j t−D ij⋅x jt−D ij
Asszociatív memória
● Heteroasszociatív● pl. hely-objektum
● Autoasszociatív● Töredékes jelből az eredetit
● Különbség a számítógép memóriája és az AM között: címzés módja
● Kapacitás: hány mintát tudunk eltárolni úgy, hogy azok visszahívhatók legyenek (többféle definíció)
● Stabilitás: minden mintára a legközelebbi tárolt mintát szeretnénk visszakapni
Attraktorhálózatok
● Attraktorok típusai● Pont● Periodikus● Kaotikus
● Vonzási tartományok● Realizáció: rekurrens neurális hálózatok● Attraktorok tárolása: szinaptikus súlyokon
● Offline tanulás● Online tanulás● One-shot learning
● Előhívás: konvergencia tetszőleges pontból egy fix pontba
Hopfield-hálózat
● Asszociatív memória● Bináris MCP-neuronok● Minták tárolása: bináris vektorok● Szimmetrikus súlymátrix● Dale's law: egy sejt nem lehet
egyszerre serkentő és gátló – ezt most megsértjük
● Rekurrens (dominánsan) hálózatok az agyban: hippokampusz CA3 régió, ...● Offline learning
tanulandó minták: Hebbi szabály
● Léptetési szabályok: szinkron és szekvenciálisx t1=sgn Wx t− x k
t1=sgn ∑i
KW ik x i
t−k
W ij=1N ∑n
Nsins jn
{s1 sN }
A HN dinamikája
● Nemlineáris rendszerek stabilitás-analízise: Lyapunov-függvény segítségével definiáljuk az állapotokhoz rendelhető energiát. Ha a függvény:● Korlátos● Belátható, hogy a léptetési dinamika mindig csökkenti (növeli)
Akkor a rendszer minden bemenetre stabil fix pontba konvergál.
● Hopfield-hálózat Lyapunov-függvénye:
● Attraktorok az eltárolt mintáknál, de más helyeken is● A HN használható kvadratikus alakra hozható problémák
optimalizációjára is
E=−12xTWx− x
A HN kapacitása
● Információelméleti kapacitás● A tárolandó mintákat tekintsük Bernoulli-eloszlású változók halmazának
● Követeljük meg az egy valószínűségű konvergenciát
● Ekkor (sok közelítő lépéssel) megmutatható, hogy
● Összehasonlítás a CA3-mal● Kb. 200000 sejt, kb. 6000 minta tárolható
● Más becslések● figyelembevéve a minták ritkaságát
P sin=1=P si
n=0 =0.5
lim n∞ P sa=sgn Wsa=1 ∀ a=1M
M≈N
2 log 2N
M≈N1
log21P si
n=1=
Reprezentációs tanulás
● Valószínűségi leírás● 3féle dolgot tanulhatunk: csak predikció,
kimenetek valószínűsége, underlying rejtett változók/dinamika
● Explicit rejtett változós modellek● Implicit rejtett változós modellek● Modellösszehasonlítás● Becslési algoritmusok: EM
Rejtett változós modellek
p (θ∣y , M )=p( y∣θ , M ) p (θ∣M )
p( y∣M )
posterior likelihood prior
Evidence (marginal likelihood)
x= f (x ,u ,θu)+ϵ ϵ=Ρ (0,Σϵ)y=g (x ,θx)+ν ν=Ρ (0,Σν)
Predictive distribution:
p (y '∣θ , y , M )
A Boltzmann-gép architektúrája
P (si=1)= 1
1+e−bi−∑
j
s jw ij
P (v , h)= e−E (v ,h)
∑v ' ,h '
e−E (v ' ,h ' )
−E (v ,h)=∑i
sivbi+∑
j> isiv s j
vw ij+∑k
skhbk+∑
l >kskh sl
hwkl+
+∑m>n
smv sn
hwmn
Geoffrey Hinton, Terry Sejnowski
P (v )=∑h
e−E (v ,h)
∑v ' ,h'
e−E (v ' ,h ')
Mintavételezés
● A normalizációs tagok kiszámolása exponenciális komplexitású → Markov Chain Monte Carlo mintavételezés
● Elindítjuk a gépet véletlenszerű állapotból, és megvárjuk, hogy beálljon a hőmérsékleti egyensúly
● Mintavételezés csak a rejtett egységekből: a látható egységeket az adatvektorhoz rögzítjük● A rejtett egységek az adatvektor “magyarázatát”
adják, a jobb magyarázatokhoz alacsonyabb energia tartozik
Tanulás Bolzmann-géppel
argmaxW p(V ∣W )=∏v∈V
p (v∣W )=∑v∈V
log p (v∣W )
∂ p(v)∂w ij
=⟨si s j ⟩v−⟨si s j⟩rand
● Maximum Likelihood tanulás
● Gradiens-módszer
● Pozitív fázis● A látható egységeket fixálva várjuk meg az egyensúlyt,
minden tanulóvektorra átlagoljuk a statisztikát● A Boltzmann-valószínűség számlálóját növeli
● Negatív fázis● Véletlen kiindulópontból várjuk meg az egyensúlyt jó sokszor,
aztán átlagoljunk● A Boltzmann-valószínűség nevezőjét csökkenti
Restricted Boltzmann Machine
● Egy látható és egy rejtett réteg
● Rétegen belül nincsenek kacsolatok → független rejtett egységek
● A rejtett rétegben egylépéssel elérjük az egyensúlyt
● A negatív statisztikához indítsuk a hálózatot ebből az állapotból
Contrastive divergence
● Az adattól távolabbi minimumokat nem látja● Miután valamennyire rátanult a hálózat az adatra,
többlépéses CD-re térünk át: CD3, CD6, ...
Δw ij∼⟨s i s j ⟩0−⟨s i s j ⟩1
DBM létrehozása előre tanított RBM-ekből
● Az első RBM a bemenet feature-eit tanulja● A második a feature-ök feature-eit● Öszzeillesztjük a rétegeket, és együtt finomítjuk a
tanult reprezentációt
Ruslan Salakhutdinov
Absztrakciós hierarchia a látórendszerben
Rufin VanRullen
James DiCarlo