Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia...
Transcript of Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia...
![Page 1: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/1.jpg)
Inferencia valószínűségimodellekben
Bányai Mihály [email protected]
http://golab.wigner.mta.hu/people/mihaly-banyai/
Statisztikai tanulás az idegrendszerben, 2016.
![Page 2: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/2.jpg)
• Inferencia valószínűségi modellekben
• Közelítő inferencia
• Algoritmusok pontbecslésekhez
• Inferencia az agyban
![Page 3: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/3.jpg)
• Inferencia valószínűségi modellekben
• Közelítő inferencia
• Algoritmusok pontbecslésekhez
• Inferencia az agyban
![Page 4: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/4.jpg)
Generatív modellek
• Mi a valószínűségi modell?
• Miért érdekes számunkra a valószínűségszámítás?
ZH
Neh Intell
Felv.
ZH
![Page 5: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/5.jpg)
Mit jelentenek a nyilak?
• Generatív irányban a függetlenség
• a kauzalitás intuíciója
![Page 6: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/6.jpg)
Megfigyelt és rejtett változók
• bizonyos változókról rendelkezünk adatokkal
• jelölés: sötét kör
• a többi csak a jelenség struktúrájáról alkotott feltételezéseinket reprezentálja
• látens, rejtett változók: üres kör
• Mire lehetünk kíváncsiak
• poszterior eloszlás a látensek fölött
• marginális poszteriorok
• a prediktív eloszlás: a megfigyelt változók marginális eloszlása
o
h1 h2
P (h|o) = P (o|h)P (h)
P (o)
P (o|h)
![Page 7: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/7.jpg)
Bayes-i inferencia• A generatív valószínűségi modell egy hipotézis
(vagy hipotéziscsalád) formalizációja
• Ha hiszünk a Cox- és/vagy dutch book jellegű érvelésben, akkor a nem közvetlenül megfigyelt mennyiségekről rendelkezésünkre álló információ konzisztens karakterizációja a poszterior eloszlás
• a hipotézistesztelés más formái heurisztikák, vagy speciális feltételezéshalmazok beépítései a (sokszor implicit) generatív modellekbe
![Page 8: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/8.jpg)
Az inferencia nehézségei
• Zárt alakban nem megadható eloszlások
• integrálok, marginalizáció
• szorzatalakok Bayes tétel sokmegfigyelésen történő alkalmazásából
![Page 9: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/9.jpg)
• Inferencia valószínűségi modellekben
• Közelítő inferencia
• Algoritmusok pontbecslésekhez
• Inferencia az agyban
![Page 10: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/10.jpg)
Poszterior közelítő becslése• Sztochasztikus
• mintákat veszünk belőle
• véletlenszámgenerátorra van szükség
• a minták számától függ a pontosság
• Determinisztikus
• egyszerűbben kezelhető eloszlásokkal közelítjük
• nem használunk véletlenszámokat
• a közelítő eloszlás formájától függ a pontosság
![Page 11: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/11.jpg)
Sztochasztikus becslés
• A poszterior eloszlást az abból vett mintákkal ábrázoljuk
• Aszimptotikusan egzakt
• Könnyen implementálható
• Számításigényes lehet
• A következő órán bővebben
![Page 12: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/12.jpg)
Determinisztikus közelítés - variációs módszerek
• A kérdés, hogy mennyi információt dobunk el a poszteriorból?
• Gyakran a függőségek teszik nehézzé az inferenciát -> faktorizált közelítés: p(h1,h2 | o) ≈ p(h1 | o) p(h2 | o)
• Jól kezelhető parametrikus eloszlásokkal is közelíthetünk
• bonyolultabbakkal, pl többkomponensű keverékeloszlások
• egyszerábbekkel, pl Gauss (Laplace-közelítés)
• Egyetlen jellemző értéken kívül mindent eldobunk -> delta eloszlással közelítünk -> pontbecslés
![Page 13: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/13.jpg)
Probabilisztikus programozási nyelvek
• Deklaratív nyelvek (mint pl. a PROLOG)
• A generatív modellt és a megfigyeléseket kell specifikálni
• Látens változók poszterior eloszlására vonatkozó inferencia nyelvi elemként használható
• Ismertebb példák: BUGS, Church, Stan
![Page 14: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/14.jpg)
Paraméterek mint valószínűségi változók
• a valószínűségi modelben specifikálnom kell a változók prior és kondicionális eloszlásait
• ezek gyakran parametrikus eloszláscsaládok példányai lesznek, pl. Gauss, Poisson, stb
• ezek paraméterei szintén látens változók, amennyiben nem fixálom az értéküket teljesen
• a változó prior eloszlásának ismét lesznek paraméterei -> hierarchikus modell
• valahol meg kell állnom
• vagy olyan priort választok, amiben nincs paraméter, illetve ami mégis, azt nem illesztem az adatra, hanem a világ konstans tulajdonságának tételezem fel az általam választott értékét
x
n q
μq
Cq
μh Ch
…
![Page 15: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/15.jpg)
Pontbecslések• Az inferencia általában a poszterior keresése
• ha nem kell a teljes poszterior, csak egy pontbecslés, akkor szélsőértékkeresséssé redukálhatom
• ha nincs prior: maximum likelihood
• Hogyan változik pontbecslésnél a prediktív eloszlás bizonytalansága?
x
n q
μq
Cq
p(µq, Cq | X) ⇠ p(X | µq, Cq)p(µq, Cq)
μq
p(μq|X)
argmax p(μq|X)μq
konstans
![Page 16: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/16.jpg)
Maximum likelihood tanulás• Általában több mérésünk van a megfigyelt változókról,
amiket függetlennek tekintünk
• A likelihood faktorizálódik
• A log-likelihood maximumát keressük
• numerikusan stabilabb
• exponenciális formájú eloszlásoknál egyszerűbb
• Ki kell integrálni a látens változókat (várható érték)
p(X | ✓) =NY
n=1
p(xn | ✓)
ln p(X | ✓) =NX
n=1
ln p(xn | ✓)
p(X | ✓) =Z 1
�1p(X | Z, ✓)p(Z | ✓)dZ
![Page 17: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/17.jpg)
Mikor hasznosak a pontbecslések?
• Ha jellemző a becsült pont értéke a poszterior alakjára
• unimodális
• szimmetriája a pontbecslés természetével egyező
![Page 18: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/18.jpg)
Példa - lineáris regresszió
• Nincs rejtett változó a paramétereken kívül
• Gauss maximum likelihood = négyzetes hiba
• polinomokra változtatás nélkül kiterjeszthető
y
x
N
a
b σ
p(y | x, a, b,�) = N (y; ax+ b,�)
ln p(Y | X, a, b,�) ⇠ �NX
n=1
[(axn + b)� yn]2
![Page 19: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/19.jpg)
Példa - PCA
• a PCA egy bázistranszformáció, ahol a legnagyobb szórás irányába szeretnénk beforgatni a tengelyeket
• maximum likelhood megoldás az A keverőmátrix elemeire fix szórás mellett
• ekvivalens a megfigyelések kovarianciamátrixának sajátvektor-keresési problémájával
x
y
NσΑ
p(x | y) = N (x;Ay,�I)
p(y) = N (y; 0, I)
![Page 20: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/20.jpg)
Amikor a pontbecslés is nehéz
• Általában itt is igaz, hogy vannak olyan láttens változók amelyek felett marginalizálni akarunk, aminek lehet, hogy nincs zárt alakja
• vagy az argmax nem fejezhető ki zárt alakban
![Page 21: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/21.jpg)
Keverékmodellek
p(z) = Mult(z;⇡)
p(x | z) = N (x;µz,⌃z)
![Page 22: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/22.jpg)
• Inferencia valószínűségi modellekben
• Közelítő inferencia
• Algoritmusok pontbecslésekhez
• Inferencia az agyban
![Page 23: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/23.jpg)
Algoritmikus becslés• ha a pontbecslés nem adható meg egzaktul,
megfogalmazhatjuk optimalizációs problémaként, amelyben a hibafüggvény pl. a negatív log-likelihood
• a becslőalgoritmusok nem (csak) a valószínűségszámítás szabályait használják
• sokszor nagyon hatékonyak az iteratív algoritmusok, akár zárt formájú megoldásoknál is gyorsabbak lehetnek nagy dimenziójú modellekre
• viszont sokszor nem tudjuk levezetni, hogy mennyire pontosan találják meg a globális maximumot
![Page 24: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/24.jpg)
Gradiens-módszer• használjuk ki azt az információt, hogy adott pontban merre
emelkedik a célfüggvény (vagy csökken a hibafüggvény), pl likelihood
• lokális szélsőértéket talál
• a tanulási ratât megfelelően be kell állítani
• kiterjesztések
• második derivált, Hessian-based módszerek
• lendületet is definiálhatunk a paramétertérbeli mozgáshoz
✓t+1 = ✓t + "@
@✓ln p(X | ✓t)
![Page 25: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/25.jpg)
K-means klaszterezés• Klaszterközéppontokat keresünk
• Kiválasztjuk a klaszterek számát
• Véletlenszerűen inicializáljuk a középpontokat
• Hozzárendeljük a megfigyeléseket a legközelebbi klaszterközépponthoz
• Elmozgatjuk a klaszterközéppontokat úgy, hogy a négyzetes távolság a legkisebb legyen a hozzárendelt pontoktól
• Addig ismételjük, amíg átsorolás történik
• Mi az ekvivalens valószínűségi modell?
![Page 26: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/26.jpg)
Expectation Maximization• Általánosítsuk a k-means ötletét
• complete-data likelihood: mintha minden változó megfigyelt lenne
• Az algoritmus kétfajta lépést váltogat
• E: megbecsüljük a látens változók poszterior eloszlását a paramétereket fixen tartva
• M: megbecsüljük a paraméterek értékét az becsült poszterior alapján
• a CDL logarimusának vesszük a poszterior feletti várható értékét, és ezt maximalizáljuk a likelihood helyett
p(Z | X, ✓t)
✓t+1 = argmax✓
Z 1
�1p(Z | X, ✓t) ln p(X,Z | ✓)dZ
p(X,Z | ✓)
![Page 27: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/27.jpg)
EM keverékmodellre
• E: mi a poszterior valószínűsége, hogy egy adott pontot egy adott komponens generált a jelenleg becsült paraméterekkel
• a komponensek pontokért viselt “felelőssége”
• M: a felelőségekkel súlyozott pontokra mi lenne a legjobb mean és kovariancia
• keverési együtthatók: a felelősségek összegének aránya a pontok számához
![Page 28: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/28.jpg)
Általánosított EM• Mi van, ha nem tudjuk zárt alakban megadni az M-
lépésben keresett szélsőértéket?
• gradiens módszer
• Mi van, ha nem tudjuk zárt alakban megadni a CDLL poszterior szerinti várható értékét?
• mintavételezés a poszteriorból, az integrál közelítése véges számú minta feletti átlaggal
![Page 29: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/29.jpg)
Honnan tudjuk, hogy az algoritmus eredménye hasznos?• Konvergencia
• likelihoodban
• paraméterek értékeiben
• Az illesztett modell predikciói beválnak
• Honnan tudjuk, hogy jól választottuk meg az olyan hiperparamétereket, mint pl. a komponensek száma?
![Page 30: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/30.jpg)
• Inferencia valószínűségi modellekben
• Közelítő inferencia
• Algoritmusok pontbecslésekhez
• Inferencia az agyban
![Page 31: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/31.jpg)
Hogyan tehetünk predikciókat az illesztett modellel?
• A jövőre a prediktív eloszlásból
• A látens változók értékeire a poszteriorból
• Ha agykérgi tanulórendszer modelljét alkotjuk, akkor el kell döntenünk, hogy
• a paraméterillesztési algoritmust biofizikai folyamatok predikciójára akarjuk használni
• vagy az algoritmust csak arra használjuk, hogy eljussunk egy optimális modellig, és csak azt feltételezzük, hogy az agy is megteszi ezt valahogy, de nem feltétlenül így
![Page 32: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/32.jpg)
Iteratív becslés az agyban - viselkedési szinten
![Page 33: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/33.jpg)
Iteratív becslés az agyban - fiziológiai szinten
![Page 34: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/34.jpg)
ICA
• Olshausen-Field modell: természetes képek független komponensei
• pontbecslés, kombinálva a maximum likelihood és a sparsity kritériumokat
• log-poszterior = kvadratikus log-likelihood + sparse prior
• Egyszerre optimalizáljuk az adatra illeszkedést és a látens aktivációk ritkaságát
• Grandiens-módszerrel lépkedünk az így konstruált hibafüggvényen
x
y
NσΑ
First-order statistics (pixel histograms)
sparsityp(x | y) = N (x;Ay,�I)
p(y) = N (y; 0, I)
![Page 35: Inferencia valószínűségi modellekbenbanmi/elte/kozelito_inferencia.pdf · • Az inferencia általában a poszterior keresése • ha nem kell a teljes poszterior, csak egy pontbecslés,](https://reader034.fdocuments.net/reader034/viewer/2022043017/5f39d6157423a500bd4288f4/html5/thumbnails/35.jpg)
Házi feladat
• Töltsd le a tárgyhonlapról az em_hf.txt file-t
• Az adatokra illessz 3-komponensű Gaussian Mixture modellt
• Eredményedet illusztráld