Download - 逐次ベイズ学習 - サンプリング近似法の場合 -

3.5 逐次ベイズ学習 -サンプリング近似法の場合-

第 5 回『トピックモデルによる統計的潜在意味解析』読書会

2015/08/27

自己紹介名前◦ 内山雄司

職業◦ エンジニア（プログラマ）

アカウント◦ ツイッター @y__uti

◦ ブログ http://y-uti.hatenablog.jp

2015/08/27 第 5 回『トピックモデルによる統計的潜在意味解析』読書会 2

発表の構成復習：周辺化ギブスサンプリング◦ 周辺化ギブスサンプリング

◦ 逐次学習のイメージ

3.5.1 粒子フィルタ◦ 粒子フィルタの概要

◦ 逐次更新式の導出

◦ リサンプリング

3.5.2 LDA の粒子フィルタ◦ モデルの説明

◦ 逐次更新式の導出

◦ LDA のリサンプリング


復習：周辺化ギブスサンプリング

教科書 57 ページの図 3.2 (右側)


周辺化ギブスサンプリング

◦ 入力 = 文書の集合 (コーパス)

◦ パラメータ α, β の初期化◦ 適当に決めて固定する

◦ パラメータ更新は教科書 3.6 節で


すももも桃も桃のうち。

本日は晴天なり。

我輩は猫である。


◦ トピックの割り当ての初期化◦ ランダムに割り当てる

◦ トピック数は事前に決めておく










2 3 3

3 1 1

3 1 2

。あるうちすももでなりのはも我輩晴天桃猫本日

3 0 0 0 0 1 0 0 0 1 1 1 1 0

0 0 0 0 0 0 1 1 1 0 0 1 0 1

0 1 1 1 1 0 0 1 1 0 0 0 0 0

nd,k

nk,v






2 3 3

3 1 1

2 1 2


3 0 0 0 0 1 0 0 0 0 1 1 1 0

0 0 0 0 0 0 1 1 1 0 0 1 0 1

0 1 1 1 1 0 0 1 1 0 0 0 0 0

zd,i






2 3 3

3 1 1

2 1 2


3 0 0 0 0 1 0 0 0 0 1 1 1 0

0 0 0 0 0 0 1 1 1 0 0 1 0 1

0 1 1 1 1 0 0 1 1 0 0 0 0 0

nd,k

d,i

nk,v

d,i

式 (3.38) の確率で zd,iを決め直す

zd,i






2 3 3

3 1 1

2 1 3


3 0 0 0 0 1 0 0 0 0 1 1 1 0

0 0 0 0 0 0 1 1 1 0 0 1 0 1

0 1 1 1 1 0 0 1 1 1 0 0 0 0

zd,i






2 3 3

3 1 1

2 0 3


3 0 0 0 0 1 0 0 0 0 1 1 1 0

0 0 0 0 0 0 1 0 1 0 0 1 0 1

0 1 1 1 1 0 0 1 1 1 0 0 0 0

zd,i






2 3 3

3 1 1

2 0 3


3 0 0 0 0 1 0 0 0 0 1 1 1 0

0 0 0 0 0 0 1 0 1 0 0 1 0 1

0 1 1 1 1 0 0 1 1 1 0 0 0 0

zd,i

以下省略






1 3 4

3 0 2

1 2 3


2 0 0 0 0 0 0 0 0 0 1 0 1 1

0 0 0 0 1 0 1 1 0 0 0 2 0 0

1 1 1 1 0 1 0 1 2 1 0 0 0 0

zd,i






1 3 4

3 0 2

1 2 3


2 0 0 0 0 0 0 0 0 0 1 0 1 1

0 0 0 0 1 0 1 1 0 0 0 2 0 0

1 1 1 1 0 1 0 1 2 1 0 0 0 0

zd,i

これで sのループ一回分

周辺化ギブスサンプリング一括 (バッチ) 学習◦ 最初に全文書を読み込む

◦ 学習中は全文書の情報を保持する

◦ 最後にまとめて全文書のトピック分布が得られる

⇔逐次学習◦ 一文書ずつ順番に読み込まれる

◦ その文書のトピック分布を学習する

◦ 学習が終わったら文書は捨てる◦ 統計量のみを保持する


逐次学習のイメージ文書を一つずつ読み込んで学習◦ これまでの学習で蓄積された nk,vを保持

◦ 文書そのものは学習が済んだら捨ててしまう


。あるうちでなりのはも我輩晴天猫本日

18 30 4 74 20 80 93 28 7 0 28 0

25 2 9 60 0 101 80 58 1 9 0 18

20 3 0 48 3 20 74 31 0 2 4 2

nk,v

逐次学習のイメージ文書中の単語を走査する◦ 一つずつ確率的にトピックを決めていく


。あるうちでなりのはも我輩晴天猫本日

18 30 4 74 20 80 93 28 7 0 28 0

25 2 9 60 0 101 80 58 1 9 0 18

20 3 0 48 3 20 74 31 0 2 4 2

も桃も桃のうち。すもも0 0 0

zd,i



桃も桃のうち。すももも0 1 0

zd,i

。あるうちでなりのはも我輩晴天猫本日すもも

18 30 4 74 20 80 93 28 7 0 28 0 0

25 2 9 60 0 101 80 58 1 9 0 18 1

20 3 0 48 3 20 74 31 0 2 4 2 0



も桃のうち。すももも桃0 2 0

zd,i

。あるうちでなりのはも我輩晴天猫本日すもも

18 30 4 74 20 80 93 28 7 0 28 0 0

25 2 9 60 0 101 80 59 1 9 0 18 1

20 3 0 48 3 20 74 31 0 2 4 2 0



桃のうち。すももも桃も0 3 0

zd,i

。あるうちでなりのはも我輩晴天猫本日すもも桃

18 30 4 74 20 80 93 28 7 0 28 0 0 0

25 2 9 60 0 101 80 59 1 9 0 18 1 1

20 3 0 48 3 20 74 31 0 2 4 2 0 0



のうち。すももも桃も桃0 3 1

zd,i


18 30 4 74 20 80 93 28 7 0 28 0 0 0

25 2 9 60 0 101 80 59 1 9 0 18 1 1

20 3 0 48 3 20 74 32 0 2 4 2 0 0



うち。すももも桃も桃の0 4 1

zd,i


18 30 4 74 20 80 93 28 7 0 28 0 0 0

25 2 9 60 0 101 80 59 1 9 0 18 1 2

20 3 0 48 3 20 74 32 0 2 4 2 0 0



。すももも桃も桃のうち1 4 1

zd,i


18 30 4 74 20 81 93 28 7 0 28 0 0 0

25 2 9 60 0 101 80 59 1 9 0 18 1 2

20 3 0 48 3 20 74 32 0 2 4 2 0 0



すももも桃も桃のうち。1 5 1

zd,i


18 30 4 74 20 81 93 28 7 0 28 0 0 0

25 2 9 60 0 101 80 59 1 9 0 18 1 2

20 3 0 48 3 20 74 32 0 2 4 2 0 0

逐次学習のイメージ学習結果が得られる◦ 学習が終われば文書をそれ以上保持する必要はない




18 30 4 74 20 81 93 28 7 0 28 0 0 0

26 2 9 60 0 101 80 59 1 9 0 18 1 2

20 3 0 48 3 20 74 32 0 2 4 2 0 0

逐次学習のイメージこんな安直な方法でまともに学習できるのか？◦ できない

◦ では、どうすればよいか？ = 今日の話




18 30 4 74 20 81 93 28 7 0 28 0 0 0

26 2 9 60 0 101 80 59 1 9 0 18 1 2

20 3 0 48 3 20 74 32 0 2 4 2 0 0

3.5.1 粒子フィルタ

教科書 100 ~ 105 ページ


粒子フィルタとは？動的システムにおいて潜在変数を逐次的にサンプリングする手法

動的システムのモデル例（状態空間モデル or 隠れマルコフモデル）


zt-1 zt zt+1

xtxt-1 xt+1

zt ~ p(zt|zt-1)

xt ~ p(xt|zt)

◦ x1:tを観測したもとで潜在変数 z1:t ~ p(z1:t|x1:t) をサンプリングしたい

図 3.7 (a) より

粒子フィルタの動作イメージ事後分布 p(z1:t|x1:t) をたくさんの重み付きサンプルで近似する

◦ 時刻 t-1 で事後分布 p(z1:t-1|x1:t-1) からサンプルが得られているとする


zt-1 zt zt+1

xtxt-1 xt+1

zt ~ p(zt|zt-1)

xt ~ p(xt|zt)


◦ zt ~ p(zt|zt-1) により時刻 t での事前分布からのサンプルを得る


zt zt+1

xtxt-1 xt+1

zt-1

zt ~ p(zt|zt-1)

xt ~ p(xt|zt)


◦ p(xt|zt) で重み付けして時刻 t での事後分布からのサンプルを得る


zt-1 zt zt+1

xtxt-1 xt+1

zt ~ p(zt|zt-1)

xt ~ p(xt|zt)


◦ zt+1 ~ p(zt+1|zt) により時刻 t+1 での事前分布からのサンプルを得る


zt-1 zt zt+1

xtxt-1 xt+1

zt ~ p(zt|zt-1)

xt ~ p(xt|zt)

◦ 以下繰り返し

重点サンプリング積分計算が困難な確率分布 p(x) からのサンプリング手法◦ サンプリングが容易な提案分布 q(x) から x ~ q(x) をサンプリング

◦ 得られたサンプル x を w(x) = p(x) / q(x) で重み付け


p(x)

q(x)

q(x) からのサンプルでは少ない⇒ w(x) = p(x)/q(x) > 1 で調整

q(x) からのサンプルが多い⇒ w(x) = p(x)/q(x) < 1で調整

逐次更新式の導出時刻 t での事後分布 p(z1:t|x1:t) が次式で近似されているとする


◦ ただし

式 (3.161), 式 (3.162) より

式 (3.162) より

逐次更新式の導出時刻 t+1 での潜在変数 zt+1の事前分布を近似する


式 (3.165) より

逐次更新式の導出提案分布を次式のようにおく


◦ 次式を仮定したことに相当する

◦ 確率の乗法の定理からは次式が成り立つので

式 (3.167) より

103 ページ本文より


逐次更新式の導出時刻 t+1 での事後分布 p(z1:t+1|x1:t+1) を次式で近似したい


◦ ただし

式 (3.161), 式 (3.162) より; 時刻を t+1 に進めたもの

逐次更新式の導出重みの更新式の計算


◦ ここで分母を次式のようにおけば

◦ 重みの更新式は次式のように簡単な形で求められる

式 (3.168) より

式 (3.169) より


リサンプリング時刻 t が進むにつれて一部の粒子に重みが集中する◦ 有限の S 個の粒子で p(z1:t|x1:t) をうまく近似できなくなってくる

重みが集中したら ω(z1:t) の確率で S 個の粒子をサンプリングする◦ イメージ：重い粒子を分割することで各粒子の重みを 1/S に揃える

Effective Sample Size (ESS) : 重みの集中の度合い


(s)

◦ 適当な閾値を定めて ESS が閾値を下回ったらリサンプリングする

式 (3.170) より

3.5.2 LDA の粒子フィルタ

教科書 105 ~ 110 ページ


粒子フィルタのための文書モデル文書の集合を隠れマルコフモデルと仮定する◦ トピック = 潜在変数

◦ 単語 = 観測データ


w1,1

我輩

z1,1 z1,2 z1,3

w1,2

は

w1,3

猫

w1,4

で

w1,5

ある

w1,6

。

w2,1

本日

w2,2

は

z1,4 z1,5 z1,6 z2,1 z2,2

z(1,4), w(1,4)

z(2,2), w(2,2)図 3.9 + 図 3.7 (a) に対応

このスライドは恐らくいろいろと間違っています

LDA の逐次更新式次式よりトピック zd,iを S 個サンプリングする


◦ LDA では wd,i = v 観測後の分布（事後分布）からサンプリング可能

式 (3.172) より; 56 ページの式 (3.38) と比較

LDA の逐次更新式重みの更新


式 (3.175), 式 (3.176) より

zd,iのサンプリングのために式 (3.172) で計算済み

トピック分布重み付きサンプルでトピック分布を近似する


式 (3.177) より

LDA のリサンプリング"Rejuvenates old topic assignments in light of new data"

◦ 過去の観測列から R 個の wl,mを選ぶ

◦ トピック zl,mを次式でリサンプリングする


文献 15) Canini et al., (2009) より

式 (3.179) より; 56 ページの式 (3.38) と比較

◦ 過去の観測列に対して少しだけギブスサンプリングするイメージ

近似精度と実行速度LDA の粒子フィルタの超パラメータ◦ S 粒子数

◦ R 活性化サンプル数

値が大きいほど◦ 近似精度高

◦ 実行時間大◦ 1 単語あたりの計算量は O(SR)

R 個の活性化サンプルをどの範囲からサンプリングするか◦ 範囲が広いほどメモリ使用量が増える