Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

44
Bayesian Nonparametrics入門 -点過程と統計的機械学習の接点- 東京大学 情報基盤センター 中川研究室 助教 佐藤一誠

Transcript of Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Page 1: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Bayesian Nonparametrics入門 -点過程と統計的機械学習の接点-

東京大学 情報基盤センター 中川研究室 助教

佐藤一誠

Page 2: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

2

Page 3: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

点過程の例:カウント過程

3

目的:時間や空間などに点在している点に関して点カウントの統計的性質を考えたい ※点の全個数は仮定しない 例えば、ある期間における来客数を考える場合、全来客数は 予めわからない

A N(A)=2

B

X

N(B)=4

N(A)をA(⊂X)内での点の個数とする

個々の点ではなく

Nに関して何らかの統計モデル

を考える

ポイント

Page 4: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Poisson過程

4

N(A)~Poisson(α0H (A))

λ=α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

Intensive functionとも呼ばれる

任意のA(⊂X)に関して、N(A)が

λ(A)

A N(A)=2

B

X

N(B)=4

λ=α0H

AdxxA )()(

Page 5: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

点過程の考え方

5

A1 A2

A3

N(A1)=4

N(A2)=3

N(A3)=2

• 点の全個数は仮定しないので点個別ではなく 集合に関して統計モデルを考える

• 点●と棒/に関して統計モデルを考える

カウント過程

1

)(1)(i

i AxAN

長さ1の棒

この表現に慣れることが最重要!

Page 6: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

6

1

)(1)(i

i AxAN

ix

1

A

Poisson過程:

α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

任意のA(⊂X)に関して、N(A)が

N(A)~Poison(α0H (A))

棒の従うルール (合計は整数値)

点の従うルール

)(~ xHxi

Page 7: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

7

G(A)~Gamma (α0H (A),1).

1

)()(i

ii AxwAG

棒の長さを1以外の場合を考えたい

ix

iw

A

ガンマ過程:

α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

任意のA(⊂X)に関して、G(A)が

棒の従うルール (非負の実数)

点の従うルール

)(~ xHxi

Page 8: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

8

棒の長さを1以外の場合を考えたい

B(A)~Beta (α0H (A), α0(1-H (A)).

1

)()(i

ii AxwAB

ix

]1,0[iw

A

ベータ過程:

任意のA(⊂X)に関して、G(A)が

α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

棒の従うルール ([0,1]の間の値)

点の従うルール

)(~ xHxi

Page 9: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

点過程のまとめ

9

加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒集合(空間)に関する重み付きカウント の統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

1

)()(i

ii AxwAG

点 棒

Page 10: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

10

Dirichlet 過程

Xの任意の分割A1,...Amに対して

[Ferguson,1973]

))(,),(( 1 mAGAG

))(,),((~ 1 mAHAHDir

𝐺 G 𝐴 = 𝑤𝑖𝛿∞

𝑖=1

𝑥𝑖 ∈ 𝐴

𝑤𝑖∞ 𝑖=1 =1

A1 A2 A3 A4

棒の従うルール (全棒の合計が1)

Page 11: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Dirichlet Process (DP)の直感的な理解 「確率分布→無限次元で離散化」

α→大 α→小

𝐻:基底確率分布

𝐺~𝐷𝑃(𝛼, 𝐻)

𝐺 𝐺

※𝛼 → ∞で𝐺𝑑→𝐻

何を? どのくらい?

αくらい

11

Hを

Page 12: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

12

Page 13: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛 13

潜在変数空間

Z

𝑝(𝑥|𝜑1) 𝑝(𝑥|𝜑2) 𝑝(𝑥|𝜑3)

𝑋 データの空間

※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現 ベクトルの場合や平均と分散のように 複数の統計量を表すこともある

Page 14: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑥1

𝑧1 = 3 𝑧2 = 1

𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

𝑥𝑖~𝑝(𝑥|𝜑𝑧𝑖)

𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐻(𝜑|𝛽)

14

𝑥2 𝑥4 ~𝑝(𝑥|𝜑2) 𝑥3 潜在変数空間

Z 𝑧3 = 1 𝑧4 = 2

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛

Page 15: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

パラメータ空間で考えると

𝜃3 𝜃1

𝜑1 𝜑3

𝜃2

𝜑2 Φ

混合分布はパラメータ空間における 点と棒の統計モデル

15

パラメータ空間

G

𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

𝑥2 𝑥4 ~𝑝(𝑥|𝜑2) 𝑥3

𝜑3 𝜑1 𝜑1 𝜑2

Page 16: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

𝜃3 𝜃1

𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾(=3)

𝑘=1

e.g., G 𝜑2 = 𝜃𝑘𝛿𝜑𝑘𝐾(=3)𝑘=1 𝜑2 =𝜃2

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

𝑥3

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける

𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2)

16

Φ パラメータ空間

G

パラメータ空間で考えると

Page 17: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

𝜃3 𝜃1

𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1)

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾→∞

𝑘=1

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

𝑥3

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける

𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2)

17

点過程 としてみれば 無限点を扱える

Φ パラメータ空間

G

パラメータ空間で考えると

Page 18: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

18

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾

𝑘=1

∙ 有 限 モ デ ル

点の数を予め固定 ⇒有限次元の確率分布でモデル化

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝑘=1

∙ 無 限 モ デ ル

点の数は予めわからない ⇒点過程としてモデル化

Page 19: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

応用例は多数

• クラスタリング

– クラス数がData dependent

• Entity disambiguation

– Entity数は予めわからない

• Word sense disambiguation

– word sense数は単語ごとに異なる

• 画像の領域分割

• 動画のトラッキング

e.t.c. 19

Page 20: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

無限混合モデルとベイズ学習

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝑘=1

Φ上の無限次元離散分布

𝐺

Φ

𝐺~𝐷𝑃(𝛼𝐻)

𝜑𝑘~𝐺

𝑥𝑖~𝑝(𝑥|𝜑𝑘)

𝐺|𝑥1:𝑛

学習

20 Φ

Page 21: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑧1 = 3 𝑧2 = 1

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛 𝑥𝑖~𝑝(𝑥|𝜑𝑧𝑖)

𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐻(𝜑|𝛽)

無限次元 にするには?

→∞

21

Z 𝑧3 = 1 𝑧4 = 2

点の従うルール 棒の従うルール

Page 22: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

点過程のまとめ

22

加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

どのように点と棒を生成するか? ⇒Stick-breaking Process

Page 23: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

1

2

3

4

),1(~1 Betab11 b

)1( 12 bb

),1(~2 Betab

長さ1の棒

Stick-breaking process (SBP)

・・・

・・・

2,1

)1(1

1

k

bbk

l

lkk

[Sethuraman 94]

23

Page 24: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

SBPによるDPの構成定理

)(~,,, 4321 SBP

H,,, 4321 ~

・・・

13 2 4

),(~ HDPG

1k

k kG

・・・

[Sethuraman 94]

24

Page 25: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

𝑧𝑖~𝑝 𝑧 𝑥𝑖 , 𝜃, 𝜑

𝜃~SBP(𝜃|𝑧1:𝑛,𝛼)

𝜑𝑘~𝑝(𝜑|𝑥1:𝑛, 𝑧1:𝑛,𝛽)

𝑥𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝑛

25

),1(~ kkk mmBetab

2,1

)1(1

1

k

bbk

l

lkk

SBPはDPからのサンプリングを数学的に提示したに過ぎない

SBPの事後分布からのサンプリング

Page 26: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

SBPの事後分布からのサンプリング

• 計算機では無限回のbreakingは扱えないので、有限回のbreakingで近似

→Truncated Stick-breaking Process

打切り誤差は指数的に減少 [Ishwaran+01]

• Slice sampler [Walker06]

この問題を華麗に解決

26

1Tb

Page 27: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Break Sticks

Remaining Stick >uなので

u u

Remaining Stick<uで止める

1 2 3 1 2 3 4 5 6 7

実質的には有限個からの サンプルになる

Slice sampler for SBP

27

確率的な閾値uを用いて打ち切りを確率的に行う

閾値を設ける

からサンプルする

}:{ kuk どうやって?

Page 28: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Slice sampler for SBP

2,1

)1(1

1

k

bbk

l

lkk

Remaining Stick

1 2 3

ki kzp )|(

)()|,( ki uukzp

k

u

k

u

i

i

duu

duukzp

kzp

0

0

)(

)|,(

)|(

28

確率的な閾値uを用いて打ち切りを確率的に行う

Page 29: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Slice sampler for SBP

2,1

),|(~

)1(

:1

1

1

k

zbpb

bb

nkk

k

l

lkk

Remaining Stick

1 2 3

ki kzp )|(

)()|,( ki uukzp

],0[),|( ki Ukzup 一様分布

otherwise0

1

),|(

k

i

u

ukzp

u以下の棒は確率0 になるので無視できる 29

確率的な閾値uを用いて打ち切りを確率的に行う

Page 30: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Break Sticks

Remaining Stick >uなので

u u

Remaining Stick<uで止める

],0[),1|(~ 1 Uzupu i

1 2 3

otherwise0

1

),|(

k

i

u

ukzp

1 2 3 4 5 6 7

実質的には有限個からの サンプルになる

4次元の一様離散分布

Slice sampler for SBP

30

確率的な閾値uを用いて打ち切りを確率的に行う

Page 31: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

ここまでのまとめ

31

• 点過程

加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

• 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル

• Dirichlet 過程からのサンプリング

• Stick-breaking process

Page 32: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Factor Model

32

• Infinite Feature Model - Beta Process

• Topic Model - Hierarchical Dirichlet Process

Page 33: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Infinite Latent Feature Model

33

データ

パラメータ空間

[Griffiths+05] )(~ HBPB

)(~ BBePzi

Page 34: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

• Linear Gaussian model [Griffiths+NIPS05]

34

= × データ

次元

ZWX

• Sigmoid model [Miller+NIPS09]

)(~,

T

jiji WZZl

リンクデータ

Page 35: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Topic model

𝑝(𝑖𝑡𝑒𝑚|𝑢𝑠𝑒𝑟) 𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟) 𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐)

T

t

ittu

1

,,

1

,,

t

ittu

user

(doc)

item (word) item (word)

user

(doc)

topic

topic

実は、DP単体では構成できない なぜ?

35

Page 36: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

DP構成の復習

)(~,,, 4321 SBP

H,,, 4321 ~

・・・

13 2 4

),(~ HDPG

1k

k kG

・・・

36

Page 37: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

ほしいもの

4,13,12,11,1 ,,,

・・・

13 2 4・・・

4,23,22,21,2 ,,,

・・・

13 2 4・・・

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑𝑡は共通

37

Page 38: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

DPから複数のGを生成すると

13 2 4 1'3' 2' 4'

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑𝑡も異なる

),(~1 HDPG ),(~2 HDPG

H~ H~

Hは連続分布なので、共通する𝜑の生成確率0

4,13,12,11,1 ,,,

・・・ ・・・

4,23,22,21,2 ,,,

・・・ ・・・

38

Page 39: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

DPから複数のGを生成すると

13 2 4 1'3' 2' 4'

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑𝑡も異なる

),(~1 HDPG ),(~2 HDPG

H~ H~

Hは連続分布なので、共通する𝜑の生成確率0

4,13,12,11,1 ,,,

・・・ ・・・

4,23,22,21,2 ,,,

・・・ ・・・

Hは連続分布なので、共通する𝜑の生成確率0

無限次元の離散分布にすれば良いのでは?

39

Page 40: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

階層Dirichlet過程

4,13,12,11,1 ,,,

・・・

13 2 4・・・

4,23,22,21,2 ,,,

・・・

13 2 4・・・

𝜃𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑𝑡は共通

),(~0 HDPG

0G~ 0G~

),(~ 01 GDPG ),(~ 02 GDPG

𝐺0は離散分布なので、共通する𝜑が生成可能

[Teh+,2006]

40

Page 41: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

Latent Dirichlet Allocation (LDA)

𝑥𝑗,𝑖

𝑧𝑖

𝜃𝑗

𝜑𝑘

𝛽 𝛼

𝑛𝑗

𝐾

𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟)

user

(doc)

topic

𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐) item (word)

topic 𝑁

𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑𝑧𝑖)

𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃𝑗~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐷𝑖𝑟(𝜑|𝛽)

For each topic k:

For each user(doc.) j:

For each item(word) i:

[Blei+,2003]

41

Page 42: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

HDP-LDA (SBP版)

𝑥𝑗,𝑖

𝑧𝑖

𝜃𝑗

𝜑𝑘

𝛽

𝛼

𝑛𝑗

𝑁

𝜃𝑗~𝐷𝑃(𝜃|𝛼, 𝜃0)

𝜃0

𝛾 𝜃0~𝑆𝐵𝑃(𝜃|𝛾)

𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑𝑧𝑖)

𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜑𝑘~𝐷𝑖𝑟(𝜑|𝛽)

For each topic k:

For each user(doc.) j:

For each item(word) i:

[Teh+,2006]

42

Page 43: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

学習アルゴリズム

• LDA

–変分ベイズ法 [Blei+ JMLR03]

–周辺化ギブスサンプラー [Griffiths+ 04]

–周辺化変文ベイズ法 [Teh+ NIPS07, Sato+ICML2012]

• HDP-LDA

–変分ベイズ法[Wang+,AISTATS11]

–周辺化ギブスサンプラー[Teh+ 06]

–周辺化変分ベイズ法 [Teh+ NIPS08, Sato+ KDD2012]

43

Simplify

理論解析

Page 44: Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

まとめ

44

• 点過程

加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

• 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル

• Dirichlet 過程からのサンプリング

• Stick-breaking process

• Factor model