点過程と統計的機械学習の数理2014

51
点過程と統計的機械学習の数理 -Bayesian Nonparametrics- 東京大学 情報基盤センター 中川研究室 助教 佐藤一誠 2014/07/05 @立命館大学

description

立命館大学で行った点過程と統計的機械学習に関する資料

Transcript of 点過程と統計的機械学習の数理2014

Page 1: 点過程と統計的機械学習の数理2014

点過程と統計的機械学習の数理 -Bayesian Nonparametrics-

東京大学 情報基盤センター 中川研究室 助教

佐藤一誠

2014/07/05 @立命館大学

Page 2: 点過程と統計的機械学習の数理2014

2

X上の確率測度Gに対して、 Xの任意の分割A1,...Amを考えたとき, のとき、GはDirichlet Processに従う

[Ferguson,1973]

))(,),(( 1 mAGAG

))(,),((~ 1 mAHAHDir

今日の目標はこれが直感的に理解できること

Dirichlet過程

Page 3: 点過程と統計的機械学習の数理2014

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

3

Page 4: 点過程と統計的機械学習の数理2014

点過程の例:カウント過程

4

目的:時間や空間などに点在している点に関して点カウントの統計的性質を考えたい ※点の全個数は仮定しない 例えば、ある期間における来客数を考える場合、全来客数は 予めわからない

A N(A)=2

B

X

N(B)=4

N(A)をA(⊂X)内での点の個数とする

個々の点ではなく

Nに関して何らかの統計モデル

を考える

ポイント

Page 5: 点過程と統計的機械学習の数理2014

Poisson過程

5

N(A)~Poisson(α0H (A))

λ=α0H: X → R+

α0:非負スカラー値

H: Intensive function

(基底測度)

任意のA(⊂X)に関して、N(A)が

λ(A)

A N(A)=2

B

X

N(B)=4

λ=α0H

AdxxA )()(

Page 6: 点過程と統計的機械学習の数理2014

点過程の考え方

6

A1 A2

A3

N(A1)=4

N(A2)=3

N(A3)=2

• 点の全個数は仮定しないので点個別ではなく 集合に関して統計モデルを考える

• 点●と棒/に関して統計モデルを考える

カウント過程

1

)(1)(i

i AxAN

長さ1の棒

この表現に慣れることが最重要!

Page 7: 点過程と統計的機械学習の数理2014

7

1

)(1)(i

i AxAN

ix

1

A

Poisson過程:

α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

任意のA(⊂X)に関して、N(A)が

N(A)~Poison(α0H (A))

棒の従うルール (合計は整数値)

点の従うルール

)(~ xHxi

Page 8: 点過程と統計的機械学習の数理2014

8

G(A)~Gamma (α0H (A),1).

1

)()(i

ii AxwAG

棒の長さを1以外の場合を考えたい

ix

iw

A

ガンマ過程:

α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

任意のA(⊂X)に関して、G(A)が

棒の従うルール (非負の実数)

点の従うルール

)(~ xHxi

Page 9: 点過程と統計的機械学習の数理2014

9

棒の長さを1以外の場合を考えたい

B(A)~Beta (α0H (A), α0(1-H (A)).

1

)()(i

ii AxwAB

ix

iw

A

ベータ過程:

任意のA(⊂X)に関して、G(A)が

α0H: X → R+

α0:非負スカラー値

H:基底(確率)測度

棒の従うルール ([0,1]の間の値)

点の従うルール

)(~ xHxi

Page 10: 点過程と統計的機械学習の数理2014

点過程のまとめ

10

加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒集合(空間)に関する重み付きカウント の統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

1

)()(i

ii AxwAG

点 棒

Page 11: 点過程と統計的機械学習の数理2014

11

Dirichlet 過程

Xの任意の分割A1,...Amに対して

[Ferguson,1973]

))(,),(( 1 mAGAG

))(,),((~ 1 mAHAHDir

𝐺 G 𝐴 = 𝑤𝑖𝛿∞

𝑖=1

𝑥𝑖 ∈ 𝐴

𝑤𝑖∞ 𝑖=1 =1

A1 A2 A3 A4

棒の従うルール (全棒の合計が1)

Page 12: 点過程と統計的機械学習の数理2014

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

12

Page 13: 点過程と統計的機械学習の数理2014

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑦𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛 13

潜在変数空間

Z

𝑝(𝑦|𝜑1) 𝑝(𝑦|𝜑2) 𝑝(𝑦|𝜑3)

Y データの空間

※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現 ベクトルの場合や平均と分散のように 複数の統計量を表すこともある

Page 14: 点過程と統計的機械学習の数理2014

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑦1

𝑧1 = 3 𝑧2 = 1

~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦𝑖~𝑝(𝑥|𝜑𝑧𝑖)

𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)

𝜃~𝐷𝑖𝑟(𝜃|𝛼)

𝜑𝑘~𝐻(𝜑|𝛽)

14

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3 潜在変数空間

Z 𝑧3 = 1 𝑧4 = 2

𝑦𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛

Page 15: 点過程と統計的機械学習の数理2014

パラメータ空間で考えると

𝜃3 𝜃1

𝜑1 𝜑3

𝜃2

𝜑2 Φ

混合分布はパラメータ空間における 点と棒の統計モデル

15

パラメータ空間

G 𝜑3 𝜑1 𝜑1 𝜑2

𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3

Page 16: 点過程と統計的機械学習の数理2014

𝜃3 𝜃1

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾(=3)

𝑘=1

e.g., G 𝜑2 = 𝜃𝑘𝛿𝜑𝑘𝐾(=3)𝑘=1 𝜑2 =𝜃2

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける

𝜑2~𝐺

16

Φ パラメータ空間

G

パラメータ空間で考えると

𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3

Page 17: 点過程と統計的機械学習の数理2014

𝜃3 𝜃1

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾→∞

𝑘=1

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける

𝜑2~𝐺

17

点過程 としてみれば 無限点を扱える

Φ パラメータ空間

G

パラメータ空間で考えると

𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3

Page 18: 点過程と統計的機械学習の数理2014

18

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾

𝑘=1

∙ 有 限 モ デ ル

点の数を予め固定 ⇒有限次元の確率分布でモデル化

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝑘=1

∙ 無 限 モ デ ル

点の数は予めわからない ⇒点過程としてモデル化

Page 19: 点過程と統計的機械学習の数理2014

点過程の復習

19

加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

どのように点と棒を生成するか?

Page 20: 点過程と統計的機械学習の数理2014

(X,B) を確率空間とする

B :Borel σ-algebra on X, xi ∈X ( i=1,2,…)

Random measure φ とは

任意のA ∈Bに対して

Random Measure

1

)()(i

i AxA

φによって定義される確率変数列を

点過程(Point process)という

XXX processと言った場合には、確率変数列 XXX measureと言った場合には、個々の(B値)確率変数について言及していると思えばよい 20

Page 21: 点過程と統計的機械学習の数理2014

A random measure φ is a completely random

measure if , for any finite collection A1, A2…, An

of disjoint sets, the random variables

φ(A1), φ(A2)…,φ(An) are independent.

Ex. カウント測度: N

(Poisson process) A1 A2

A3

N(A1)=4

N(A2)=3

N(A3)=2

Completely Random Measure (CRM) [Kingman,1967]

21

Page 22: 点過程と統計的機械学習の数理2014

Poisson Process (PP)

λ : Intensive function

-Measure from the measurable sets of X to R+

N is generated from PP with λ, i.e.,

N~PP(dN | λ),

if, for any measurable set A ⊂ X,

N(A)~Poison(λ(A)).

N(・) is a completely random measure given by

n

i

i AxAN1

)()(

,where n~Poisson(λ(X)). 22

Page 23: 点過程と統計的機械学習の数理2014

N :Poisson random measure over X, i.e., N ~ PP(dN | λ).

K+ :Family of positive functions on X.

Laplace Transform of PP

Kf,

確率過程について調べたい時は、Laplace Transform では、一般のCRMもLaplace Transformで調べてみよう

⇒ Levy-Khintchine Representation Theorem

)|()()(exp][ dNPPdxNxffLN

)()1(exp )( dxe xf

この形を覚えておく!

23

The Laplace transform of N:

Page 24: 点過程と統計的機械学習の数理2014

Levy-Khintchine Representation of CRM

),0(

)( ),()1(exp][A

ztAz dtdxeeE

:Levy measure on X×[0,∞). ),( dtdx

これは結局 をIntensive function

とするX×[0,∞)上のPP

[Kingman,1967]

これは結局

Laplace transform

24

),( dtdx

この形は!

φ をCRMとすると

Page 25: 点過程と統計的機械学習の数理2014

Levy-Ito Decomposition of CRM

),()( dtAtNA

[Kingman,1967]

φ がCRMの時、以下を満たす

X×[0,∞) 上のN~PP(dN|ν)が存在する

25

Page 26: 点過程と統計的機械学習の数理2014

Levy-Ito Decomposition of CRM

),()( dtAtNA

[Kingman,1967]

φ がCRMの時、以下を満たす

X×[0,∞) 上のN~PP(dN|ν)が存在する

26

[0,∞)

X

Page 27: 点過程と統計的機械学習の数理2014

Levy-Ito Decomposition of CRM

),()( dtAtNA

[Kingman,1967]

φ がCRMの時、以下を満たす

X×[0,∞) 上のN~PP(dN|ν)が存在する

27

[0,∞)

X

をintensive functionとする PPから点列を生成

),( dtdx

Page 28: 点過程と統計的機械学習の数理2014

Levy-Ito Decomposition of CRM

),()( dtAtNA

[Kingman,1967]

φ がCRMの時、以下を満たす

X×[0,∞) 上のN~PP(dN|ν)が存在する

28

1

)()(i

ii AxtA [0,∞)

X

),( ii tx

it

1

),(),(i

ii dttAxdtAN A

dt

dt

Page 29: 点過程と統計的機械学習の数理2014

Levy-Ito Decomposition of CRM [Kingman,1967]

29

[0,∞)

X

1

)()(i

ii AxtA

点 棒

),()( dtAtNA

φ がCRMの時、以下を満たす

X×[0,∞) 上のN~PP(dN|ν)が存在する

Page 30: 点過程と統計的機械学習の数理2014

各種CRMを特徴付けるものは、Levy measureだとわかったということは、Levy measureに対応して確率過程が作れる

Gamma process:

dtetdxHdtdxt01

0 )(),(

Beta process:

dtttdxHdtdx11

00)1()(),(

Inverse Gaussian process:

dtetdxHdtdxt

2/)(),( 02/3

0

etc…

点のルール

30

棒のルール

Page 31: 点過程と統計的機械学習の数理2014

点過程におけるベイズの定理?

→フビニの定理

(Fubini-type disintegration)

点過程の事後分布は? となる

Bayesの人は当然

31

以下、ガンマ過程(Gamma Process)を例に 点過程の事後分布について説明する (理由:Dirichlet過程=正規化ガンマ過程)

Page 32: 点過程と統計的機械学習の数理2014

フビニの定理

• 多変数の期待値などに伴う積分順序に関する定理

• 簡単に言えば積分順序の交換(逐次積分)を可能にする定理

• 様々な状況での証明がある 入門書としては、『測度から確率へ』(佐藤坦)などに幾つか証明がある つまり、 1つの定理で、どんな確率過程でも事後分布が求まる魔法の定理ではない(各自がんばる)

e.g., 非負確率変数の場合の逐次平均可能など

32

Page 33: 点過程と統計的機械学習の数理2014

ベイズの定理再考

33

)()|(),()(1

:1:1 dxpxypdxxypypn

i

inn

2:12:1

3

112

3

11

2

1

2

)|()|(

)|()|()|(

)|()|(

)()|()|(

Zydxpxyp

Zydxpxypxyp

Zyxpxyp

dxpxypxyp

n

i

i

n

i

i

n

i

i

n

i

i

事前分布

正規化項 事後分布

事後分布 正規化項

Page 34: 点過程と統計的機械学習の数理2014

H is a base probability measure over X and

α0 is concentration parameter.

G is generated from ΓP with α0H , i.e., G~ ΓP(α0H)

if , for any measurable set A ⊂ X,

G(A)~Gamma (α0H (A),1).

G(・) is a completely random measure given by

,

1

)(i

ii xwG

where ~Gamma(α0H (X),1) .

1i

iw

Gamma Process (ΓP)

34

Page 35: 点過程と統計的機械学習の数理2014

Normalized Gamma Process (NΓP)

X

)(1

Xwi

i

11

i

iw となるように正規化

)(~)(/ 0HDPXG

)|P())(/()|P()( 00 HdrXGfHdGDGf

[Kingman1975,Lo+1989]

DP: Dirichlet Process [Ferguson1973]

i.e., for any integrable function f

加算 無限 和が1

35

)(/ XG P~P,~ DG のとき in distribution,

)(~ 0HP

Page 36: 点過程と統計的機械学習の数理2014

Fubini-type disintegration for ΓP

Let h be any non-negative function over γ and x,

and

)()|P(),()|P()(),( dxdxhddxxh x

[Lo+,1978,1982,1989]

)|P(~ d , α=α0H.

xが与えられた下での

γの事後分布

)()|P()()]([ dxddxdxE

36

Page 37: 点過程と統計的機械学習の数理2014

Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]

)()()|P(),(

)()|P()(),(

)|P()(),(

21

2

1

2

1

12

2

1

2

1

1

1

dxdxdxh

dxddxxh

ddxxh

x

i

x

i

i

x

i

i

i

ii

i

2

1

)(),(i

ii dxxh の場合(注: dx1, dx2の多重積分)

[Fubini’s theorem]

[Fubini’s theorem]

※dx1, dx2の積分順序によらない 37

Page 38: 点過程と統計的機械学習の数理2014

)()|P(),(

)|P()(),(

1

1

111

1

i

n

i

i

j

x

n

i

x

n

i

i

n

i

ii

dxdxh

ddxxh

ji

Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]

n

i

ii dxxh1

)(),( の場合

x1 …, xnが与えられた元での

γの事後分布

38

Page 39: 点過程と統計的機械学習の数理2014

h :γ , x上の非負値関数

)(

)()|P(

)(,

)|P()(

)(

)(,

X

dxd

Xxh

dX

dx

Xxh

x

)|P(~ d , α=α0H.

Fubini-type disintegration for NΓP

39

[Lo+,1978,1982,1989]

Page 40: 点過程と統計的機械学習の数理2014

Proof:

)(

)()|P(

)(,

)()(

1)|P(

)(,

)()|P()(

1

)(,

)|P()(

)(

)(,

)|P(

X

dxd

Xxh

dxX

EdX

xh

dxdXX

xh

dX

dx

Xxh

x

dx

x

x

[Fubini’s theorem]

[Fubini’s theorem]

Fubini-type disintegration for NΓP

40

[Lo+,1978,1982,1989]

証明は 少し複雑

Page 41: 点過程と統計的機械学習の数理2014

Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]

1)(

)(

)(

)()|P(),(

)(

)()|P()(),(

)|P()(),(

212

1

2

1

12

2

1

2

1

1

1

X

dx

X

dxdGxh

X

dxddxGGxh

ddxGGxh

x

i

x

i

i

x

i

i

i

ii

i

41

)(

)()(

X

dxdxG

とおくと

1)()(1

XXx 1)(1

Xx より

Page 42: 点過程と統計的機械学習の数理2014

n

i

i

i

j

xn

i

x

n

i

i

n

i

ii

iX

dx

drGxh

drdxGGxh

j

i

1

1

1

11

1

1)(

)(

)|P(),(

)|P()(),(

x1 …, xnが与えられた元での

Gの事後分布

正規化されている

42

Fubini-type disintegration for NΓP [Lo+,1978,1982,1989]

)(

)()(

X

dxdxG

とおくと

Page 43: 点過程と統計的機械学習の数理2014

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(

dx1 …, dxnの積分を近似

⇒ x1 …, xnをサンプリングする

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

)()( 0 dxHdx

43

からのサンプリング

Page 44: 点過程と統計的機械学習の数理2014

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(

dx1 …, dxnの積分を近似

⇒ x1 …, xnをサンプリングする

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

からのサンプリング

)()(

)(

)(~~

1

0

1011 dxH

dxH

X

dxx

44

1)( XH とすると(つまり、Hは確率測度)

0)( X より ※ )()( 0 dxHdx

Page 45: 点過程と統計的機械学習の数理2014

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(

dx1 …, dxnの積分を近似

⇒ x1 …, xnをサンプリングする

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

)()( 0 dxHdx

からのサンプリング

45

1

)(

1)(

)(~~

0

2~02~

211

dxH

X

dxx

xx

)(1

1)(

12~

0

2

0

0

1dxdxH x

Page 46: 点過程と統計的機械学習の数理2014

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(

dx1 …, dxnの積分を近似

⇒ x1 …, xnをサンプリングする

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

)()( 0 dxHdx

からのサンプリング

46

)(1

1)(

1~

1

100

0n

n

i

xnn dxn

dxHn

xi

積分順序=サンプリング順序

フビニの定理により積分順序に依存しない

→サンプリング順序に依存しない

Page 47: 点過程と統計的機械学習の数理2014

Restaurant Representation

)(1

1)(

1~

1

100

0n

n

i

xnn dxn

dxHn

xi

2x

4x30

0

3

2

0

3

1

0

)2(

2 xx

)1(

1 xx 3x

1x1 2 3 )(~ 4

1

4 dxHxx

)1(

3 xx

?4 x

新しいxがサンプリングされる確率 既出のxがサンプリングされる確率

1x1

テーブル

47

Page 48: 点過程と統計的機械学習の数理2014

Sampling approximation

)(1

1)(

1~

1

100

0n

n

i

xnn dxn

dxHn

xi

新しいxがサンプリングされる確率 既出のxがサンプリングされる確率

48

S

s

n

ix

n

i

s

i si

drGxhS

)|P(),(1

11

)()(

n

i

i

i

j

xn

i

x

n

i

iiX

dx

drGxhj

i

1

1

1

11 1)(

)(

)|P(),(

)|P()(),(1

drdxGGxhn

i

ii

Page 49: 点過程と統計的機械学習の数理2014

Sampling approximation

49

S

s

n

i

s

ixhS 1

)()(

1hがGに依存しない場合:

hがGに依存する場合: )|P(~1

)(

n

ix

si

drr

1,Gamma~)(1

)()(

n

ix

s

i si

xr 1,Gamma~)( 0xr

)|P()(),(1

drdxGGxhn

i

ii

S

s

n

ix

n

i

s

i si

drGxhS

)|P(),(1

11

)()(

Page 50: 点過程と統計的機械学習の数理2014

Fubini-type disintegration for DP [Ferguson1973]

Let h be any non-negative function over G and x,

and )|P(~ dGDG , α=α0H.

)(

)()|P(),()|P()(),(

X

dxdGDGxhdGDdxGGxh x

xが与えられた下での

Gの事後分布

50

Page 51: 点過程と統計的機械学習の数理2014

Completely Random Measure

Poisson Process

Gamma Process

Dirichlet Process

Beta Process Inverse Gaussian Process

正規化

Levy measure Levy measure Levy measure

※まだまだたくさん あります

Levy process

離散部分

51

連続部分 Gaussian process

まとめ