点過程と統計的機械学習の数理２０１４

点過程と統計的機械学習の数理 -Bayesian Nonparametrics-

東京大学情報基盤センター中川研究室助教

佐藤一誠

2014/07/05 @立命館大学

2

X上の確率測度Gに対して、 Xの任意の分割A1,...Amを考えたとき，のとき、GはDirichlet Processに従う

[Ferguson,1973]

))(,),(( 1 mAGAG

))(,),((~ 1 mAHAHDir

今日の目標はこれが直感的に理解できること

Dirichlet過程

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

3

点過程の例：カウント過程

4

目的：時間や空間などに点在している点に関して点カウントの統計的性質を考えたい ※点の全個数は仮定しない例えば、ある期間における来客数を考える場合、全来客数は予めわからない

A N(A)=2

B

X

N(B)=4

N(A)をA(⊂X)内での点の個数とする

個々の点ではなく

Nに関して何らかの統計モデル

を考える

ポイント

Poisson過程

5

N(A)～Poisson(α0H (A))

λ=α0H: X → R+

α0:非負スカラー値

H: Intensive function

(基底測度)

任意のA(⊂X)に関して、N(A)が

λ(A)

A N(A)=2

B

X

N(B)=4

λ=α0H

AdxxA )()(

点過程の考え方

6

A1 A2

A3

N(A1)=4

N(A2)=3

N(A3)=2

• 点の全個数は仮定しないので点個別ではなく集合に関して統計モデルを考える

• 点●と棒／に関して統計モデルを考える

カウント過程

1

)(1)(i

i AxAN

長さ１の棒

この表現に慣れることが最重要!

7

1

)(1)(i

i AxAN

ix

1

A

Poisson過程：

α0H: X → R+


H:基底(確率)測度

任意のA(⊂X)に関して、N(A)が

N(A)～Poison(α0H (A))

棒の従うルール (合計は整数値)

点の従うルール

)(~ xHxi

8

G(A)～Gamma (α0H (A),1).

1

)()(i

ii AxwAG

棒の長さを１以外の場合を考えたい

ix

iw

A

ガンマ過程：

α0H: X → R+



任意のA(⊂X)に関して、G(A)が

棒の従うルール (非負の実数)


)(~ xHxi

9

棒の長さを１以外の場合を考えたい

B(A)～Beta (α0H (A), α0(1-H (A)).

1

)()(i

ii AxwAB

ix

iw

A

ベータ過程：

任意のA(⊂X)に関して、G(A)が

α0H: X → R+



棒の従うルール（[0,1]の間の値）


)(~ xHxi

点過程のまとめ

10

加算無限個の点●とその重みである棒／に関して統計モデルを仮定したもの ⇒集合（空間）に関する重み付きカウントの統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

1

)()(i

ii AxwAG

点棒

11

Dirichlet 過程

Xの任意の分割A1,...Amに対して

[Ferguson,1973]

))(,),(( 1 mAGAG

))(,),((~ 1 mAHAHDir

𝐺 G 𝐴 = 𝑤𝑖𝛿∞

𝑖=1

𝑥𝑖 ∈ 𝐴

𝑤𝑖∞ 𝑖=1 =1

A1 A2 A3 A4

棒の従うルール（全棒の合計が１）

-点過程と機械学習の接点-

• 点過程の考え方

• 統計的機械学習における点過程

12

確率的潜在変数モデル

1 2 3

𝜃3 𝜃1

𝜃2

𝑦𝑖

𝑧𝑖

𝜃

𝜑𝑘

𝛽 𝛼

𝐾

𝑛 13

潜在変数空間

Z

𝑝(𝑦|𝜑1) 𝑝(𝑦|𝜑2) 𝑝(𝑦|𝜑3)

Y データの空間

※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現ベクトルの場合や平均と分散のように複数の統計量を表すこともある

パラメータ空間で考えると

𝜃3 𝜃1

𝜑1 𝜑3

𝜃2

𝜑2 Φ

混合分布はパラメータ空間における点と棒の統計モデル

15

パラメータ空間

G 𝜑3 𝜑1 𝜑1 𝜑2

𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3

𝜃3 𝜃1

G ∙ = 𝜃𝑘𝛿𝜑𝑘

𝐾(=3)

𝑘=1

∙

e.g., G 𝜑2 = 𝜃𝑘𝛿𝜑𝑘𝐾(=3)𝑘=1 𝜑2 =𝜃2

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける

𝜑2~𝐺

16

Φ パラメータ空間

G


𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3

𝜃3 𝜃1


𝐾→∞

𝑘=1

∙

𝜑1 𝜑3

𝜃2

𝜑2

𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺

混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける

𝜑2~𝐺

17

点過程としてみれば無限点を扱える

Φ パラメータ空間

G


𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)

𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3

18


𝐾

𝑘=1

∙ 有限モデル

点の数を予め固定 ⇒有限次元の確率分布でモデル化


∞

𝑘=1

∙ 無限モデル

点の数は予めわからない ⇒点過程としてモデル化

点過程の復習

19

加算無限個の点●とその重みである棒／に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H

• 棒が従うルール→ XX過程のXX

によって様々なモデルがある

どのように点と棒を生成するか？

(X,B) を確率空間とする

B ：Borel σ-algebra on X, xi ∈X ( i=1,2,…)

Random measure φ とは

任意のA ∈Bに対して

Random Measure

1

)()(i

i AxA

φによって定義される確率変数列を

点過程(Point process)という

XXX processと言った場合には、確率変数列 XXX measureと言った場合には、個々の(B値)確率変数について言及していると思えばよい 20

A random measure φ is a completely random

measure if , for any finite collection A1, A2…, An

of disjoint sets, the random variables

φ(A1), φ(A2)…,φ(An) are independent.

Ex. カウント測度: N

(Poisson process) A1 A2

A3

N(A1)=4

N(A2)=3

N(A3)=2

Completely Random Measure (CRM) [Kingman,1967]

21

Poisson Process (PP)

λ : Intensive function

-Measure from the measurable sets of X to R+

N is generated from PP with λ, i.e.,

N~PP(dN | λ),

if, for any measurable set A ⊂ X,

N(A)～Poison(λ(A)).

N(・) is a completely random measure given by

n

i

i AxAN1

)()(

,where n～Poisson(λ(X)). 22

N ：Poisson random measure over X, i.e., N ~ PP(dN | λ).

K+ ：Family of positive functions on X.

Laplace Transform of PP

Kf,

確率過程について調べたい時は、Laplace Transform では、一般のCRMもLaplace Transformで調べてみよう

⇒ Levy-Khintchine Representation Theorem

)|()()(exp][ dNPPdxNxffLN

)()1(exp )( dxe xf

この形を覚えておく！

23

The Laplace transform of N:

Levy-Khintchine Representation of CRM

),0(

)( ),()1(exp][A

ztAz dtdxeeE

：Levy measure on X×[0,∞). ),( dtdx

これは結局をIntensive function

とするX×[0,∞)上のPP

[Kingman,1967]

これは結局

Laplace transform

24

),( dtdx

この形は！

φ をCRMとすると

Levy-Ito Decomposition of CRM

),()( dtAtNA

[Kingman,1967]

φ がCRMの時、以下を満たす

X×[0,∞) 上のN~PP(dN|ν)が存在する

25


),()( dtAtNA

[Kingman,1967]



26

[0,∞)

X


),()( dtAtNA

[Kingman,1967]



27

[0,∞)

X

をintensive functionとする PPから点列を生成

),( dtdx


),()( dtAtNA

[Kingman,1967]



28

1

)()(i

ii AxtA [0,∞)

X

),( ii tx

it

1

),(),(i

ii dttAxdtAN A

dt

dt

Levy-Ito Decomposition of CRM [Kingman,1967]

29

[0,∞)

X

1

)()(i

ii AxtA

点棒

),()( dtAtNA



各種CRMを特徴付けるものは、Levy measureだとわかったということは、Levy measureに対応して確率過程が作れる

Gamma process:

dtetdxHdtdxt01

0 )(),(

Beta process:

dtttdxHdtdx11

00)1()(),(

Inverse Gaussian process:

dtetdxHdtdxt

2/)(),( 02/3

0

etc…

点のルール

30

棒のルール

点過程におけるベイズの定理？

→フビニの定理

（Fubini-type disintegration）

点過程の事後分布は？となる

Bayesの人は当然

31

以下、ガンマ過程(Gamma Process)を例に点過程の事後分布について説明する（理由：Dirichlet過程=正規化ガンマ過程）

フビニの定理

• 多変数の期待値などに伴う積分順序に関する定理

• 簡単に言えば積分順序の交換(逐次積分)を可能にする定理

• 様々な状況での証明がある入門書としては、『測度から確率へ』(佐藤坦)などに幾つか証明があるつまり、１つの定理で、どんな確率過程でも事後分布が求まる魔法の定理ではない（各自がんばる）

e.g., 非負確率変数の場合の逐次平均可能など

32

ベイズの定理再考

33

)()|(),()(1

:1:1 dxpxypdxxypypn

i

inn

2:12:1

3

112

3

11

2

1

2

)|()|(

)|()|()|(

)|()|(

)()|()|(

Zydxpxyp

Zydxpxypxyp

Zyxpxyp

dxpxypxyp

n

i

i

n

i

i

n

i

i

n

i

i

事前分布

正規化項事後分布

事後分布正規化項

H is a base probability measure over X and

α0 is concentration parameter.

G is generated from ΓP with α0H , i.e., G~ ΓP(α0H)

if , for any measurable set A ⊂ X,

G(A)～Gamma (α0H (A),1).

G(・) is a completely random measure given by

,

1

)(i

ii xwG

where ～Gamma(α0H (X),1) .

1i

iw

Gamma Process (ΓP)

34

Normalized Gamma Process (NΓP)

X

)(1

Xwi

i

11

i

iw となるように正規化

)(~)(/ 0HDPXG

)|P())(/()|P()( 00 HdrXGfHdGDGf

[Kingman1975,Lo+1989]

DP: Dirichlet Process [Ferguson1973]

i.e., for any integrable function f

加算無限和が１

35

)(/ XG P~P,~ DG のとき in distribution,

)(~ 0HP

Fubini-type disintegration for ΓP

Let h be any non-negative function over γ and x,

and

)()|P(),()|P()(),( dxdxhddxxh x

[Lo+,1978,1982,1989]

)|P(~ d , α=α0H.

xが与えられた下での

γの事後分布

)()|P()()]([ dxddxdxE

36

Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]

)()()|P(),(

)()|P()(),(

)|P()(),(

21

2

1

2

1

12

2

1

2

1

1

1

dxdxdxh

dxddxxh

ddxxh

x

i

x

i

i

x

i

i

i

ii

i

2

1

)(),(i

ii dxxh の場合(注: dx1, dx2の多重積分)

[Fubini’s theorem]


※dx1, dx2の積分順序によらない 37

)()|P(),(

)|P()(),(

1

1

111

1

i

n

i

i

j

x

n

i

x

n

i

i

n

i

ii

dxdxh

ddxxh

ji


n

i

ii dxxh1

)(),( の場合

x1 …, xnが与えられた元での

γの事後分布

38

h ：γ , x上の非負値関数

)(

)()|P(

)(,

)|P()(

)(

)(,

X

dxd

Xxh

dX

dx

Xxh

x

)|P(~ d , α=α0H.

Fubini-type disintegration for NΓP

39

[Lo+,1978,1982,1989]

Proof:

)(

)()|P(

)(,

)()(

1)|P(

)(,

)()|P()(

1

)(,

)|P()(

)(

)(,

)|P(

X

dxd

Xxh

dxX

EdX

xh

dxdXX

xh

dX

dx

Xxh

x

dx

x

x



Fubini-type disintegration for NΓP

40

[Lo+,1978,1982,1989]

証明は少し複雑


1)(

)(

)(

)()|P(),(

)(

)()|P()(),(

)|P()(),(

212

1

2

1

12

2

1

2

1

1

1

X

dx

X

dxdGxh

X

dxddxGGxh

ddxGGxh

x

i

x

i

i

x

i

i

i

ii

i

41

)(

)()(

X

dxdxG

とおくと

1)()(1

XXx 1)(1

Xx より

n

i

i

i

j

xn

i

x

n

i

i

n

i

ii

iX

dx

drGxh

drdxGGxh

j

i

1

1

1

11

1

1)(

)(

)|P(),(

)|P()(),(

x1 …, xnが与えられた元での

Gの事後分布

正規化されている

42

Fubini-type disintegration for NΓP [Lo+,1978,1982,1989]

)(

)()(

X

dxdxG

とおくと

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(

dx1 …, dxnの積分を近似

⇒ x1 …, xnをサンプリングする

※

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

)()( 0 dxHdx

43

からのサンプリング

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(



※

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii


)()(

)(

)(~~

1

0

1011 dxH

dxH

X

dxx

44

1)( XH とすると（つまり、Hは確率測度）

0)( X より ※ )()( 0 dxHdx

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(



※

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

)()( 0 dxHdx


45

1

)(

1)(

)(~~

0

2~02~

211

dxH

X

dxx

xx

)(1

1)(

12~

0

2

0

0

1dxdxH x

n

i

i

i

j

x

niX

dx

xxfj

1

1

1

11)(

)(

)(



※

1)(

)(

2)(

)(

1)(

)(

)(

)(

1

1

3

2

121 1

iX

dx

X

dx

X

dx

X

dxn

n

i

x

i

xx

ii

)()( 0 dxHdx


46

)(1

1)(

1~

1

100

0n

n

i

xnn dxn

dxHn

xi

積分順序＝サンプリング順序

フビニの定理により積分順序に依存しない

→サンプリング順序に依存しない

Restaurant Representation

)(1

1)(

1~

1

100

0n

n

i

xnn dxn

dxHn

xi

2x

4x30

0

3

2

0

3

1

0

)2(

2 xx

)1(

1 xx 3x

1x1 2 3 )(~ 4

1

4 dxHxx

)1(

3 xx

?4 x

新しいxがサンプリングされる確率既出のxがサンプリングされる確率

1x1

テーブル

客

47

Sampling approximation

)(1

1)(

1~

1

100

0n

n

i

xnn dxn

dxHn

xi

新しいxがサンプリングされる確率既出のxがサンプリングされる確率

48

S

s

n

ix

n

i

s

i si

drGxhS

)|P(),(1

11

)()(

n

i

i

i

j

xn

i

x

n

i

iiX

dx

drGxhj

i

1

1

1

11 1)(

)(

)|P(),(

)|P()(),(1

drdxGGxhn

i

ii

Sampling approximation

49

S

s

n

i

s

ixhS 1

)()(

1hがGに依存しない場合:

hがGに依存する場合: )|P(~1

)(

n

ix

si

drr

1,Gamma~)(1

)()(

n

ix

s

i si

xr 1,Gamma~)( 0xr

)|P()(),(1

drdxGGxhn

i

ii

S

s

n

ix

n

i

s

i si

drGxhS

)|P(),(1

11

)()(

Fubini-type disintegration for DP [Ferguson1973]

Let h be any non-negative function over G and x,

and )|P(~ dGDG , α=α0H.

)(

)()|P(),()|P()(),(

X

dxdGDGxhdGDdxGGxh x

xが与えられた下での

Gの事後分布

50

Completely Random Measure

Poisson Process

Gamma Process

Dirichlet Process

Beta Process Inverse Gaussian Process

正規化

Levy measure Levy measure Levy measure

※まだまだたくさんあります

Levy process

離散部分

51

連続部分 Gaussian process

まとめ

点過程と統計的機械学習の数理２０１４

Data & Analytics

Transcript of 点過程と統計的機械学習の数理２０１４