臨床工学技士国家試験 機械工学分野 問題 第26 …©Ÿ械過去問...- 3 - 臨床工学技士国家試験 機械工学分野 問題 【PM80 】正しいのはどれか。a.
点過程と統計的機械学習の数理2014
-
Upload
isseisato -
Category
Data & Analytics
-
view
1.311 -
download
2
description
Transcript of 点過程と統計的機械学習の数理2014
点過程と統計的機械学習の数理 -Bayesian Nonparametrics-
東京大学 情報基盤センター 中川研究室 助教
佐藤一誠
2014/07/05 @立命館大学
2
X上の確率測度Gに対して、 Xの任意の分割A1,...Amを考えたとき, のとき、GはDirichlet Processに従う
[Ferguson,1973]
))(,),(( 1 mAGAG
))(,),((~ 1 mAHAHDir
今日の目標はこれが直感的に理解できること
Dirichlet過程
-点過程と機械学習の接点-
• 点過程の考え方
• 統計的機械学習における点過程
3
点過程の例:カウント過程
4
目的:時間や空間などに点在している点に関して点カウントの統計的性質を考えたい ※点の全個数は仮定しない 例えば、ある期間における来客数を考える場合、全来客数は 予めわからない
A N(A)=2
B
X
N(B)=4
N(A)をA(⊂X)内での点の個数とする
個々の点ではなく
Nに関して何らかの統計モデル
を考える
ポイント
Poisson過程
5
N(A)~Poisson(α0H (A))
λ=α0H: X → R+
α0:非負スカラー値
H: Intensive function
(基底測度)
任意のA(⊂X)に関して、N(A)が
λ(A)
A N(A)=2
B
X
N(B)=4
λ=α0H
AdxxA )()(
点過程の考え方
6
A1 A2
A3
N(A1)=4
N(A2)=3
N(A3)=2
• 点の全個数は仮定しないので点個別ではなく 集合に関して統計モデルを考える
• 点●と棒/に関して統計モデルを考える
カウント過程
1
)(1)(i
i AxAN
長さ1の棒
この表現に慣れることが最重要!
7
1
)(1)(i
i AxAN
ix
1
A
Poisson過程:
α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
任意のA(⊂X)に関して、N(A)が
N(A)~Poison(α0H (A))
棒の従うルール (合計は整数値)
点の従うルール
)(~ xHxi
8
G(A)~Gamma (α0H (A),1).
1
)()(i
ii AxwAG
棒の長さを1以外の場合を考えたい
ix
iw
A
ガンマ過程:
α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
任意のA(⊂X)に関して、G(A)が
棒の従うルール (非負の実数)
点の従うルール
)(~ xHxi
9
棒の長さを1以外の場合を考えたい
B(A)~Beta (α0H (A), α0(1-H (A)).
1
)()(i
ii AxwAB
ix
iw
A
ベータ過程:
任意のA(⊂X)に関して、G(A)が
α0H: X → R+
α0:非負スカラー値
H:基底(確率)測度
棒の従うルール ([0,1]の間の値)
点の従うルール
)(~ xHxi
点過程のまとめ
10
加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒集合(空間)に関する重み付きカウント の統計モデル • 点が従うルール→基底測度α0H
• 棒が従うルール→ XX過程のXX
によって様々なモデルがある
1
)()(i
ii AxwAG
点 棒
11
Dirichlet 過程
Xの任意の分割A1,...Amに対して
[Ferguson,1973]
))(,),(( 1 mAGAG
))(,),((~ 1 mAHAHDir
𝐺 G 𝐴 = 𝑤𝑖𝛿∞
𝑖=1
𝑥𝑖 ∈ 𝐴
𝑤𝑖∞ 𝑖=1 =1
A1 A2 A3 A4
棒の従うルール (全棒の合計が1)
-点過程と機械学習の接点-
• 点過程の考え方
• 統計的機械学習における点過程
12
確率的潜在変数モデル
1 2 3
𝜃3 𝜃1
𝜃2
𝑦𝑖
𝑧𝑖
𝜃
𝜑𝑘
𝛽 𝛼
𝐾
𝑛 13
潜在変数空間
Z
𝑝(𝑦|𝜑1) 𝑝(𝑦|𝜑2) 𝑝(𝑦|𝜑3)
Y データの空間
※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現 ベクトルの場合や平均と分散のように 複数の統計量を表すこともある
確率的潜在変数モデル
1 2 3
𝜃3 𝜃1
𝜃2
𝑦1
𝑧1 = 3 𝑧2 = 1
~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)
𝑦𝑖~𝑝(𝑥|𝜑𝑧𝑖)
𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃)
𝜃~𝐷𝑖𝑟(𝜃|𝛼)
𝜑𝑘~𝐻(𝜑|𝛽)
14
𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3 潜在変数空間
Z 𝑧3 = 1 𝑧4 = 2
𝑦𝑖
𝑧𝑖
𝜃
𝜑𝑘
𝛽 𝛼
𝐾
𝑛
パラメータ空間で考えると
𝜃3 𝜃1
𝜑1 𝜑3
𝜃2
𝜑2 Φ
混合分布はパラメータ空間における 点と棒の統計モデル
15
パラメータ空間
G 𝜑3 𝜑1 𝜑1 𝜑2
𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)
𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3
𝜃3 𝜃1
G ∙ = 𝜃𝑘𝛿𝜑𝑘
𝐾(=3)
𝑘=1
∙
e.g., G 𝜑2 = 𝜃𝑘𝛿𝜑𝑘𝐾(=3)𝑘=1 𝜑2 =𝜃2
𝜑1 𝜑3
𝜃2
𝜑2
𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺
混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける
𝜑2~𝐺
16
Φ パラメータ空間
G
パラメータ空間で考えると
𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)
𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3
𝜃3 𝜃1
G ∙ = 𝜃𝑘𝛿𝜑𝑘
𝐾→∞
𝑘=1
∙
𝜑1 𝜑3
𝜃2
𝜑2
𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺
混合比𝜃𝑘はパラメータ𝜑𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける
𝜑2~𝐺
17
点過程 としてみれば 無限点を扱える
Φ パラメータ空間
G
パラメータ空間で考えると
𝑦1 ~𝑝(𝑦|𝜑3) ~𝑝(𝑦|𝜑1)
𝑦2 𝑦4 ~𝑝(𝑦|𝜑2) 𝑦3
18
G ∙ = 𝜃𝑘𝛿𝜑𝑘
𝐾
𝑘=1
∙ 有 限 モ デ ル
点の数を予め固定 ⇒有限次元の確率分布でモデル化
G ∙ = 𝜃𝑘𝛿𝜑𝑘
∞
𝑘=1
∙ 無 限 モ デ ル
点の数は予めわからない ⇒点過程としてモデル化
点過程の復習
19
加算無限個の点●とその重みである棒/に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H
• 棒が従うルール→ XX過程のXX
によって様々なモデルがある
どのように点と棒を生成するか?
(X,B) を確率空間とする
B :Borel σ-algebra on X, xi ∈X ( i=1,2,…)
Random measure φ とは
任意のA ∈Bに対して
Random Measure
1
)()(i
i AxA
φによって定義される確率変数列を
点過程(Point process)という
XXX processと言った場合には、確率変数列 XXX measureと言った場合には、個々の(B値)確率変数について言及していると思えばよい 20
A random measure φ is a completely random
measure if , for any finite collection A1, A2…, An
of disjoint sets, the random variables
φ(A1), φ(A2)…,φ(An) are independent.
Ex. カウント測度: N
(Poisson process) A1 A2
A3
N(A1)=4
N(A2)=3
N(A3)=2
Completely Random Measure (CRM) [Kingman,1967]
21
Poisson Process (PP)
λ : Intensive function
-Measure from the measurable sets of X to R+
N is generated from PP with λ, i.e.,
N~PP(dN | λ),
if, for any measurable set A ⊂ X,
N(A)~Poison(λ(A)).
N(・) is a completely random measure given by
n
i
i AxAN1
)()(
,where n~Poisson(λ(X)). 22
N :Poisson random measure over X, i.e., N ~ PP(dN | λ).
K+ :Family of positive functions on X.
Laplace Transform of PP
Kf,
確率過程について調べたい時は、Laplace Transform では、一般のCRMもLaplace Transformで調べてみよう
⇒ Levy-Khintchine Representation Theorem
)|()()(exp][ dNPPdxNxffLN
)()1(exp )( dxe xf
この形を覚えておく!
23
The Laplace transform of N:
Levy-Khintchine Representation of CRM
),0(
)( ),()1(exp][A
ztAz dtdxeeE
:Levy measure on X×[0,∞). ),( dtdx
これは結局 をIntensive function
とするX×[0,∞)上のPP
[Kingman,1967]
これは結局
Laplace transform
24
),( dtdx
この形は!
φ をCRMとすると
Levy-Ito Decomposition of CRM
),()( dtAtNA
[Kingman,1967]
φ がCRMの時、以下を満たす
X×[0,∞) 上のN~PP(dN|ν)が存在する
25
Levy-Ito Decomposition of CRM
),()( dtAtNA
[Kingman,1967]
φ がCRMの時、以下を満たす
X×[0,∞) 上のN~PP(dN|ν)が存在する
26
[0,∞)
X
Levy-Ito Decomposition of CRM
),()( dtAtNA
[Kingman,1967]
φ がCRMの時、以下を満たす
X×[0,∞) 上のN~PP(dN|ν)が存在する
27
[0,∞)
X
をintensive functionとする PPから点列を生成
),( dtdx
Levy-Ito Decomposition of CRM
),()( dtAtNA
[Kingman,1967]
φ がCRMの時、以下を満たす
X×[0,∞) 上のN~PP(dN|ν)が存在する
28
1
)()(i
ii AxtA [0,∞)
X
),( ii tx
it
1
),(),(i
ii dttAxdtAN A
dt
dt
Levy-Ito Decomposition of CRM [Kingman,1967]
29
[0,∞)
X
1
)()(i
ii AxtA
点 棒
),()( dtAtNA
φ がCRMの時、以下を満たす
X×[0,∞) 上のN~PP(dN|ν)が存在する
各種CRMを特徴付けるものは、Levy measureだとわかったということは、Levy measureに対応して確率過程が作れる
Gamma process:
dtetdxHdtdxt01
0 )(),(
Beta process:
dtttdxHdtdx11
00)1()(),(
Inverse Gaussian process:
dtetdxHdtdxt
2/)(),( 02/3
0
etc…
点のルール
30
棒のルール
点過程におけるベイズの定理?
→フビニの定理
(Fubini-type disintegration)
点過程の事後分布は? となる
Bayesの人は当然
31
以下、ガンマ過程(Gamma Process)を例に 点過程の事後分布について説明する (理由:Dirichlet過程=正規化ガンマ過程)
フビニの定理
• 多変数の期待値などに伴う積分順序に関する定理
• 簡単に言えば積分順序の交換(逐次積分)を可能にする定理
• 様々な状況での証明がある 入門書としては、『測度から確率へ』(佐藤坦)などに幾つか証明がある つまり、 1つの定理で、どんな確率過程でも事後分布が求まる魔法の定理ではない(各自がんばる)
e.g., 非負確率変数の場合の逐次平均可能など
32
ベイズの定理再考
33
)()|(),()(1
:1:1 dxpxypdxxypypn
i
inn
2:12:1
3
112
3
11
2
1
2
)|()|(
)|()|()|(
)|()|(
)()|()|(
Zydxpxyp
Zydxpxypxyp
Zyxpxyp
dxpxypxyp
n
i
i
n
i
i
n
i
i
n
i
i
事前分布
正規化項 事後分布
事後分布 正規化項
H is a base probability measure over X and
α0 is concentration parameter.
G is generated from ΓP with α0H , i.e., G~ ΓP(α0H)
if , for any measurable set A ⊂ X,
G(A)~Gamma (α0H (A),1).
G(・) is a completely random measure given by
,
1
)(i
ii xwG
where ~Gamma(α0H (X),1) .
1i
iw
Gamma Process (ΓP)
34
Normalized Gamma Process (NΓP)
X
)(1
Xwi
i
11
i
iw となるように正規化
)(~)(/ 0HDPXG
)|P())(/()|P()( 00 HdrXGfHdGDGf
[Kingman1975,Lo+1989]
DP: Dirichlet Process [Ferguson1973]
i.e., for any integrable function f
加算 無限 和が1
35
)(/ XG P~P,~ DG のとき in distribution,
)(~ 0HP
Fubini-type disintegration for ΓP
Let h be any non-negative function over γ and x,
and
)()|P(),()|P()(),( dxdxhddxxh x
[Lo+,1978,1982,1989]
)|P(~ d , α=α0H.
xが与えられた下での
γの事後分布
)()|P()()]([ dxddxdxE
36
Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]
)()()|P(),(
)()|P()(),(
)|P()(),(
21
2
1
2
1
12
2
1
2
1
1
1
dxdxdxh
dxddxxh
ddxxh
x
i
x
i
i
x
i
i
i
ii
i
2
1
)(),(i
ii dxxh の場合(注: dx1, dx2の多重積分)
[Fubini’s theorem]
[Fubini’s theorem]
※dx1, dx2の積分順序によらない 37
)()|P(),(
)|P()(),(
1
1
111
1
i
n
i
i
j
x
n
i
x
n
i
i
n
i
ii
dxdxh
ddxxh
ji
Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]
n
i
ii dxxh1
)(),( の場合
x1 …, xnが与えられた元での
γの事後分布
38
h :γ , x上の非負値関数
)(
)()|P(
)(,
)|P()(
)(
)(,
X
dxd
Xxh
dX
dx
Xxh
x
)|P(~ d , α=α0H.
Fubini-type disintegration for NΓP
39
[Lo+,1978,1982,1989]
Proof:
)(
)()|P(
)(,
)()(
1)|P(
)(,
)()|P()(
1
)(,
)|P()(
)(
)(,
)|P(
X
dxd
Xxh
dxX
EdX
xh
dxdXX
xh
dX
dx
Xxh
x
dx
x
x
[Fubini’s theorem]
[Fubini’s theorem]
Fubini-type disintegration for NΓP
40
[Lo+,1978,1982,1989]
証明は 少し複雑
Fubini-type disintegration for ΓP [Lo+,1978,1982,1989]
1)(
)(
)(
)()|P(),(
)(
)()|P()(),(
)|P()(),(
212
1
2
1
12
2
1
2
1
1
1
X
dx
X
dxdGxh
X
dxddxGGxh
ddxGGxh
x
i
x
i
i
x
i
i
i
ii
i
41
)(
)()(
X
dxdxG
とおくと
1)()(1
XXx 1)(1
Xx より
n
i
i
i
j
xn
i
x
n
i
i
n
i
ii
iX
dx
drGxh
drdxGGxh
j
i
1
1
1
11
1
1)(
)(
)|P(),(
)|P()(),(
x1 …, xnが与えられた元での
Gの事後分布
正規化されている
42
Fubini-type disintegration for NΓP [Lo+,1978,1982,1989]
)(
)()(
X
dxdxG
とおくと
n
i
i
i
j
x
niX
dx
xxfj
1
1
1
11)(
)(
)(
dx1 …, dxnの積分を近似
⇒ x1 …, xnをサンプリングする
※
1)(
)(
2)(
)(
1)(
)(
)(
)(
1
1
3
2
121 1
iX
dx
X
dx
X
dx
X
dxn
n
i
x
i
xx
ii
)()( 0 dxHdx
43
からのサンプリング
n
i
i
i
j
x
niX
dx
xxfj
1
1
1
11)(
)(
)(
dx1 …, dxnの積分を近似
⇒ x1 …, xnをサンプリングする
※
1)(
)(
2)(
)(
1)(
)(
)(
)(
1
1
3
2
121 1
iX
dx
X
dx
X
dx
X
dxn
n
i
x
i
xx
ii
からのサンプリング
)()(
)(
)(~~
1
0
1011 dxH
dxH
X
dxx
44
1)( XH とすると(つまり、Hは確率測度)
0)( X より ※ )()( 0 dxHdx
n
i
i
i
j
x
niX
dx
xxfj
1
1
1
11)(
)(
)(
dx1 …, dxnの積分を近似
⇒ x1 …, xnをサンプリングする
※
1)(
)(
2)(
)(
1)(
)(
)(
)(
1
1
3
2
121 1
iX
dx
X
dx
X
dx
X
dxn
n
i
x
i
xx
ii
)()( 0 dxHdx
からのサンプリング
45
1
)(
1)(
)(~~
0
2~02~
211
dxH
X
dxx
xx
)(1
1)(
12~
0
2
0
0
1dxdxH x
n
i
i
i
j
x
niX
dx
xxfj
1
1
1
11)(
)(
)(
dx1 …, dxnの積分を近似
⇒ x1 …, xnをサンプリングする
※
1)(
)(
2)(
)(
1)(
)(
)(
)(
1
1
3
2
121 1
iX
dx
X
dx
X
dx
X
dxn
n
i
x
i
xx
ii
)()( 0 dxHdx
からのサンプリング
46
)(1
1)(
1~
1
100
0n
n
i
xnn dxn
dxHn
xi
積分順序=サンプリング順序
フビニの定理により積分順序に依存しない
→サンプリング順序に依存しない
Restaurant Representation
)(1
1)(
1~
1
100
0n
n
i
xnn dxn
dxHn
xi
2x
4x30
0
3
2
0
3
1
0
)2(
2 xx
)1(
1 xx 3x
1x1 2 3 )(~ 4
1
4 dxHxx
)1(
3 xx
?4 x
新しいxがサンプリングされる確率 既出のxがサンプリングされる確率
1x1
テーブル
客
47
Sampling approximation
)(1
1)(
1~
1
100
0n
n
i
xnn dxn
dxHn
xi
新しいxがサンプリングされる確率 既出のxがサンプリングされる確率
48
S
s
n
ix
n
i
s
i si
drGxhS
)|P(),(1
11
)()(
n
i
i
i
j
xn
i
x
n
i
iiX
dx
drGxhj
i
1
1
1
11 1)(
)(
)|P(),(
)|P()(),(1
drdxGGxhn
i
ii
Sampling approximation
49
S
s
n
i
s
ixhS 1
)()(
1hがGに依存しない場合:
hがGに依存する場合: )|P(~1
)(
n
ix
si
drr
1,Gamma~)(1
)()(
n
ix
s
i si
xr 1,Gamma~)( 0xr
)|P()(),(1
drdxGGxhn
i
ii
S
s
n
ix
n
i
s
i si
drGxhS
)|P(),(1
11
)()(
Fubini-type disintegration for DP [Ferguson1973]
Let h be any non-negative function over G and x,
and )|P(~ dGDG , α=α0H.
)(
)()|P(),()|P()(),(
X
dxdGDGxhdGDdxGGxh x
xが与えられた下での
Gの事後分布
50
Completely Random Measure
Poisson Process
Gamma Process
Dirichlet Process
Beta Process Inverse Gaussian Process
正規化
Levy measure Levy measure Levy measure
※まだまだたくさん あります
Levy process
離散部分
51
連続部分 Gaussian process
まとめ