と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...
Transcript of と学習理論 - Osaka City Universityohnita/2006/inf_geom/sos_dan/watanabe_1.pdfMicrosoft...
7/6
/20
06
代数幾何と学習理論
1
代数幾何と学習理論
の関係について
(1)
東京工業大学
渡辺澄夫
20
06年
6月大阪市立大学数学研究所
ミニスクール「情報幾何への入門と応用」
7/6
/20
06
代数幾何と学習理論
2
学習理論とは
人間や環境からのデータ
りんご
みかん
ぶどう
でしょう
q(x
) ~
X1,
X2,
…,
Xn←
p(x
|w)
7/6
/20
06
代数幾何と学習理論
3
数学的対象
x ∈
RN上の確率分布の集合
{ p
(x|w
) ;
w ∈
Rd
}の学習理論
={
p(x
|w)
; w
∈R
d}の幾何
={
p(x
|w)
; w
∈R
d}の代数
7/6
/20
06
代数幾何と学習理論
4
幾何と代数
{図形上の関数
}の代数
図形
R
7/6
/20
06
代数幾何と学習理論
5
ストーリー
学習理論
代数幾何
超関数論
経験過程
①
②
③
7/6
/20
06
代数幾何と学習理論
6
正則性
(1)
w →
p(
|w) が一対一か
(2)
w1~
w2⇔
p(x
|w1)=
p(x
|w2)
(∀
x)
W/~が多様体か
(3)
s i(x
,w)=∂
wi
log
p(x
|w)
I ij(w
) =∫
s i(x
,w)s
j(x
,w)p
(x|w
)dxが正定値か
7/6
/20
06
代数幾何と学習理論
7
正則
モデル=
正定値
計量
Y =
a0+
a1
X+
a2
X2+・・・
+ a
KX
K+
雑音
モデルは微分多様体
小さいモデルは
大きいモデルの
部分多様体
条件つき確率
p(y
|x,a
1,…
,ak)
7/6
/20
06
代数幾何と学習理論
8
多様体
でない学習
モデル
Y =
a1
sin
(b1x
)+a
2si
n(b
2x
)+ 雑音
モデルは多様体でない
小さいモデルは
大きいモデルの
部分多様体ではない
{a1
=0
}∪
∪{b
1 =
0} ∪
{b2
=0
}
{a2
=0
}
条件つき確率
p(y
|x,a
1,a
2,b
1,b
2)
7/6
/20
06
代数幾何と学習理論
9
特異性の例
Y =
a1
sin
(b1x
)+a
2si
n(b
2x
)+ 雑音
Y =
0+
雑音
{ (a
1,a
2,b
1,b
2)
; a
1 s
in(b
1x
)+a
2si
n(b
2x
)=0
(∀
x)}
={
(a1,a
2,b
1,b
2)
; a
1b
1+
a2b
2=
0,
a1b
13
+ a
2b
23=
0 }
7/6
/20
06
代数幾何と学習理論
10
特異性の例
Y =
a1
sin
(b1x
)+a
2si
n(b
2x
)+ 雑音
(a1,b
1,a
2,b
2)
W/~
(a*
1,b
*1,a
*2,b
*2)
7/6
/20
06
代数幾何と学習理論
11
正則モデルの例
平均0分散1の正規分布
平均
a分散σ
2の正規分布
7/6
/20
06
代数幾何と学習理論
12
混合
2項分布
a B
k(x
|p1)
+ (
1-a
) B
k(x
|p2
)
Bk(x
|p0)
0
k
k0
a
p1
p2
正則でないモデルの例
7/6
/20
06
代数幾何と学習理論
13
混合正規分布
混合指数分布
p(x
|w) =Σ
ah
ex
p(
-||x
-bh||
2)
正則でないモデルの例
7/6
/20
06
代数幾何と学習理論
14
隠れマルコフモデル
f(x|b
j)
H0
f(x|b
1)
1
a kj
f(x|b
j)j
f(x|b
1)
1
a kj H
正則でないモデルの例
7/6
/20
06
代数幾何と学習理論
15
確率文脈自由文法
a
b
a
c
a
b
b
c
c
a ・・・
a
c
a
A →
AA
| A
B |
BA
| B
B
B →
AA
| A
B |
BA
| B
B
A →
a |
b
B →
a |
b
A →
AA
A →
a |
b
a
b{a
c
a
(b
b
c
c
a
)・・・
a}
c
a
正則でないモデルの例
7/6
/20
06
代数幾何と学習理論
16
x = (x1,x
2,..,xM)
y = (y1,y
2,..,yN)
x = (x1,x
2,..,xM)
y = (y1,y
2,..,yN)
samples
estimate
神経回路網
正則でないモデルの例
7/6
/20
06
代数幾何と学習理論
17
Ob
se
rva
ble
s
Hid
de
n v
ari
ab
les
Ob
se
rva
ble
s
Hid
de
n v
ari
ab
les
aj
bij
ベイズネットワーク=グラフィカルモデル
正則でないモデルの例
7/6
/20
06
代数幾何と学習理論
18
隠れマルコフモデル
ベクトル量子化
文脈自由文法
ベイズネット
神経回路網
美しい映像音楽
ひとにやさしい
コンピュータ
遺伝子解読
ヒューマンモデリング
知能ロボット
XY
Z
W
U
VS
T
こんにちは
学習システムが何の役にたつか
7/6
/20
06
代数幾何と学習理論
19
構造を持つ学習モデル
階層構造
隠れた変数
などがあるとき
モジュール構成
構造の推測=特異点を調べる
特異点のどんな性質が学習に影響するか?
7/6
/20
06
代数幾何と学習理論
20
学習とは
q(x
) ~
X1,
X2,
…,
Xn←
p(x
|w) で推測
L(w
) =
p
(X1|w
) p
(X2|w
) ・・・
p(X
n|w
)
q(X
1)
q
(X2)
・・・
q(X
n)
相対測度
◎L
(w) の挙動は、学習理論における中心的な問題である
◎L
(w) の挙動を解明するために相応しい代数・幾何・解析を確立せよ
7/6
/20
06
代数幾何と学習理論
21
経験相対エントロピー
Kn(w
) =
-lo
g L
(w)
=Σ
f(X
i,w)
n i=1
1 n
p(x
|w)
q(x
)f(
x,w
) =
log
1 n
L(w
) =
ex
p( -
n K
n(w
) )
7/6
/20
06
代数幾何と学習理論
22
相対エントロピー
K(w
) =
E
[ f(
X,w
) ]
= ∫
q(x
) lo
g
dx
p(x
|w)
q(x
)
L(w
) =
ex
p( -
n K
n(w
) ) ≒
ex
p(
-n
K(w
) )
(注意)
E[
L(w
) ]
= 1
(∀
w)
7/6
/20
06
代数幾何と学習理論
23
正則なモデル
Kn(w
)
Rd
W0
O
7/6
/20
06
代数幾何と学習理論
24
正則でないモデル
Kn(w
)
Rd
W0
Kn(w
) は確率的に
ばらつく関数
7/6
/20
06
代数幾何と学習理論
25
推測
最尤法
p*
(x)
= p
(x|
arg
min
Kn(w
))
ベイズ法
p*
(x)
=∫
p(x
|w)
L(w
)d
w
∫L
(w)
dw
dw
:
確率
測度
∫p
(x|w
)e
-n
Kn
(w)
dw
∫e
-n
Kn
(w)
dw
=
7/6
/20
06
代数幾何と学習理論
26
事後分布の違い
事後分布
p(w
) =
L(w
)
∫L
(w)
dw
正則モデル
特異モデル
7/6
/20
06
代数幾何と学習理論
27
推測の正しさと汎化誤差
汎化誤差
G=∫
q(x
) lo
gd
xp
*(x
)
q(x
)
n
G
7/6
/20
06
代数幾何と学習理論
28
汎化誤差と自由エネルギー
p*
(x)
=∫
p(x
|w)
e-
n K
n(w
) d
w
∫e
-n
Kn
(w) d
w
p*
(xn
+1)
q(X
n+
1)
∫e
-(n
+1
) K
n+
1(w
) d
w
∫e
-n
Kn
(w)
dw
=
Gn=
-∫
q(x
n+
1)
log
d
x n+
1
∫e
-(n
+1
) K
n+
1(w
) d
w
∫e
-n
Kn
(w)
dw
7/6
/20
06
代数幾何と学習理論
29
自由エネルギー
Gn
= E
xn
+1[
Fn
+1
]-
Fn
Fn
=-
log∫
e-
n K
n(w
) d
w
=
-lo
g∫
L(w
)dw
と定義すると
E[
Gn
]= E
[ F
n+
1 ]-
E[
Fn
]
7/6
/20
06
代数幾何と学習理論
30
学習理論の課題
Fn
G
nは
X1,X
2,…
,Xnの関数(確率変数)
問題
: 確率変数
Fn
, G
nの挙動を解明せよ。
問題
: K
(w)=
0 の特異点の影響を調べよ。
7/6
/20
06
代数幾何と学習理論
31
証明すること
(1)
一定の仮定のもとで
ゼータ関数
ζ(z
) =∫
K(w
)zd
w(R
e z
>0
)
は複素平面全体に有理型関数として
解析接続でき、その極はすべて負の
有理数である。
7/6
/20
06
代数幾何と学習理論
32
証明すること
(2)
ゼータ関数の極とその位数を
0>
-λ
1>
-λ
2>
-λ
3 >
・・・
m1
m2
m3・・・
とするとき、ある確率変数
R,
G0が存在して
Fn→λ
1lo
g n
–(m
1-1
)lo
glo
g n
+ R
Gn→
G0/n
ただし
E[G
0]=λ
1
が法則収束の意味で成り立つ。
7/6
/20
06
代数幾何と学習理論
33
証明すること
(3)
ゼータ関数の極を求める方法として、次の二つがある。
(1)
K(g
(u))
=0
が正規交差になるような関数
w=
g(u
)
を見つける。
(2) ある微分作用素
P と多項式
b で
P(z
,w)
K(w
)z+1
= b
(z)
K(w
)z
を満たすものを見つける。
7/6
/20
06
代数幾何と学習理論
34
参考書
計算の御確認は
下記の書物でお願いします
代数幾何と学習理論
森北出版
20
06
渡辺澄夫