PRML上巻勉強会 at 東京大学 資料 第1章後半
-
Upload
shohei-ohsawa -
Category
Technology
-
view
1.688 -
download
4
description
Transcript of PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML 1.4-1.6
2013/11/21 東京大学大学院 工学系研究科 航空宇宙工学専攻 修士課程1年
櫻田 麻由
1
1.4 次元の呪い
2
次元の呪い 決定理論 情報理論
次元の呪いとは
• 次元とは、入力変数の数のこと(ここからはDで表す)
• 次元Dが大きくなると、計算コストが増える
• 対策:次元が大きい時どうするか?
–冗長な次元を削減して、低次元に落とす
• 分類と回帰で例を見ていきます→
3
次元の呪い 決定理論 情報理論
分類:マス目の中で多数決(1/2)
• 例)入力変数が縦軸と横軸の二つ(二次元)
新たなデータ (ラベルを予測したい)
訓練データ100個。点の色がラベル(属するクラス)を表す
マス目内の多数決より赤と決定
4
次元の呪い 決定理論 情報理論
分類:マス目の中で多数決(2/2)
• 二次元ぐらいならうまく分類できそう?
• 入力変数の次元Dが大きくなると、
• マス目の数が次元Dに対して指数的に増加
• マス目内に訓練データがないと多数決できない
5
次元の呪い 決定理論 情報理論
回帰:多項式曲線フィッティング
• M次の多項式 –入力変数が1個(1次元)
–入力変数がD個(D次元)
• DMの係数を決定しなければならない
・・・
6
次元の呪い 決定理論 情報理論
1.5 決定理論 (DECISION THEORY)
7
次元の呪い 決定理論 情報理論
決定理論と確率論
• 問題設定の確認
–入力ベクトルXと対応する目標変数tに対するデータを基に新たなXに対するtを予測することが目標
–回帰問題の場合tは連続変数
クラス分類の場合tはクラスラベル
• 推論(inference)と決定(decision)
–確率的な記述を得る=推論 例:この患者が癌である確率は40%、そうでない確率は60%
p(t=0|X)=0.4 p(t=1|X)=0.6
–その確率からtを決める=決定 例:この患者は癌である t=1
8
次元の呪い 決定理論 情報理論
よい決定をしたい
• 入力空間を各クラスに1つずつ対応する決定領域と呼ばれる領域Rkに分割しRk上の点にはすべてクラスCkを割り当てる
• 決定領域同士の境界=決定境界、決定表面
• 各決定領域は連続とは限らず、いくつかの領域に分かれていることもあり得る
• よい決定を選ぶ方法 1. 誤識別率を最小化 2. 期待損失を最小化 3. 棄却オプション
9
次元の呪い 決定理論 情報理論
誤識別率の最小化
• 誤識別率
10
21
),(),(
),(),()(
12
1221
RRdxCxpdxCxp
CRxpCRxpp
誤り
誤識別を最小化する決定境界xはx0
クラスC1に属する入力ベクトルをC2に割り当ててしまう確率(青と赤)
クラスC2に属する入力ベクトルをC1に割り当ててしまう確率(緑と赤)
次元の呪い 決定理論 情報理論
損失関数の最小化(1/2)
• 同じ誤識別でも、 – 正常な患者を癌と診断すると→念のため精密検査を受け、結果陰性とわかる
– 癌の患者を正常と診断すると→大きな病気を見逃してしまう
• 後者の方が重大な誤り
→単純に誤識別を最小化するだけでなく両者を区別したい
→損失関数(loss function)
コスト関数(cost function)を導入
11
次元の呪い 決定理論 情報理論
損失関数の最小化(2/2)
12
k j
Rkkj
j
dxCxpLL ),(][E
01
10000L
癌 正常
癌
正常
j=0 j=1
k=0
k=1
• 損失関数
損失行列
k j
Rkkj
j
dxCxpLp ),()(誤り
01
10L
癌 正常
癌
正常
j=0 j=1
k=0
k=1
(誤識別率と比較すると)
次元の呪い 決定理論 情報理論
棄却オプション
• すべてクラス分けするのが良いとも限らない
• 正確に分類できるところだけ自動的に分類し、曖昧なところ(確率がθ以下になる領域)
は分類を棄却し、人(専門家)に任せるという方法
13
次元の呪い 決定理論 情報理論
生成モデル・識別モデル・識別関数
1. 生成モデルで推論→決定
をモデル化
ベイズの定理 を使う
2. 識別モデル推論→決定
を直接モデル化
3. 推論と決定を同時に行う
=識別関数(discriminant function)
14
次元の呪い 決定理論 情報理論
1.6 情報理論
15
次元の呪い 決定理論 情報理論
情報量とは
• 情報の量は、事象xの値を得た際の驚き度h(x)
「まじで?」 ←h(x)高い
「あっそう」 ←h(x)低い
→h(x)は確率p(x)に関して単調減尐な関数
また、事象xと事象yが無関係なら
、 が成立
)()(),( yhxhyxh
)(log)( 2 xpxh
)()(),( ypxpyxp
単位:[bit]
16
次元の呪い 決定理論 情報理論
エントロピーとは(1/2)
• 情報量に確率をかけて足したもの
=情報量の平均(=期待値)をとったもの
• エントロピーは情報の乱雑さ、無秩序さ、あいまいさ、不確実さを表す尺度
• 事象の発生確率がすべて同じとき、つまり何が起こるか予測がつかないときに最大で、 発生確率の偏りが大きいとエントロピーは小さい
17
次元の呪い 決定理論 情報理論
エントロピーとは(2/2)
例) 8個の取り得る変数{a, b, c, d, e, f, g, h}の中から変数の値を1つ伝える時のエントロピー
case1 それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 }
→エントロピーは
case2 それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64}
→エントロピーは
38
1log
8
18][ 2 xH
264
1log
64
1
16
1log
16
1
8
1log
8
1
4
1log
4
1
2
1log
2
1][ 22222 xH
発生確率全て同じ =何が起こるかわからない
発生確率偏りあり =だいたいaかbだろうと予想つく
18
次元の呪い 決定理論 情報理論
19
)(log)( 2 xpxh 単位:[bit]
)(ln)( xpxh
単位:[nat]
次元の呪い 決定理論 情報理論
多重度とエントロピー(1/3)
• N個の物体を、i番目の箱にni個入れるように
していくつかの箱に入れるとき、何通りの入れ方があるか=多重度
• 例)N=8個の物体を4個の箱に入れる場合
5040!2!2!2!2
!8W
336!1!1!5!1
!8W
n1 = n2 = n3 = n4 = 2
n1 = n3 = n4 = 1 n2=5
20
※物体同士は区別なし、箱同士は区別あり
次元の呪い 決定理論 情報理論
多重度とエントロピー(2/3)
• エントロピーは多重度Wの対数を適当に定数倍(1/N倍)したもの
• ni/Nを一定に保ったまま、N→∞という極限を考え、近似式(1.96)
を用いると教科書(1.97) が導出できる
21
i
inN
NN
WN
H !ln1
!ln1
ln1
NNNN ln!ln
i
iiN
i
i
i
i
i
i
ii
i
ii
i
ii
i
ii
i
i
i
ii
i
iii
i
i
ppN
n
N
n
NN
nn
N
n
NnN
n
nnN
N
nnNNN
nnnNNNN
nnnNNNN
nN
NN
WN
H
lnln
lnln
lnln
ln1
ln
lnln1
ln)ln(1
)ln()ln(1
!ln1
!ln1
ln1
i
iiN
i
i
i ppN
n
N
nH lnln
次元の呪い 決定理論 情報理論
多重度とエントロピー(3/3)
• 確率変数Xのエントロピーが定義できる
22
i
ii xpxppH )(ln)(][
ii pxXp )(
i
ii ppH ln
(30個の箱うち)xi番目の箱に割り当てられる確率p(xi)の分布
分布が広いほどエントロピー大
次元の呪い 決定理論 情報理論
エントロピー最大となる分布は?
• 問題設定の確認
制約
のもと、 を最大化
• ラグランジュの未定乗数法を使う
• 一様分布 のときにエントロピー最大
23
Mxp i
1)(
i
ii xpxppH )(ln)(][
1)( i
ixp 01)( i
ixp
1)()(ln)(
~
i
i
i
ii xpxpxpH 0
~
)(
~
H
xp
H
i
離散変数ver.
次元の呪い 決定理論 情報理論
離散変数から連続変数へ(1/2)
• xを等間隔の区間Δに分ける
• p(x)が連続なら平均値の定理より
となるxiが必ず存在
• i番目の区間に入る任意の値xに値xiを割り当て量子化→xiの値を観測する確率は
• エントロピーは
24
)()(
1
i
i
ixpdxxp
Δ
ln)(ln)(
))(ln()(
i
ii
i
ii
xpxp
xpxpH
Δ
p(x)
p(xi)
(i+1)Δ iΔ
p(xi)Δ
i番目の区間
)( ixp
1)( i
ixp※
次元の呪い 決定理論 情報理論
離散変数から連続変数へ(2/2)
• 連続変数にするにはΔ→0とすればよい
• 離散と連続の場合のエントロピーはln Δだけ異なりこの値はΔ→0で発散
• これは連続変数を厳密に規定するのに無限のビット数が必要なことを反映している
25
ln)(ln)(i
ii xpxpH
dxxpxp )(ln)( 発散
Δ→0 Δ→0 微分エントロピー
次元の呪い 決定理論 情報理論
エントロピー最大となる分布は?
• 問題設定の確認
制約
のもと、 を最大化
• ラグランジュの未定乗数法を使う
• 正規分布のときエントロピー最大
26
22 )()()(1)(
dxxpxdxxxpdxxp
22
32
1
)()()(
1)()(ln)(
dxxpxdxxxp
dxxpdxxpxpF
連続変数ver.
dxxpxp )(ln)(
2
2
2/12 2
)(exp
)2(
1)(
xxp
次元の呪い 決定理論 情報理論
相対エントロピーと相互情報量
• 未知の分布p(x)があり、これを近似的にq(x)でモデル化したとする
• 真の分布p(x)の代わりにq(x)を使うとxの値を特定するのに必要な追加情報量の平均は
(分布p(x)とq(x)の間の)
相対エントロピー=KLダイバージェンス
27
dxxp
xqxp
dxxpxpdxxqxpqpKL
)(
)(ln)(
)(ln)()(ln)()||(
カルバック・ライブラー
)||()||( pqKLqpKL ※
次元の呪い 決定理論 情報理論
• 関数f(x)はすべての弦が関数に乗っているか,それよりも上にあるとき凸であるという
• 逆の関係のとき、
凹(concave)である
(f(x)が凸関数なら、
-f(x)は凹関数)
• 凸関数では以下が成立
凸関数(convex function)
28
)()1()())1(( bfafbaf
λ 1-λ
λa+(1-λ)b
次元の呪い 決定理論 情報理論
KLダイバージェンス≧0
• 凸関数はイェンセンの不等式を満たす
• λi=p(xi)と見ると
• KLダイバージェンスに適用すると
29
M
i
ii
M
i
ii xfxf11
)(][ xfxf E
0)(ln)(
)(ln)()||( dxxqdx
xp
xqxpqpKL
dxxpxfdxxxpf )()()(
1)( dxxq※※q(x)=p(x)のとき0
次元の呪い 決定理論 情報理論
未知の確率分布のモデル化(1/2)
• KLダイバージェンスは0以上であり、0となるのはp(x)=q(x)のときのみ
→KLダイバージェンスは2つの分布p(x)とq(x)の間の隔たりを表す尺度。
• データの分布p(x)(未知)をパラメトリックな分布q(x|θ) でモデル化してみる
• p(x)とq(x|θ)の間KLダイバージェンスをθについて最小化すれば、pに最も近いqができる
30
次元の呪い 決定理論 情報理論
未知の確率分布のモデル化(2/2)
• 完全なp(x)の分布はわからないがp(x)から得られた有限個の訓練点xn{n=1,…..,N}が使える
• p(x)に関する期待値はそれらの点での有限和で近似できる
• KLダイバージェンス最小化=尤度最大化
31
N
n
nn xpxqN
dxxpxpdxxqxpqpKL
1
)(ln)|(ln1
)(ln)()(ln)()||(
θとは無関係
次元の呪い 決定理論 情報理論
N
n
nxfN
dxxfxp1
)(1
)()(※ (1.35)
相互情報量(1/2)
• 変数集合xとyの同時分布p(x, y)を考える
• 変数の集合が独立であれば同時分布は周辺分布の積 p(x, y)=p(x)p(y)
• 変数が独立でなければ、独立に近いかどうかを知るために、同時分布と周辺分布の積の間のKLダイバージェンスを考えることができる
=相互情報量
32
dxdyyxp
ypxpyxp
ypxpyxpKLyxI
),(
)()(ln),(
))()(||),((],[
次元の呪い 決定理論 情報理論
相互情報量(2/2)
• 相互情報量はyの値を知ることによってxに関する不確実性がどれだけ減尐するかを表す.
• ベイズ的に言えばp(x)をxの事前分布、p(x|y)は新たなデータyを観測した後の事後分布と考えられる。したがって、新たにyを観測した結果として、xに関する不確実性が減尐した度合いを表している
33
]|[][]|[][],[ xyHyHyxHxHyxI
次元の呪い 決定理論 情報理論
参考にさせてもらったサイト
• http://research.microsoft.com/en-us/um/people/cmbishop/PRML/
• http://bin.t.u-tokyo.ac.jp/prml2009/index.html
34