PRML上巻勉強会 at 東京大学　資料　第1章後半

PRML 1.4-1.6

2013/11/21 東京大学大学院工学系研究科航空宇宙工学専攻修士課程１年

櫻田麻由

1

1.4 次元の呪い

2

次元の呪い決定理論情報理論

次元の呪いとは

• 次元とは、入力変数の数のこと（ここからはDで表す）

• 次元Dが大きくなると、計算コストが増える

• 対策：次元が大きい時どうするか？

–冗長な次元を削減して、低次元に落とす

• 分類と回帰で例を見ていきます→

3


分類：マス目の中で多数決(1/2)

• 例）入力変数が縦軸と横軸の二つ(二次元)

新たなデータ（ラベルを予測したい）

訓練データ100個。点の色がラベル（属するクラス）を表す

マス目内の多数決より赤と決定

4


分類：マス目の中で多数決(2/2)

• 二次元ぐらいならうまく分類できそう？

• 入力変数の次元Dが大きくなると、

• マス目の数が次元Dに対して指数的に増加

• マス目内に訓練データがないと多数決できない

5


回帰：多項式曲線フィッティング

• M次の多項式 –入力変数が1個(1次元)

–入力変数がD個(D次元)

• DMの係数を決定しなければならない

・・・

6


1.5 決定理論 (DECISION THEORY)

7


決定理論と確率論

• 問題設定の確認

–入力ベクトルXと対応する目標変数tに対するデータを基に新たなXに対するtを予測することが目標

–回帰問題の場合tは連続変数

クラス分類の場合tはクラスラベル

• 推論(inference)と決定(decision)

–確率的な記述を得る＝推論例：この患者が癌である確率は40％、そうでない確率は60％

p(t=0|X)=0.4 p(t=1|X)=0.6

–その確率からtを決める＝決定例：この患者は癌である t=1

8


よい決定をしたい

• 入力空間を各クラスに1つずつ対応する決定領域と呼ばれる領域Rkに分割しRk上の点にはすべてクラスCkを割り当てる

• 決定領域同士の境界＝決定境界、決定表面

• 各決定領域は連続とは限らず、いくつかの領域に分かれていることもあり得る

• よい決定を選ぶ方法 1. 誤識別率を最小化 2. 期待損失を最小化 3. 棄却オプション

9


誤識別率の最小化

• 誤識別率

10

21

),(),(

),(),()(

12

1221

RRdxCxpdxCxp

CRxpCRxpp

　　　　

誤り

誤識別を最小化する決定境界xはx0

クラスC1に属する入力ベクトルをC2に割り当ててしまう確率(青と赤)

クラスC2に属する入力ベクトルをC1に割り当ててしまう確率(緑と赤)


損失関数の最小化(1/2)

• 同じ誤識別でも、 – 正常な患者を癌と診断すると→念のため精密検査を受け、結果陰性とわかる

– 癌の患者を正常と診断すると→大きな病気を見逃してしまう

• 後者の方が重大な誤り

→単純に誤識別を最小化するだけでなく両者を区別したい

→損失関数(loss function)

コスト関数(cost function)を導入

11


損失関数の最小化(2/2)

12

k j

Rkkj

j

dxCxpLL ),(][E

01

10000L

癌正常

癌

正常

j=0 j=1

k=0

k=1

• 損失関数

損失行列

k j

Rkkj

j

dxCxpLp ),()(誤り

01

10L

癌正常

癌

正常

j=0 j=1

k=0

k=1

(誤識別率と比較すると)


棄却オプション

• すべてクラス分けするのが良いとも限らない

• 正確に分類できるところだけ自動的に分類し、曖昧なところ（確率がθ以下になる領域）

は分類を棄却し、人（専門家）に任せるという方法

13


生成モデル・識別モデル・識別関数

1. 生成モデルで推論→決定

をモデル化

ベイズの定理を使う

2. 識別モデル推論→決定

を直接モデル化

3. 推論と決定を同時に行う

＝識別関数（discriminant function）

14


1.6 情報理論

15


情報量とは

• 情報の量は、事象xの値を得た際の驚き度h(x)

「まじで？」 ←h(x)高い

「あっそう」 ←h(x)低い

→h(x)は確率p(x)に関して単調減尐な関数

また、事象xと事象yが無関係なら

、が成立

)()(),( yhxhyxh

)(log)( 2 xpxh

)()(),( ypxpyxp

単位：[bit]

16


エントロピーとは(1/2)

• 情報量に確率をかけて足したもの

＝情報量の平均（＝期待値）をとったもの

• エントロピーは情報の乱雑さ、無秩序さ、あいまいさ、不確実さを表す尺度

• 事象の発生確率がすべて同じとき、つまり何が起こるか予測がつかないときに最大で、発生確率の偏りが大きいとエントロピーは小さい

17


エントロピーとは(2/2)

例） 8個の取り得る変数｛a, b, c, d, e, f, g, h｝の中から変数の値を1つ伝える時のエントロピー

case1 それぞれの確率｛1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 ｝

→エントロピーは

case2 それぞれの確率｛1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64｝

→エントロピーは

38

1log

8

18][ 2 xH

264

1log

64

1

16

1log

16

1

8

1log

8

1

4

1log

4

1

2

1log

2

1][ 22222 xH

発生確率全て同じ＝何が起こるかわからない

発生確率偏りあり＝だいたいaかbだろうと予想つく

18


19

)(log)( 2 xpxh 単位：[bit]

)(ln)( xpxh

単位：[nat]


多重度とエントロピー(1/3)

• N個の物体を、i番目の箱にni個入れるように

していくつかの箱に入れるとき、何通りの入れ方があるか＝多重度

• 例）N=8個の物体を4個の箱に入れる場合

5040!2!2!2!2

!8W

336!1!1!5!1

!8W

n1 = n2 = n3 = n4 = 2

n1 = n3 = n4 = 1 n2=5

20

※物体同士は区別なし、箱同士は区別あり



• エントロピーは多重度Wの対数を適当に定数倍(1/N倍)したもの

• ni/Nを一定に保ったまま、N→∞という極限を考え、近似式(1.96)

を用いると教科書(1.97) が導出できる

21

i

inN

NN

WN

H !ln1

!ln1

ln1

NNNN ln!ln

i

iiN

i

i

i

i

i

i

ii

i

ii

i

ii

i

ii

i

i

i

ii

i

iii

i

i

ppN

n

N

n

NN

nn

N

n

NnN

n

nnN

N

nnNNN

nnnNNNN

nnnNNNN

nN

NN

WN

H

lnln

lnln

lnln

ln1

ln

lnln1

ln)ln(1

)ln()ln(1

!ln1

!ln1

ln1

　　

　　

　　

　　

　　

　　

　　

i

iiN

i

i

i ppN

n

N

nH lnln



• 確率変数Xのエントロピーが定義できる

22

i

ii xpxppH )(ln)(][

ii pxXp )(

i

ii ppH ln

（30個の箱うち）xi番目の箱に割り当てられる確率p(xi)の分布

分布が広いほどエントロピー大


エントロピー最大となる分布は？


制約

のもと、を最大化

• ラグランジュの未定乗数法を使う

• 一様分布のときにエントロピー最大

23

Mxp i

1)(

i

ii xpxppH )(ln)(][

1)( i

ixp 01)( i

ixp

1)()(ln)(

~

i

i

i

ii xpxpxpH 0

~

)(

~

H

xp

H

i

離散変数ver.


離散変数から連続変数へ(1/2)

• xを等間隔の区間Δに分ける

• p(x)が連続なら平均値の定理より

となるxiが必ず存在

• i番目の区間に入る任意の値xに値xiを割り当て量子化→xiの値を観測する確率は

• エントロピーは

24

)()(

1

i

i

ixpdxxp

Δ

ln)(ln)(

))(ln()(

i

ii

i

ii

xpxp

xpxpH

　　Δ

p(x)

p(xi)

(i+1)Δ iΔ

p(xi)Δ

i番目の区間

)( ixp

1)( i

ixp※


離散変数から連続変数へ(2/2)

• 連続変数にするにはΔ→0とすればよい

• 離散と連続の場合のエントロピーはln Δだけ異なりこの値はΔ→0で発散

• これは連続変数を厳密に規定するのに無限のビット数が必要なことを反映している

25

ln)(ln)(i

ii xpxpH

dxxpxp )(ln)( 発散

Δ→0 Δ→0 微分エントロピー


エントロピー最大となる分布は？


制約

のもと、を最大化

• ラグランジュの未定乗数法を使う

• 正規分布のときエントロピー最大

26

22 )()()(1)(

dxxpxdxxxpdxxp 　　　　

22

32

1

)()()(

1)()(ln)(

dxxpxdxxxp

dxxpdxxpxpF

　　　

連続変数ver.

dxxpxp )(ln)(

2

2

2/12 2

)(exp

)2(

1)(

xxp


相対エントロピーと相互情報量

• 未知の分布p(x)があり、これを近似的にq(x)でモデル化したとする

• 真の分布p(x)の代わりにq(x)を使うとxの値を特定するのに必要な追加情報量の平均は

（分布p(x)とq(x)の間の）

相対エントロピー＝KLダイバージェンス

27

dxxp

xqxp

dxxpxpdxxqxpqpKL

)(

)(ln)(

)(ln)()(ln)()||(

　　　　　

カルバック・ライブラー

)||()||( pqKLqpKL ※


• 関数f(x)はすべての弦が関数に乗っているか，それよりも上にあるとき凸であるという

• 逆の関係のとき、

凹(concave)である

（f(x)が凸関数なら、

-f(x)は凹関数）

• 凸関数では以下が成立

凸関数(convex function)

28

)()1()())1(( bfafbaf

λ 1-λ

λa+(1-λ)b


KLダイバージェンス≧０

• 凸関数はイェンセンの不等式を満たす

• λi=p(xi)と見ると

• KLダイバージェンスに適用すると

29

M

i

ii

M

i

ii xfxf11

)(][ xfxf E

0)(ln)(

)(ln)()||( dxxqdx

xp

xqxpqpKL

dxxpxfdxxxpf )()()(

1)( dxxq※※q(x)=p(x)のとき０


未知の確率分布のモデル化(1/2)

• KLダイバージェンスは０以上であり、０となるのはp(x)=q(x)のときのみ

→KLダイバージェンスは２つの分布p(x)とq(x)の間の隔たりを表す尺度。

• データの分布p(x)（未知）をパラメトリックな分布q(x|θ) でモデル化してみる

• p(x)とq(x|θ)の間KLダイバージェンスをθについて最小化すれば、pに最も近いqができる

30


未知の確率分布のモデル化(2/2)

• 完全なp(x)の分布はわからないがp(x)から得られた有限個の訓練点xn{n=1,…..,N}が使える

• p(x)に関する期待値はそれらの点での有限和で近似できる

• KLダイバージェンス最小化＝尤度最大化

31

N

n

nn xpxqN

dxxpxpdxxqxpqpKL

1

)(ln)|(ln1

)(ln)()(ln)()||(

　　　　　

θとは無関係


N

n

nxfN

dxxfxp1

)(1

)()(※ (1.35)

相互情報量(1/2)

• 変数集合xとyの同時分布p(x, y)を考える

• 変数の集合が独立であれば同時分布は周辺分布の積 p(x, y)=p(x)p(y)

• 変数が独立でなければ、独立に近いかどうかを知るために、同時分布と周辺分布の積の間のKLダイバージェンスを考えることができる

=相互情報量

32

dxdyyxp

ypxpyxp

ypxpyxpKLyxI

),(

)()(ln),(

))()(||),((],[

　　　


相互情報量(2/2)

• 相互情報量はyの値を知ることによってxに関する不確実性がどれだけ減尐するかを表す．

• ベイズ的に言えばp(x)をxの事前分布、p(x|y)は新たなデータyを観測した後の事後分布と考えられる。したがって、新たにyを観測した結果として、xに関する不確実性が減尐した度合いを表している

33

]|[][]|[][],[ xyHyHyxHxHyxI


参考にさせてもらったサイト

• http://research.microsoft.com/en-us/um/people/cmbishop/PRML/

• http://bin.t.u-tokyo.ac.jp/prml2009/index.html

34

http://bin.t.u-tokyo.ac.jp/prml2009/index.html

http://research.microsoft.com/en-us/um/people/cmbishop/PRML/







PRML上巻勉強会 at 東京大学　資料　第1章後半

Technology

Transcript of PRML上巻勉強会 at 東京大学　資料　第1章後半

PRML上巻勉強会 at 東京大学 資料 第1章後半

Technology

Transcript of PRML上巻勉強会 at 東京大学 資料 第1章後半

PRML上巻勉強会 at 東京大学　資料　第1章後半

Transcript of PRML上巻勉強会 at 東京大学　資料　第1章後半