スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6....

18
スケジュール 1. 情報理論の概要・情報の表現 4/14 done 2. 確率の基礎 4/21 一部持ち越し 3. 情報量(エントロピー、ダイバージェンス、相互情報量) 4/28 4. 情報量の性質 5/2 (5/4祝日) 5. 演習 5/11 (羽石不在) 6. 情報源のモデルとエントロピーレート 5/19 7. 情報源の符号化 5/26 8. 中間テスト 6/2 (羽石不在) 9. 相互情報量(1)基礎 6/9 10. 相互情報量(2)応用 6/16 11. 演習 6/23 (羽石不在?) 12. 情報量統計学(1)最尤法 6/30 13. 情報量統計学(2)AIC 7/7 14. 情報理論の応用(1)ベイズ推定 7/14 15. 情報理論の応用(2)パターン認識 7/21 16. 期末テスト 7/28 1

Transcript of スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6....

Page 1: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

スケジュール1. 情報理論の概要・情報の表現 4/14 done2. 確率の基礎 4/21 一部持ち越し3. 情報量(エントロピー、ダイバージェンス、相互情報量) 4/284. 情報量の性質 5/2 (5/4祝日)5. 演習 5/11 (羽石不在)6. 情報源のモデルとエントロピーレート 5/197. 情報源の符号化 5/268. 中間テスト 6/2 (羽石不在)9. 相互情報量(1)基礎 6/910.相互情報量(2)応用 6/1611.演習 6/23 (羽石不在?)12.情報量統計学(1)最尤法 6/3013.情報量統計学(2)AIC 7/714.情報理論の応用(1)ベイズ推定 7/1415.情報理論の応用(2)パターン認識 7/2116.期末テスト 7/28

1

Page 2: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

情報量情報量の定義:

pf 2log−=

⇔確率が低ければ、情報量は大きい。

4log161

3log81

2log41

1log21

2

2

2

2

=−⇒=

=−⇒=

=−⇒=

=−⇒=

pp

pp

pp

pp

確率 情報量

p

f

確率

情報量

10

2

Page 3: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

エントロピー:平均情報量エントロピー(平均情報量):

∑∑∑===

−=⋅−==n

kkkk

n

kk

n

kkk pppppfH

12

12

1log)log(

41,

41,

41,

41

4321 ==== pppp

次の2つの確率分布についてそれぞれエントロピーを求めよ。

単位:ビット(bit)

81,

81,

41,

21

4321 ==== pppp1) 2)

演習3-1

3

Page 4: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

の導出00log0 2 =

)1( loglim0

xxvx +→

= が0になることを以下のように導く(logの底は2)

ux

xu 11: =⇔= とおく。このとき ∞→⇔+→ ux 0

uuu

uuuv

uuu

loglim)log(1

lim1log1

lim∞→∞→∞→

−=−==

ここで uuy y =⇔= 2log とおくと ∞→⇔∞→ yu

02lim

loglim =−=−=

∞→∞→y

uu

yu

uv

02lim

loglimloglim

0=−=−==

∞→∞→+→y

uux

yu

uxxv

したがって

となる。このとき式(1)は

𝑓𝑓 𝑦𝑦 = 𝑦𝑦と𝑓𝑓 𝑦𝑦 = 2𝑦𝑦とを比べると後者の方が増加が速いから。

4

Page 5: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

エントロピーの非負性

0)log()(1

2 ≥−==∑=

n

kkk ppXH

nkpk ,...,2,1,10 =≤≤ より 0log2 ≥− kk pp が成り立つ。よって、ただちに

が成り立つ。

5

Page 6: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

2元エントロピー関数

標本空間𝐴𝐴 = {0,1}において、値0の生起確率:𝑝𝑝値1の生起確率:1 − 𝑝𝑝

このときエントロピーは

)1log()1(log)( ppppph −−−−=

と書ける。これを2元エントロピーという。

p

)( ph

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

6

Page 7: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

同時確率

確率変数が2つある場合を考える。例1)サイコロを2回振る。1回めの目を𝑥𝑥,2回めの目を𝑦𝑦とする。このとき、(𝑥𝑥, 𝑦𝑦)が発生する確率𝑝𝑝(𝑥𝑥, 𝑦𝑦)を同時確率という。この場合の同時確率は以下のように行列で表すことができる。

36/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/1

x

y

654321

1 2 3 4 5 6

7

Page 8: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

同時確率例2)サイコロを2回振る。1回めに出る目を確率変数𝑥𝑥とする。一方2つめの確率変数は以下のように与える。すなわち1回めの目が奇数だった場合は2回めの目をそのまま確率変数𝑦𝑦とする1回めの目が偶数𝑚𝑚だった場合は、2回めの目が3以下のとき 𝑦𝑦 = 𝑚𝑚 − 12回めの目が3を超えるとき 𝑦𝑦 = 𝑚𝑚

x

y

654321

1 2 3 4 5 6

6×6の同時確率の配列を埋めよ

演習3-2

8

Page 9: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

同時確率と周辺確率の関係

663161

3151

3141

3131

262524232221

161514131211

ppppppppp

pppppppppppp

x

y

654321

1 2 3 4 5 6

AxyxPxPBy

X ∈−= ∑∈

,),()(

∑∑==

=====6

11

6

1),1()1(

jj

yX pyYXPXP

∑∑==

=====6

11

6

1),1()1(

jj

yX pyYXPXP

∑∑==

=====6

12

6

1)2,()2(

ii

xY pYxXPYP

周辺確率

同時確率

行内の和をとる

列内の和をとる

周辺確率同時確率

9

Page 10: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

周辺確率:演習

先の演習3-2の周辺確率を求めよ。

演習3-3

10

Page 11: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

条件付確率

∑==

yyxp

yxPxPyxPxyP

),(),(

)(),()|(条件付き確率

同時確率

周辺確率

666261

5251

4241

3231

262524232221

161514131211

ppppppppp

pppppppppppp

x

y

654321

1 2 3 4 5 6周辺確率

同時確率

666261

5251

4241

3231

262524232221

161514131211

pCppCpppppp

pppppppppppp

C

CC

CC

CC

CCCCCC

CCCCCC

x

y

654321

1 2 3 4 5 6条件

∑=

==6

11)1(

jjpXP

)|( xyP

)1(12

12 ==

XPppC

条件付き確率

11

Page 12: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

条件付き確率:演習

x

y

654321

1 2 3 4 5 6

先の演習3-2の条件付き確率𝑃𝑃(𝑥𝑥|𝑦𝑦)を求めよ

6×6の条件付き確率の配列を埋めよ

演習3-4

12

Page 13: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

同時エントロピー直積𝐴𝐴 × 𝐵𝐵を標本空間とする確率変数(𝑋𝑋,𝑌𝑌)が同時確率𝑃𝑃(𝑥𝑥,𝑦𝑦)を有するとき、この確率変数の同時エントロピーを以下の式で定義する。

∑∑∈ ∈

−=Ax By

yxPyxPYXH ),(log),(),(

演習3-5

直積演習3-2の同時確率について、同時エントロピーを計算せよ。計算手段は何でもよい。たとえばExcelでもよい。

13

Page 14: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

条件付エントロピー直積𝐴𝐴 × 𝐵𝐵を標本空間とする確率変数(𝑋𝑋,𝑌𝑌)が同時確率𝑃𝑃(𝑥𝑥,𝑦𝑦)を有するとき、𝑋𝑋に対する𝑌𝑌の条件付エントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋)を以下の式で定義する。

∑∑∈ ∈

−=Ax By

xyPyxPXYH )|(log),()|(

演習3-6

直積演習3-2の同時確率について、条件付きエントロピーを計算せよ。計算手段は何でもよい。たとえばExcelでもよい。

・・・

・・・

)|( xyP),( yxP

・・・

・・・

対応する2つの確率の積和演算

x

y

x

y

Xを知ったときのYのあいまいさを表す

計算方法

14

Page 15: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

条件付エントロピー

∑ ∑

∑∑

∑∑

∈ ∈

∈ ∈

∈ ∈

==

−=

−=

−=

Ax

Ax By

Ax By

Ax By

xXYHxP

xyPxyPxP

xyPxyPxP

xyPyxPXYH

)|()(

))|(log)|()((

)|(log)|()(

)|(log),()|(

𝑋𝑋 = 𝑥𝑥が与えられたときの条件付き確率𝑃𝑃(𝑦𝑦|𝑥𝑥)のエントロピーを𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝑥𝑥)と書けば、

∑∈

−==By

xyPxyPxXYH )|(log)|()|(

と書ける。一方、前ページに定義された条件付きエントロピーは以下のように式変形できる。

すなわち、 𝑋𝑋に対する𝑌𝑌の条件付エントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋)は、 𝑋𝑋 = 𝑥𝑥を知ったときのYの条件付きエントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝑥𝑥)の𝑋𝑋に関する平均とも考えられる。

)|( xyP

・・・

・・・

x

y)1|( =XYH

654321

・・・

)2|( =XYH)3|( =XYH

15

Page 16: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

条件付エントロピー

∑∑∈ ∈

−=Ax By

xyPyxPXYH )|(log),()|(

∑∑∈ ∈

−=Ax By

yxPyxPYXH )|(log),()|(

𝑋𝑋と𝑌𝑌を入れ替えれば以下も表現もできる。

𝑋𝑋に対する𝑌𝑌の条件付エントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋)

𝑌𝑌に対する𝑋𝑋の条件付エントロピー𝐻𝐻(𝑋𝑋|𝑌𝑌)

16

Page 17: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

Kullback-Leibler(KL)ダイバージェンス標本空間A上に値をとる2つの確率分布P、Qに対して、KLダイバージェンス(またはKL情報量、または相対エントロピー)𝐷𝐷(𝑃𝑃 ∥ 𝑄𝑄)を以下の式で定義する。

∑∈

−=Ax xQ

pPxPQPD)()(log)()||(

∑∈

−−=Ax

xQxPxPQPD ))(log)()(log()||(

これより、2つの情報量の差の平均値と解釈できる。

KL情報量は以下のように書くこともできる。

17

Page 18: スケジュール - 千葉大学フロンティア医 ...haneishi/class/jyohoriron/... · 6. 情報源のモデルとエントロピーレート5/19 7. 情報源の符号化 5/26

相互情報量同時確率𝑃𝑃(𝑥𝑥,𝑦𝑦)を有する2つの確率変数X,Yを考える。このとき相互情報量𝐼𝐼(𝑋𝑋;𝑌𝑌)を以下の式で定義する。

∑∑∈ ∈

−=Ax By YX yPxP

yxPyxPYXI)()(

),(log),();(

∑∈

−−=Ax

xQxPxPQPD ))(log)()(log()||(

ただし、𝑃𝑃𝑋𝑋(𝑥𝑥)と𝑃𝑃𝑌𝑌(𝑦𝑦)は周辺確率を表す。

18