人工知能特論 II  第 7 回

24
人人人人人人 II 人7人 人人 1

description

人工知能特論 II  第 7 回. 二宮 崇. 今日の講義の予定. 系列ラベリングのための HMM 解析 ビタビアルゴリズム 学習 最尤推定 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル 東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999 - PowerPoint PPT Presentation

Transcript of 人工知能特論 II  第 7 回

Page 1: 人工知能特論 II  第 7 回

1

人工知能特論 II  第 7 回二宮 崇

Page 2: 人工知能特論 II  第 7 回

2

今日の講義の予定

系列ラベリングのための HMM 解析

ビタビアルゴリズム 学習

最尤推定

教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデ

ル 東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF

STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999

Christopher M. Bishop “PATTERN RECOGNITION AND MACHINE LEARNING” Springer, 2006

Page 3: 人工知能特論 II  第 7 回

3

HMM FOR SEQUENTIAL LABELING

系列ラベリングのための HMM

Page 4: 人工知能特論 II  第 7 回

4

品詞解析

品詞タガー

“I have a pen.”

II havehave aa penpen ..

代名詞代名詞 動詞動詞 不定冠詞不定冠詞 名詞名詞 ピリオドピリオド

II havehave aa penpen ..

トーカナイザー

POS タガー

Page 5: 人工知能特論 II  第 7 回

5

隠れマルコフモデルHidden Markov Model (HMM)

名詞

代名詞

動詞

不定冠詞

ピリオド

I

he

Mary

遷移 (transition)

出力 (emission)

代名詞代名詞 動詞動詞 不定冠詞不定冠詞 名詞名詞 ピリオドピリオド

II havehave aa penpen ..

0.5 0.1

0.3

0.430.01

0.3

0.25

0.01

0.3

0.010.4

Page 6: 人工知能特論 II  第 7 回

6

隠れマルコフモデルHidden Markov Model (HMM)

Q: 状態の有限集合Σ: 出力記号の有限集合πq: 文頭が状態 q になる確率

Σr∈Q πr=1

aq,r: 状態 q から状態 r への遷移確率Σr∈Q aq,r=1

bq,o: 状態 q における記号 o の出力確率Σo Σ∈ bq,o = 1

Page 7: 人工知能特論 II  第 7 回

7

状態記号列の確率と生成確率

状態と記号の列が与えられた時

記号列のみが与えられた時

T

toq

T

tqqq

oqoqoqqqqqq

oqqqoqqqoqqTT

TT

tttt

TTTT

TTTT

ba

bbbaa

bababoqoqoqp

oqoqoq

1,

2,

,,,,,

,,,,,2211

2211

11

22111211

12221111)(

:

状態記号列

QqQqQq

TTT

T

T

oqoqoqpooop

ooo

,,221121

21

21

)()(

:記号列

( 生成確率 )

Page 8: 人工知能特論 II  第 7 回

8

解析 (INFERENCE)復号化 (DECODING)

Page 9: 人工知能特論 II  第 7 回

9

解析

解析 ( 入力 : o1o2…oT)

)(maxarg~~~2211

,,21

21

TTQqQqQq

T oqoqoqpqqqT

しかし、計算量は O(|Q|T)!

Page 10: 人工知能特論 II  第 7 回

10

効率的な品詞解析 : ビタビアルゴリズム

動的計画法

状態 1

o1 o2 oT

トレリス

o3

状態 2

状態 3

状態 4

δ(t, q): 時刻 t(ot が出力される時 ) に状態 q となる状態列の中で最大確率となる列の確率

maxq∈ Q δ(T, q) を求めれば良い時刻 1 2 3 T

出力記号

Page 11: 人工知能特論 II  第 7 回

11

効率的な品詞解析 : ビタビアルゴリズム

o1 o2 oTot-1

状態 q

tt

t

tttttttt

ttt

oqqqtQq

oqqqoqqqttQqQqQq

oqqqttQqQq

baqt

babaoqoqp

baoqoqpqt

,,1

,,,,2211,,

,,1111,,

11

11112211

111

),1(max

)(maxmax

)(max),(

ot

状態 1

状態 2

最大確率で遷移したパスをバックポインタで保存

Page 12: 人工知能特論 II  第 7 回

12

効率的な品詞解析 : ビタビアルゴリズム

動的計画法

状態 1

o1 o2 oTo3

状態 2

状態 3

状態 4

δ(t, q): 時刻 t(ot が出力される時 ) に状態 q となる状態列の中で最大確率となる列の確率

時刻 1 2 3 T出力記号

左から右に向かって全ての δ(t,q) を計算

δ(1, 状態 1)=π 状態 1b 状態 1,o1

δ(1, 状態 2)=π 状態 2b 状態 2,o1

δ(1, 状態 3)=π 状態 3b 状態 3,o1

δ(1, 状態 4)=π 状態 4b 状態 4,o1

Page 13: 人工知能特論 II  第 7 回

13

効率的な品詞解析 : ビタビアルゴリズム

動的計画法

状態 1

o1 o2 oTo3

状態 2

状態 3

状態 4

δ(t, q): 時刻 t(ot が出力される時 ) に状態 q となる状態列の中で最大確率となる列の確率

時刻 1 2 3 T出力記号

左から右に向かって全ての δ(t,q) を計算

δ(2, 状態 1)=max {δ(1, 状態 1)a 状態 1, 状態 1b 状態 1,o2,δ(1, 状態 2)a 状態 2, 状態 1b 状態 1,o2,δ(1, 状態 3)a 状態 3, 状態 1b 状態 1,o2,δ(1, 状態 4)a 状態 4, 状態 1b 状態 1,o2

}

最大確率で遷移したパスをバックポインタで保存

Page 14: 人工知能特論 II  第 7 回

14

効率的な品詞解析 : ビタビアルゴリズム

動的計画法

状態 1

o1 o2 oTo3

状態 2

状態 3

状態 4

δ(t, q): 時刻 t(ot が出力される時 ) に状態 q となる状態列の中で最大確率となる列の確率

時刻 1 2 3 T出力記号

左から右に向かって全ての δ(t,q) を計算

δ(2, 状態 2)=max {δ(1, 状態 1)a 状態 1, 状態 2b 状態 2,o2,δ(1, 状態 2)a 状態 2, 状態 2b 状態 2,o2,δ(1, 状態 3)a 状態 3, 状態 2b 状態 2,o2,δ(1, 状態 4)a 状態 4, 状態 2b 状態 2,o2

}

Page 15: 人工知能特論 II  第 7 回

15

効率的な品詞解析 : ビタビアルゴリズム

最後にバックポインタを辿ることで最大確率となる状態列が得られる

o1 o2 oToT-2

状態 3

oT-1

状態 1

状態 2

状態 4

Page 16: 人工知能特論 II  第 7 回

16

効率的な品詞解析 : ビタビアルゴリズム

δ[1,q] := π[q]b[q, o1] (for all q)

for t =2 to T for q ∈ Q δ[t, q] := maxq’∈Q {δ[t-1, q’]a[q’,q]b[q, ot]}

bp[t,q] := argmaxq’∈Q {δ[t-1, q’]a[q’,q]b[q, ot]}

Page 17: 人工知能特論 II  第 7 回

17

学習 ( パラメータ推定 ): 最尤推定

Page 18: 人工知能特論 II  第 7 回

18

パラメータ推定 : 最尤推定

最尤推定文の集合を観測したとき、その文の集合がそ

こに出現したのは、その文の集合が最も確率が高かったから、と考えるやり方

コインの例:表がでる確率 θ が未知のコインがある。 100 回投げたところ、 62 回表がでた。すると、その確率は θ62(1 - θ)38 となる。この確率は θ=0.62 で最大となるので、 θ は0.62 であったのだろう、と考えるのが最尤推定の考え方である。

Page 19: 人工知能特論 II  第 7 回

19

最尤推定

最尤推定観測値 x1,...,xn が与えられた時、それぞれが独

立に出現したと考えると、その確率はパラメータ θ の関数になる

この l(θ) を尤度 (likelihood) もしくは尤度関数 (likelihood function) と呼ぶ

尤度関数を最大化する θ を求める

)(maxarg~

l

)();(),...,(1

1 lxpxxpn

iin

Page 20: 人工知能特論 II  第 7 回

20

最尤推定

最大を求めるために尤度関数の極値を求める

コインの例を解析的に解いてみようl(θ) = θ62(1 - θ)38

0)(

l

Page 21: 人工知能特論 II  第 7 回

21

最尤推定

対数尤度 (log likelihood) を使うと計算が楽になる

コインの例で解いてみようlog l(θ) = log( θ62(1 - θ)38 )

)(logmaxarg)(maxarg~

ll

Page 22: 人工知能特論 II  第 7 回

22

最尤推定

正規分布の最尤推定正規分布 N(μ, σ2) から抽出された標本を x1,...,xn

とする尤度

対数尤度

2

2

1

2

2

)(exp

2

1),(

i

n

i

xl

n

i

i

n

i

in

i

xn

xl

12

21

2

2

1

2

2

)()2log(

2

)(

2

1log),(log

Page 23: 人工知能特論 II  第 7 回

23

ラグランジュの未定乗数法

ラグランジュの未定乗数法

  はラグランジュ関数と呼ばれる

0,...,0,0

)(...)()()(

0)(,...,0)()(maxarg

21

11

1

n

mm

m

LLL

ggfL

ggf

θθθθ

θθθθ

ただし

)(θL

Page 24: 人工知能特論 II  第 7 回

24

まとめ

HMM解析

ビタビアルゴリズム学習

最尤推定資料

http://aiweb.cs.ehime-u.ac.jp/~ninomiya/ai2/