時系列解析（3）...7 情報量規準への道 • モデルのよさを予測能...

東京⼤学数理・情報教育研究センター北川源四郎

時系列解析（３）

2

概要

• 統計的モデリングとモデル評価• 予測の視点とK-L情報量• K-L情報量の推定と最尤法• バイアス補正とAICの導出• TICとの関係• AICによるモデル選択例• その他の情報量規準

3

統計的モデリング

モデルを通して情報抽出が実現できる

統計的モデル情報抽出の「道具」

情報抽出知識発⾒

予測シミュレーション

制御管理

データ

経験的知識

理論

利⽤するモデルの影響

4

時系列モデルによるトレンド推定

時系列モデルによるスペクトル推定

利⽤するモデルによって，予測や情報抽出の結果は著しく異なる．

多項式回帰モデル

5

モデル評価の重要性

• モデルの利⽤によって，予測や情報抽出ができる• 統計的推論の結果は利⽤するモデルに依存する• モデル評価・選択が重要

モデル評価のための情報量規準

6

情報量規準：論⽂被引⽤回数

年別被引⽤数累積被引⽤数

■ Akademiai Kiado (1973)■ IEEE Automatic Control (1974)

0

1000

2000

3000

4000

5000

1972 1977 1982 1987 1992 1997 2002 2007 2012 2017

AK(1973)IEEE(1974)

0

10000

20000

30000

40000

50000

60000

1972 1977 1982 1987 1992 1997 2002 2007 2012 2017

AK(1973)IEEE(1974)

⾚池弘次⽒ Googleのトップロゴになる 11/6/2017Google Doodlehttps://www.google.com/doodles/hirotugu-akaikes-90th-birthday

7

情報量規準への道

• モデルのよさを予測能⼒で評価する• 予測は点推定ではなく予測分布で⾏う• 分布の近さをKL情報量で評価する

真の分布

将来のデータ

現在のデータ

モデル推定

予測

評価

モデル真のデータ

データ

予測の視点従来の視点

推定・検定

1

log

)()()(log

)()()(log

)()(log);(

i i

ii

Y

fgg

dxxgxfxg

xdGxfxg

YfYgEfgI

8

K-L情報量によるモデルの評価

モデル

Kullback-Leibler情報量（K-L ダイバージェンスともいう）

:)(:)(

yfyg

Akaike(1973,1974)，⼩⻄・北川 3.1

真の分布とモデルの分布の乖離を測る尺度

真の分布モデルの分布

連続分布モデル

離散分布モデル

K-L情報量の性質

9

)()( 0);( )(

0);( )(

xfxgfgIii

fgIi

（注意）K-L情報量は距離ではない．距離の公理の(2)対称性，(3)三⾓不等式を満たさない．

（距離の公理）(1) ( , ) 0, ( , ) 0 ( ) ( )(2) ( , ) ( , )(3) ( , ) ( , ) ( , )

d g f d g f g x f xd g f d f gd f g d g h d f h

10

その他の尺度

• へリンジャ―距離

• ⼀般化情報量

• ダイバージェンス

• L1ノルム

• L2ノルム

2

2

( ) ( )

1 ( ) 1 ( )( )

( ) ( )( )

( ) ( )

( ) ( )

f x g x dx

g x g x dxf x

g xu g x dxf x

g x f x dx

g x f x dx

11

K-L情報量とエントロピー

11

1!

! !knn

kk

nn nW f f Boltzmannのエントロピー

i

ii f

ggfgIfgB log);();(

⼩⻄・北川(2004) 30p

Wn

fgB log1~);(

モデル f = ( f1,…, fk)n個の独⽴な観測値 (n1,…,nk) n1+・・・+nk=n相対度数 (g1,…,gk)gi=ni/n (n1,…,nk)が得られる確率

W: 想定したモデルから得られたサンプルの相対度数が真の分布と⼀致する確率

log ! logn n n nスターリングの近似

1 1

1 1 1

1 1

1

1

log ! log ! log ! log

~ log log log

log log

log

log ( ; )

k k

i i ii i

k k k

i i i i ii i i

k ki

i i ii i

ki

iii

ki

iii

W n n n f

n n n n n n n f

nn n fn

fng

fn g nB g fg

12

K-L情報量：計算例

1)(log21);(

212log

21)(log)(

2)(2log

21

2)(2log

21)(log)(

2

22

2

2

2

2

222

2

22

fgI

dxxgxg

XEdxxfxg X

正規分布

dxxfxgdxxgxgfgI

NyfNyg

)(log)()(log)();(

),(~)(),,(~)( 22

⼩⻄・北川(2004) 30p

i

i

iiY f

ggfgEfgI loglog);(

6

1

多項分布f1 = {0.20,0.12,0.18,0.12,0.20,0.18}f2 = {0.18,0.12,0.14,0.19,0.22,0.15}g = { 1/6, 1/6, 1/6, 1/6, 1/6, 1/6}

I(g;f1)=0.023, I(g;f2 )= 0.020

応⽤：⽐例代表制における議席配分g : 得票分布，f：議席配分

K-L情報量の推定

13

統計的モデリングでは通常，K-L情報量は直接計算できない

• 理由：真のモデル g(y) は未知• 対策： I(g(y); f (y)) をデータから推定する

fEgEfgEfgI YYY logloglog);(

EYlog gとEYlog f を分離できることがK-L情報量のメリット

14

平均対数尤度

)(log YfEY 平均対数尤度

):()(log

fgIYfEY 絶対評価

相対評価注意：

log ( ) : ( : )YE f Y I g f⼤⼩ :

EY log g は未知だが f に関係なく⼀定

モデリングにはK-L情報量の代わりに平均対数尤度を使える

( ; ) log logY YI g f E g E f

15

n

iin XyI

nyGyG

1),(1)(ˆ )(

平均対数尤度 E log f の推定

平均対数尤度

対数尤度)(log)(ˆ)(log

1

n

iin XfyGdyfn

（経験分布）

)(log YfEY)(log1

1

n

iiXf

n

)()(log)(log ydGyfYfEY

Data

⼤数の法則

平均対数尤度も未知の分布を含む推定が必要

( ) ( )dG y g y dy

16

最尤法

対数尤度 )|(log)|(log)(1

XfXfn

ii

),,( ),|( 1 kyf

ˆ ˆmax ( ) ( )X

Max : Max :)(log Min );( YfEfgI Y：

パラメトリックモデル

最尤法

最尤法は近似的にK-L情報量を最⼩化 )ˆ|(

)ˆ(

ˆ

yf

最尤推定量最⼤対数尤度最尤モデル

17

最尤推定値の例（平均）

平均対数尤度対数尤度

n=10n=100

)1,( :model ),1,0(~ NNy

( )( )

18

最尤推定値の例（分散）

n=10 n=100

),0( :model ),1,0(~ 2NNy

2 2

2( ) 2( )

平均対数尤度対数尤度

19

最尤推定値の求め⽅（１）尤度⽅程式を解く（２）数値的最適化による

最尤推定量の性質（１）尤度⽅程式は0に収束する解を持つ（２）はのとき0に確率収束（３）

最尤推定値

n

))(,0()ˆ( -100 INn n

( ) 0

n

20

複数モデルの⽐較

最⼤対数尤度を⽐較して，最⼤となるj を探せばよい？

)ˆ( jj

)ˆ()ˆ( 11

1

1

kk

k

kMM

モデル

パラメータ最⼤対数尤度

次数残差分散対数尤度

− 0.678301 -24.50 0 0.006229 22.411 0.002587 31.192 0.000922 41.513 0.000833 42.524 0.000737 43.755 0.000688 44.446 0.000650 45.007 0.000622 45.458 0.000607 45.699 0.000599 45.83

21

多項式回帰の次数と残差分散，対数尤度

⼩⻄・北川 (2004) p60

20

25

30

35

40

45

50

0 1 2 3 4 5 6 7 8 9

0

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0 1 2 3 4 5 6 7 8 9

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

残差分散

対数尤度

はそのままではモデル選択に使えない )ˆ( jj

22

理由・原因と対策

理由：

原因：

対策：バイアスを評価し補正する

パラメータ推定と平均対数尤度の推定に同じデータを2回⽤いたため

がの推定値としてバイアスを持ちしかも，バイアス量がモデルによって異なる

)ˆ|(log xfE)ˆ(

25

記号と準備

0ˆ n

00 )|()( xfxg となるが存在しない場合でも

))()()(,0()ˆ( -100

-100 JIJNn n

0 0 0 0 0 0

1 10 0 0 0

10 0

1

1

ˆ ˆ ˆ ˆ( ) ( )( ) tr ( ) ( )( )

tr ( ) ( ) ( ) ( )

tr ( ) ( )

T T

n

n

E J J E

J J I J

I J

-10 0

ˆ( ) (0, ( ) )nn N I

標準的中⼼極限定理

27

バイアスの構造

D

D1

D 2

D3



0

28

バイアスの評価

1 2 3E D E D E D E D

D の期待値を計算する

31

0)|(log)|(log1002

YfEXf

nEDE YXX

n

jjn

n

XfXXfXf

XXX

11

1

)|(log)|,,(log)|(log

),,(

)|(log

)|(log1)|(log1

0

100

YfE

XfEn

Xfn

E

Y

n

jjXX

D2 の評価

D 2

0

32

バイアス補正量

1 2 3( ) X Xb G E D E D D D

1TIC )()(tr)( GJGIGb

2

log ( | ) log ( | )( )

log ( | )( )

X

X

f X f XI G E

f XJ G E

D D2

D3



1D

Fisher情報量

ヘッセ⾏列の期待値0

33

情報量規準

11 2 3( ) [ ] [ ] [ ] ( ) ( )trb G E D E D E D I G J G

1ˆ2 log ( | ) 2 { ( ) ( ) }TIC trf x I G J G

ˆ2 log ( | ) 2 ( )IC f x b G

情報量規準の⼀般形

I(G) Fisher 情報行列

J(G) －（Hessianの期待値）

竹内(1976)

34

⾚池情報量規準 AIC

ˆ2 log ( | ) 2f x k AIC

Akaike (1973)

k: 自由パラメータ数（の次元）

最尤推定量

最大対数尤度ˆ( | )f x

ˆ( | ) max ( | )f x f x

35

2 21log ( | ) ( | ) log ( | ) log ( | )( | )G G G

i j i j i jE f x E f x E f x f x

f x

)()( JI

2

2

2

2

log ( | ) log ( | )

1 ( | )( | )

1 1( | ) ( | ) ( | )( | ) ( | )

1 ( | ) log ( | ) log ( | )( | )

i j i j

i j

i j i j

i j i j

f x f x

f xf x

f x f x f xf x f x

f x f x f xf x

⾏列 I( ) と J( ) の関係

⼩⻄・北川(2004) 45p

⼀般に

36

AICとTICの関係

)|()( s.t. 00 xfxg

1( ) ( ) ( )

k

b G I G J GI k

tr tr

2 2

0 00

2

0

1 ( | ) ( | )( | )

( | ) 0

Gi j i j

i j

E f x f x dxf x

f x dx

)()( JI

モデル族が真の分布を含む場合

0( | ),f x

( )g x

37

AICとTICの関係

AICの補正項は真の分布G を含まない．１．TICの補正項の計算はやや⾯倒２．TICの補正項は実際には未知データから推定３．⾼次モーメントを含む．分散が⼤きい．

モデルが真の分布を含む場合： TIC=AIC

TICがAICより優れていることを意味しない

38

TICの補正項：正規分布の場合2 2

2 2 2

02 2

42 2 2

1log ( | ) log ( | ) 0( )

10log ( | ) log ( | ) 2( )

E f X E f X

J

E f X E f X

48

46

3

63

2

4

2

22

4

2

2

2

0

41

42

21

2)(

21

2)(

21)(

XXX

X

EI

21

22

1

200

41

42

21

)()(

44

43

23

4

2

484

63

63

21

GJGI

6

2

422

2

42

2

22

2

4

2

22

2

)(2

1)|(log)(

)|(log

1)|(log

)(2

1)|(log

)|(log

xxf

xxf

xf

xxf

xxf

2

22

2

2

22

2)(2log

21)|(log

2)(exp

21),|(

xxf

xxf

44

441 1

21

21

21})()({tr

GJGI

0

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0 1 2 3 4 5 6 7 8 9

39

モデル選択例：多項式回帰の次数

)2(2ˆlog)12(logAIC2

)ˆ2log(2

)ˆ(

21)2log(

2)(

),,,,(

),0(~,

2

2

2

1 02

2

210

210

pnn

nn

yyn

Nxxy

p

n

i

p

jjiji

p

pp

⼩⻄・北川 (2004) p60

次数 p20

25

30

35

40

45

50

0 1 2 3 4 5 6 7 8 9

残差分散対数尤度

データ

次数残差分散対数尤度 AIC AICの差

− 0.678301 -24.50 50.99 126.490 0.006229 22.41 -40.81 34.681 0.002587 31.19 -56.38 19.112 0.000922 41.51 -75.03 0.473 0.000833 42.52 -75.04 0.464 0.000737 43.75 -75.50 0.005 0.000688 44.44 -74.89 0.616 0.000650 45.00 -74.00 1.497 0.000622 45.45 -72.89 2.618 0.000607 45.69 -71.38 4.129 0.000599 45.83 -69.66 5.84

-80

-70

-60

-50

-40

0 1 2 3 4 5 6 7 8 9

40


⼩⻄・北川 (2004) p60

次数 p

AICp

41


p=9p＝１

p＝4

次数⼩：バイアスが⼤きい次数⼤：変動が⼤きい

42

予測誤差＝バイアス＋分散

バイアス〜モデルの不安定さ分散〜モデルの悪さ

モデルの予測誤差分散

AIC 最⼩モデル（p = 4）バイアスと分散を適度に⼩さくしたモデル期待予測誤差最⼩のモデル

43

情報量規準の有限修正

c( 1)( )

2n pb Gn p

( 1)ˆAIC 2 log ( | ( )) 22c

n pf X Xn p

),0(~, 2nINXy

n 4 6 8 12 18 25 50 100 200

bAc(G) 8.0 4.0 3.2 2.7 2.4 2.27 2.13 2.06 2.03

p =1 の場合の bc(G)

Sugiura (1978)，⼩⻄・北川(2004) p63，Konishi-Kitagawa(2008) p181

44

AICc 有限修正

GIC 統計的汎函数で定義される任意の推定量

EIC Bootstrap法によるバイアス推定

ABIC ベイズ型情報量規準

NIC, BIC, WAIC, PIC, RIC

** * * *1 ˆ ˆ( ) log ( | ( )) log ( | ( ))

Xb G E f X X f X X

n

(1) log ( | )( ) ( ; ) ( )f xb G T x G dG x tr

2)1()(

pn

pnGb

2 max log ( | ) ( | ) 2f x d q

ABIC

その他の情報量規準

45

⼀般情報量規準： GIC

特⻑• 統計的汎関数として定義できる任意の推定量に適⽤可能• EIC等の理論解析にも有⽤• ⾼次補正も可能

弱点• 汎関数微分の計算が⾯倒

GICˆ ˆGIC 2 log ( | ( )) 2 ( )f X X b G

46

⼀般情報量規準： GIC

(1)

(1) log ( | )

( ) = ( )

tr ( ; ) ( )

p p

f x

b G T f dG x

T x G dG x

pqpqppppX FSFSdGfT

nDE )11()2()1(

1 21

21 1= )(

pqpqppX FSFSn

DE )11()2(3

21= )(

47

Bootstrap情報量規準： EIC

バイアス補正量を解析的にではなく，ブートストラップによって数値的に求める．特⻑

• 解析的近似が不要• 計算実装も⽐較的容易• 最尤推定量以外の広範な推定量やモデルに適⽤可能

弱点• データ⽣成・推定を繰り返すため計算量が多い

)(2))(ˆ|(log2EIC *GbXXf

Bootstrap法によるバイアス補正

平均対数尤度

対数尤度

)|(log Xf

)|(log YfEG

Bootstrap対数尤度)|(log * Xf

*D*3D

*1D

)(ˆ X)(ˆ *X

D

1D

2D

3D

*2D

49

E[D2]=00

平均対数尤度

エントロピー K-L 情報量

対数尤度

AIC TIC GIC EIC

Bootstrap統計的汎関数

計算による補正解析的バイアス補正

情報量規準の系譜

50

最尤推定

AICc

有限修正

複雑な現実・・・有限のデータ

• パラメータ数を少なくする・・・ MAICE• パラメータに制約を課す・・・ Bayesモデル

モデル選択だけではない．

51

よいモデルを求める⽅法

52

ABIC（ベイズ型情報量規準）

)|(

);|( xf

dxfxp )|()|()|(

小北川(2004), Konishi-Kitagawa(2007))

ベイズモデルパラメトリックモデル事前分布

超（ハイパー）パラメータ(q 次元)

周辺分布

これをパラメータをとするモデルとみなす

ABIC 2log max ( | ) 2

2 max log ( | ) ( | ) 2

p x q

f x d q

53

BIC

( | ); ( )

mm m

m

f x R

( ) ( | ) ( )m m mp x f x d

⼩⻄・北川(2004)

ベイズモデルパラメトリックモデル事前分布

周辺尤度

2 log ( ) 2 log ( | ) ( )ˆ2 log ( | ) log

p x f x d

f x m N

BICm

交差検証法（Cross Validation)

54

1 1 1{ , , } { , , } { , , }N my y x x z z m N

1. 全データを推定⽤データと評価⽤データに分ける2. 推定⽤データでモデルを推定3. 評価⽤データでモデルを評価（予測2乗誤差など）4. 1の分割の仕⽅を変えて，すべての場合について 2, 3を繰り返

し，評価量の平均を求める

分割の仕⽅：Leave-one-out： 1個のデータだけ評価に⽤いるk 分割法：全体のデータをk 分割し，そのうちの1つを

評価に⽤いる

推定⽤データ評価⽤データ

55

AICに関する批判について

次数の⼀致性が最も重要な問題ではない．

1. モデリングの⽬的は，「よい」モデルを求めることで，「真の」モデルを求めることではない．

2. 次数の⼀致性は良いモデルを求めるための必要条件でも⼗分条件でもない．

3. 「真」の次数は⼀般に存在しない．存在する場合でも真の次数の推定されたモデルが予測によいとは限らない．

4. 「真」の次数より⾼くてもパラメータが⼀致性を持てばモデルは⼀致する．

シミュレーションの設定⾃体が不適切なことが多い

56

参考書

• 坂元慶⾏, ⽯⿊真⽊夫, 北川源四郎(1983). 「情報量統計学」, 共⽴出版，情報科学講座 A.5.4

• Y.Sakamoto, M.Ishiguro and G.Kitagawa (1986) Akaike Information Criterion Statistics，D.Reidel, Dordrecht.

• Burnham, K. P., & Anderson, D. R. (2003). Model selection and multimodelinference: a practical information-theoretic approach. Springer.

• ⼩⻄貞則，北川源四郎(2004)「情報量規準」，朝倉書店，予測と発⾒の科学２• ⽵内・下平・伊藤・久保川(2004)：モデル選択，統計科学のフロンティア，岩波

書店• ⾚池弘次・⽢利俊⼀・北川源四郎・樺島祥介・下平英寿，編者室⽥⼀雄・⼟⾕

隆(2007)「⾚池情報量規準AIC−モデリング・予測・知識発⾒」共⽴出版• S. Konishi and G. Kitagawa (2008). Information Criteria and Statistical

Modeling，Springer Verlag

57

関連論⽂リスト

• Akaike, H. (1973), “Information theory and an extension of the maximum likelihood principle.” Proc. 2nd International Symposium on Information Theory , B. N. Petrov and F. Csaki eds., Akademiai Kiado, Budapest, 267-281.

• Akaike, H. (1974), “A new look at the statistical model identification.” IEEE Trans. Automat. Contrl., AC-19, No. 6, 716-723.

• ⽵内啓, (1976). 情報統計量の分布とモデルの適切さの規準，< 特集>情報量規準. 数理科学, 14(3), 12-18.

• Konishi and Kitagawa (1996), “Generalized Information Criteria in Model Selection”, Biometrika, Vol. 83, No.4, 875-890.

• Ishiguro, Sakamoto and Kitagawa (1997), “Bootstrapping Log Likelihood and EIC, an Extension of AIC”, Annals of the Institute of Statistical Mathematics, Vol. 49, No. 3, 411-434.

時系列解析（3）...7 情報量規準への道 • モデルのよさを予測能...

Documents

Transcript of 時系列解析（3）...7 情報量規準への道 • モデルのよさを予測能...