ブログが変えた の活用方法 · 総務省「ブログ・snsの現状分析及び将来予測」 ・1年間で2.6倍に急増。 ・予測を1.5倍強も上回るスピードでブログが普及。
時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能...
Transcript of 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能...
![Page 1: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/1.jpg)
東京⼤学 数理・情報教育研究センター北川 源四郎
時系列解析(3)
![Page 2: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/2.jpg)
2
概 要
• 統計的モデリングとモデル評価• 予測の視点とK-L情報量• K-L情報量の推定と最尤法• バイアス補正とAICの導出• TICとの関係• AICによるモデル選択例• その他の情報量規準
![Page 3: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/3.jpg)
3
統計的モデリング
モデルを通して情報抽出が実現できる
統計的モデル情報抽出の「道具」
情報抽出知識発⾒
予測シミュレーション
制御管理
データ
経験的知識
理論
![Page 4: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/4.jpg)
利⽤するモデルの影響
4
時系列モデルによるトレンド推定
時系列モデルによるスペクトル推定
利⽤するモデルによって,予測や情報抽出の結果は著しく異なる.
多項式回帰モデル
![Page 5: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/5.jpg)
5
モデル評価の重要性
• モデルの利⽤によって,予測や情報抽出ができる• 統計的推論の結果は利⽤するモデルに依存する• モデル評価・選択が重要
モデル評価のための情報量規準
![Page 6: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/6.jpg)
6
情報量規準:論⽂被引⽤回数
年別被引⽤数 累積被引⽤数
■ Akademiai Kiado (1973)■ IEEE Automatic Control (1974)
0
1000
2000
3000
4000
5000
1972 1977 1982 1987 1992 1997 2002 2007 2012 2017
AK(1973)IEEE(1974)
0
10000
20000
30000
40000
50000
60000
1972 1977 1982 1987 1992 1997 2002 2007 2012 2017
AK(1973)IEEE(1974)
⾚池弘次⽒ Googleのトップロゴになる 11/6/2017Google Doodlehttps://www.google.com/doodles/hirotugu-akaikes-90th-birthday
![Page 7: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/7.jpg)
7
情報量規準への道
• モデルのよさを予測能⼒で評価する• 予測は点推定ではなく予測分布で⾏う• 分布の近さをKL情報量で評価する
真の分布
将来のデータ
現在のデータ
モデル推定
予測
評価
モデル真のデータ
データ
予測の視点従来の視点
推定・検定
![Page 8: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/8.jpg)
1
log
)()()(log
)()()(log
)()(log);(
i i
ii
Y
fgg
dxxgxfxg
xdGxfxg
YfYgEfgI
8
K-L情報量によるモデルの評価
モデル
Kullback-Leibler情報量(K-L ダイバージェンスともいう)
:)(:)(
yfyg
Akaike(1973,1974),⼩⻄・北川 3.1
真の分布とモデルの分布の乖離を測る尺度
真の分布モデルの分布
連続分布モデル
離散分布モデル
![Page 9: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/9.jpg)
K-L情報量の性質
9
)()( 0);( )(
0);( )(
xfxgfgIii
fgIi
(注意)K-L情報量は距離ではない.距離の公理の(2)対称性,(3)三⾓不等式を満たさない.
(距離の公理)(1) ( , ) 0, ( , ) 0 ( ) ( )(2) ( , ) ( , )(3) ( , ) ( , ) ( , )
d g f d g f g x f xd g f d f gd f g d g h d f h
![Page 10: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/10.jpg)
10
その他の尺度
• へリンジャ―距離
• ⼀般化情報量
• ダイバージェンス
• L1ノルム
• L2ノルム
2
2
( ) ( )
1 ( ) 1 ( )( )
( ) ( )( )
( ) ( )
( ) ( )
f x g x dx
g x g x dxf x
g xu g x dxf x
g x f x dx
g x f x dx
![Page 11: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/11.jpg)
11
K-L情報量とエントロピー
11
1!
! !knn
kk
nn nW f f Boltzmannのエントロピー
i
ii f
ggfgIfgB log);();(
⼩⻄・北川(2004) 30p
Wn
fgB log1~);(
モデル f = ( f1,…, fk)n個の独⽴な観測値 (n1,…,nk) n1+・・・+nk=n相対度数 (g1,…,gk)gi=ni/n (n1,…,nk)が得られる確率
W: 想定したモデルから得られたサンプルの相対度数が真の分布と⼀致する確率
log ! logn n n nスターリングの近似
1 1
1 1 1
1 1
1
1
log ! log ! log ! log
~ log log log
log log
log
log ( ; )
k k
i i ii i
k k k
i i i i ii i i
k ki
i i ii i
ki
iii
ki
iii
W n n n f
n n n n n n n f
nn n fn
fng
fn g nB g fg
![Page 12: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/12.jpg)
12
K-L情報量:計算例
1)(log21);(
212log
21)(log)(
2)(2log
21
2)(2log
21)(log)(
2
22
2
2
2
2
222
2
22
fgI
dxxgxg
XEdxxfxg X
正規分布
dxxfxgdxxgxgfgI
NyfNyg
)(log)()(log)();(
),(~)(),,(~)( 22
⼩⻄・北川(2004) 30p
i
i
iiY f
ggfgEfgI loglog);(
6
1
多項分布f1 = {0.20,0.12,0.18,0.12,0.20,0.18}f2 = {0.18,0.12,0.14,0.19,0.22,0.15}g = { 1/6, 1/6, 1/6, 1/6, 1/6, 1/6}
I(g;f1)=0.023, I(g;f2 )= 0.020
応⽤:⽐例代表制における議席配分g : 得票分布,f:議席配分
![Page 13: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/13.jpg)
K-L情報量の推定
13
統計的モデリングでは通常,K-L情報量は直接計算できない
• 理由: 真のモデル g(y) は未知• 対策: I(g(y); f (y)) をデータから推定する
fEgEfgEfgI YYY logloglog);(
EYlog gとEYlog f を分離できることがK-L情報量のメリット
![Page 14: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/14.jpg)
14
平均対数尤度
)(log YfEY 平均対数尤度
):()(log
fgIYfEY 絶対評価
相対評価注意:
log ( ) : ( : )YE f Y I g f⼤ ⼩ :
EY log g は未知だが f に関係なく⼀定
モデリングにはK-L情報量の代わりに平均対数尤度を使える
( ; ) log logY YI g f E g E f
![Page 15: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/15.jpg)
15
n
iin XyI
nyGyG
1),(1)(ˆ )(
平均対数尤度 E log f の推定
平均対数尤度
対数尤度)(log)(ˆ)(log
1
n
iin XfyGdyfn
(経験分布)
)(log YfEY)(log1
1
n
iiXf
n
)()(log)(log ydGyfYfEY
Data
⼤数の法則
平均対数尤度も未知の分布を含む 推定が必要
( ) ( )dG y g y dy
![Page 16: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/16.jpg)
16
最尤法
対数尤度 )|(log)|(log)(1
XfXfn
ii
),,( ),|( 1 kyf
ˆ ˆmax ( ) ( )X
Max : Max :)(log Min );( YfEfgI Y:
パラメトリックモデル
最尤法
最尤法は近似的にK-L情報量を最⼩化 )ˆ|(
)ˆ(
ˆ
yf
最尤推定量最⼤対数尤度最尤モデル
![Page 17: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/17.jpg)
17
最尤推定値の例(平均)
平均対数尤度対数尤度
n=10n=100
)1,( :model ),1,0(~ NNy
( )( )
![Page 18: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/18.jpg)
18
最尤推定値の例(分散)
n=10 n=100
),0( :model ),1,0(~ 2NNy
2 2
2( ) 2( )
平均対数尤度対数尤度
![Page 19: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/19.jpg)
19
最尤推定値の求め⽅(1)尤度⽅程式を解く(2)数値的最適化による
最尤推定量の性質(1)尤度⽅程式 は0に収束する解を持つ(2) は のとき0に確率収束(3)
最尤推定値
n
))(,0()ˆ( -100 INn n
( ) 0
n
![Page 20: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/20.jpg)
20
複数モデルの⽐較
最⼤対数尤度 を⽐較して,最⼤となるj を探せばよい?
)ˆ( jj
)ˆ()ˆ( 11
1
1
kk
k
kMM
モデル
パラメータ最⼤対数尤度
![Page 21: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/21.jpg)
次数 残差分散 対数尤度
− 0.678301 -24.50 0 0.006229 22.411 0.002587 31.192 0.000922 41.513 0.000833 42.524 0.000737 43.755 0.000688 44.446 0.000650 45.007 0.000622 45.458 0.000607 45.699 0.000599 45.83
21
多項式回帰の次数と残差分散,対数尤度
⼩⻄・北川 (2004) p60
20
25
30
35
40
45
50
0 1 2 3 4 5 6 7 8 9
0
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0 1 2 3 4 5 6 7 8 9
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
残差分散
対数尤度
はそのままではモデル選択に使えない )ˆ( jj
![Page 22: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/22.jpg)
22
理由・原因と対策
理由:
原因:
対策: バイアスを評価し補正する
パラメータ推定と平均対数尤度の推定に同じデータを2回⽤いたため
が の推定値としてバイアスを持ちしかも,バイアス量がモデルによって異なる
)ˆ|(log xfE)ˆ(
![Page 23: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/23.jpg)
23
最⼤対数尤度のバイアス補正
0
D
))(ˆ|(log))(ˆ|(log1 )( XYfEXXf
nEGb YX
ˆlog ( | ( )) ( )ˆlog ( | ( ))
X
Y
E f X X b G
E f Y X
)())(ˆ|(log GbXXf
バイアス補正 対数尤度log ( | ( ))f X X
平均対数尤度))(|(log XYfEY
(Dの期待値を補正)
![Page 24: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/24.jpg)
24
記号と準備
( ) ( | )g x f x
0
0
log ( | ) max log ( | )log ( | ) 0
Y Y
Y
E f Y E f YE f Y
2( ) ( | )TJ E f Y
( ) log ( | ) log ( | )T
I E f Y f Y
真のモデル パラメトリックモデル
「真」の値
最尤推定値1 1
1
ˆlog ( | ) max log ( | )
ˆlog ( | ) 0
n n
i ii i
n
i
f x f x
f Y
I( ):Fisher情報⾏列,J( ):Hessianの期待値
0
0
対数尤度log ( | ( ))f X X
))(|(log XYfEY 平均対数尤度
![Page 25: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/25.jpg)
25
記号と準備
0ˆ n
00 )|()( xfxg となる が存在しない場合でも
))()()(,0()ˆ( -100
-100 JIJNn n
0 0 0 0 0 0
1 10 0 0 0
10 0
1
1
ˆ ˆ ˆ ˆ( ) ( )( ) tr ( ) ( )( )
tr ( ) ( ) ( ) ( )
tr ( ) ( )
T T
n
n
E J J E
J J I J
I J
-10 0
ˆ( ) (0, ( ) )nn N I
標準的中⼼極限定理
![Page 26: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/26.jpg)
26
バイアスの評価
321
0
00
0
))(ˆ|(log)|(log
)|(log)|(log
)|(log))(ˆ|(log
))(ˆ|(log))(ˆ|(log
1
11
1
DDDXYfEYfE
YfEXf
XfXXf
XYfEXXfD
YY
Y
Y
n
nn
n
対数尤度 平均対数尤度
log ( | ( ))f X X
E f Y XG log ( | ( ))
D
D1
D2
D3
対数尤度
平均対数尤度
1
1
( , , )log ( | ) log ( | )
Tn
nii
X x xf X f x
0
![Page 27: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/27.jpg)
27
バイアスの構造
D
D1
D 2
D3
対数尤度log ( | ( ))f X X
平均対数尤度))(|(log XYfEY
0
![Page 28: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/28.jpg)
28
バイアスの評価
1 2 3E D E D E D E D
D の期待値を計算する
![Page 29: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/29.jpg)
2
0 0 0
10 0 02
10 0 0 02
ˆlog ( | ( ))ˆlog ( | ) log ( | )( )
ˆ ˆ( ) log ( | )( )
ˆ ˆlog ( | ) ( ) ( )( )
Y
Y YT
Y
TY
E f Y XE f Y E f Y
E f Y
E f Y J
29
13 0
1ˆlog ( | ) log ( | ( )) tr2X X Y YE D E E f Y E f Y X IJ
n
0
10 0 0 0 0
1ˆ ˆ( ) ( )( ) tr ( ) ( )TXE J I J
n
D3 の評価
))(ˆ|(log XYfEY
![Page 30: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/30.jpg)
)ˆ)(()ˆ())(ˆ|(log
)ˆ))((ˆ|(log)ˆ(
)ˆ))((ˆ|(log))(ˆ|(log)|(log
00021
0021
0
0
2
JXXf
XXf
XXfXXfXf
T
T
30
11 01ˆlog ( | ( )) log ( | ) tr
2X XE D E f X X f X IJn
10 0 0 0 0
ˆ ˆ( ) ( )( ) tr ( ) ( )TXE J I J
D1 の評価
![Page 31: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/31.jpg)
31
0)|(log)|(log1002
YfEXf
nEDE YXX
n
jjn
n
XfXXfXf
XXX
11
1
)|(log)|,,(log)|(log
),,(
)|(log
)|(log1)|(log1
0
100
YfE
XfEn
Xfn
E
Y
n
jjXX
D2 の評価
D 2
0
![Page 32: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/32.jpg)
32
バイアス補正量
1 2 3( ) X Xb G E D E D D D
1TIC )()(tr)( GJGIGb
2
log ( | ) log ( | )( )
log ( | )( )
X
X
f X f XI G E
f XJ G E
D D2
D3
対数尤度log ( | ( ))f X X
平均対数尤度))(|(log XYfEY
1D
Fisher情報量
ヘッセ⾏列の期待値0
![Page 33: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/33.jpg)
33
情報量規準
11 2 3( ) [ ] [ ] [ ] ( ) ( )trb G E D E D E D I G J G
1ˆ2 log ( | ) 2 { ( ) ( ) }TIC trf x I G J G
ˆ2 log ( | ) 2 ( )IC f x b G
情報量規準の⼀般形
I(G) Fisher 情報行列
J(G) -(Hessianの期待値)
竹内(1976)
![Page 34: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/34.jpg)
34
⾚池情報量規準 AIC
ˆ2 log ( | ) 2f x k AIC
Akaike (1973)
k: 自由パラメータ数 (の次元)
最尤推定量
最大対数尤度ˆ( | )f x
ˆ( | ) max ( | )f x f x
![Page 35: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/35.jpg)
35
2 21log ( | ) ( | ) log ( | ) log ( | )( | )G G G
i j i j i jE f x E f x E f x f x
f x
)()( JI
2
2
2
2
log ( | ) log ( | )
1 ( | )( | )
1 1( | ) ( | ) ( | )( | ) ( | )
1 ( | ) log ( | ) log ( | )( | )
i j i j
i j
i j i j
i j i j
f x f x
f xf x
f x f x f xf x f x
f x f x f xf x
⾏列 I( ) と J( ) の関係
⼩⻄・北川(2004) 45p
⼀般に
![Page 36: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/36.jpg)
36
AICとTICの関係
)|()( s.t. 00 xfxg
1( ) ( ) ( )
k
b G I G J GI k
tr tr
2 2
0 00
2
0
1 ( | ) ( | )( | )
( | ) 0
Gi j i j
i j
E f x f x dxf x
f x dx
)()( JI
モデル族が真の分布を含む場合
0( | ),f x
( )g x
![Page 37: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/37.jpg)
37
AICとTICの関係
AICの補正項は真の分布G を含まない.1.TICの補正項の計算はやや⾯倒2.TICの補正項は実際には未知 データから推定3.⾼次モーメントを含む. 分散が⼤きい.
モデルが真の分布を含む場合: TIC=AIC
TICがAICより優れていることを意味しない
![Page 38: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/38.jpg)
38
TICの補正項:正規分布の場合2 2
2 2 2
02 2
42 2 2
1log ( | ) log ( | ) 0( )
10log ( | ) log ( | ) 2( )
E f X E f X
J
E f X E f X
48
46
3
63
2
4
2
22
4
2
2
2
0
41
42
21
2)(
21
2)(
21)(
XXX
X
EI
21
22
1
200
41
42
21
)()(
44
43
23
4
2
484
63
63
21
GJGI
6
2
422
2
42
2
22
2
4
2
22
2
)(2
1)|(log)(
)|(log
1)|(log
)(2
1)|(log
)|(log
xxf
xxf
xf
xxf
xxf
2
22
2
2
22
2)(2log
21)|(log
2)(exp
21),|(
xxf
xxf
44
441 1
21
21
21})()({tr
GJGI
![Page 39: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/39.jpg)
0
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0 1 2 3 4 5 6 7 8 9
39
モデル選択例:多項式回帰の次数
)2(2ˆlog)12(logAIC2
)ˆ2log(2
)ˆ(
21)2log(
2)(
),,,,(
),0(~,
2
2
2
1 02
2
210
210
pnn
nn
yyn
Nxxy
p
n
i
p
jjiji
p
pp
⼩⻄・北川 (2004) p60
次数 p20
25
30
35
40
45
50
0 1 2 3 4 5 6 7 8 9
残差分散 対数尤度
データ
![Page 40: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/40.jpg)
次数 残差分散 対数尤度 AIC AICの差
− 0.678301 -24.50 50.99 126.490 0.006229 22.41 -40.81 34.681 0.002587 31.19 -56.38 19.112 0.000922 41.51 -75.03 0.473 0.000833 42.52 -75.04 0.464 0.000737 43.75 -75.50 0.005 0.000688 44.44 -74.89 0.616 0.000650 45.00 -74.00 1.497 0.000622 45.45 -72.89 2.618 0.000607 45.69 -71.38 4.129 0.000599 45.83 -69.66 5.84
-80
-70
-60
-50
-40
0 1 2 3 4 5 6 7 8 9
40
モデル選択例:多項式回帰の次数
⼩⻄・北川 (2004) p60
次数 p
AICp
![Page 41: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/41.jpg)
41
モデル選択例:多項式回帰の次数
p=9p=1
p=4
次数⼩:バイアスが⼤きい次数⼤:変動が⼤きい
![Page 42: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/42.jpg)
42
予測誤差 = バイアス + 分散
バイアス 〜 モデルの不安定さ分散 〜 モデルの悪さ
モデルの予測誤差分散
AIC 最⼩モデル(p = 4)バイアスと分散を適度に⼩さくしたモデル期待予測誤差最⼩のモデル
![Page 43: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/43.jpg)
43
情報量規準の有限修正
c( 1)( )
2n pb Gn p
( 1)ˆAIC 2 log ( | ( )) 22c
n pf X Xn p
),0(~, 2nINXy
n 4 6 8 12 18 25 50 100 200
bAc(G) 8.0 4.0 3.2 2.7 2.4 2.27 2.13 2.06 2.03
p =1 の場合の bc(G)
Sugiura (1978),⼩⻄・北川(2004) p63,Konishi-Kitagawa(2008) p181
![Page 44: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/44.jpg)
44
AICc 有限修正
GIC 統計的汎函数で定義される任意の推定量
EIC Bootstrap法によるバイアス推定
ABIC ベイズ型情報量規準
NIC, BIC, WAIC, PIC, RIC
** * * *1 ˆ ˆ( ) log ( | ( )) log ( | ( ))
Xb G E f X X f X X
n
(1) log ( | )( ) ( ; ) ( )f xb G T x G dG x tr
2)1()(
pn
pnGb
2 max log ( | ) ( | ) 2f x d q
ABIC
その他の情報量規準
![Page 45: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/45.jpg)
45
⼀般情報量規準: GIC
特⻑• 統計的汎関数として定義できる任意の推定量に適⽤可能• EIC等の理論解析にも有⽤• ⾼次補正も可能
弱点• 汎関数微分の計算が⾯倒
GICˆ ˆGIC 2 log ( | ( )) 2 ( )f X X b G
![Page 46: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/46.jpg)
46
⼀般情報量規準: GIC
(1)
(1) log ( | )
( ) = ( )
tr ( ; ) ( )
p p
f x
b G T f dG x
T x G dG x
pqpqppppX FSFSdGfT
nDE )11()2()1(
1 21
21 1= )(
pqpqppX FSFSn
DE )11()2(3
21= )(
![Page 47: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/47.jpg)
47
Bootstrap情報量規準: EIC
バイアス補正量を解析的にではなく,ブートストラップによって数値的に求める.特⻑
• 解析的近似が不要• 計算実装も⽐較的容易• 最尤推定量以外の広範な推定量やモデルに適⽤可能
弱点• データ⽣成・推定を繰り返すため計算量が多い
)(2))(ˆ|(log2EIC *GbXXf
![Page 48: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/48.jpg)
48
Bootstrap 情報量規準: EIC
• データ• 経験分布関数• Bootstrap標本
))(ˆ|(log))(ˆ|(log 1)( XYfEXXf
nEGb YX
)( ~ ,,1 xGXXX n
),(1)(1
n
jjn XxI
nxG
))(ˆ|(log))(ˆ|(log 1
))(ˆ|(log))(ˆ|(log1 )(
***
*****
*
**
XXfXXfEn
XYfEXXfn
EGb
X
YX
)(ˆ ~ ,, **1
* xGXXX nn
![Page 49: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/49.jpg)
Bootstrap法によるバイアス補正
平均対数尤度
対数尤度
)|(log Xf
)|(log YfEG
Bootstrap対数尤度)|(log * Xf
*D*3D
*1D
)(ˆ X)(ˆ *X
D
1D
2D
3D
*2D
49
E[D2]=00
![Page 50: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/50.jpg)
平均対数尤度
エントロピー K-L 情報量
対数尤度
AIC TIC GIC EIC
Bootstrap統計的汎関数
計算による補正解析的バイアス補正
情報量規準の系譜
50
最尤推定
AICc
有限修正
![Page 51: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/51.jpg)
複雑な現実 ・・・ 有限のデータ
• パラメータ数を少なくする ・・・ MAICE• パラメータに制約を課す ・・・ Bayesモデル
モデル選択だけではない.
51
よいモデルを求める⽅法
![Page 52: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/52.jpg)
52
ABIC(ベイズ型情報量規準)
)|(
);|( xf
dxfxp )|()|()|(
小北川(2004), Konishi-Kitagawa(2007))
ベイズモデルパラメトリックモデル事前分布
超(ハイパー)パラメータ(q 次元)
周辺分布
これをパラメータを とするモデルとみなす
ABIC 2log max ( | ) 2
2 max log ( | ) ( | ) 2
p x q
f x d q
![Page 53: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/53.jpg)
53
BIC
( | ); ( )
mm m
m
f x R
( ) ( | ) ( )m m mp x f x d
⼩⻄・北川(2004)
ベイズモデルパラメトリックモデル事前分布
周辺尤度
2 log ( ) 2 log ( | ) ( )ˆ2 log ( | ) log
p x f x d
f x m N
BICm
![Page 54: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/54.jpg)
交差検証法(Cross Validation)
54
1 1 1{ , , } { , , } { , , }N my y x x z z m N
1. 全データを推定⽤データと評価⽤データに分ける2. 推定⽤データでモデルを推定3. 評価⽤データでモデルを評価(予測2乗誤差など)4. 1の分割の仕⽅を変えて,すべての場合について 2, 3を繰り返
し,評価量の平均を求める
分割の仕⽅:Leave-one-out: 1個のデータだけ評価に⽤いるk 分割法: 全体のデータをk 分割し,そのうちの1つを
評価に⽤いる
推定⽤データ 評価⽤データ
![Page 55: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/55.jpg)
55
AICに関する批判について
次数の⼀致性が最も重要な問題ではない.
1. モデリングの⽬的は,「よい」モデルを求めることで,「真の」モデルを求めることではない.
2. 次数の⼀致性は良いモデルを求めるための必要条件でも⼗分条件でもない.
3. 「真」の次数は⼀般に存在しない.存在する場合でも真の次数の推定されたモデルが予測によいとは限らない.
4. 「真」の次数より⾼くてもパラメータが⼀致性を持てばモデルは⼀致する.
シミュレーションの設定⾃体が不適切なことが多い
![Page 56: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/56.jpg)
56
参考書
• 坂元慶⾏, ⽯⿊真⽊夫, 北川源四郎(1983). 「情報量統計学」, 共⽴出版,情報科学講座 A.5.4
• Y.Sakamoto, M.Ishiguro and G.Kitagawa (1986) Akaike Information Criterion Statistics,D.Reidel, Dordrecht.
• Burnham, K. P., & Anderson, D. R. (2003). Model selection and multimodelinference: a practical information-theoretic approach. Springer.
• ⼩⻄貞則,北川源四郎(2004)「情報量規準」,朝倉書店,予測と発⾒の科学2• ⽵内・下平・伊藤・久保川(2004):モデル選択,統計科学のフロンティア,岩波
書店• ⾚池弘次・⽢利俊⼀・北川源四郎・樺島祥介・下平英寿,編者 室⽥⼀雄・⼟⾕
隆(2007)「⾚池情報量規準AIC−モデリング・予測・知識発⾒」共⽴出版• S. Konishi and G. Kitagawa (2008). Information Criteria and Statistical
Modeling,Springer Verlag
![Page 57: 時系列解析(3)...7 情報量規準への道 • モデルのよさを予測能 で評価する • 予測は点推定ではなく予測分布で う • 分布の近さをKL情報量で評価する](https://reader033.fdocuments.net/reader033/viewer/2022042415/5f2fbc3eb174f623395a3d1a/html5/thumbnails/57.jpg)
57
関連論⽂リスト
• Akaike, H. (1973), “Information theory and an extension of the maximum likelihood principle.” Proc. 2nd International Symposium on Information Theory , B. N. Petrov and F. Csaki eds., Akademiai Kiado, Budapest, 267-281.
• Akaike, H. (1974), “A new look at the statistical model identification.” IEEE Trans. Automat. Contrl., AC-19, No. 6, 716-723.
• ⽵内啓, (1976). 情報統計量の分布とモデルの適切さの規準,< 特集>情報量規準. 数理科学, 14(3), 12-18.
• Konishi and Kitagawa (1996), “Generalized Information Criteria in Model Selection”, Biometrika, Vol. 83, No.4, 875-890.
• Ishiguro, Sakamoto and Kitagawa (1997), “Bootstrapping Log Likelihood and EIC, an Extension of AIC”, Annals of the Institute of Statistical Mathematics, Vol. 49, No. 3, 411-434.