Download - seminar 130306 v2 public - Nagoya Institute of Technologymatsuzoe.web.nitech.ac.jp/infogeo/seminar_130306_v2_public.pdf · ベイズ統計による推定の例(2/2) 答え方(ベイズ統計)

情報幾何と関連分野小研究集会＠大阪市立大 [email protected]

系時系列モデルの情報幾何とベイズ統計への応用(1)ベイズ統計への応用(1)

２０１３年3月6日初版初版

田中冬彦(Tanaka Fuyuhiko)

所属：東京大学情報理工学系研究科助教

１．統計理論の位置づけ

研究対象は統計モデル！

実社会

遺伝子解析；情報理論；信号処理

脳計測；経済時系列などAGCTAGCGACCT

具体的

脳計測；経済時系列など CGACCT

個別の統計モデルを導入 ( ) }R;|{ kxpM ⊂Θ∈= θθ

統計モデルの応用

個別の統計モデルを導入

（脳波の時系列モデル、DNAの隠れマルコフモデルなど）

( ) }R;|{ xpM ⊂Θ∈= θθ

ココ

}{M抽象的

統計の基礎理論

統計モデルの全体を扱う}{M

発表の流れ

１．統計理論の位置づけ２．ベイズの公式３．ベイズ統計入門４．無情報事前分布

情報幾何の導入５．情報幾何の導入６．予測分布７予測の決定理論的定式化７．予測の決定理論的定式化８．α平行事前分布９．優調和事前分布

２．ベイズの公式

ベイズの公式 (1/2)

ベイズの公式

)()()|()|(

APBPBAPABP =

)(

)( AP Aが成立している確率

Aが成立している条件の下でのBが成立する確率（条件付き確率）)|( ABP)()( BAPABP

)( AP Aが成立している確率

条件付き確率定義

)()( BAPABP ∩=∩ AとBが両方成立している確率

条件付き確率の定義

)()|()()|()( BPBAPAPABPBAP ==∩

※ベイズの「公式」と呼ばれるが数学的には上の定義の書き換えにすぎない

ベイズの公式による推論

例：高校生のクラス３０人のペット調査をもとにした推理ゲーム

クラスの高校生１人と話してみる。

１．手がかりがない場合

あなたは昔、猫を飼っていましたね？

10/3)( =BP当たる確率は３割

２．それまでの話から今、犬を飼っていることがわかった場合

あなたは昔、猫を飼っていましたね？

5/4)|( =ABP当たる確率は８割！ 5/4)|( ABP当たる確率は割

犬についての新たな手がかりと事前情報の両方を用いることで犬についての新たな手がかりと事前情報の両方を用いることで猫に関する推論の精度があがる！

３．ベイズ統計入門

ベイズ統計の概観

１．統計モデルの設定

２．事前分布の設定

事後布基推３．事後分布に基いた推測

統計モデル (1/2)

統計モデル（確率モデル）

1. 試行的なモデル；現象論的なモデル（e g 駅からの距離と土地の値段の相関）

データを発生させている源に関して数学的に記述したもの

1. 試行的なモデル；現象論的なモデル（e.g., 駅からの距離と土地の値段の相関）

2. 物理法則など厳格なモデル（e.g., 物理定数の測定実験；真値＋観測誤差）

・工学、経済 → １を想定

意識のギャップ

学、経済を想定

・物理（実験）などの科学 → ２を想定

統計究者を柔軟考察・統計研究者 →１，２を柔軟に考察

統計モデル (2/2)記法：

データ x が確率分布（確率密度関数） p(x) に従う時

)(~ xpx 0)(,1d)( ≥=∫ xpxxpX

離散の時（以降はしばしば省略）

0)(,1)( ≥=∑∈

xpxpXx

離散の時（以降はしばしば省略）

i.i.d.独立に同じ確率分布に従う時 (Independently identically distributed; i.i.d. )

)(~,,1 ypyy nK )(,,1 ypyy n

確率分布の有限次元パラメタ族を統計モデルと呼ぶ

統計モデル

確率分布の有限次元パラメータ族を統計モデルと呼ぶ

∫ =≥X

xxpxp 1d)|(,0)|( θθ kR∈∀ θ ← の動く範囲は扱う問題によるθ未知パラメータで決まる真の確率分布が存在し, データxはそこから発生しているとみなす（重要な仮定）

θ

統計モデルの例(1/2)

・離散モデル },,,{ 121 += kaaaX L離散モデル

θθθθ = 1

0>iθiiaxp θθ == )|(

},,,{ 121 +k

kR∈θ

kk θθθθ −−−=+ L211 1

k=1: ベルヌーイ試行（１回のコイン投げ）

10 << θθ=表の出る確率

n回投げて表がx回出る確率（独立性を仮定）

・二項分布n回投げて表がx回出る確率（独立性を仮定）

xnxn

nxp −−⎟⎟

⎠

⎞⎜⎜⎝

⎛= )1()|( θθθ 10 << θx ⎟

⎠⎜⎝

統計モデルの例(2/2)

平均未知の正規分布族(ガウスモデル)・平均未知の正規分布族(ガウスモデル)

⎬⎫

⎨⎧ −

=||||exp1)|(

2θθ xxp kθ⎭⎬

⎩⎨ −=

2exp

)2()|( 2/π

θxp k kR∈θ

事前分布

統計モデルに加えてさらにパラメータの確率分布θ事前分布の導入

統計モデルに加えて, さらにパラメタの確率分布も仮定( 事前分布（prior distribution, prior ）と呼ぶ)

θ

)(~ θπθ ∫Θ =≥ 1d)(,0)( θθπθπ

事前分布の例事前分布の例

k=1: ベルヌーイ試行（１回のコイン投げ）

10 << θ表(H)の出る確率＝ θθ == )|( Hxp 10 << θ表(H)の出る確率＝

2/12/1 )1()( −− −= θθθπ C Jeffreys事前分布(Jeffreys prior)

θθ == )|( Hxp

)()( Jeffreys事前分布(Jeffreys prior)

ベイズ統計の考え方

（統計モデル所与の下）データから未知パラメータが推測できれば

統計モデルに基いた推論

（統計モデル所与の下）デタから未知パラメタが推測できれば, データを発生させる真の確率構造が把握できたことになる

ベイズ統計の考え方

未知パラメータの確率分布（事前分布）を導入し未知パラメタの確率分布（事前分布）を導入し、

事後分布に基いて系統的に推測を行う

事前情報に基づいたパラメータの分布)(θπ 事前情報に基づいたパラメタの分布)(θπ)|( xθπ 事前情報＋実データに基づいたパラメータの分布

∫ θθθθ d)|( パラメータのベイズ推定量（の例）∫= θθθπθ d)|(: xB

事後分布のイメージ

・事前分布＝パラメータに関する不確かさを表現・事後分布＝データ x を得た後の不確かさを表現

)(θπ )|( xθπ

∫

Θ Θ

0)|( ≥xθπ ∫Θ =1d)|( θθπ x0)( ≥θπ ∫Θ =1d)( θθπ

(独立同一分布の下)データ数を増やしていくと真値の周りに鋭いピークをもつ事後分布になる真値の周りに鋭いピクをもつ事後分布になる

ベイズ統計による推定の例 (1/2)

例：新商品の売上予測

試験販売 100 人で30人購入

問題

試験販売： n = 100 人で30人購入

市場（10,000人）に出すとどれくらい売れるか？

統計モデル

θ潜在的な購入者の割合 10 <<θ

人うち実際に人が購入する確率

xnxnxp −

⎟⎟⎞

⎜⎜⎛

)1()|( θθθ

n 人のうち実際にx人が購入する確率

n xxp −⎟⎟

⎠⎜⎜⎝

= )1()|( θθθ


答え方(非ベイズ統計)

xnxn −⎟⎞

⎜⎛

)1()|( θθθ xnxn x

xp −⎟⎟⎠

⎜⎜⎝

= )1()|( θθθ 10 <<θ

最尤推定量 (MLE; Maximum Likelihood Estimator )nxx =)(θ̂

3030)30(ˆ ==θ

n

3.0100

)30( ==θ

過去の似たような商品での情報は一切反映しない結果！


答え方(ベイズ統計)

1過去の似たような商品での購入者の割合の分布（事前分布）

10 <<θθθπ

21)( =

パラメータの事後分布

1 702/130 )1()71,2/130(

1)|( θθθπ −+

= −

Bex

事後分布に基いて, 期待値やメディアン、MAP（事後確率が最大の値）などでパラメータを推定できる

ベイズ統計が有効なケース

厳格な法則よりも近似的なルルを与えたい（デタマイニング；Amazonなどのおすすめ商品）

実用上のニーズ

・厳格な法則よりも近似的なルールを与えたい（データマイニング；Amazonなどのおすすめ商品）

・過去のデータも踏まえて意思決定を行いたい（迷惑メールフィルタ；単語変換の予測；音声認識）

ベイズ統計発展の背景ベイズ統計発展の背景

・計算機の性能向上と事後分布計算のアルゴリズム開発（事後分布が計算可能）

・高次元の離散データの取り扱い(特にゲノムやWeb関係)

・人間行動のモデル化と予測に対するニーズ（ケータイ、カーナビ）

４. 無情報事前分布

無情報事前分布

無情報事前分布＝パラメタに関する事前情報が全くない場合無情報事前分布＝パラメータに関する事前情報が全くない場合に使う事前分布

}:)|({ kRxpM ⊆Θ∈= θθ統計モデルのみから決めたい

}:)|({ RxpM ⊆Θ∈= θθ

?)d( θπ ?)d( θπ

１．いまだに議論があるが、望ましい条件などのコンセンサスもある(後述)注意点

２．「無情報」は“noninformative”の訳語であり, objective prior, vague prior などとも言う

無情報事前分布の選択

歴史的には３段階

1. パラメータの動く範囲のみを見る（Laplace’s criterion）kR⊆Θ

2 確率分布の空間への埋め込まれ方を見る

}:)|({ kRxpM ⊆Θ∈= θθ2. 確率分布の空間への埋め込まれ方を見る

3. さらに、統計的決定理論の立場で眺める (統計理論の最先端)

Laplace’s Criterion

素朴なアイディア

事前の情報が全くない = 異なるパラメータに同じ重み

= 一様分布

)(θ

= 一様分布

.)(U const=θπ Uπ

ΘΘ

パラメータの取り方に依存した定義になっている

Ex. ゆがんだコイン

コイン投げのモデル (H=表, T＝裏)

{ }Θ∈−== θθθθθ :)1,())|(),|(( TpHpM )1,0(=Θ{ }Ξ∈−== ξξξξξ :)tan1,(tan))|(),|(( TpHp

⎟⎞

⎜⎛=Ξ ,0 π

1)( =θπある人の主張する「一様分布」

⎟⎠

⎜⎝

Ξ4

,0

Θ1)(U =θπ1

U 4)( −⋅= πξπ

ある人の主張する「一様分布」

別の人の主張する「一様分布」

Θon Ξ

on

両者は同じ統計モデルとみなすため, 「一様分布」という定義は望ましくない

無情報事前分布の指針

望ましい条件望ましい条件

- パラメータの取り方に依存しない定義（一様分布はダメ）

- 汎用性（対称性の低い複雑なモデルでも使える）

ラり方依存定義（様分布）

- 得られる結果が望ましい性質をもつ、なんらかの解釈が可能得られる結果が望ましい性質をもつ、なんらかの解釈が可能

Jeffreys 事前分布

Jeffreys 事前分布 )(J θπ

Fisher 情報行列ijg)det()(J ijg∝θπ

Fisher 情報行列ijg

⎥⎦⎤

⎢⎣⎡

∂∂

∂∂

= jiX

ijxpxpg

θθ

θθ )|(log)|(logE:

⎦⎣

[ ] xxpX d)|(:E ∫ ⋅=⋅ θ

汎用性（適当な正則条件のもとで常に存在）

- パラメータの取り方に依存しない

-汎用性（適当な正則条件のもとで常に存在）

→ 他の事前分布との比較対象

- ただし, improper (積分発散)になるケースも多く

必ずしも良い選択肢とはいえない

例：ガウス分布族

ガウス分布族 (正規分布族)＝平均と分散で特徴づけられる確率分布族

⎫⎧}R:)|({ 2⊂Θ∈= θθxpM

⎭⎬⎫

⎩⎨⎧ −−= 2

2

2 2)(exp

21)|(

σμ

πσθ xxp

簡単のため分散＝１とおくと

),0(R +∞×=Θ),(),( 221 σμθθθ ==

1)(J ∝μπ R∈μ簡単のため分散１とおくと

積分は発散（improper とよばれる）

∞=∫ )(d J μμπ∫

無情報事前分布の提案

さまざまな無情報事前分布

- Jeffreys prior- Maximum likelihood prior/Alpha parallel prior- Superharmonic prior- Reference prior/Latent information prior- Haar measure (on a unimodular group)

今もなお多くの議論有り (cf. 量子系特有の例はFT 2012, Physical Review A )

統計モデルに対し幾何学的に定義される事前分布（赤字）を紹介

５. 情報幾何の導入

よくある誤解

「統計モデル＋幾何学」だけだと（情報幾何の）他にも解釈がある

統計モデル（微分）幾何学

１．データが曲線・曲面上に分布（cf. 方向統計学, スムージング）

２．確率密度関数がなめらかな曲線・曲面（cf. 最大エントロピー法, ピアソン分布族）

以下、情報幾何のフォーマルな定義を紹介（１，２とは違う！）

統計モデルの幾何（＝情報幾何）

OVERVIEW1. 確率分布のパラメータ族

),,,( 21 kθθθθ L=

1. 確率分布のラメタ族

)|( θxp 0)|(,1)d|( ≥=∫ θθ xpxxp

}:)|({ M Θ∈= θθxp2. 統計モデル多様体

3. Fisher計量

⎤⎡ ∂∂ xpxp θθ )|(log)|(log⎥⎦⎤

⎢⎣⎡

∂∂

∂∂

= jiX

ijxpxpg

θθ

θθ )|(log)|(logE:

4 Alpha 接続

[ ] xxpX d)|(:E ∫ ⋅=⋅ θ

⎥⎦

⎤⎢⎣

⎡∂

∂∂∂

∂=Γ kji

Xkij

e xpxpθ

θθθ

θ )|(log)|(logE:2

;

)(

4. Alpha 接続

ijkkij

e

kij T2

1: ;

)(

;

)( αα −+Γ=Γ R∈α

⎥⎦⎤

⎢⎣⎡

∂∂

∂∂

∂∂

= kjiX

ijkxpxpxpT

θθ

θθ

θθ )|(log)|(log)|(logE:

統計モデル多様体

統計モデル多様体（確率分布のパラメータ族）

統計モデル

}:)|({ M Θ∈= θθxp Mxp ∈)|( 0θ

＊モデルのパラメータ＝多様体の座標系

),,,( 21 dθθθθ L=kR⊆Θ∈= 0θθ

例：ガウス分布族 (1/2)

ガウス分布族 (正規分布族)＝平均と分散で特徴づけられる確率分布族

⎫⎧ 2)(1}R:)|({ 2⊂Θ∈= θθxpM

⎭⎬⎫

⎩⎨⎧ −−= 2

2

2 2)(exp

21)|(

σμ

πσθ xxp

パラメータの動く範囲パラメタの動く範囲

),0(R +∞×=Θ平均分散

),(),( 221 σμθθθ ==

2R⊆Θ2σ

)(R⊆Θ )R(PM ⊂one-to-one

μ

例：ガウス分布族 (2/2)

2

別のパラメータ（自然パラメータ）による表示

}R:)|({ 2⊂Ξ∈= ξξxpM

{ })(exp)|( 2 ξξψξξξ −+= xxxp

パラメータの動く範囲

{ }),(exp)|( 2121 ξξψξξξ += xxxp

パラメタの動く範囲

R×−∞=Ξ )0,()/),2/(1(),( 2221 σμσξξξ −==

2ξ

one to oneΞ

)R(PM ⊂

1ξ

one-to-one )R(PM ⊂

1ξ

統計モデル上のリーマン計量

Fisher情報行列（Fisher計量）

]loglog[E)( θθθ θθθ ppg jiij ∂

∂∂∂

= Θθp

θθ Δ+p

}R:)|({ kxpM ⊂Θ∈= θθxxp d)|(:][E θθ ∫ ⋅=⋅

性質

実対称-実対称テンソル

-正定値（通常の統計モデル）

-様々な特徴づけ

統計モデル上の高次のテンソルと接続

対数尤度の高次微分

iixpl

θθ

∂∂

=∂)|(log: { })|(log: θ

θθxplD jiij KK ∂

∂∂∂

=

d)|( θ∫高次テンソル

][E)( lDlDlDL θ xxp d)|(:][E θθ ∫ ⋅=⋅][E:)( LL lDlDlDL kjiijk θθ =

Alpha 接続 (アファイン接続の１パラメータ族)e 1)()( αα

[ ]e )(

ijkkij

e

kij T2

1: ;

)(

;

)( αα −+Γ=Γ R∈α

][E:)( lDlDlDT θ[ ]lDlD kijkij θθ E:)(; =Γ ][E:)( lDlDlDT kjiijk θθ =

一意性

Chentsov’s Theorem

データのあらゆる変換（stochastic map of random variables）に対する単調性からリマン計量は定数倍を除いて意に対する単調性から、リーマン計量は定数倍を除いて一意的に定まる（Fisher情報行列！）。

Remark:

1 See e g Campbell (1986)1. See, e.g., Campbell (1986)

2. 量子情報幾何では一意でなくなる

統計モデル上の体積形式

統計モデル多様体上の体積形式

＊事前分布は統計モデル多様体上の体積要素とみなせる

dθθθπω dd)( 1 ∧∧= L

＊事前分布は統計モデル多様体上の体積要素とみなせる

＊Jeffreys 事前分布はモデル多様体上の不変体積要素

ddijg θθθπθθθω dd)(dd)(det 1

J1 ∧∧∝∧∧= LLij J

パラメタの取り方に依存しない定義を考える

事前分布の選択

パラメータの取り方に依存しない定義を考える

微分幾何学に基づいたアプローチが有効微分幾何学基アチ有効

例：ガウスモデル多様体

⎫⎧ 2)(1 μxガウスモデル

)0( +∞×=Θ R⎭⎬⎫

⎩⎨⎧ −−= 22 2

)(exp2

1)|(σμ

πσθ xxp ),(),( 2

21 σμθθθ ==

),0( +∞×=Θ RFisher計量 ⎟

⎞⎜⎛ 01

⎟⎟⎟⎟

⎠⎜⎜⎜⎜

⎝

=

2

2

)(210

0)(

θ

θθijg

2RΘ2σalpha 接続 (omitted)

⎠⎝ 2)(2θ

2R⊆Θσalpha 接続 (omitted)

体積要素 ( ) 2/3 dd θθθ −

μ( ) 212 dd θθθω ∧=

無情報事前分布の選択（再掲）



2 確率分布の空間への埋め込まれ方を見る（情報幾何学的な記述）

}:)|({ kRxpM ⊆Θ∈= θθ2. 確率分布の空間への埋め込まれ方を見る（情報幾何学的な記述）

3. さらに、統計的決定理論の立場で眺める

３番目のステップとして予測的な観点を導入

６．予測分布

予測分布の基本的な考え(1/2)

例：新規開店コンビニの売上予測

４日間の売上データ（万円）

),,,( 4321= xxxxx)130,80,70,120(=

5: xy =問：明日の売上はどのくらいか？

0.5

0.6

θ他の店舗から経験的に平均分散２０万円のガウス分布（毎日独立；平均は店で違う）

.10.

20.

30.

40

確率

⎭⎬⎫

⎩⎨⎧

⋅−

−⋅

= 2

2

2 )20(2)(exp

)20(21)|( θ

πθ xxp

0 50 100 150

0.0

0

売上額

明日の売上をどう予測するか？

予測分布の基本的な考え(2/2)

１．統計を知らない経営者

明日の売上の期待値（デタ平均）は１００万円明日の売上の期待値（データ平均）は１００万円

だいたい１００万円前後という回答

でも、「前後」ってどのくらい？

２．パラメータ推定は知っている経営者

0.4

0.5

0.6

明日の売上も右のような分布で考えよう

0.0

0.1

0.2

0.3

確率

0 50 100 150 200

売上額

点で与えるより分布で与えるほうがよい

ベイズ予測分布の方法(1/2)

３．ベイズ予測分布を知っている経営者

同じ地区の別の店舗での平均は７０万円～９０万円くらい

)(θπパラメータに関する事前情報（事前分布）パラメタに関する事前情報（事前分布）

パラメータに関する事前の情報と実際の４日間の売上データの両方をもとにテプ明日売上予測を行う

θ70 90

に２ステップで、明日の売上予測を行う

ステップ１．事後分布（データ所与の条件付き分布）

∫=

θπθθπ )()|,,()|( 11

nxxpxx LL

∫ θθπθθπ

d)()|,,(),,|(

11

nn xxp

xxL

∫ 1d),,|( 1 =∫Θ θθπ nxx L 0),,|( 1 ≥nxx Lθπ

ベイズ予測分布の方法(2/2)

ステプ２ベイズ予測分布(確率分布の平均化)

３．ベイズ予測分布を知っている経営者

∫= θθπθπ d),,|()|(:)( 1 nxxypyp L

ステップ２．ベイズ予測分布(確率分布の平均化)

∫Θπ ),,|()|()( 1 nypyp

∫=

θθπθθπθθπ

d)()|,,()()|,,(),,|(

1

11

n

nn xxp

xxpxxL

LL

∫

ポイント(a) ：事前の情報と実データの両方をとりいれた予測

)(θπ )130,80,70,120(=x

ポイント(b) ：もとのガウス分布より幅が広い 0.5

0.6

ポイント(b) ：もとのガウス分布より幅が広い

0 50 100 150 200

0.0

0.1

0.2

0.3

0.4

0

売上額

確率

ポイント(c) ：パラメータのベイズ推定とは違う

様々な分野でベイズ予測分布が利用されている

研究対象は統計モデル！（再掲）

※コンビニ/マーケティングに特化した議論統計モデルの応用グ

コンビニのマーケティングを記述するモデル ( ) }R;|{ kxpM ⊂Θ∈= θθ

具体的

（マーケティング）

・営業戦略を考える上での望ましいモデルとは何か？

・コンビニのPOSデータに基いた統計的解析

・モデルの妥当性の議論・モデルの妥当性の議論

統計モデル全体（抽象的） }{M

ココ※抽象的な数学モデルを扱う統計の基礎理論

統計モデル全体（抽象的） }{M

抽象的

統計理論のスタンス

理論的な課題の例

ベイズ予測分布は何らかの意味で望ましい性質をもつのか？

∫Θ= θθπθπ d)|()|(:)|( xypxyp

∫=

θθπθ

θπθθπd)()|(

)()|(:)|(xp

xpx∫Θ θθπθ d)()|( xp

望ましい性質がある（統計的決定理論の枠組みで）

７．予測の決定理論的定式化

統計モデルを使う場面

２種類の統計モデル

1. 試行的なモデル；現象論的なモデル

・将来のデータの確率分布（予測分布）の推定を重視

・現象のランダムネスを考慮しつつ、Decision Makingを行いたい

2. 物理法則など厳格なモデル

・興味あるパラメータの推定（点推定）を重視

法則性を明らかにしようとする立場・法則性を明らかにしようとする立場

実用上の区別はあいまいだが, 定式化（理論）は明確に違う

予測問題の定式化(1/3)

パラメータの推定パラメータの空間

)(θ̂

),,,( 21 nxxxx L= 0θ

ˆ)( xθ ※統計では推定量にハット

（演算子ではない！）2

)(ˆ))(ˆ(d θθθθ

)( xθ

00 )())(,( xxd θθθθ −=

確率分布の推定（予測分布の構成）

)( 21 xxxx L= )|( 00 θypp =確率分布の空間

),,,( 21 nxxxx)|(ˆ:ˆ xyppx =

)ˆ,( 0 xppd )|(ˆˆ xyppx =

予測問題の定式化(2/3)

パラメータの最適推定パラメータの空間

パラメタの最適推定

の期待値（平均二乗誤差）を最小にする))(ˆ,( 0 xd θθ0θ

ˆ

2)(ˆ))(ˆ(d θθθθ

)( xθ

分布の最適推定（最適な予測分布の構成）

00 )())(,( xxd θθθθ −=

分布の最適推定（最適な予測分布の構成）

)ˆ,( 0 xppd の期待値を最小にする)|( 00 θypp =

確率分布の空間

),( 0 xpp の期待値を最小にする

※「距離」に相当するこのような関数を損失関数とよぶ

をどう与えるか？)ˆ,( 0 xppd )ˆ,( 0 xppd )|(ˆˆ xyppx =

予測問題の定式化(3/3)確率分布の推定では以下の損失関数がよく使われる

{ }∫

Kullback-Leibler divergence

{ }∫= ))(/)(log()(d:)||( xqxpxpxqpD

性質確率分布の空間

)|( 00 θypp =・正値

・ qpqpD =↔= 0)||(

確率分布の空間

)ˆ||( 0 xppD・

・対称ではない

qpqpD ↔0)||(

)||()||( pqDqpD ≠

)|(ˆˆ xyppx =・加法性

注意：ダイバージェンスの導入について

１．ダイバージェンス = 異なる確率分布の（擬）距離

２．導入する目的：

統計的決定理論の枠組みで推定方法の定量的な評価

＆「よい推定方法」の理論的な検討＆「よい推定方法」の理論的な検討

３「正しい」ダイバージェンスはないが望ましい条件をもつ３．「正しい」ダイバジェンスはないが、望ましい条件をもつダイバージェンスのクラスは知られている

※量子情報/物理の人には, ここの感覚があまり理解されていない；

i.e., 「正しい」距離があるというスタンス

cf) 無情報事前分布も「正しい」ものが存在するというスタンス

リスク関数の導入

リスク関数～推定誤差の平均

)]||([E:)( qpDR Xq θθ =

)|( xyqq = データに基いた予測分布

・異なる予測分布同士を比較するのに使う

・パラメータ（未知）に依存パラメタ（未知）に依存

・一様に小さくできる予測分布が望ましい（１点で０にできるため一般には無理）

ベイズ予測分布の特徴づけ(1/2)問題設定

( )・n個のデータの分布（i.i.d.） ( )θ|~ ii xpx※i.i.d. = independently identical distributed , 「同じ分布から

独立に」の意

)(~ θπθ・事前分布を仮定独立に」の意

このとき、n個のデータから

次の n+1個目の分布を推定する

),,( 1 nxxx K=( )xxypy |ˆ~ 1 L次の n+1個目の分布を推定する( )nxxypy ,,| 1

P bl平均リスク ∫ )d()( θθR 布 ( )|ˆ

Problem平均リスク ∫ )d()(ˆ θπθ

xpR を最小化する予測分布は？( )xyp |

ベイズ予測分布の特徴づけ(2/2)

KL損失のもとで最適なもの（Aitchison, 1975）

∫= θθπθ d)|()|(:)|(ˆ xypxyp ∫Θ= θθπθπ d)|()|(:)|( xypxyp

θθ )()|(

∫Θ=

θθπθ

θπθθπd)()|(

)()|(:)|(xp

xpx

事前分布が与えられると最適な予測分布が定まる

無情報事前分布の選択（再掲）



2 確率分布の空間への埋め込まれ方を見る（情報幾何学的な記述）

}:)|({ kRxpM ⊆Θ∈= θθ2. 確率分布の空間への埋め込まれ方を見る（情報幾何学的な記述）

3. さらに、統計的決定理論の立場で眺める（予測分布を念頭に）

※量子統計では特に３が見落とされている※量子統計では特に３が見落とされている

予測分布の構成を主眼にした事前分布を導入

８．α平行事前分布

最尤推定型事前分布(MLE prior)

事前分布が以下の条件を満たす時)(θπMLE prior (Hartigan1998)

事前分布が以下の条件を満たす時

最尤推定型事前分布 (MLE prior, e-prior) という: ( と書く))(θπ

∂ )( e

Mπ

[ ]e )()()(log θθπθ jj q=

∂∂ )(

;: kijik

j gq Γ= [ ]ll kjiX

kij

e∂∂∂=Γ E:;

)(

lkg Fisher計量の逆行列

最尤推定量を代入した予測分布はプラグイン予測分布の中で（漸近リスクで）許容的

Hartigan (1998)最尤推定量を代入した予測分布はラグイン予測分布中（漸近リク）許容的

が存在Mπ

１．（可積分条件なので）１パラメータなら必ず存在

２．漸近リスクと有限標本でのリスクの間にはギャップあり（Hartigan 自身が指摘）

３．今回の講演は「統計的意味」は深入りしない

α 平行事前分布 (1/2)

MLE prior → 微分幾何学的な意味は？

α平行事前分布 (Takeuchi and Amari (2005))d次元；向き付け可能な統計モデル多様体を考える

ω 正のd形式

d次元；向き付け可能な統計モデル多様体を考える

eT1)()( αα −

ΓΓ

が平行移動で不変（S i i l E i ffi ）

ijkkijkij T2

1: ;;α

+Γ=Γ α接続（多様体上の平行移動；共変微分を定義）

0)(

=∇ ωα

がα平行移動で不変（Statistical Equiaffine）ωdef

0=∇ ω

α平行移動で不変なωが存在する時, の成分を規格化したものをα平行事前分布と呼ぶω

移動変す ,

α 平行事前分布 (2/2)

MLE i は接続の下で平行な体積要素

事前分布の幾何学的意味

・MLE prior は e接続の下で平行な体積要素

・Jeffreys priorはLevi Civita 接続の下で平行な体積要素(常に存在)

存在条件(Takeuchi and Amari (2005))

統計モデル上に

( ( ))３階テンソルTが以下をみたす( αに依存しない)

0=∂−∂ TT

0≠α の時

α平行事前分布が存在0=∂∂ ijji TT

][E: lllT kjiX

ijk ∂∂∂= Cubic tensorjk

ijki gTT =: Tchebychev 形式

参考：曲指数型分布族への拡張 Matsuzoe et al (2006)

微分形式での定式化

α平行事前分布の存在条件は微分形式を用いた定式化も可能

WHY differential form?

- α平行事前分布が存在しない場合の統計モデルの分類を考える指標

- 量子情報幾何（一般にTorsionが残る）での定式化を意識（未着手）

接続形式・曲率形式

一般論(接続形式・曲率形式)⎫⎧ ∂ k

基底ベクトル場と接続係数が与えられた時以下のように個の１形式を定める（接続形式(connection form)と呼ぶ）

dii

,,1 K=⎭⎬⎫

⎩⎨⎧∂∂θ

kijΓ

2dik

ijjk θω d: Γ=

2さらに以下のように個の２形式を定める（曲率形式(curvature form)と呼ぶ）

jl

lk

jk

jk ωωω ∧+=Ω d:

2d

jljj ωωω ∧+Ω d:

※今回は座標基底を用いて簡単化した定義

(本来は, より一般の基底ベクトル場をとる)

不変微分形式

基底ベクトルの変換で曲率２形式は以下のように変換（形式的には相似変換）似変換）

bd

dc

ca

ba AA )( 1−Ω=Ω

２形式は可換なため不変多項式を用いて不変 2q 形式がつくれる

不変 2q 形式不変 2q 形式

f : 次数q の不変多項式

f による不変 2q 形式)(Ωf

)()( 1−= AXAfXff が不変多項式

f による不変 2q 形式)(Ωf

)()( = AXAfXf

A k 次の正則行列

f が不変多項式

X k次の任意の行列

Ex: Tr X, det X (固有値の対称多項式から生成される)

トレース２形式の導入 (1/2)

トレース２形式

統計モデル多様体について以下の不変２形式を定義統計モデル多様体について以下の不変２形式を定義

aa)()()( :Tr ααα Ω=Ω=Ξ

α接続に関するトレース２形式と呼ぶ

※基底ベクトル場の取り方に依存しない定義

Lemmaα接続に関するトレース２形式はTchebychev形式（１形式）を用いて以下のようにかける（α=0はJeffreys事前分布に対応）

Lemma

)(αΞ ∑<

∧∂−∂−=ji

jiijji TT θθα d)d(

2Td

2α

−=

トレース２形式の導入 (2/2)

が

必要十分条件

0)( =Ξ αα平行事前分布が存在 α接続に関するトレース２形式が恒等的に０

最尤推定が（漸近KLリスクで）許容的

MLE priorが存在

接続に関するトレス２形式が恒等的に０

0)( =Ξ ee 接続に関するトレース２形式が恒等的に０

接続関する曲率式が恒等的

平坦性との関係

0)( =Ω αモデル多様体は α 平坦 α接続に関する曲率２形式が恒等的に０

0T )()( ΩΞ αα 0Tr )()( =Ω=Ξ αα

統計モデルの情報幾何学的な量による分類

α平行事前分布をもつ 0)(

=∇ ωα

R∈∀α

・Lauritzenの例（人工的）

0∇ ω R∈∀α

0,0 )()( ≠Ω=Ξ αα

Conjugate symmetric )()( ααijlkijkl RR −= R∈∀α

平坦)0(≠α 0)( =αijklR0≠∃α

・指数型分布族

・混合分布族

＊ARモデル、MAモデルも含まれる

00, )()( =Ω=Ξ αα

・ARMA（p,q）モデル 0,0 )()( ≠Ω≠Ξ αα

９. 優調和事前分布

Jeffreys事前分布が望ましくない例

分散既知、平均未知の正規分布モデル

事実（Komaki, 2001）

1

分散既知、平均未知の正規分布モデルリスク

)(ˆ θR

)(Jˆ θpRkR∈θ 3≥k

⎭⎬⎫

⎩⎨⎧ −−=

2||||exp

)2(1)|(

2

2/

θπ

θ xxp k

2H1)( −∝ kθ

θπ事前分布 θ)(

HθpR

ベイズ予測分布

∫Θ= θθπθ d)|()|(:)|(ˆ HH xypxyp

ベイズ予測分布

上の事前分布に基づくベイズ予測分布はJeffreys事前分布に基づくベイズ予測分布よりも性能が良い（優越する＝リスク関数を一様に改善)ズ予測分布よりも性能が良い（優越する＝リスク関数を様に改善)

上の結果を優調和事前分布の方法として展開

正の優調和関数

正の優調和関数

Def.)(θh

0)( ≤Δ θh Θ∈∀θ

0)( >θh数)(

(positive superharmonic function)

)( Θ∈θ

⎞⎛ ∂∂1⎟⎠⎞

⎜⎝⎛

∂∂

∂∂

=Δ )(1:)( θθθ

θ hggg

h jij

iただし

⎤⎡ ∂∂X pp θθ loglogEはFisher 情報行列(Fisher計量)g⎥⎦⎤

⎢⎣⎡

∂∂

∂∂

= jiX

ijppg

θθθθ loglogE:はFisher 情報行列(Fisher計量)ijg

注意

1．正定数は自明であり, 正の非定数の優調和関数に興味がある

注意

2 一般のリーマン多様体上で定義される2．一般のリーマン多様体上で定義される

3. 本発表では上の定義で十分

優調和事前分布

Def.

)(θh統計モデル上に正の非定数優調和関数が存在する時, 以下で定まる事前分布を優調和事前分布と呼ぶ

)()(:)( JH θπθθπ h=

時, 以下定まる事前分布を優調和事前分布呼ぶ

)()(:)( JH θπθθπ h

)det(:)( ∝θ 事前分布)det(:)(J ijgg =∝θπ Jeffreys 事前分布

注意

優調和事前分布も i なケスだと規格化できない1．優調和事前分布も improper なケースだと規格化できない

２．Jeffreys 事前分布と違い, 存在しなかったり、無数に存在する場合もある

優調和事前分布に基いたベイズ予測分布

定理（Komaki, 2006）

一般の確率分布族について、予測分布の構成を考える。

もし、優調和事前分布が存在すれば、)(H θπもし、優調和事前分布が存在すれば、

が漸近的にを優越する（i.e. 性能がよい）)(ˆJ

ypπ)(ˆH

ypπ

)(H θπ

証明の概要（漸近リスクの比較）

[ ] [ ]{ })ˆ||(E)ˆ||(E2J θπθ ppDppDn f

XX

⎞⎛⎞⎛

− θ の関数

証明の概要（漸近リスクの比較）

)()(

)()(

)()(log

)()(log)(

21

J

J

JJ θπθ

θθπ

θπθ

θπθθ f

fffg ji

ij Δ−⎟⎟⎠

⎞⎜⎜⎝

⎛∂⎟⎟

⎠

⎞⎜⎜⎝

⎛∂= )( 2/1−+ nO

)(θf任意の事前分布)(ˆ yp f に基づくベイズ予測分布

ここまでのまとめ

事前情報のない場合のベイズ予測分布の構成

優事前布が望優調和事前分布の利用が望ましい（＊）)(H θπ

)()()( θθθ h

0)( >θh

)()(:)( JH θπθθπ h=

)(

0)(1)( ≤⎟⎠⎞

⎜⎝⎛

∂∂

∂∂

=Δ θθθ

θ hggg

h jij

i

以上の話を時系列モデル（主にARモデル）に拡張

＊先の定理は漸近論だが正規分布族の例など有限標本でいえることが多い

情報幾何セミナー＠大阪市立大 [email protected]

系時系列モデルの情報幾何とベイズ統計への応用(2)ベイズ統計への応用(2)

２０１３年3月6日初版初版

田中冬彦(Tanaka Fuyuhiko)

所属：東京大学情報理工学系研究科助教

発表の流れ

１０．時系列モデル時系列１１．定常ガウス過程の情報幾何１２．ARモデルの優調和事前分布

デの優調和事前分布の表示１３．ARモデルの優調和事前分布のPAC表示１４．ARMAモデルのトレース２形式１５まとめと今後の課題１５．まとめと今後の課題

１０．時系列モデル

時系列解析の基本的な考え方(1/4)

a. 時系列データの種類

・１変量/多変量

・等間隔（１日、1年; 1秒）/等間隔でない等間隔（、年; 秒）等間隔

※本講演では１変量の等間隔のデータを扱う

LL ,,,, 21 nxxx

・売上の推移

時系列データの例

・経済指標（GDP,失業率, 雇用情勢）

天候デタ（降水量気温）・天候データ（降水量、気温）


b. 時系列データの分解

tttt YsfX ++=定常雑音項

トレンド項季節項

定常雑音項

非確率的な部分トレンド項（ゆるやかな変化）

季節項（周期的な変化）

ある程度の長さのデータから推定できる

確率的な部分

定常雑音項（ランダムな変化）定常雑音項（ランダムな変化）

統計的手法が必要


tttt YsfX ++=Decomposition of additive time series

340

360

serv

ed

Decomposition of additive time series

CO2濃度

tX

320

3

obs

360

dトレンド項

t

320

340

trend

23

al

季節項

tf-3

-10

1

seas

ona

定常雑音項

ts

-0.5

0.0

0.5

rand

om

定常雑音項

tY1960 1970 1980 1990

Time図：月次のCO2濃度の推移


c. 時系列解析の基本的な考え方

tttt YsfX ++=

original data

$x 350

tttt f

トレンド季節成分を取り除いた部

Dec

$

320

3

トレンド、季節成分を取り除いた部分＝ランダム項 Time

1960 1970 1980 1990

以降、ランダム部分のみに注目（と表す）tX

random part

om .5

Dec

$ran

do

-0.5

0

Time

1960 1970 1980 1990

時系列モデル (1/5)ランダム項の取扱い

もとも単純なモデル

a. ランダム項の取扱い

もっとも単純なモデル

異なる時点の値は独立 st XX ,

実際には近い時点間では独立ではない！

右図：独立に発生させたダミーデータ

例：CO2のランダム成分を一ヶ月ずらした値の散布図(lag plot)

(横軸, 縦軸)= ),( 1+tt xx

0.5

d.ts

)

0.5

右図：独立に発生させたダミデタ

-0.5

0.0

na.o

mit(

rand

-0.5

0.0

Dum

my

-1.0 -0.5 0.0 0.5 1.0

lag 1

-1.0 -0.5 0.0 0.5 1.0

lag 1

b 自己回帰デル

時系列モデル (2/5)

１次の自己回帰モデル

b. 自己回帰モデル

11 <<− a

ttt axx ε+= −1 ),0(N~ 2σε t 白色雑音（独立）

１次の自己回帰モデル

般自デ一般の自己回帰モデル（AutoRegressive model of p-th order）

p

パタ

t

p

itit xax ε+= ∑ − ),0(N~ 2σε t 白色雑音

:,,1 paa L ARパラメータi=1

※AR(p)モデル p次のARモデルなどと呼ぶ※AR(p)モデル、p次のARモデルなどと呼ぶ

※ARパラメータの動く範囲は後で見る

般的な時系列デル


（理論的な）時系列モデルの分類

c. 一般的な時系列モデル

・定常時系列

・非定常時系列（扱いにくい）

（理論的な）時系列デルの分類

非定常時系列（扱いにくい）

先に示した分解や差分、非線型変換などを用いてランダム部分を先に示した分解や差分、非線型変換などを用いてランダム部分を定常時系列モデルで解析

定常ガウ程均自分散決ま扱す・定常ガウス過程（平均と自己共分散で決まり扱いやすい）

・自己回帰モデル（ARモデル）

・移動平均モデル（MAモデル）

・ARMAモデル

その他にも・・・

d 定常ガウス過程

時系列モデル (4/5)d. 定常ガウス過程

},2,1,0:{ L=tX t

期待値（時間によらない）

確率変数

μ=]E[ tX期待値（時間によらない）

)Cov()Cov( XXXX =

自己共分散（２時点の差のみで決まる）

),Cov(),Cov( tstrsr XXXX ++=

)(r sγ=),Cov( 0XX r-s=

)(r-sγ=

)(γ t自己相関関数

)0()(:)(

γγρ tt =

時系列デタのシミレシン


AR(1)モデル xx ε+−= 350

e. 時系列データのシミュレーション

AR(1)モデル ttt xx ε+= −135.02

定常ガウス過程x (観測値)

-20

x

0 200 400 600 800 1000

-4

Index t (時刻)

ttt fxy +=AR(1)モデル＋トレンド項

1012 非定常y (観測値)

02

46

8

0.001 * t̂2 + x[900:1000]

0 20 40 60 80 100

-20

t t (時刻)

１１．定常ガウス過程の情報幾何

定常ガウス過程の無情報事前分布

定常ガウス過程

次のARモデル(AR(p))次のMAモデル(MA(q))

pq 次デ ( (q))

次のARMAモデル（ARMA(p,q)）q

),( qp

無情報事前分布の議論

非i.i.d.のためAR（p）モデルでも難しい！！

・AR(1)での議論（Philips (1991), Berger and Yang (1994)）

情報幾何学的な観点から無情報事前分布を提案！！

定常ガウス過程とスペクトル密度

定常ガウス過程とスペクトル密度は１：１に対応

),0|,,(~,,,, 121 Γ=μnn xxpxxx LLL定常ガウス過程（ただし 0][E == μiX を仮定）

),|,,(,,,, 121 μnn p

１：１（定常ガウス過程のとき）

)(nγ自共分散関数 )()Cov( r sXX γΓ)(nγ自己共分散関数

変換

)(),Cov(, r-sXX srsr γ==Γ)-(s rγ=

∑∞

−inS ω)(1)(スペクトル密度

１：１（フーリエ変換）

∑−∞=

=n

inenS ωγπ

ω )(2

)(スペクトル密度

例：AR過程のスペクトル密度 (1/2)

:,,1 paa L ARパラメータAR 過程)( p

∑ − +−=p

titit xax ε),0(N~ 2σε t 白色雑音

∑=i

titit1

2AR 過程のスペクトル密度)( p

2

22

1 |)(L|1

2),,,|( ωπ

σσω ia

p eaaS =L

ppa zazaz −− +++= L1

11)(L

例：AR過程のスペクトル密度 (2/2)AR(3)過程 ttttt xxxx ε+++−= −−− 321 39.005.018.0

)1,0(N~tε ),(t

223 |390050180|1)|( −+ iiiS ωωω

スペクトル密度

223321 |39.005.018.0|

2),,|( −−+= iii eeeaaaS ωωω

πω

1.0

S(ω)ピークや裾幅は

ARパラメータで決まる

40.6

0.8

ST

0.0

0.2

0.4

ω(周波数)-3 -2 -1 0 1 2 3

0

omega

時系列モデルの幾何（情報幾何）(1/3)時系列モデル多様体（スペクトル密度のパラメータ族）

時系列モデル多様体

}:)|({ M Θ∈= θθωS )|( 0θωS

＊モデルのパラメータ＝多様体の座標系

),,,( 21 dθθθθ L= 0θθ =

時系列モデルの幾何（情報幾何）(2/3)

K llback Leibler di ergence

独立同一分布の確率分布のdivergenceを拡張

∫ ⎬⎫

⎨⎧ −−=

πω log1d1:)'||( SSSSD

Kullback-Leibler divergence

∫− ⎭⎬

⎩⎨=

πω

π 'log1

'd

4:)||(

SSSSD

※確率分布のダイバージェンスの適切な極限とも一致

例: 分散の異なる白色雑音σ 2

2

πσω2

)( =S 2,0)( σδγ nn =

⎫⎧1 22 σσ

⎭⎬⎫

⎩⎨⎧

−−='

log1'2

1)'||( 22 σσ

σσSSD )'||( ppD=

⎟⎟⎠

⎞⎜⎜⎝

⎛−= 2

2

2

2

2exp

21:)|(

σπσσ xxp

時系列モデルの幾何（情報幾何）(3/3)OVERVIEW

1. スペクトル分布のパラメータ族

),,,( 21 kθθθθ L=

1. スクトル分布のラメタ族

)|( θωS

}:)|({ M Θ∈= θθωS2. モデル多様体

3. リーマン計量

4 Alpha 接続 R∈α

jiijSSgθ

θωθ

θωωπ

π

π ∂∂

∂∂

= ∫−)|(log)|(logd

41:

4. Alpha 接続

ijkkij

e

kij T2

1: ;

)(

;

)( αα −+Γ=Γ

R∈α

kjiijkSSSTθ

θωθ

θωθ

θωωπ

π

π ∂∂

∂∂

∂∂

= ∫−)|(log)|(log)|(logd

21:

kjijikij

e SSSSθ

θωθ

θωθ

θωθθ

θωωπ

π

π ∂∂

⎭⎬⎫

⎩⎨⎧

∂∂

∂∂

−∂∂

∂=Γ ∫−

)|(log)|(log)|(log)|(logd41:

2

;

)(

例：ARモデルのパラメータ範囲 (1/3)

:,,1 paa L ARパラメータAR 過程)( p

∑ +−=p

xax ε

1 p

),0(N~ 2σε t 白色雑音

∑=

− +−=i

titit xax1

ε

AR(p) モデルのパラメータの範囲

定常性条件（=特性方程式の根に対する条件）で決まる

1||1|| << zz 1||,,1|| 1 << pzz K

011 =+++ −

ppp azaz Lは特性方程式の根pzz ,,1 K

※複素共役根と実数根の両方の場合がありえる

1 pp

例：ARモデルのパラメータ範囲 (2/3)デ

1||1|| << zz

AR(p) モデルのパラメータの範囲

1||,,1|| 1 << pzz K

011 =+++ −

ppp azaz Lは特性方程式の根pzz ,,1 K

1=p

1 pp

1p1a

1− 1+01 =+ az 1|| 1 <z

2a 1|| =iz

02

2=p1+

1a1+

0212 =++ azaz1+

1−1=z

1−=z

例：ARモデルのパラメータ範囲 (3/3)

3次以上は複雑！

3=p1>++ aaa 1321 −>++ aaa

1321 <+− aaa

12312

3 <+− aaaa Mathematica で斜めから眺めた定常領域

2a1|| 3 <a

2313 Mathematica で斜めから眺めた定常領域

3a1

01 =a 1+の断面

1− 3a

1−

1+1

例：ARモデルのFisher計量

根座標系

011 =+++ −

ppp azaz L

paaa ,,, 21 L

特性方程式AR パラメータ

pzzz ,,, 21 L１：１

pの根

根を新しい局所座標と考えて計量を計算

AR(p) モデルのFisher計量

根を新しい局所座標と考えて計量を計算

20 : σθ = ii z=:θ )1( pi L=

1 1400 2

1σ

=g

0

jiijgθθ−

=1

1ijg ji

SSθ

θωθ

θωωπ

π

π ∂∂

∂∂

= ∫−);(log);(logd

41

2 1000 == ii gg2

22

1 |)(L|1

2),,,;( ωπ

σσω ia

p eaaS =L

例：ARモデルのKL-divergence

p=1,2でも煩雑な式

AR(1)

{ }21||1

||11

21)'||( 2

2 −−−+−

= βαβαβα

SSDAR(1)

||

2

2

1)(

21

αβα

−−

= βα , は根座標

AR(2)

⎩⎨⎧

−−−−−−−

+=)1)(1)((

))()(1)(1(21)'||(

2111211

21112111

21

21

αααααααβαβαβαβα

ααββSSD

⎫21

)1)(1)(())()(1)(1(

2212122

22122212 −⎭⎬⎫

−−−−−−−

+ααααααα

βαβαβαβα

根座標2121 ,,, ββαα は根座標

スペクトル密度のベイズ推定(1/2)

・n個のデタ～定常ガウス過程

問題設定(i.i.d. と類似)( )θ|~ xpx)|( θωS

)(~ θπθ・事前分布（仮定）

・n個のデータ～定常ガウス過程 ( )θ|~ xpx n)|( θωS

・Kullback Leibler 損失(推定誤差の評価)

∫− ⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛−−⎟⎟

⎠

⎞⎜⎜⎝

⎛=

π

πθ ωθω

ωθωω

π )|(ˆ)|(log1

)|(ˆ)|(d

41:)ˆ||(

xSS

xSSSSD

・Kullback-Leibler 損失(推定誤差の評価)

このとき個のデタからスペクトル密度を推定)( xxx =

⎪⎭⎪⎩ ⎠⎝⎠⎝ ωω )|()|( xSxS

・リスク関数 )]ˆ||([E:)(ˆ SSDR XS θθ =

このとき、n個のデータからスペクトル密度を推定),,( 1 nxxx K=

Problem平均リスクを最小化するスペクトル密度の推定

Problem

∫ )d()(ˆ θπθSR( )xS |ˆ ω

∫は？

スペクトル密度のベイズ推定(2/2)

KL損失のもとで最適な推定（i.i.d.と類似）

∫= θθπθωωπ d)|()|(:)(ˆ xSS ∫Θπ )|()|()(

θπθθπ )()|(:)|( xpx n

∫Θ=

θθπθθπ

d)()|(:)|(

xpx

n

n

∫= θθπθπ d)|()|(:)|(ˆ xypxypcf. 予測分布の場合

∫Θ θθπθπ d)|()|(:)|( xypxyp

MLE Plug-in との比較 (1/2)AR(3)過程でベイズと最尤推定による推定を数値的に比較

真のスペクトル密度（任意にARパラメータ固定）

)|(:)(0 θωω SS =

最尤推定にもとづくスペクトル密度 (MLE plug-in)

))(ˆ|(:)(ˆMLEM xSS θωω =

∫∫∫ˆJeffreys事前分布にもとづくベイズスペクトル密度

∫∫∫= θθπθωω d)|()|(:)(ˆJJ xSS

データの発生を繰り返して推定誤差の分布を見る)ˆ||( 0 SSD

MLE Plug-in との比較 (2/2)

*推定誤差の分布（０に集中するほどよい推定）

data090906/KLJ_cnt_1_1.txt with 100 runs data090906/KLM_cnt_1_1.txt with 100 runs

Jeffreys事前分布最尤推定のプラグイン

cy

2025

30

y

2025

30

∫∫∫= θθπθωω d)|()|(:)(ˆJJ xSS ))(ˆ|(:)(ˆ

MLEM xSS θωω =

)ˆ||( J0 SSD )ˆ||( M0 SSD

Freq

uenc

510

15

Freq

uenc

y

510

15

0.4,0.2)- (-0.6,),,( 321 =rrrRisk for Spectral Density based on the Jeffreys prior

0.0 0.5 1.0 1.5 2.0 2.5

0

Risk for plug-in Spectral Density estimator

0.0 0.5 1.0 1.5 2.0 2.5

0

ベイズの方がMLE Pl i に比べて性能が良いベイズの方がMLE Plug-inに比べて性能が良い

優調和事前分布の導入 (1/2)

)(θπ先の例ではJeffreys 事前分布に基づいて

パラメータの事前情報がない場合

)(J θπ先の例ではJeffreys 事前分布に基づいて

∫Θ= θθπθωω d)|()|(:)(ˆJJ xSS ∫Θ

で推定

improperならさらに改善できる可能性があるimproperなら, さらに改善できる可能性がある

例（デ）improper の例（ARモデル）

)2( ≥pJeffreys 事前分布はで improper2/1

2

J)(

)(

∏ ∏∏ <

−∝ p p

ji ji zzπ

)2( ≥pJeffreys 事前分布はで improper

1||1 1

)1(∏ ∏= =−

p

j

p

i ji zz pi zzz ,,,1|| 1 L<

優調和事前分布の導入 (2/2)

もし優調和事前分布が存在すれば)(θπ定理（Tanaka and Komaki, 2011）

もし、優調和事前分布が存在すれば、

が漸近的にを優越（i.e. 性能がよい）)(ˆJωπS)(ˆ

HωπS

)(H θπ

リスクの比較（漸近的）

[ ] [ ]{ })ˆ||(E)ˆ||(E2J θπθ SSDSSDn f

XX

⎞⎛⎞⎛

−θ の関数

)()(

)()(

)()(log

)()(log)(

21

J

J

JJ θπθ

θθπ

θπθ

θπθθ f

fffg ji

ij Δ−⎟⎟⎠

⎞⎜⎜⎝

⎛∂⎟⎟

⎠

⎞⎜⎜⎝

⎛∂= )( 2/1−+ nO

)(θf任意の事前分布)(ˆ ωfSに基づくベイズ推定量

証明の際に原論文の標記に合わせているが、実はが正の非定数優調和関数なら十分であることが示される（は優調和でなくとも良い）

)(θh)(θh

AR(3)過程での数値実験

*推定誤差の分布（０に集中するほどよい推定）

r1= 0 2 ; r2= -0 4 ; r3= -0 2 : 100 runs a1= -0 2 ; a2= 0 344 ; a3= 0 2

優調和事前分布Jeffreys事前分布r1= 0.2 ; r2= -0.4 ; r3= -0.2 : 100 runs

3040

a1= -0.2 ; a2= 0.344 ; a3= 0.2

3040

∫Θ= θθπθωω d)|()|(:)(ˆJJ xSS ∫Θ= θθπθωω d)|()|(:)(ˆ

HH xSS

Freq

uenc

y

020

Freq

uenc

y

020

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

010

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

010

Risk for the Jeffreys Risk for a superharmonic 0.4,-0.2)- (0.2,),,( 321 =rrr

ベイズ同士では優調和事前分布の方が良さそう

ここまでのまとめ

時系列モデルでの無情報事前分布

スペクトル密度のパラメータ族の幾何学的な量に注目！

（独立同一分布での結果が拡張できる）（独立同分布での結果が拡張できる）

0)( =Ξ αα接続に関するトレース２形式が0α平行事前分布が存在

幾何的に考察可能な事前分布

優調和事前分布が存在モデル多様体上に正の優調和関数が存在

0=Ξα接続に関するトレス２形式が0α平行事前分布が存在

0)( >θh

0)(1)( ≤⎟⎠⎞

⎜⎝⎛

∂∂

∂∂

=Δ θθθ

θ hggg

h jij

i ⎠⎝ ∂∂ θθg

１２．ARモデルの優調和事前分布

優調和事前分布を探す

)(θπDef. （再掲）

優調和事前分布

)()(:)( JH θπθθπ h=)(H θπ 優調和事前分布

)d ()(θ)(θh 正の非定数優調和関数)()()( JH )det(:)(J ijgg =∝θπ

Jeffreys 事前分布

与えられた時系列モデルに対して優調和事前分布は

統計的な課題

与えられた時系列モデルに対して優調和事前分布は存在するか？

同値な課題

与えられた時系列モデル多様体に対して正の非定数与えられた時系列モデル多様体に対して正の非定数優調和関数は存在するか？

ARモデルの場合

AR( )モデルの場合根座標系を用いて以下のようにかける

正の非定数優調和関数

AR(p)モデルの場合, 根座標系を用いて以下のようにかける

0)( 1 >zzh

01≤⎟

⎟⎞

⎜⎜⎛ ∂∂

+⎟⎟⎞

⎜⎜⎛ ∂∂

=Δ ijij hgghgh

,0),,( 1 >pzzh K

02

≤⎟⎟⎠

⎜⎜⎝ ∂∂

+⎟⎟⎠

⎜⎜⎝ ∂∂

=Δj

j

ij

j

i zg

zgzg

zh

1||,,1|| 1 << pzz K

ただし計量の逆行列は以下のような煩雑な形のため一般形の予想 and/or 実際に証明することが著しく難しい

∏∏∏∏ ≠≠

−−

−−−= ml hlhl mlhmmh

zzzzzzzzzz

g)()(

)1()1()1(

般形の予想 and/or 実際に証明するとが著しく難しい

∏∏ ≠≠ ml lmhl lh zzzz )()(

AR(p)モデルの優調和関数形の予想

AR(p)モデルのJeffreys事前分布2/1 2/1

2

J)1(

)(

∏ ∏∏ <

−

−∝ p p

ji ji

zz

zzπ

0)(L 1 =+++= −pp azazz L＊根座標系

1 1)1(∏ ∏= =j i ji zz 0)(L 1 =+++= pa azazz

AR(2)モデル多様体上の正の優調和関数 (比較的すぐ見つかる)

2121 1),( zzzzh −=

以上から一般形をどう見つけたかheuristic ideaを説明

AR(2)での考察（1/2）

正の優調和関数の存在は体積増大度と関連

不変体積要素( )の境界での発散に注目θθπ d)(J

22221

J)1)(1)(1(

||)det()(zzzz

zzg ij−−−

−=∝θπ

不変体積要素( )の境界での発散に注目)(J

境界でのJeffreys priorの発散は２種類

2121 )1)(1)(1( zzzz

実根（境界積分有限）

境界でのJeffreys priorの発散は２種類

1|| <izパラメータの範囲は定常条件 2a 1|| =iz

実根（境界で積分有限）

)1(21

11)(

2Jizz −

≈−

∝θπ 1a1+

複素共役根（境界で積分発散）

)1(21 ii zz

11

1−1=z

1−=z

|)|1(21

)1(1)(

12

21J zzz −

≈−

∝θπ 0212 =++ azaz

AR(2)での考察(2/2)正の優調和関数の境界での振舞いに注目

)1(1)( azzh −=−=θ2a 1|| =iz

実根

)1(1)( 221 azzh ==θ

1a1+

実根)0.()( ≠= consth θ 1−

1=z1−=z

複素共役根

|)|1(2||1)( 12

1 zzh −∝−=θ021

2 =++ azaz

hJH ππ ∝ 境界で積分が有限

予想発散を抑える因子が優調和関数になるはの発散を抑える因子が優調和関数になるのでは？)(J θπ

予想を支持する補題

補題

)(θh を優調和関数とするとき予想：

AR(p)も複素共役根をとる領域で、定常条件による境界での発散を抑えるファクターが

suoerharmonic function になるのではないか？

¥ hi ¥P d {i<j} { (1 {i} {j})}

)(θh を正の優調和関数とする。このときr

r hh ))((:)( θθ = 10 ≤< r も正の優調和関数¥phi = ¥Prod_{i<j} { (1-z_{i} z_{j})}

の形ならば、superharmonic funtionになるのではないか？

ProofProof.

0)log)(log()1( ≥⎟⎠⎞

⎜⎝⎛ Δ−+∂∂−=

Δ−

hhrhhgrr

hh

jiijr )g)(g()(

⎠⎝ hg

h jir

よりあきらか。⎟⎟⎞

⎜⎜⎛ ∂∂

+⎟⎟⎞

⎜⎜⎛ ∂∂

=Δ ijij hgghgh 1⎟⎠

⎜⎝ ∂∂

+⎟⎠

⎜⎝ ∂∂

Δjiji z

gzgz

gz

h2

∏∏ ≠≠−−−

= ml hlhl mlhmmh zzzzzzg

)1()1()1(

∏∏ ≠≠−−

ml lmhl lh zzzzg

)()(

一般形の予想

∏

正の優調和関数の形（予想）

∏>

−=ji

rjir zzh )1(: 10 ≤< r

)(J θπ にかけるとどの境界での積分も有限！

AR（３）モデル

直接計算（）証明（補題より考える）

一般のAR(p)では？

直接計算（Mathematica）で証明（補題によりr=1でのみ考える）

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂

∂∂

+⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂

∂∂

=Δj

ij

ij

ij

i zhg

zg

gzhg

zh

21

∏∏∏∏

≠≠

≠≠

−−

−−−=

ml lmhl lh

ml hlhl mlhmmh

zzzzzzzzzz

g)()(

)1()1()1(

・・計算には何らかの工夫が必要

計算方法の工夫(1/3)試行錯誤の結果、以下の三つの項に分けると良い

=Δhh p

VV

zp

i p

pii −∂

−∑=1

定義からすぐに評価できて

2)1(

2)1( +

−=−−

−ppppp

（A）∑∑∑ +−

+p p

jiijp

i zzgz222

2

111要工夫

22

∑∑∑∑ ⎪⎬⎫⎪

⎨⎧∂∂ p p

jijp p

jijpi zzV

∑∑∑= == −−− i j jii i zzz 1 1

221

2 111

（B）∑∑∑∑= == = ⎪⎭

⎪⎬

⎪⎩

⎪⎨ −∂

+−

+i j j

jij

ii j j

jij

p

pi

zg

zzg

V 1 12

1 12 11 要工夫

∏V )(∏∏ −−− hlmlhmh zzzzzz )1()1()1(ただし

∏<

−=ji

ijp zzV )(:∏∏

∏∏≠≠

≠≠

−−=

ml lmhl lh

ml hlhl mlhmmh

zzzzg

)()()()()(

計算方法の工夫(2/3)(A),(B)は定数になる！！

⎪⎩

⎪⎨

⎧

−= 12

p

p∑∑∑= == −−

+−−

=p

i

p

j j

j

i

iijp

i i

i

zz

zzg

zz

1 122

12

2

111:)A( p: 偶数

p: 奇数

⎪⎫⎪⎧∂∂ p pp p zzV 偶数⎪⎧ p

⎪⎩ 2 p: 奇数

∑∑∑∑= == = ⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

−∂∂

+−

∂=

p

i

p

j j

jij

i

p

i

p

j j

jij

p

pi

zz

gzz

zg

VV

1 12

1 12 11

:)B( p: 偶数

p: 奇数⎪⎩

⎪⎨ +=

21

2p

∏<

−=ji

ijp zzV )(:∏∏

∏∏≠≠

≠≠

−−

−−−=

ml lmhl lh

ml hlhl mlhmmh

zzzzzzzzzz

g)()(

)1()1()1(

∏∏ ≠≠ ml lmhl lh )()(

計算方法の工夫(3/3)途中に出てくる計算の例途中に出てくる計算の例：

∏⎫⎧ p

∑ ∏∏

=

=

⎪⎪

⎪⎪⎬

⎫

⎪⎪

⎪⎪⎨

⎧

−−

−p

ml

lmm

lml

zzz

zz

121

)()1(

)1( p: 偶数

p: 奇数⎩⎨⎧

=pV

0

Vandermonde行列式

≠ ⎪⎭⎪⎩ml

∏ −= ijp zzV )(:< ji

まともに展開すると大変だがたとえば行列式の形まともに展開すると大変だが、たとえば行列式の形に書いて評価できる。

111 L p

( ) )1(:)( 222

21

1pp

ppp

zzzXfV

L

MMMM−−−

−−=2

1

1

)1(:)(

X

XzXf

p

ll

−

−=∏=

＊効率のよい別解の探求は今後の課題

)()()( 21 pzfzfzf L1 X

Schur多項式との関係3のケスp=3のケース

＊3次のシューア多項式（の一部）111 ＊3次のシュア多項式（の部）

( ) ),,(111 321)0,0,(

23

22

21

3212

zzzSzzz

zzz

VXV

k

kkkk

==++++ ∑

=++

=k

k zzzzzzS321

321321321)0,0,( ),,(

ννν

ννν

0111 321)0,0,(

23

22

21

321

3

zzzzzz

V k 0,, 321 ≥ννν

シューア多項式を用いて以下の公式を求めることも可能。が

321

（逆に以下の公式のの展開係数からシューア多項式が導出できる。）

1V ⎟⎞

⎜⎛

a

321

2

3 11

11

111

azazaza

VaX

V

−−−=

⎟⎠⎞

⎜⎝⎛

−

3213

余談：Schur多項式とYoung図

3のケス

シューア多項式の各単項式＝半標準盤

p=3のケース

∑=++

=k

k zzzzzzS321

321321321)0,0,( ),,(

ννν

ννν

321

0,, 321 ≥ννν

k=1k=11 2 3

k 2

321321)0,0,1( ),,( zzzzzzS k ++==

1 1 1 2 1 3 2 2 2 3k=2

3 32

3322

231212

1321)0,0,2( ),,( zzzzzzzzzzzzS k +++++==

半標準盤

21 1 1~n を横は単調増加；縦は狭義単調増加で重複

を許して書き入れる21 3

AR(p)モデルの優調和事前分布

定理(Tanaka, 2009)AR(p) モデル多様体を考える。)2( ≥p

⎟⎞

⎜⎛ ∂∂ ij hh 1pp )1( −

∏>

−=ji

ji zzh )1(: 0>hとおくとであって

⎟⎠⎞

⎜⎝⎛

∂∂

∂∂

=Δ jij

i

hggg

hθθ

1:

つまりはAR( )モデル多様体上の正の非定数優調和関数

hpph2

)1(−=Δ

hつまり、はAR(p)モデル多様体上の正の非定数優調和関数

さらにLaplacianの固有関数にもなっている。

h

AR(p)モデルの優調和事前分布（のひとつ）は以下で与えられる

系AR(p)モデルの優調和事前分布（のひとつ）は以下で与えられる。

2/12)(∏ <

−∝= ji ji zz

hππ1

2JH)1(∏ =

−∝= p

i izhππ

進捗状況

AR(p) モデル

・上でみたとおり

・AR(2)はLaplacianが簡単になるためもう少し多い

MA(q) モデル

・リーマン構造がARモデルと同じため、そのまま使える（接続まで入れるAR, MA は違ってくる）

ARMA(p,q) モデル

・Open（以上のモデルは時系列解析では初等的；（以上のモデルは時系列解析では初等的；

ARIMA, GARCH, VAR etc. など課題は多い）

１３ ARモデルの優調和事前分布の１３．ARモデルの優調和事前分布のPAC表示表示

実用上の問題点

ベイズスペクトル密度

∫ θθπθωω d)|()|(:)(ˆ xSS ∫Θ= θθπθωωπ d)|()|(:)( xSS

∫ ⋅ θd はモンテカルロ積分を実行∫Θ ンテ積分を実行

pR⊆Θ はパラメータによっては複雑な領域

１ ARパラメータ

パラメータ表示

Θ は次数が上がると複雑な領域１．ARパラメタ

２．特性方程式の根（根パラメータ）

Θ は次数が上がると複雑な領域

役複がΘ は共役複素根が入ると煩雑

もっと実用的に扱いやすいパラメータ表示は？

PACパラメータの導入(1/2)偏自己相関係数（PAC）パラメータ

p次ARモデルのパラメタを逐次的に定義（由来は省略）

k )(

p次ARモデルのパラメータを逐次的に定義（由来は省略）pk ,,1 K=

kk

k ra −=)(

)1()1()( −−

− −= kjkk

kj

kj araa 1,,1 −= kj K

),,( 1 prr K をPACパラメータと呼ぶ

Barndorff-Nielsen and Schou (1973, J. Multivariate Anal.)ARパラメータの定常性条件をみたす領域pΘ

pp

×−=Ξ )1,1(: p次元超立方体

pppp aarr Θ∈Ξ∈ ),,(),,(: 11 KaKϕ 上で定義された写像

pp Θ≅Ξ 微分同相（１：１, 写像）

pppp )()( 11ϕ∞− C1,ϕϕ

PACパラメータの導入(2/2)

PACパラメータによる表示の例

1)1(

1 ra −=a

2次のARパラメータとPACパラメータの対応図(座標変換)

2)2(

2 ra −=211

)2(1 rrra +−=

a

2a

1+1+

22 ra

32211)3(

1 rrrrra ++−=

1a

1−Θ322111

321312)3(

2 rrrrrra −+−=

3)3(

3 ra −=2r

1+

2Θ

33 ra =

1r1− 1+

1− 22 )1,1(: ×−=Ξ

ARモデル：３つのパラメータ表示

ARモデルのパラメータ表示

),,( 1 prrr K=PACパラメータ

逐次的に計算可直接移りあうのは難しい

逐次的に計算可

パタ根パタ代数方程式を解くARパラメータ),,( 1 paaa K= ),,( 1 pzzz K=

根パラメータ代数方程式を解く

0)(L~ 11 =+++= −

ppp

a azazz L基本対称式

各パラメータは幾何学的には座標系に対応

ARモデル多様体：３つの座標系

),,( 1 prrr K=PAC座標系 )( 1 p座標系

・数値実験、数値積分用

座標系 )(AR座標系 ),,( 1 paaa K= ),,( 1 pzzz K=根座標系

・幾何学的な量の計算；証明・統計的考察用

幾何学的な量の計算；証明

必要に応じてうまい座標系を選ぶことがポイント

PACでのAR(p)での優調和事前分布

定理AR(p) 過程において分散パラメータ固定で考える)2( ≥p

優調和事前分布（のひとつ）はproperであり、PACパラメータを用いると独立なベータ分布の積でかける

{ }∏ ==

p

i iii rrrr

1)(

HH d)(d)( ππ11 kk

⎟⎞

⎜⎛

+−=

−

−−

B2

)1()1()d(~1

12

12

)(H kk

rrrrk

kπpk ,,1 L=⎟

⎠⎜⎝ 2

,2

B2 pk ,,1

上の優調和事前分布に基づいて構成したスペクトル密度の推定量は許容的

系

上の優調和事前分布に基づいて構成したスペクトル密度の推定量は許容的

１４. ARMAモデルのトレース２形式

トレース２形式の計算からわかること

・AR, MAモデル

現状

e(m) 平坦

AR, MAモデル

MLE prior (及びα平行事前分布)の存在はただちにいえるはただちえる

・ARMAモデル

α平坦ではないことが知られている

MLE prior (及びα平行事前分布)の存在のMLE prior (及びα平行事前分布)の存在の有無は不明だった

ARMA(p,q) モデルで具体的な計算（＊）でα平(p q)行事前分布をもたないことが示された

ARMA(p,q) でMLEのplug-inはplug-inの中でも（漸近リクの意味で）非許容的

＊あとで計算例を紹介

中でも（漸近リスクの意味で）非許容的；

ARMAモデル

qp :,,1 paa L ARパラメータ

ARMA モデル),( qp

∑∑=

−=

− ++−=q

jjtj

p

ititit bxax

11ηη

p

),0(N~ 2ση t 白色雑音

:,,1 qbb L MA パラメータ

t

スペクトル密度

{ } { } 2

222

|)(L||)(M|

2),,|( ω

ω

πσσω i

ib

ji eebaS =

|)(L|2π a e

∑∑=

−

=

− +=+=q

j

jj

p

ib

iia zbzMzazL

111)(,1:)(

* 以降, 分散は固定 12 =σ

ARMAモデルのFisher計量

0)(L~ 1 =+++= −pp azazz L

根座標系

0)(L 1 =+++= pa azazz L

pzz ,,1 L one-to-onepaa ,,1 L

~ 0)(M~ 11 =+++= −

qqq

b bzbzz L

qww ,,1 L qbb ,,1 L

根座標系での幾何学的な量

ii z=:θ ),,1( pi L=

jiji

ijgθθεε

=1

1<iθ 1: +=iεjiijg

θθ−1i

i w=:θ ),,1( qppi ++= L1: −=iε

⎬⎫

⎨⎧

++222 kji

T θθθεεε⎭⎬

⎩⎨ −−

+−−

+−−

=)1)(1()1)(1()1)(1( jkikijkjkijikjiijkT

θθθθθθθθθθθθεεε

Ex: ARMA(1,1) モデル (1/3)

根座標系でのFisher計量

⎟⎟⎟⎞

⎜⎜⎜⎛

−−

−=2

111

11

1zwzgij

z=:1θ⎟⎟⎠

⎜⎜⎝ −−− 21

11

1wwz

gij

1,1 << wz w=:2θ

1111 −− ++−= tttt bxax ηηARMA(1,1) モデル

jiεεFormula

),0(N~ 2ση tji

jiijg

θθ−=

1 1<iθ

Ex: ARMA(1,1) モデル (2/3)

6 z ⎫⎧ 42

根座標系でのCubic tensor

22111 )1(6

zzT

−=

⎭⎬⎫

⎩⎨⎧

−−+

−−=

)1)(1(4

)1(2

22112 zzwz

zwwT

22222 )1(6

wwT

−−=

)1)(1(4

)1(2

22122 wzww

zwzT

−−+

−=

1,1 << wz

⎫⎧ 222 mji θθθFormula

⎭⎬⎫

⎩⎨⎧

−−+

−−+

−−=

)1)(1(2

)1)(1(2

)1)(1(2

jmim

m

ijmj

j

miji

i

mjiijmTθθθθ

θθθθθ

θθθθθ

θεεε1<iθ

ARMA (1 1) の接続１形式

Ex: ARMA(1,1) モデル (3/3)ARMA (1,1) の e-接続１形式

wzzz d12d2 21 −+−− w

zwwzwzzz

zz d

))(1(12d

12

211

−−+

+−

=ω

zwzz )1(212 22 + wwzw

zzzwwz

wzz d))(1(

)1(2d))(1(

1222

1

−−−−

+−−−+−

=ω

2

wzwwz

wzw d))(1(122

12

−−−+−

=ω

wzwwzw

wwzzwzzwzzwwz

wzw d))(1)(1(

}1223{2d))(1(12

2

232222

22

−−−++−−−

+−−−+−

=ω

0dd)( ≠∧=Ξ zwzwf上を計算するとトレース２形式が非零であることがわかる

0dd),( ≠∧=Ξ zwzwf

以上の結果は, より簡潔で一般的な形で記述できる

ARMAモデル多様体のトレース２形式

デ

定理 (FT2012)ARMAモデル多様体の α接続に関するトレース２形式は非零であり根座標系で表示すれば以下で与えられる

p q 1∑ ∑= =

∧−

−=Ξp

i

q

jij

ji

zwwz1 1

2)( dd

)1(14αα

はARMAモデルのAR MA部分の特性多項式の根であり}{}{ zw1||,1|| << ji wz

はARMAモデルのAR,MA部分の特性多項式の根であり, }{},{ ij zw

系

ARMAモデルでのパラメータの最尤推定量をプラグインしたスペクトル密度の推定量はプラグインのクラスの中でも（漸近リスクのもとで）非許容的

１５. まとめと今後の課題

まとめ

ベイズ統計での事前分布の選択は難しい問題。特に非i.i.d. モデルは理論的な研究が少ない

幾何学的な量の計算や解析から統計モデル上のあるクラスの事前分布の存在の有無がわかる

高次元の複雑なモデルの場合、幾何学的な量の計算で、最尤推定量や予測分布の性能に対する理論評価できるのは大きなメリット

今後の課題今後の課題

漸近的な結果と有限標本での結果のギャップの詳細な解析

統計的な課題（実応用）・微分幾何学的な課題（優調和関数の存在と構成）の両方が山積み（個人研究の限界！）の存在と構成）の両方が山積み（個人研究の限界！）

文献 (1/2)情報幾何のテキスト：S. Amari:Differential geometrical methods in statistics. Springer-Verlag, 1985.S. Amari and H. Nagaoka,: Methods of Information Geometry. AMS, Oxford, 2000.

スライド中で引用した文献（見やすさを踏まえ省略された文献は原論文を参照）

J. Aitchison: Goodness of prediction fit. Biometrika, 62 (1975), 547-554.O.L.E. Barndorff-Nielsen and G. Schou: On the parametrization of autoregressive models by partial autocorrelations. J. Multivariate Anal., 3 (1973), 408-419.J B d R Y Y N i f ti i d B i t ti f th AR(1) d l E t i ThJ. Berger and R. Y. Yang: Noninformative priors and Bayesian testing for the AR(1) model. Econometric Theory,

10 (1994), 461-482.L. L. Campbell: An extended Cencov characterization of the information metric. Proc. Amer. Math. Soc. vol 98

(1986), 135-141.( ),J. A. Hartigan: The Maximum Likelihood Prior. Ann. Statist., 26 no.6 (1998), 2083-2103. F. Komaki: Shrinkage priors for Bayesian prediction. Ann. Statist., 34 (2006), 808-819. F. Komaki: A shrinkage predictive distribution for multivariate normal observables. Biometrika, 88 (2001), 859-

864864.S. Lauritzen: Statistical manifolds. In Differential Geometry in Statistical Inference, IMS Lecture Notes:

Monograph Series 10:Institute of Mathematical Statistics, Hayward, California, (1987) 163-216., y , , ( )H. Matsuzoe, J. Takeuchi, and S. Amari, Equiaffine structures on statistical manifolds and Bayesian statistics.

Differential Geom. Appl., 24 (2006), 567-578.

文献 (2/2)P.C.B. Phillips: To criticize the critics: an objective Bayesian analysis of stochastic trends. J. Appl. Econ. 6

(1991), 333-364.J. Takeuchi and S. Amari, α-parallel prior and its properties. IEEE. Trans. Info. Theory, 51, no.3 (2005), 1011-p p p p f y ( )

1023.F. Tanaka, Superharmonic priors for autoregressive models. Mathematical Engineering Technical

Reports, 2009-18, (2009) 1-20.F. Tanaka and F. Komaki:Asymptotic expansion of the risk difference of the Bayesian spectral density in the autoregressive

moving average model, S kh S i A I di St ti ti l I tit t V l 73 A (2011) 162 184Sankhya Series A, Indian Statistical Institute, Vol.73-A (2011), pp. 162－184.F. Tanaka: Curvature form on statistical model manifolds and its application to Bayesian analysis, Journal of Statistics Applications and Probability, Natural Sciences Publishing, Vol.1 (2012), 35-43.F Tanaka: Noninformative prior in the quantum statistical model of pure states Phys Rev A 85F. Tanaka: Noninformative prior in the quantum statistical model of pure states. Phys. Rev. A, 85

(2012): 062305.