斉次ダイバージェンスとその応用bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/kanamori.pdf ·...

43
斉次ダイバージェンスとその応用 金森 敬文 (名古屋大) 共同研究者:藤澤洋徳氏 (統数研),竹之内高志氏 (はこだて未来大)

Transcript of 斉次ダイバージェンスとその応用bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/kanamori.pdf ·...

斉次ダイバージェンスとその応用

金森敬文(名古屋大)

共同研究者:藤澤洋徳氏 (統数研),竹之内高志氏 (はこだて未来大)

目次

1. Scoring rules & Divergences

• Density-Power(DP) score

• Pseudo-Spherical(PS) score

2. 応用

• 非正規化モデル (←今回はこの話)

• ロバスト推定

1/42

• 非正規化モデルによる推定:

* T. Takenouchi & TK, Empirical Localization of Homogeneous

Divergences on Discrete Sample Spaces, NIPS, 2015.

• ロバスト推定:

* TK & H. Fujisawa, Affine Invariant Divergences associated

with Proper Composite Scoring Rules and their Applications.

Bernoulli, 2014.

* TK & H. Fujisawa, Robust Estimation under Heavy

Contamination using Unnormalized Models.

Biometrika, 2015.

2/42

– Scoring Rules –

McCarthy (1956)

Hendrickson, Buehler (1971)

Gneiting, Raftery (2007)

3/42

スコアによる推定

Scoring rule S (p, q) (定義の詳細は後述)

• p, q:確率密度.

minq:確率密度

S (p, q) −→ 最適解 q = p

推定

p:データの経験分布 p(x) = 1n∑n

i=1 δ(x − xi)を代入.q:統計モデルを代入.

「真の分布 p」を「モデル q」で推定

4/42

Scoring rule

M ⊂ { f : X → R≥0}:非負値関数の集合.P (⊂ M):確率密度の集合.

scoring rule� �

S :M×M→ R

• S ( f , g) ≥ S ( f , f ), f , g ∈ M.

• p, q ∈ Pのとき

* ∃ ℓ( · , q) s.t. S (p, q) = EX∼p[ℓ(X, q)].

* S (p, q) = S (p, p) ⇐⇒ p = q.� �

5/42

例(1/3):Kullback-Leibler(KL) score

p, q ∈ P

S KL(p, q) = −∫

p(x) log q(x)dx = ⟨−p log q⟩

記号:⟨ f ⟩ =∫

f (x)dx.

最尤推定量(mle)に対応:

SKL(p, pθ) = −1n

n∑i=1

log pθ(xi)

6/42

例(2/3):Density-power score [Basu et al. ’98]

f , g ∈ M

SDP( f , g) = ⟨γg1+γ − (1 + γ) f gγ⟩ (γ > 0)

記号:⟨ f ⟩ =∫

f (x)dx.

• S DP( f , g) = S DP( f , f )⇐⇒ f = g

* Bregman-div.: f 7→ ⟨ f 1+γ⟩の凸性 (後述)

ロバスト推定への応用: minq:確率密度

S DP( p, q) → q

7/42

例(3/3):Pseudo-spherical (擬球) score[Good,’71; Fujisawa & Eguchi,’08]

f , g ∈ M SPS( f , g) = − ⟨ f gγ⟩⟨g1+γ⟩γ/(1+γ) (γ > 0)

• S PS( f , g) = S PS( f , f )⇐⇒ f , gは1次従属

• S PS( f , g) ≥ S PS( f , f ):

* Bregman-div.: f 7→ ∥ f ∥1+γ の凸性 (後述)

* Holder不等式

ロバスト推定への応用: minq:統計モデル

S PS(p, q) → q

大きな外れ値を自動的に無視.SDPよりロバスト.

8/42

Scoreから定義されるダイバージェンス

• D( f , g) := S ( f , g) − S ( f , f ) ≥ 0

• “距離の2乗”

f (x)

g(x)

D(f, g)

• 常に S ( f , f ) > 0なら,

D( f , g) = logS ( f , g)S ( f , f )

とおくこともある.

conformal trans · · ·.

9/42

一般に・・・

• ダイバージェンス D( f , g), f , g ∈ M

* D( f , g) ≥ 0

* D( f , f ) = 0

10/42

Scoring rules and Bregman-divergencesdef: Bregman-div.� �For a convex functional Ψ :M→ R,

Bregman-div DΨ is defined by

DΨ( f , g) = SΨ( f , g) − SΨ( f , f ), f , g ∈ M,

where SΨ( f , g) = −Ψ(g) −∫Ψ′g(x)( f (x) − g(x))dx

� �

Ψ′g: “subgradient” of Ψ at g.

11/42

定理 [McCarthy,’56; Hendrickson and Buehler,’71]� �S (p, q)が P × P上の scoring rule

⇐⇒ ∃Ψ : P → R, SΨ = S on P (Ψは強凸)� �

• Scoring rule⇔ Bregman divergence

12/42

斉次ダイバージェンス定義:斉次ダイバージェンス (homogeneous divergence)� �D( f , g) = D( f , c · g), ∀c > 0.

D( f , g) = 0 =⇒ f ∝ g.� �

• (SPSから定義される) PS-divは斉次-div.

• (SDPから定義される) DP-divは斉次-div.でない.

13/42

–非正規化モデルによる推定 –

Hyvarinen (2007)

Dawid, Lauritzen and Parry (2012)

Takenouchi (2014)

Takenouchi and Kanamori (2015)

14/42

例:x = (x1, . . . , xd) ∈ X = {+1,−1}d.

X上の関数 f の総和 ⟨ f ⟩ =∑x∈X

f (x):計算が困難.O(2d).

• X上の確率分布の推定:mleの計算が困難

15/42

例:Restricted Boltzmann Machine (RBM)

model : q(x; W) = q(x; W)/ ∑x′∈X

q(x′; W),

q(x; W) =∑

y∈{±1}hexp{yTWx} =

h∏k=1

(e(Wx)k + e−(Wx)k

), x ∈ {±1}d.

16/42

• RBMの最尤推定:

minW−1

n

n∑i=1

log q(xi; W) −→ W

• 正規化定数∑x′∈X

q(x′; W)の計算が困難

• 近似法:Contrastive divergence法 (MCMC)

• 応用:deep learning

* RBMを多段に結合

* ラベルなしデータによる pre-training

17/42

非正規化モデル

非正規化モデル : qθ(x) = exp{ψ(x; θ)} ∈ M (計算が簡単)

正規化モデル : qθ(x) = exp{ψ(x; θ) − Zθ} ∈ P

Zθ = log∑x∈X

qθ(x) (計算が大変)

目標� �非正規化モデルを使って(軽い計算量で)

パラメータを推定したい.� �

18/42

推定法

• 方法1:規格化定数の近似計算(MCMC)

• 方法2:非正規化モデル & scoring ruleで推定

* local proper scoring rule

[ Hyvarinen (2007); Dawid, et al. (2012) ]

* 斉次-div. & empirical localization (提案法)

[ Takenouchi and TK, 2015 ]

19/42

提案法の説明

1. difference of α-divergences (Dα,α′-div法)

[Takenouchi, IBIS’14]

2. Dα,α′-div法の解釈・拡張:PS-div. との関連.

[Takenouchi and K, ’15]

20/42

Difference of α-divergences [Takenouchi, IBIS’14]

α-divergence� �

f , g ∈ M,

Dα( f , g) =1

α(1 − α)

⟨α f + (1 − α)g − f αg1−α

⟩.

� �

• α ∈ R:ダイバージェンスを指定するパラメータ.α→ 0, 1で KL-div.

• Dα( f , g) ≥ 0, Dα( f , g) = 0⇔ f = g.

note: Dα( p, qθ)とすると ⟨qθ⟩の計算が困難.21/42

Dα,α′-div: Dα,α′( f , g) := Dα( f , g) − α′

αDα′( f , g)

• α · α′ < 0に対して Dα,α′( f , g)は divergence:

Dα,α′( f , g) ≥ 0, Dα,α′( f , g) = 0 ⇐⇒ f = g.

• Dα,α′(p, qθ): ⟨qθ⟩の項がキャンセル!

Dα,α′(p, qθ)

=

⟨cα,α′p −

1α(1 − α)

pαq1−αθ +

1α(1 − α′)pα

′q1−α′θ

⟩22/42

• Dα,α′(p, qθ)の計算:∑x∈X

p(x)αqθ(x)1−α =∑

x:データ

(nx

n

)αqθ(x)1−α など :

データ上での総和. 計算量:O(2d)→ O(n)

23/42

一致性?

x1, . . . ,xn ∼ qθ∗ ∈ P.minθ∈Θ

Dα,α′( p, qθ ) −→ θ, qθ ∈ M

n→ ∞でも θ → θ∗とは限らない.

24/42

一致性の回復

Dα,α′-div. を斉次ダイバージェンスにする:

minθ∈Θ

minc>0

Dα,α′( p, c · qθ ) −→ ( θ, c )

• θ:一致性

• c:規格化定数の推定量

c =

⟨pαq1−αθ⟩

⟨pα′q1−α′θ⟩

1

α−α′

25/42

[Takenouchi, IBIS’14]の結果のまとめ:

• Dα,α′-div.による推定を提案:

minθ∈Θ

minc>0

Dα,α′( p, c · qθ ) −→ θ

*正規化項の計算は不要

* Fisher一致性 (正則条件のもとで漸近一致性)

26/42

Dα,α′-div法の拡張・解釈 [T. Takenouchi & TK,’15]

• α > 0 > α′: p(x) = 0に対する (p(x))α′?

−→ α, α′ > 0に拡張.

•より一般的な枠組から Dα,α′-divを導出

*斉次ダイバージェンス(Homogeneous divergence)

*経験分布による局所化(Empirical localization)

27/42

Homogeneous divergence

非正規化モデル &斉次-div. =⇒ 一致性

•斉次-div : minq∈M

D(p, q) =⇒ q ∝ p

• minθ

D(qθ∗, qθ) =⇒ θ = θ∗, qθ∗ ∈ P, qθ ∈ M.

(正則条件のもとで)

28/42

Empirical localization

• f ∈ Mに経験分布を掛ける=⇒サポートをデータ上に局所化

* f (x) on X = {±1}d 7−→ p(x) f (x) on data.

⟨ f ⟩の計算量:O(2d)

⟨p f ⟩の計算量:O(n)

29/42

Local PS-divergence

PS-div (斉次div) & empirical localization

DPS( f , g)

= logS PS( f , g)S PS( f , f )

=1

1 + γlog⟨ f 1+γ⟩ + γ

1 + γlog⟨ f 1+γ⟩ − log⟨ f gγ⟩.

(γ > 0)

30/42

Local PS-divergence

PS-div (斉次div) & empirical localization

Dα,α′,γ(p, q) = DPS( f , g) with

f = (pαq1−α)1/(1+γ),

g = (pα′q1−α′)1/(1+γ).

(α , α′, α, α′ , 0, 1, α + α′γ , 0).

31/42

Local PS-divergence� �

Dα,α′,γ(p, q)

=1

1 + γlog⟨pαq1−α⟩ + γ

1 + γlog⟨pα′q1−α′⟩ − log⟨pαq1−α⟩

where α = (α + γα′)/(1 + γ).� �

• Dα,α′,γ(p, q) = 0⇔ p ∝ q (斉次-div.)

• Dα,α′,γ(p, q)の計算量:O(n)

32/42

Local PS-div. Dα,α′,γ( p, qθ )の性質

• 0 < α, α′ =⇒ 1/p(x)は現れない.

• qθ(x) = exp{θTϕ(x)}のとき:

Dα,α′,γ(p, qθ) is convex in θ

⇔ α := (α + γα′)/(1 + γ) = 1

* α = 1のとき:

minc>0

Dα,α′(p, c · qθ) (の単調変換)に一致.

PS-divによる Dα,α′-divの特徴付け.

33/42

Local PS-div.の Fisher有効性

漸近分散の評価:

qθ = exp{ψ(x, θ)},minθ

Dα,α′,γ(p, qθ) 7−→ θ

n samples ∼i.i.d. qθ∗ =⇒√

n · (θ − θ∗) d−→ N(0, I −1θ∗ )

Iθ: Fisher info. of qθ.

• local PS-div: Fisher efficient

34/42

• Dα,α′-div: α-divの mixture.

=⇒ Hessianは Fisher metric.

• local PS-div:Fisher efficiencyを保つ拡張

35/42

数値例 (1/2):Fisher efficiency

ポアソン分布 : qθ(x) =exθ−eθ

x!, θ ∈ R

モデル : qθ(x) =exθ

x!

•最尤推定 (mle)

• pair scoring rule [Dawid, et al.,’12] θκ =∑

x≥0 p(x+1)(x+1)1+κ∑x≥0 p(x)(x+1)κ .

• local PS-div with α = 1.1, α′ = 0.1, α = 1

36/42

1000回の繰り返し実験の平均

0 200 400 600 800 1000

0.5

0.6

0.7

0.8

0.9

n

local PS-divMLEpair scoring rule

n·E

[(! θ−

θ 0)2]

0 200 400 600 800 1000

0.09

0.10

0.11

0.12

0.13

0.14

0.15

n

local PS-div

MLEpair scoring rule

n·E

[(! θ−

θ 0)2]

θ0 = log(2) θ0 = log(10)

37/42

Dα,α′-div : minθ

minc>0

Dα,α′(p, c · qθ) −→ ( θ, c )

規格化定数を cで推定

cの相対誤差

0 200 400 600 800 1000

0.00

0.05

0.10

0.15

0.20

0.25

n

rela

tive

erro

r of n

orm

aliza

tion

cons

t. es

timat

e

0 200 400 600 800 10000.0

0.2

0.4

0.6

0.8

n

rela

tive

erro

r of n

orm

aliza

tion

cons

t. es

timat

e

θ0 = log(2) θ0 = log(10)

38/42

数値例(2/2):隠れ層ありボルツマンマシン

xvis ∈ X = {±1}10, xhid ∈ X = {±1}2

x = (xvis, xhid),

非正規化モデル : qW(xvis) =∑xhid

exp{xTWx

},

W ∈ R12×12,

真のパラメータ : W∗i j ∼ N(0, 1)

•比較: mle, local PS-div.

39/42

50回繰り返した結果の中央値

0 5000 10000 15000 20000 25000

−15

−10

−5

n

AveragedLog

likelihood

MLEα = 1.01, α′ = 0.01α = 1.01, α′ = −0.01α = 2, α′ = −1

0 5000 10000 15000 20000 25000

5

10

20

50

100

200

500

1000

n

Tim

e[s]

MLE

α = 1.01, α′ = 0.01

α = 1.01, α′ = −0.01

α = 2, α′ = −1

期待対数尤度 計算時間

•精度:データ数 nが多いと mleに漸近.

•計算時間:mleの 100倍ほど効率的.

40/42

References

Scoring rules

• A. Basu, I. R. Harris, N. L. Hjort, and M. C. Jones. Robust and efficientestimation by minimising a density power divergence. Biometrika,85(3):549–559, 1998.• I. J. Good. Comment on ”measuring information and uncertainty,” by

R. J. Buehler. In V. P. Godambe and D. A. Sprott, editors, Foundations ofStatistical Inference, page 337339, Toronto: Holt, Rinehart and Winston,1971.• H. Fujisawa and S. Eguchi. Robust parameter estimation with a small

bias against heavy contamination. J. Multivar. Anal., 99(9):2053–2081,2008.

41/42

Scoring rules and Bregman divergences:

• McCarthy, J. (1956), Measures of the Value of Information, Proceedingsof the National Academy of Sciences, 42, 654655.• A. D. Hendrickson and R. J. Buehler. Proper scores for probability

forecasters. The Annals of Mathematical Statistics, 42:19161921, 1971.• T. Gneiting and A. E. Raftery. Strictly proper scoring rules, prediction,

and estimation. Journal of the American Statistical Association, 102:359–378, 2007.

Local proper scoring rules:

• A. P. Dawid, S. Lauritzen, and M. Parry. Proper local scoring rules ondiscrete sample spaces. Annals of Statistics, 40:593–608, 2012.• Hyvarinen, A. (2005) Estimation of non-normalized statistical models by

score matching. Journal of Machine Learning Research, 6:695–708.

42/42