Asymptotically optimal policies in multiarmed bandit problems

39
1 多腕ィ問題における 漸近最適戦略について 本多淳也 東京大学 新領域創成科学研究科 山本-國廣研究室 数理助教の会 7/26

Transcript of Asymptotically optimal policies in multiarmed bandit problems

Page 1: Asymptotically optimal policies in multiarmed bandit problems

1

多腕バンディット問題における漸近最適戦略について

本多淳也

東京大学 新領域創成科学研究科

山本-國廣研究室

数理助教の会 7/26

Page 2: Asymptotically optimal policies in multiarmed bandit problems

2

多腕バンディット問題• 台のスロットマシンをプレイするギャンブラーのモデル

• 単位時間毎にいずれかのマシン1台をプレイ

• 得られる報酬の確率分布は台によって異なる

目標:

• 有限回数のプレイで報酬をなるべく大きくしたい

• 期待値最大の台を高確率で判別したい

問題:

・ある程度の回数プレイしないと台の良し悪しが分からない

・報酬の期待値の低い台を何度もプレイすると損

⊢⊢⊢

Page 3: Asymptotically optimal policies in multiarmed bandit problems

3

応用例

• Web 上の広告表示

– 「まだデータが少なく購入率が未知の商品」 と

「今のところ購入率がそれなりに高い商品」 の選択

• 囲碁などのゲーム木探索

– 「あまり良くなさそうだけど深くは読んでいない手」 と

「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む?

• ネットワーク上に複数のパスがあるときに

どのパスを使えば通信時間を最小にできるか?

強化学習の一般的なテーマ:探索(exploration)と活用(exploitation)を

どうバランスさせるか?

Page 4: Asymptotically optimal policies in multiarmed bandit problems

4

問題の定式化:確率分布の集合(既知)

:台 からの報酬の確率分布(未知)

:台 の期待値 ( : の期待値)

:最大の期待値

: プレイ目までで台 を選んだ回数

≆≩ ∲ ≆

⊹⊤ ∽ ≭≡≸≩ ⊹≩

≔≩∨≮∩ ≮ ≩

目標:

期待値最大でない台の を小さくすることで

regret を最小化したい≘

∨⊹⊤ ⊡ ⊹≩∩≔≩∨≮∩

≔≩∨≮∩

⊹≩ ∽ ≅∨≆≩∩

≅∨≆ ∩ ≆

Page 5: Asymptotically optimal policies in multiarmed bandit problems

5

理論限界の準備

• ある戦略が consistent

任意のベストでない台 で

• あまり厳しい正則条件ではない

( となる戦略は比較的容易に構成可)

• :

– 分布 が期待値 以上の分布と

どれくらい紛らわしいか

≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≩≮≦≇∲≆ ∺≅∨≇∩∾⊹

≄∨≆≫≇∩

KL divergence

≇⊹

≄≩≮≦∨≆∻ ⊹∻≆∩

∬ ≅≛≔≩∨≮∩≝ ∽ ≯∨≮⊮∩∻ ∸⊮ ∾ ∰

≅≛≔≩∨≮∩≝ ∽ ≏∨≬≯≧ ≮∩

Page 6: Asymptotically optimal policies in multiarmed bandit problems

6

理論限界

• Lai and Robbins (1985) が1次元パラメーターのモデルで導出

• Burnetas and Katehakis (1996) が一般モデルへ拡張

• 期待値最大でない台 をプレイしてしまう回数の下限:

• 分布 が期待値 以上の分布とどの程度紛らわしいかで

プレイ回数の下限が決まる

≅≛≔≩∨≮∩≝ ⊸∱⊡ ≯∨∱∩

≄≩≮≦∨≆≩∻ ⊹⊤∻≆∩≬≯≧ ≮

≆≩ ⊹⊤

Page 7: Asymptotically optimal policies in multiarmed bandit problems

7

先行研究

• UCB (Upper Confidence Bound) 戦略

(Lai & Robbins (1985), Auer et al (2002), ……):

– 有意水準 で大きく見積もった各台の期待値 (UCB 値) が

最大となる台をプレイ

• DMED (Deterministic Minimum Empirical Divergence) 戦略

(Honda & Takemura (2010)):

– 期待値ベストである尤度が 以上の台をプレイ

• Thompson Sampling (Thompson (1933)):

– 期待値ベストな台の事後確率にしたがって台をランダムに選択

∱∽≮

∱∽≮

Page 8: Asymptotically optimal policies in multiarmed bandit problems

8

先行研究の比較

計算量 性能解析の容易さ

漸近最適性の示されたモデルの例

UCB △ ○ ○有限サポートモデル

指数型分布族(1変数)

DMED ◎ △ ◎有限サポートモデル有界サポートモデル

Thompson

Sampling

○(ただし事後分布の計算が必要)

◎ △ ベルヌーイ分布

• の項の漸近的な性能ではどの戦略も同等 (予想)≏∨≬≯≧ ≮∩

Page 9: Asymptotically optimal policies in multiarmed bandit problems

9

理論限界を達成可能なモデル

• コンパクトなモデル以外で最適性が示されているのは限定的

コンパクト 非コンパクト

1パラメータ ○ベルヌーイ分布

○指数型分布族の一部(平均が十分統計量)

[GC11]

?ワイブル分布

複数パラメータ○有限サポートモデル

[BK96]

?正規分布(平均・分散未知)

無限パラメータ○有界サポートモデル

[HT10]半有界サポートモデル

Page 10: Asymptotically optimal policies in multiarmed bandit problems

10

DMED 戦略

• 理論限界:

• DMED 戦略: 次の条件を満たす台をプレイ

標本分布

≅≛≔≩∨≮∩≝ ∦≬≯≧ ≮

≩≮≦≇∺≅∨≇∩∾⊹⊤

≄∨≆≩≫≇∩

≔≩∨≮∩ ⊷≬≯≧ ≮

≩≮≦≇∺≅∨≇∩∾≞⊹⊤

≄∨ ≞≆≩≫≇∩

≭≡≸≇∺≅∨≇∩∾≞⊹⊤

≥≸≰∨⊡≔≩∨≮∩≄∨ ≞≆≩≫≇∩∩ ⊸∱

∬期待値 以上である尤度≞⊹⊤

Page 11: Asymptotically optimal policies in multiarmed bandit problems

11

DMED 戦略における計算

• DMED では試行ごとに次の計算が必要

(分散既知の正規分布の集合) の場合:

( [0,1] 上の分布全体の集合) の場合:

• 一方 UCB では を計算

≄≩≮≦∨ ≞≆≩∻ ≞⊹⊤∻≆∩ ∽ ≩≮≦

≇∲≆ ∺≅∨≇∩∾⊹⊤≄∨ ≞≆≩≫≇∩

≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱ ⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≆ ∽ ≆≛∰∻∱≝ ∽

≆ ∽ ≎ ∨⊵∻ ⊾∲∰∩ ∽

≳≵≰≇∲≆ ∺≄∨ ≞≆≩≫≇∩∼

≬≯≧≮≔≩∨≮∩

≅∨≇∩

≄≩≮≦∨⊵∻ ⊹∻≆∩ ∽∨⊹⊡ ⊵∩∲∫

∲⊾∲∰

Page 12: Asymptotically optimal policies in multiarmed bandit problems

• とりあえず の場合を考えれば OK

– ケース1: いずれも概ね収束 (寄与 )

– ケース2: は収束・台1が偶然悪い性能 (寄与 )

12

評価の方針

≋ ∽ ∲∻ ⊹∱ ∾ ⊹∲

≏∨≬≯≧ ≮∩

≏∨∱∩

≞≆∱∻ ≞≆∲

≞≆∲

≆∱

≆⊹∲

≆∲

≆∱

⊹∲

≆∲

≆∱

⊹∲

≆∲

ケース1 ケース2 その他

Page 13: Asymptotically optimal policies in multiarmed bandit problems

• 低確率でのみ発生する事象の確率を評価する理論

• Sanov の定理: 任意の(Lévy距離のもとでの)閉集合 に対して

• 分布 があたかも分布 であるかのように振る舞う確率は

概ね 程度

からのサンプル 個の経験分布

13

評価の道具:大偏差原理

≬≩≭ ≳≵≰≴∡∱

≴≬≯≧≐≆ ≛ ≞≆≴ ∲ ≃≝ ⊷ ⊡ ≩≮≦

≇∲≃≄∨≇≫≆ ∩

≴≆

≆ ≇

≥≸≰∨⊡≴≄∨≇≫≆ ∩∩

Page 14: Asymptotically optimal policies in multiarmed bandit problems

待ち時間の評価 (1パラメータの場合)

台1からのサンプル数が の場合:

• 推定値が となる確率は高々

• この場合の次のプレイまでの待ち時間は

– 平均待ち時間への寄与は

≔∱∨≮∩ ∽ ≴

≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩

≥≸≰∨≴≄∨⊵≫⊵∲∩∩

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊵∱

14

⊵∲

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≞⊵∱ ⊼ ⊵

Page 15: Asymptotically optimal policies in multiarmed bandit problems

待ち時間の評価 (1パラメータの場合)

• 推定値が となることによる待ち時間への寄与は

• 大抵のモデルでは

となるような が存在

– 例: 分散既知の正規分布の場合

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊵∱

15

⊵∲

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

≡⊹∱∻⊹∲ ∽∨⊹∱ ⊡ ⊹∲∩∲

∲⊾∲∰

≢⊹∱∻⊹∲ ∽⊹∱ ⊡ ⊹∲⊾∲∰

≞⊵∱ ⊼ ⊵

Page 16: Asymptotically optimal policies in multiarmed bandit problems

待ち時間の評価 (1パラメータの場合)

• 推定値が となることによる待ち時間への寄与は

• 大抵のモデルでは

となるような が存在

– 例: ラプラス分布の場合

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊵∱

16

⊵∲

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

≞⊵∱ ⊼ ⊵

≡⊹∱∻⊹∲ ∽ ≥⊹∱⊡⊹∲ ∫ ∨⊹∱ ⊡ ⊹∲∩⊡ ∱

≢⊹∱∻⊹∲ ∽ ∱⊡ ≥⊡∨⊹∱⊡⊹∲∩

Page 17: Asymptotically optimal policies in multiarmed bandit problems

待ち時間の評価 (1パラメータの場合)

• 推定値が となることによる待ち時間への寄与は

• 大抵のモデルでは

となるような が存在

• 全体の待ち時間は

• サンプル数 について和をとっても

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊵∱

17

⊵∲

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

⊵ ⊷ ⊵∲≚ ⊵∲

⊡∱≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽

≥⊡≴≡

≴ ≏∨∱∩

≞⊵∱ ⊼ ⊵

Page 18: Asymptotically optimal policies in multiarmed bandit problems

18

コンパクトなモデルの場合

• 標本分布が となる確率は高々≞≆∱ ⊼ ≆

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩

≆∱

≆∱

⊹∲

≄∨≆≫≆∱∩

Page 19: Asymptotically optimal policies in multiarmed bandit problems

19

コンパクトなモデルの場合

• 標本分布が となる確率は高々≞≆∱ ⊼ ≆

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≆∱

⊹∲

⊹∱

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

Page 20: Asymptotically optimal policies in multiarmed bandit problems

20

コンパクトなモデルの場合

• 標本分布が となる確率は高々

• 次に台1がプレイされるまでの待ち時間は

≞≆∱ ⊼ ≆

≆⊹∲

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

Page 21: Asymptotically optimal policies in multiarmed bandit problems

21

コンパクトなモデルの場合

• 標本分布が となる確率は高々

• 次に台1がプレイされるまでの待ち時間は

• 期待値への寄与は

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

Page 22: Asymptotically optimal policies in multiarmed bandit problems

22

コンパクトなモデルの場合

• 標本分布が となる確率は高々

• 次に台1がプレイされるまでの待ち時間は

• 期待値への寄与は

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡

Page 23: Asymptotically optimal policies in multiarmed bandit problems

23

コンパクトなモデルの場合

• 標本分布が となる確率は高々

• 次に台1がプレイされるまでの待ち時間は

• 期待値への寄与は

• 領域 全体での期待値は ⊹∲

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

≆≭∨≆ ∻ ⊲∩ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

Page 24: Asymptotically optimal policies in multiarmed bandit problems

24

複数パラメータ・非コンパクトの場合

• スケールパラメータのようなものがある場合

となるケースが多い

– 例:正規分布(分散未知)の場合

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲

≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰

≄≩≮≦∨∨⊹∻ ⊾∲∩∻ ⊹∱∩ ∽

∲≬≯≧⊳

∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲

Page 25: Asymptotically optimal policies in multiarmed bandit problems

25

有界サポートモデルの拡張

• 上の分布モデル に対して DMED 戦略は漸近最適

• 実は任意の に対して

(⇒分布のサポートの下限は知らなくてもOK)

• 半有界サポートモデル に対しても漸近最適か?

– 所要時間を最小化するようなケースでは自然なモデル

• 期待値ベストな確率分布の積率母関数 が

(原点まわりで)存在すれば OK

≛≡∻ ∱≝ ≆≛≡∻∱≝

≡ ∲ ∨⊡∱∻ ∱∩

≄≩≮≦∨≆∻ ⊹∻≆≛≡∻∱≝∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≆∨⊡∱∻∱≝

≅≆ ≛≥⊸≘ ≝

Page 26: Asymptotically optimal policies in multiarmed bandit problems

26

理論限界の計算

• は次のように定式化される

• 無限次元ベクトル空間上の変数・有限個の(線形)制約

– Partially-finite convex programming とよばれる

(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))

≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩

≭≩≮≩≭≩≺≥∺

≚⊵

≬≯≧≤≆ ∨≸∩

≤≇∨≸∩

≤≆ ∨≸∩∻

≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚

≤≇∨≸∩ ∽ ∱∻

≸≤≇∨≸∩ ∾ ⊹∺

Page 27: Asymptotically optimal policies in multiarmed bandit problems

27

理論限界の計算

• は次のように定式化される

• 今回の場合は実行可能領域が非コンパクト

• 上の線形関数 が弱位相のもとで

非連続 (⇔ が有界な連続関数でない)

≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩

≭≩≮≩≭≩≺≥∺

≚⊵

≬≯≧≤≆ ∨≸∩

≤≇∨≸∩

≤≆ ∨≸∩∻

≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚

≤≇∨≸∩ ∽ ∱∻

≸≤≇∨≸∩ ∾ ⊹∺

≸ ∺ ≇ ∷∡

≸≤≇∨≸∩≆∨⊡∱∻∱≝

≸ ∺ ≸ ∷∡ ≸

Page 28: Asymptotically optimal policies in multiarmed bandit problems

28

今回の方法

• おそらく

だろうという予想は既に出来ているので

– 両辺それぞれでの裾の影響を評価

– 等式が成り立つ , が存在することを確認

という手順で証明可能

≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹

≄∨≆ ≫≇∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≇ ⊺

Page 29: Asymptotically optimal policies in multiarmed bandit problems

29

(再掲) 期待値の評価

• スケールパラメータのようなものがある場合

となるケースが多い

– 例:正規分布(分散未知)の場合

≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲

≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰

≄≩≮≦∨∨⊵∻ ⊹∩∻ ⊹∱∩ ∽∱

∲≬≯≧⊳

∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≄≩≮≦∨≆∻ ⊹∱∩

≆∱

Page 30: Asymptotically optimal policies in multiarmed bandit problems

30

評価の改善

• 本当に知りたいのは

ではなく

(= 待ち時間が 以上になる確率)

を直接評価すればよい

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≄∨≆≫≆∱∩

≳≵≰≇∺≅∨≇∩⊸⊹∱

≐≇≛ ≞≆∱ ⊼ ≆ ≝ ≐≆∱ ≛≞≆∱ ⊼ ≆ ≝

≥≴≸

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝

Page 31: Asymptotically optimal policies in multiarmed bandit problems

31

期待値の評価

• 標本平均に関する大偏差原理 (Cramér の定理) を用いると

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝

∽ ≐≆∱

≭≡≸∰⊷⊺⊷ ∱∱⊡⊹∲

≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸

∽ ≐≆∱

∰⊷⊺⊷ ∱∱⊡⊹∲

≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸≧

∮ ≐≆∱

⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩

∻∺∺∺∻ ∱∱⊡⊹∲≧≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡

≣≍≧

⊷≘

⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩

∻∺∺∺∻ ∱∱⊡⊹∲≧

≐≆∱

≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡≣≍

⊷ ≣∰≴ ≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽ ∱ ∫ ≏∨ ⊹∱⊡⊹∲≖≡≲∨≆∱∩∩∺

Page 32: Asymptotically optimal policies in multiarmed bandit problems

32

待ち時間の評価

• また実際は の場合を評価すれば十分で,この場合は

と指数を保証できる

• 事象 の寄与は高々

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄∨≆≫≆∱∩

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝ ∮ ≥≸≰∨⊡≴⊸⊤≸∩

≞⊹∱ ⊷ ⊹∲

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸∻ ≞⊹∱ ⊷ ⊹∲≝

∮ ≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧

≄≩≮≦∨ ≞≆∱∻ ⊹∲∩ ⊸ ≸

≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡ ∱∩≸∻ ⊤⊤∱ ⊡ ≸≧∩

⊷ ≥≸≰∨⊡≴∨≡∫ ≢≸∩∩

のキュムラント母関数の

Fenchel-Legendre 変換

≆∱

Page 33: Asymptotically optimal policies in multiarmed bandit problems

33

計算の簡略化について

• DMED で必要な計算:

– 目的関数の計算量は

• 有界サポートモデル の場合:

– の平均 のみを既知とした場合の の下限は

– これを基準にすることで を

達成可能→KL-UCB (Garivier & Cappe, 2011)

≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≏∨≬≯≧ ≮∩

≞≆≩ ≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩

≭≩≮≆ ∺≅∨≆ ∩∽≞⊹≩

≄≩≮≦∨≆∻ ⊹∩ ∽ ≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩

≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮

≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩

≆≛∰∻∱≝

Page 34: Asymptotically optimal policies in multiarmed bandit problems

34

計算の簡略化について

• DMED で必要な計算:

– 目的関数の計算量は

• 一般の有界サポートモデル の場合:

– スケール変換して KL-UCB を適用することで

を達成可能

– を保守的にとると bound が悪化・ で無意味に

≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≏∨≬≯≧ ≮∩

≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮

≄∨≂∨⊹≩⊡≡∱⊡≡ ∩≫≂∨⊹⊤⊡≡∱⊡≡ ∩∩

≡ ≡∡ ⊡∱

≆≛≡∻∱≝

Page 35: Asymptotically optimal policies in multiarmed bandit problems

35

計算の簡略化について

• 期待値 のみを既知としたとき を最小化するのは

がベルヌーイ分布のとき

• 一般に 次までのモーメントを指定したときに を

最小化するのは 個のサポートからなる離散分布

(Honda & Takemura, 2012)

– までは2次方程式の解の公式で計算可能

– 特に が偶数のときはサポート下限 には一切依存しない

– 次までのモーメントを用いると を

全ての で非零値で抑えられる

– の場合と異なり の regret を達成可能

≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩≞≆≩

≤ ≄≩≮≦∨ ≞≆≩∻ ⊹∩

≤≤∽∲≥∫ ∱

≤ ⊷ ∴

≤ ≡

≄≩≮≦∨ ≞≆≩∻ ⊹∩≤ ⊸ ∲

≞≆≩ ∲ ≆∨⊡∱∻∱≝

≤ ∽ ∱ ≏∨≬≯≧ ≮∩

Page 36: Asymptotically optimal policies in multiarmed bandit problems

36

まとめ

• 多腕バンディット問題における漸近最適戦略を紹介

– パラメータ空間の次元数・コンパクト性に応じて性能解析の

難しさが異なる

• 有界サポートモデルと全く同じ戦略により半有界サポートモデル

でも理論限界を達成可能であることを説明

– 2次以上のモーメントを用いることにより漸近最適ではなくとも

の regret は達成可能≏∨≬≯≧ ≮∩

Page 37: Asymptotically optimal policies in multiarmed bandit problems

37

数値例 1• , ベータ分布

台1 台2 台3 台4 台5

≋ ∽ ∵

Page 38: Asymptotically optimal policies in multiarmed bandit problems

38

数値例 1

• DMED では速やかに理論限界に収束

UCB2

UCB-tuned

漸近限界

DMED

期待値の損失

Page 39: Asymptotically optimal policies in multiarmed bandit problems

• , 紛らわしい分布の例

39

数値例 2

UCB2

UCB-tuned

漸近限界

DMED

≆∱∨∰∩ ∽ ∰∺∹∹∻ ≆∱∨∱∩ ∽ ∰∺∰∱∻ ⊹∱ ∽ ∰∺∰∱

≆∲∨∰∺∰∰∸∩ ∽ ∰∺∵∻ ≆∲∨∰∺∰∰∹∩ ∽ ∰∺∵∻ ⊹∲ ∽ ∰∺∰∰∸∵

≋ ∽ ∲