Asymptotically optimal policies in multiarmed bandit problems

1

多腕バンディット問題における漸近最適戦略について

本多淳也

東京大学新領域創成科学研究科

山本-國廣研究室

数理助教の会 7/26

2

多腕バンディット問題• 台のスロットマシンをプレイするギャンブラーのモデル

• 単位時間毎にいずれかのマシン１台をプレイ

• 得られる報酬の確率分布は台によって異なる

目標：

• 有限回数のプレイで報酬をなるべく大きくしたい

• 期待値最大の台を高確率で判別したい

問題：

・ある程度の回数プレイしないと台の良し悪しが分からない

・報酬の期待値の低い台を何度もプレイすると損

⊢⊢⊢

≋

3

応用例

• Web 上の広告表示

– 「まだデータが少なく購入率が未知の商品」と

「今のところ購入率がそれなりに高い商品」の選択

• 囲碁などのゲーム木探索

– 「あまり良くなさそうだけど深くは読んでいない手」と

「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む？

• ネットワーク上に複数のパスがあるときに

どのパスを使えば通信時間を最小にできるか？

強化学習の一般的なテーマ：探索(exploration)と活用(exploitation)を

どうバランスさせるか？

4

問題の定式化：確率分布の集合（既知）

：台からの報酬の確率分布（未知）

：台の期待値 ( ：の期待値)

：最大の期待値

：プレイ目までで台を選んだ回数

≆≩ ∲ ≆

≆

≩

≩

⊹⊤ ∽ ≭≡≸≩ ⊹≩

≔≩∨≮∩ ≮ ≩

目標：

期待値最大でない台のを小さくすることで

regret を最小化したい≘

≩

∨⊹⊤ ⊡ ⊹≩∩≔≩∨≮∩

≔≩∨≮∩

⊹≩ ∽ ≅∨≆≩∩

≩

≅∨≆ ∩ ≆

5

理論限界の準備

• ある戦略が consistent

任意のベストでない台で

• あまり厳しい正則条件ではない

( となる戦略は比較的容易に構成可)

• :

– 分布が期待値以上の分布と

どれくらい紛らわしいか

≩

≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≩≮≦≇∲≆ ∺≅∨≇∩∾⊹

≄∨≆≫≇∩

⊹

KL divergence

≆

≇⊹

≆

≄≩≮≦∨≆∻ ⊹∻≆∩

≆

∬ ≅≛≔≩∨≮∩≝ ∽ ≯∨≮⊮∩∻ ∸⊮ ∾ ∰

≅≛≔≩∨≮∩≝ ∽ ≏∨≬≯≧ ≮∩

6

理論限界

• Lai and Robbins (1985) が１次元パラメーターのモデルで導出

• Burnetas and Katehakis (1996) が一般モデルへ拡張

• 期待値最大でない台をプレイしてしまう回数の下限：

• 分布が期待値以上の分布とどの程度紛らわしいかで

プレイ回数の下限が決まる

≩

≅≛≔≩∨≮∩≝ ⊸∱⊡ ≯∨∱∩

≄≩≮≦∨≆≩∻ ⊹⊤∻≆∩≬≯≧ ≮

≆≩ ⊹⊤

7

先行研究

• UCB (Upper Confidence Bound) 戦略

(Lai & Robbins (1985), Auer et al (2002), ……)：

– 有意水準で大きく見積もった各台の期待値 (UCB 値) が

最大となる台をプレイ

• DMED (Deterministic Minimum Empirical Divergence) 戦略

(Honda & Takemura (2010)):

– 期待値ベストである尤度が以上の台をプレイ

• Thompson Sampling (Thompson (1933)):

– 期待値ベストな台の事後確率にしたがって台をランダムに選択

∱∽≮

∱∽≮

8

先行研究の比較

計算量性能解析の容易さ

漸近最適性の示されたモデルの例

UCB △ ○ ○有限サポートモデル

指数型分布族（１変数）

DMED ◎ △ ◎有限サポートモデル有界サポートモデル

Thompson

Sampling

○（ただし事後分布の計算が必要）

◎ △ ベルヌーイ分布

• の項の漸近的な性能ではどの戦略も同等（予想）≏∨≬≯≧ ≮∩

9

理論限界を達成可能なモデル

• コンパクトなモデル以外で最適性が示されているのは限定的

コンパクト非コンパクト

１パラメータ ○ベルヌーイ分布

○指数型分布族の一部（平均が十分統計量）

[GC11]

？ワイブル分布

複数パラメータ○有限サポートモデル

[BK96]

？正規分布（平均・分散未知）

無限パラメータ○有界サポートモデル

[HT10]半有界サポートモデル

10

DMED 戦略

• 理論限界：

• DMED 戦略：次の条件を満たす台をプレイ

標本分布

≅≛≔≩∨≮∩≝ ∦≬≯≧ ≮

≩≮≦≇∺≅∨≇∩∾⊹⊤

≄∨≆≩≫≇∩

≔≩∨≮∩ ⊷≬≯≧ ≮

≩≮≦≇∺≅∨≇∩∾≞⊹⊤

≄∨ ≞≆≩≫≇∩

≭≡≸≇∺≅∨≇∩∾≞⊹⊤

≥≸≰∨⊡≔≩∨≮∩≄∨ ≞≆≩≫≇∩∩ ⊸∱

≮

∬期待値以上である尤度≞⊹⊤

11

DMED 戦略における計算

• DMED では試行ごとに次の計算が必要

(分散既知の正規分布の集合) の場合：

( [0,1] 上の分布全体の集合) の場合：

• 一方 UCB ではを計算

≄≩≮≦∨ ≞≆≩∻ ≞⊹⊤∻≆∩ ∽ ≩≮≦

≇∲≆ ∺≅∨≇∩∾⊹⊤≄∨ ≞≆≩≫≇∩

≄≩≮≦∨≆∻ ⊹∻≆∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱ ⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≆ ∽ ≆≛∰∻∱≝ ∽

≆ ∽ ≎ ∨⊵∻ ⊾∲∰∩ ∽

≳≵≰≇∲≆ ∺≄∨ ≞≆≩≫≇∩∼

≬≯≧≮≔≩∨≮∩

≅∨≇∩

≄≩≮≦∨⊵∻ ⊹∻≆∩ ∽∨⊹⊡ ⊵∩∲∫

∲⊾∲∰

• とりあえずの場合を考えれば OK

– ケース１：いずれも概ね収束 (寄与 )

– ケース２：は収束・台１が偶然悪い性能 (寄与 )

12

評価の方針

≋ ∽ ∲∻ ⊹∱ ∾ ⊹∲

≏∨≬≯≧ ≮∩

≏∨∱∩

≞≆∱∻ ≞≆∲

≞≆∲

≆∱

≆⊹∲

≆∲

≆∱

⊹∲

≆∲

≆∱

⊹∲

≆∲

ケース１ケース２その他

≆

• 低確率でのみ発生する事象の確率を評価する理論

• Sanov の定理：任意の(Lévy距離のもとでの)閉集合に対して

• 分布があたかも分布であるかのように振る舞う確率は

概ね程度

からのサンプル個の経験分布

13

評価の道具：大偏差原理

≬≩≭ ≳≵≰≴∡∱

∱

≴≬≯≧≐≆ ≛ ≞≆≴ ∲ ≃≝ ⊷ ⊡ ≩≮≦

≇∲≃≄∨≇≫≆ ∩

≃

≴≆

≆ ≇

≥≸≰∨⊡≴≄∨≇≫≆ ∩∩

待ち時間の評価 (１パラメータの場合)

台１からのサンプル数がの場合：

• 推定値がとなる確率は高々

• この場合の次のプレイまでの待ち時間は

– 平均待ち時間への寄与は

≔∱∨≮∩ ∽ ≴

≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩

≥≸≰∨≴≄∨⊵≫⊵∲∩∩

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

14

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≞⊵∱ ⊼ ⊵


• 推定値がとなることによる待ち時間への寄与は

• 大抵のモデルでは

となるようなが存在

– 例：分散既知の正規分布の場合

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

15

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

≡⊹∱∻⊹∲ ∽∨⊹∱ ⊡ ⊹∲∩∲

∲⊾∲∰

≢⊹∱∻⊹∲ ∽⊹∱ ⊡ ⊹∲⊾∲∰

≞⊵∱ ⊼ ⊵





– 例：ラプラス分布の場合

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

16

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

≞⊵∱ ⊼ ⊵

≡⊹∱∻⊹∲ ∽ ≥⊹∱⊡⊹∲ ∫ ∨⊹∱ ⊡ ⊹∲∩⊡ ∱

≢⊹∱∻⊹∲ ∽ ∱⊡ ≥⊡∨⊹∱⊡⊹∲∩





• 全体の待ち時間は

• サンプル数について和をとっても

≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩

⊣

⊵∱

17

⊵∲

⊵

≄∨⊵≫⊵∱∩

≄∨⊵≫⊵∲∩

≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩ ⊸ ≡⊵∱∻⊵∲ ∫ ≢⊵∱∻⊵∲∨⊵∲ ⊡ ⊵∩

≡⊵∱∻⊵∲

≡⊵∱∻⊵∲ ∻ ≢⊵∱∻⊵∲ ∾ ∰

⊵ ⊷ ⊵∲≚ ⊵∲

⊡∱≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽

≥⊡≴≡

≢

≴ ≏∨∱∩

≞⊵∱ ⊼ ⊵

18

コンパクトなモデルの場合

• 標本分布がとなる確率は高々≞≆∱ ⊼ ≆

≆

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩

≆∱

≆

≆∱

⊹∲

≄∨≆≫≆∱∩

19


• 標本分布がとなる確率は高々≞≆∱ ⊼ ≆

≆

≆∱

≆

≄≩≮≦∨≆∻ ⊹∱∩

≆∱

⊹∲

⊹∱

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

20


• 標本分布がとなる確率は高々

• 次に台１がプレイされるまでの待ち時間は

≞≆∱ ⊼ ≆

≆

≆⊹∲

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

21




• 期待値への寄与は

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

≆

22





≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡

≆

23





• 領域全体での期待値は ⊹∲

≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ⊷ ≥≸≰∨⊡≴≄≩≮≦∨≆∻ ⊹∱∩∩

≥≸≰∨≴≄≩≮≦∨≆∻ ⊹∲∩∩

≥≸≰∨⊡≴∨≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩∩∩

≞≆∱ ⊼ ≆

⊷ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

≆≭∨≆ ∻ ⊲∩ ≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

24

複数パラメータ・非コンパクトの場合

• スケールパラメータのようなものがある場合

となるケースが多い

– 例：正規分布（分散未知）の場合

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≆

≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲

≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰

≄≩≮≦∨∨⊹∻ ⊾∲∩∻ ⊹∱∩ ∽

∱

∲≬≯≧⊳

∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲

⊴

25

有界サポートモデルの拡張

• 上の分布モデルに対して DMED 戦略は漸近最適

• 実は任意のに対して

（⇒分布のサポートの下限は知らなくてもOK）

• 半有界サポートモデルに対しても漸近最適か？

– 所要時間を最小化するようなケースでは自然なモデル

• 期待値ベストな確率分布の積率母関数が

（原点まわりで）存在すれば OK

≛≡∻ ∱≝ ≆≛≡∻∱≝

≡ ∲ ∨⊡∱∻ ∱∩

≄≩≮≦∨≆∻ ⊹∻≆≛≡∻∱≝∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≆∨⊡∱∻∱≝

≅≆ ≛≥⊸≘ ≝

26

理論限界の計算

• は次のように定式化される

• 無限次元ベクトル空間上の変数・有限個の（線形）制約

– Partially-finite convex programming とよばれる

(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))

≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩

≭≩≮≩≭≩≺≥∺

≚⊵

≬≯≧≤≆ ∨≸∩

≤≇∨≸∩

⊶

≤≆ ∨≸∩∻

≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚

≤≇∨≸∩ ∽ ∱∻

≚

≸≤≇∨≸∩ ∾ ⊹∺

27

理論限界の計算

• は次のように定式化される

• 今回の場合は実行可能領域が非コンパクト

• 上の線形関数が弱位相のもとで

非連続 (⇔ が有界な連続関数でない)

≄≩≮≦∨≆∻ ⊹∻≆∨⊡∱∻∱≝∩

≭≩≮≩≭≩≺≥∺

≚⊵

≬≯≧≤≆ ∨≸∩

≤≇∨≸∩

⊶

≤≆ ∨≸∩∻

≳≵≢≪≥≣≴ ≴≯∺ ≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻ ∱≝∻≚

≤≇∨≸∩ ∽ ∱∻

≚

≸≤≇∨≸∩ ∾ ⊹∺

≸ ∺ ≇ ∷∡

≚

≸≤≇∨≸∩≆∨⊡∱∻∱≝

≸ ∺ ≸ ∷∡ ≸

28

今回の方法

• おそらく

だろうという予想は既に出来ているので

– 両辺それぞれでの裾の影響を評価

– 等式が成り立つ , が存在することを確認

という手順で証明可能

≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹

≄∨≆ ≫≇∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅≆ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≇ ⊺

29

（再掲）期待値の評価

• スケールパラメータのようなものがある場合

となるケースが多い

– 例：正規分布（分散未知）の場合

≩≮≦≆∲≆ ∺≅∨≆ ∩⊷⊹∲

≦≄≩≮≦∨≆∻ ⊹∱∩⊡≄≩≮≦∨≆∻ ⊹∲∩≧ ∽ ∰

≄≩≮≦∨∨⊵∻ ⊹∩∻ ⊹∱∩ ∽∱

∲≬≯≧⊳

∱ ∫∨⊹∱⊡⊹∩∲∫⊾∲

⊴

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≄≩≮≦∨≆∻ ⊹∱∩

≆

≆∱

30

評価の改善

• 本当に知りたいのは

ではなく

•

(= 待ち時間が以上になる確率)

を直接評価すればよい

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≄≩≮≦∨≆∻ ⊹∱∩

≆

≄∨≆≫≆∱∩

≳≵≰≇∺≅∨≇∩⊸⊹∱

≐≇≛ ≞≆∱ ⊼ ≆ ≝ ≐≆∱ ≛≞≆∱ ⊼ ≆ ≝

≥≴≸

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝

31

期待値の評価

• 標本平均に関する大偏差原理 (Cramér の定理) を用いると

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝

∽ ≐≆∱

⊷

≭≡≸∰⊷⊺⊷ ∱∱⊡⊹∲

≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸

⊸

∽ ≐≆∱

⊷

≓

∰⊷⊺⊷ ∱∱⊡⊹∲

≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸≧

⊸

∮ ≐≆∱

⊷

≓

⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩

∻∺∺∺∻ ∱∱⊡⊹∲≧≦≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡

≣≍≧

⊸

⊷≘

⊺∲≦∰∻ ∱≍∨∱⊡⊹∲∩

∻∺∺∺∻ ∱∱⊡⊹∲≧

≐≆∱

≨

≅ ≞≆∱ ≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∲∩⊺≝ ⊸ ≸⊡≣≍

≩

⊷ ≣∰≴ ≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽ ∱ ∫ ≏∨ ⊹∱⊡⊹∲≖≡≲∨≆∱∩∩∺

32

待ち時間の評価

•

• また実際はの場合を評価すれば十分で，この場合は

と指数を保証できる

• 事象の寄与は高々

≆⊹∲

⊹∱

≄≩≮≦∨≆∻ ⊹∲∩

≆∱

≆

≄∨≆≫≆∱∩

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸≝ ∮ ≥≸≰∨⊡≴⊸⊤≸∩

≞⊹∱ ⊷ ⊹∲

≐≆∱ ≛≄≩≮≦∨≞≆∱∻ ⊹∲∩ ⊸ ≸∻ ≞⊹∱ ⊷ ⊹∲≝

∮ ≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧

≄≩≮≦∨ ≞≆∱∻ ⊹∲∩ ⊸ ≸

≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡ ∱∩≸∻ ⊤⊤∱ ⊡ ≸≧∩

⊷ ≥≸≰∨⊡≴∨≡∫ ≢≸∩∩

のキュムラント母関数の

Fenchel-Legendre 変換

≆∱

33

計算の簡略化について

• DMED で必要な計算：

– 目的関数の計算量は

• 有界サポートモデルの場合：

– の平均のみを既知とした場合のの下限は

– これを基準にすることでを

達成可能→KL-UCB (Garivier & Cappe, 2011)

≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≏∨≬≯≧ ≮∩

≞≆≩ ≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩

≭≩≮≆ ∺≅∨≆ ∩∽≞⊹≩

≄≩≮≦∨≆∻ ⊹∩ ∽ ≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩

≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮

≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩

≆≛∰∻∱≝

34


• DMED で必要な計算：

– 目的関数の計算量は

• 一般の有界サポートモデルの場合：

– スケール変換して KL-UCB を適用することで

を達成可能

– を保守的にとると bound が悪化・で無意味に

≄≩≮≦∨ ≞≆≩∻ ⊹∩ ∽ ≭≡≸∰⊷⊺⊷ ∱∱⊡⊹

≅ ≞≆≩≛≬≯≧∨∱⊡ ∨≘ ⊡ ⊹∩⊺∩≝

≏∨≬≯≧ ≮∩

≅≛≔≩∨≮∩≝ ⊼≬≯≧ ≮

≄∨≂∨⊹≩⊡≡∱⊡≡ ∩≫≂∨⊹⊤⊡≡∱⊡≡ ∩∩

≡ ≡∡ ⊡∱

≆≛≡∻∱≝

35


• 期待値のみを既知としたときを最小化するのは

がベルヌーイ分布のとき

• 一般に次までのモーメントを指定したときにを

最小化するのは個のサポートからなる離散分布

(Honda & Takemura, 2012)

– までは２次方程式の解の公式で計算可能

– 特にが偶数のときはサポート下限には一切依存しない

– 次までのモーメントを用いるとを

全てので非零値で抑えられる

– の場合と異なりの regret を達成可能

≞⊹≩ ≄≩≮≦∨ ≞≆≩∻ ⊹∩≞≆≩

≤ ≄≩≮≦∨ ≞≆≩∻ ⊹∩

≤≤∽∲≥∫ ∱

≤ ⊷ ∴

≤ ≡

≄≩≮≦∨ ≞≆≩∻ ⊹∩≤ ⊸ ∲

≞≆≩ ∲ ≆∨⊡∱∻∱≝

≤ ∽ ∱ ≏∨≬≯≧ ≮∩

36

まとめ

• 多腕バンディット問題における漸近最適戦略を紹介

– パラメータ空間の次元数・コンパクト性に応じて性能解析の

難しさが異なる

• 有界サポートモデルと全く同じ戦略により半有界サポートモデル

でも理論限界を達成可能であることを説明

– ２次以上のモーメントを用いることにより漸近最適ではなくとも

の regret は達成可能≏∨≬≯≧ ≮∩

37

数値例 1• , ベータ分布

台1 台２台３台４台５

≋ ∽ ∵

38

数値例 1

• DMED では速やかに理論限界に収束

UCB2

UCB-tuned

漸近限界

DMED

期待値の損失

• , 紛らわしい分布の例

39

数値例 2

UCB2

UCB-tuned

漸近限界

DMED

≆∱∨∰∩ ∽ ∰∺∹∹∻ ≆∱∨∱∩ ∽ ∰∺∰∱∻ ⊹∱ ∽ ∰∺∰∱

≆∲∨∰∺∰∰∸∩ ∽ ∰∺∵∻ ≆∲∨∰∺∰∰∹∩ ∽ ∰∺∵∻ ⊹∲ ∽ ∰∺∰∰∸∵

≋ ∽ ∲

Asymptotically optimal policies in multiarmed bandit problems

Technology

Transcript of Asymptotically optimal policies in multiarmed bandit problems