finite time analysis of the multiarmed bandit problem

29
Finite-time Analysis of the Finite-time Analysis of the Finite-time Analysis of the Finite-time Analysis of the Multiarmed Bandit Multiarmed Bandit Multiarmed Bandit Multiarmed Bandit Problem Problem Problem Problem PETER AUER,University of Technology Graz NICOL`O CESA-BIANCHI, University of Milan PAUL FISCHER, Universitat Dortmund (ICML 2002 ICML 2002 ICML 2002 ICML 2002) @shima_x

Transcript of finite time analysis of the multiarmed bandit problem

Page 1: finite time analysis of the multiarmed bandit problem

Finite-time Analysis of the Finite-time Analysis of the Finite-time Analysis of the Finite-time Analysis of the Multiarmed BanditMultiarmed BanditMultiarmed BanditMultiarmed Bandit

ProblemProblemProblemProblemPETER AUER,University of Technology GrazNICOL`O CESA-BIANCHI, University of Milan

PAUL FISCHER, Universitat Dortmund(ICML 2002ICML 2002ICML 2002ICML 2002)

@shima_x

Page 2: finite time analysis of the multiarmed bandit problem

概要 - 強化学習の政策は活用と探索のジレンマに陥っている - 本稿は活用と探索の最良のバランスを探したい - シンプルで効果的な政策とsupportsupportsupportsupportがバウンドされた報酬分布を導入し、時間

的に一様な最適な対数リグレットを示す

Page 3: finite time analysis of the multiarmed bandit problem

学習の政策と報酬

- リグレットの定義

当該マシンで遊ばれた回数

プレイ回数の期待値

報酬の期待値

nnnn回プレイ

腕の数

Page 4: finite time analysis of the multiarmed bandit problem

学習の政策と報酬

- 政策が満たす条件

アルゴリズムで最適化された報酬の確率密度分布

報酬が最大となるμ****の報酬確率密度分布

カルバックライブラー距離

Page 5: finite time analysis of the multiarmed bandit problem

記号の定義

- 以降の議論では以下の記号を前提として話を進める

全ての腕の中で最高の報酬 任意の腕で獲得される報酬

Page 6: finite time analysis of the multiarmed bandit problem

Theorem 1

◆ UCB1UCB1UCB1UCB1 現在の平均報酬

平均報酬の片側信頼区間

Page 7: finite time analysis of the multiarmed bandit problem

Theorem 1

-nnnn回プレイ後の期待リグレット

報酬分布:

Page 8: finite time analysis of the multiarmed bandit problem

Theorem 1- theorem1theorem1theorem1theorem1の証明のために以下を示す

よりも敵対的な定数

2222という数値は可能な数値の中でベストなもの(らしいが・・・)

Page 9: finite time analysis of the multiarmed bandit problem

Theorem 1- UCB2UCB2UCB2UCB2の擬似コード

Page 10: finite time analysis of the multiarmed bandit problem

Theorem 1- マシンiiiiがプレイされる回数

- 次の式で表される値が最大のマシンiiiiが選択される

現在のプレイ回数

Page 11: finite time analysis of the multiarmed bandit problem

Theorem 2- 期待レグレット

※αを小さくとると、1/21/21/21/2Δiiii2222に近くなる

 (しかし、 α→0 0 0 0 とするとCCCCα→∞となる) プレイ回数nnnnと共にαを徐々に減少させる

Page 12: finite time analysis of the multiarmed bandit problem

Theorem 3◆ ε-greedy-greedy-greedy-greedy概要 - 期待報酬が最も高いマシンを1-1-1-1-εの確率で選択 - 逆に一定確率εで常に探索を行う - ε=1/n=1/n=1/n=1/nとするモノをεnnnn-greedy-greedy-greedy-greedyとする(nnnnはプレイ回数)

Page 13: finite time analysis of the multiarmed bandit problem

Theorem 3◆ ε-greedy-greedy-greedy-greedyの政策

Page 14: finite time analysis of the multiarmed bandit problem

Theorem 3- 最適な手が選択される確率の下限          において

のとき で をバウンド

第2222項、第3333項はε>0>0>0>0でO(1/nO(1/nO(1/nO(1/n1+1+1+1+ε))))にバウンドされる

Page 15: finite time analysis of the multiarmed bandit problem

Theorem 4◆ UCB1-NORMALUCB1-NORMALUCB1-NORMALUCB1-NORMALの政策 - 平均、分散が未知の場合のUCB1(?)UCB1(?)UCB1(?)UCB1(?)

Page 16: finite time analysis of the multiarmed bandit problem

Theorem 4- 期待報酬は以下のようになる

Page 17: finite time analysis of the multiarmed bandit problem

Proofs◆ 共通事項 - nnnn回プレイした場合のリグレット

Page 18: finite time analysis of the multiarmed bandit problem

Proofs◆ 共通事項 - Chernoff-Hoeffding boundChernoff-Hoeffding boundChernoff-Hoeffding boundChernoff-Hoeffding bound

 - Bernstein inequalityBernstein inequalityBernstein inequalityBernstein inequality

Page 19: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1(UCB1UCB1UCB1UCB1の各マシンのプレイ回数のバウンド)

より

TTTT****は敵対的な設定のTTTTの意味

敵対的設定にマシンiiiiのアルゴリズムが勝利した場合

Page 20: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1( UCB1 UCB1 UCB1 UCB1の各マシンのプレイ回数のバウンド)

- バウンドの条件式

より

Page 21: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1( UCB1 UCB1 UCB1 UCB1の各マシンのプレイ回数のバウンド)

より

Page 22: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1( UCB1 UCB1 UCB1 UCB1の各マシンのプレイ回数のバウンド)

一回あたりのリグレットがΔである事より

となり、リグレット上限が示された

Page 23: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3( ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド)

最適なマシンと判断された場合の確率

探索確率

Page 24: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3( ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド)

Page 25: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3( ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド)

x_0x_0x_0x_0で分割して変形して和をとっていると思うが・・・

Page 26: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3( ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド) -最適なマシンと判断されない場合のプレイ回数

Page 27: finite time analysis of the multiarmed bandit problem

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3( ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド)

Page 28: finite time analysis of the multiarmed bandit problem

実験

省略します

Page 29: finite time analysis of the multiarmed bandit problem

結論- シンプルで実現可能性が高いバンディットアルゴリズムを提案- ε-greedy-greedy-greedy-greedy以外は決定論的なバウンドをもった政策を備えたアルゴリズムを提案- ε-greedy-greedy-greedy-greedyはランダムにマシンが選択される動的に変化するヒューリスティッ

クな手法- 累積獲得報酬と無理なく従属する政策を導入し、頑健なアルゴリズムを提案- 定常でなければならい(自己相関が低い過程)という仮定を除外することに、より一般的なバンディットアルゴリズムを提案(各マシン独立のプレイ回数を考慮した確率的な報酬仮定を提案)