finite time analysis of the multiarmed bandit problem

Finite-time Analysis of the Finite-time Analysis of the Finite-time Analysis of the Finite-time Analysis of the Multiarmed BanditMultiarmed BanditMultiarmed BanditMultiarmed Bandit

ProblemProblemProblemProblemPETER AUER,University of Technology GrazNICOL`O CESA-BIANCHI, University of Milan

PAUL FISCHER, Universitat Dortmund(ICML 2002ICML 2002ICML 2002ICML 2002)

@shima_x

概要　－強化学習の政策は活用と探索のジレンマに陥っている　－本稿は活用と探索の最良のバランスを探したい　－シンプルで効果的な政策とsupportsupportsupportsupportがバウンドされた報酬分布を導入し、時間

的に一様な最適な対数リグレットを示す

学習の政策と報酬

－リグレットの定義

当該マシンで遊ばれた回数

プレイ回数の期待値

報酬の期待値

nnnn回プレイ

腕の数

学習の政策と報酬

－政策が満たす条件

アルゴリズムで最適化された報酬の確率密度分布

報酬が最大となるμ****の報酬確率密度分布

カルバックライブラー距離

記号の定義

－以降の議論では以下の記号を前提として話を進める

全ての腕の中で最高の報酬任意の腕で獲得される報酬

Theorem 1

◆ UCB1UCB1UCB1UCB1 現在の平均報酬

平均報酬の片側信頼区間

Theorem 1

－nnnn回プレイ後の期待リグレット

報酬分布：

Theorem 1－ theorem1theorem1theorem1theorem1の証明のために以下を示す

よりも敵対的な定数

2222という数値は可能な数値の中でベストなもの（らしいが・・・）

Theorem 1－ UCB2UCB2UCB2UCB2の擬似コード

Theorem 1－マシンiiiiがプレイされる回数

－次の式で表される値が最大のマシンiiiiが選択される

現在のプレイ回数

Theorem 2－期待レグレット

※αを小さくとると、1/21/21/21/2Δiiii2222に近くなる

　（しかし、 α→0 0 0 0 とするとCCCCα→∞となる）　プレイ回数nnnnと共にαを徐々に減少させる

Theorem 3◆ ε-greedy-greedy-greedy-greedy概要　－期待報酬が最も高いマシンを1-1-1-1-εの確率で選択　－逆に一定確率εで常に探索を行う　－ ε=1/n=1/n=1/n=1/nとするモノをεnnnn-greedy-greedy-greedy-greedyとする（nnnnはプレイ回数）

Theorem 3◆ ε-greedy-greedy-greedy-greedyの政策

Theorem 3－最適な手が選択される確率の下限　　　　　　　　　　において

のときでをバウンド

第2222項、第3333項はε>0>0>0>0でO(1/nO(1/nO(1/nO(1/n1+1+1+1+ε))))にバウンドされる

Theorem 4◆ UCB1-NORMALUCB1-NORMALUCB1-NORMALUCB1-NORMALの政策　－平均、分散が未知の場合のUCB1(?)UCB1(?)UCB1(?)UCB1(?)

Theorem 4－期待報酬は以下のようになる

Proofs◆ 共通事項　－ nnnn回プレイした場合のリグレット

Proofs◆ 共通事項　－ Chernoff-Hoeffding boundChernoff-Hoeffding boundChernoff-Hoeffding boundChernoff-Hoeffding bound

　－ Bernstein inequalityBernstein inequalityBernstein inequalityBernstein inequality

Proofs◆ Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1（UCB1UCB1UCB1UCB1の各マシンのプレイ回数のバウンド）

より

TTTT****は敵対的な設定のTTTTの意味

敵対的設定にマシンiiiiのアルゴリズムが勝利した場合

Proofs◆ Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1Proof of Theorem 1（ UCB1 UCB1 UCB1 UCB1の各マシンのプレイ回数のバウンド）

－バウンドの条件式

より


より


一回あたりのリグレットがΔである事より

となり、リグレット上限が示された

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3（ ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド）

最適なマシンと判断された場合の確率

探索確率


x_0x_0x_0x_0で分割して変形して和をとっていると思うが・・・

Proofs◆ Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3Proof of Theorem 3（ ε-greedy-greedy-greedy-greedyの各マシンのプレイされる確率のバウンド）　－最適なマシンと判断されない場合のプレイ回数

実験

省略します

結論－シンプルで実現可能性が高いバンディットアルゴリズムを提案－ ε-greedy-greedy-greedy-greedy以外は決定論的なバウンドをもった政策を備えたアルゴリズムを提案－ ε-greedy-greedy-greedy-greedyはランダムにマシンが選択される動的に変化するヒューリスティッ

クな手法－累積獲得報酬と無理なく従属する政策を導入し、頑健なアルゴリズムを提案－定常でなければならい（自己相関が低い過程）という仮定を除外することに、より一般的なバンディットアルゴリズムを提案（各マシン独立のプレイ回数を考慮した確率的な報酬仮定を提案）

finite time analysis of the multiarmed bandit problem

Technology

Transcript of finite time analysis of the multiarmed bandit problem