[DL輪読会]Neural Episodic Control/Model-Free Episodic Control

23
Model-Free Episodic Control Neural Episodic Control M2 塩谷碩彬 2017/4/21

Transcript of [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Page 1: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Model-Free Episodic ControlNeural Episodic Control

M2 塩谷碩彬2017/4/21

Page 2: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

強化学習の進歩により色々凄いことができそう

● Atari● Alpha Go● hand eye cordination● guided policy search

Page 3: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

強化学習は進歩したけど、まだ人間に及ばない点も

進歩したところ 人間に及ばないところ

学習の早さ 効率化する手法が数多く提案されているone shotをうたう手法も

とはいえ時間かかりすぎatariで人間と同等の性能になるのに924時間(38日)

成功確率、性能 ATARI、Goなど、一部のゲームではsuper human level

manipulation taskなど、基本100%はないゲームでもダメなやつも

タスクの種類 ゲームからロボットまで プランニング、階層的なプランニングは得意でない

汎化性能(未知の環境、似たような別タスク )

転移学習、一つのネットワークで複数のタスク、未知環境への適応にむけた手法

忘れる、未知環境には基本弱い

Page 4: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

今回は学習の遅さを克服する論文の話です

進歩したところ 人間に及ばないところ

学習の早さ 効率化する手法が数多く提案されているone shotをうたう手法も

とはいえ時間かかりすぎ、人間だと20時間、DQNは200時間

成功確率、性能 ATARI、Goなど、一部のゲームではsuper human level

manipulation taskなど、基本100%はないゲームでもダメなやつも

タスクの種類 ゲームからロボットまで プランニング、階層的なプランニングは得意でない

汎化性能(未知の環境、似たような別タスク )

転移学習、一つのネットワークで複数のタスク、未知環境への適応にむけた手法

忘れる、未知環境には基本弱い

Page 5: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Model-Free Episodic Control

Page 6: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

書誌情報

● DeepMindの論文

● 2016/6/14 arXiv

Page 7: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

背景

● Hippocampal Contributions to Control: The Third way

○ NIPS 2007の論文○ エピソード記憶が人間の行動に使われているのでは?と

いう仮説から出発○ 簡単な問題設定で過去の経験をそのままつかった方法

の効率性を検証

Page 8: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

従来の強化学習における記憶の役割

● 記憶する構造をもったRLはあることはある○ LSTM,DNC, Memory Networkなど

● ただし、エピソード記憶というよりワーキングメモリであるものが多い○ 行動を参照するのではなく、あるエピソードにおいて過去たどってきた状態を記憶

○ 解いてる問題が違う

Page 9: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

提案手法:Model Free Episodic Control● 学習(価値関数の更新)

○ テーブルを持っておき、すでにテーブルにあれば更新、なければ追加

● 行動選択○ テーブルに値があればそれを、なければ最近傍方法で推定

● 状態表現の工夫○ 必要性:メモリを削減したい、元の表現のままでとる距離が適切でないかも

○ 対策:この論文では random projectionとVAEによる変換を提案

Page 10: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

実験1:Atari● 設定

○ Atariのゲーム5つでスコア比較

○ 変換にはrandom projectionとVAEを試す

○ DQN,DQN with prioritised replay,AC3と比較

● 結果○ 素早く良い行動にたどり着き、学習初

期においては比較手法より優秀

○ 学習が進むとDQN系の方が良いスコ

アを得られる(グラフにはのってない)

○ VAEはあまり効果がないようだ ...

Page 11: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

実験2:Labyrinth● 設定

○ 3D迷路ゲームで3つのレベルの

異なるタスク

○ 検証した手法は実験1と同じ

● 結果○ Atariと同様に素早く学習する

○ Double T-mazeのような報酬が

疎なタスクでもうまくいく(A3Cだ

と全く学習が進まない)

Page 12: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

限界と今後の展望

● 限界○ ある程度時間かけて訓練すれば DQN系の方が強い

○ 行動が連続値の場合に用いることができない

● 今後の展望○ 精度があがりきらなくても使える実用的な応用が見つかると良い

■ データがたくさんつかえない場合とか

Page 13: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Neural Episodic Control

Page 14: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

書誌情報

● DeepMindの論文○ Model-Free Episodic Controlの著者が何人か

○ Matching Network for One Shot Learningの筆頭著者であるOriol Vinyals さんが加わる

● 2017/3/6 arXiv

Page 15: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

課題意識

● DRLの学習が遅い原因のうち、以下の3点に焦点を当てる○ 確率的勾配降下法における小さい学習率。大きな学習率を用いると最適化がうまくいかない。

○ 報酬がスパースである場合、少数事例である報酬の獲得をうまく予測できない。

■ 比率の不明なクラス不均衡問題と考えられる

○ DQNのように時系列と関係ない順番での価値関数のブートストラップによる報酬の伝搬

● 学習を早くするには、他にも探索を工夫するとか、試行錯誤以外の知識を用いる

(転移学習)とかも考えられるが、この論文では扱わない

Page 16: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

提案手法:Neural Episodic Control● 素早い学習を実現するためのコンセプトはModel-Free Episodic Controlと同じ

○ 価値関数の推定をメモリに記憶した事例を用いた最近傍法による non parametricな形で行う

● 状態の写像→メモリ→価値関数の推定までをend to endで微分可能になった点が

異なる

Page 17: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Neural Episodic Control:行動選択時

CNNでs→hに変換 k(h, hi)に基づき、hに近いhiをp個選択

選択した事例と距離に基づく重みの線形和によりQを推定

Qが最大となるaを選択

Page 18: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

Neural Episodic Control:学習時

メモリ追加 更新

N-step Q-learningで推定

replaybuffer

replay bufferから取り出したbatchをつかい、Q値のL2 lossによる更新

Page 19: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

実験:Atari● 設定

○ Atariの57のゲームでスコア比較

○ 比較対象はDQN,Prioritized Replay, A3Cに加え、Q lambda, Retrace,Model Free Episodic Control

● 結果○ 学習初期において、NECがもっともスコアが良い

○ 学習が進むと、やはり他の学習方法が良い

○ Model Free Episodic Control と比較してスコアが良い

■ 状態sの写像までend to endで学習できている点が効いているのでは

Page 20: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

実験結果:スコア比較

Page 21: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

実験結果:学習曲線

Page 22: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

限界と今後の展望

● 限界○ ある程度時間かけて訓練すれば DQN系の方が強い

○ 行動が連続値の場合に用いることができない

● 今後の展望○ 長期的な性能を犠牲にしなくても済むような方法の発見

○ 3Dや実世界でのタスクなど、幅広いタスクへの適用と検証

Page 23: [DL輪読会]Neural Episodic Control/Model-Free Episodic Control

まとめ

● 強化学習は進歩したけど、まだ人間と比べてできないことがたくさんある

● 人間とのギャップを埋めるのに、人間の学習システムからヒントを得ようというアプ

ローチがある

● 実際に、人間のように学習に記憶を利用すると、強化学習も学習効率を高めること

ができる場合がある

● 人間の学習システムから学ぶ余地はまだ残っており、今後も同様のアプローチから

新しい手法が生まれるかもしれない