[DL輪読会]Understanding deep learning requires rethinking generalization

28
Understanding Deep Learning Requires Rethinking Generalization D3 Yusuke IWASAWA 1

Transcript of [DL輪読会]Understanding deep learning requires rethinking generalization

Page 1: [DL輪読会]Understanding deep learning requires rethinking generalization

Understanding Deep Learning Requires Rethinking

GeneralizationD3 Yusuke IWASAWA

1

Page 2: [DL輪読会]Understanding deep learning requires rethinking generalization

書誌情報• ICLR2017 oral accepted

• Rating9.5 (1st!!!)• Chiyuan Zhang, Samy Bengio, Moritz Harbd, Benjamin Recht,

Oriol Vinyasls• MIT, Berkeley, Google Brain, DeepMind の混合• 1st author が Google Brain でインターンしてた時の研究• Harbd さん, Recht さんはそもそも汎化性能に関する研究をしている人っぽい

• 反省:輪読して質問が出やすい系の論文じゃないかもしれない( じっくり考えないとよくわからない )

2

Page 3: [DL輪読会]Understanding deep learning requires rethinking generalization

Final Decisions:

3

Page 4: [DL輪読会]Understanding deep learning requires rethinking generalization

RQ: 良い汎化性能を達成する理由は ?• 一般的な DL の問題設定:サンプル数 <<<< パラメタの数• しかし,汎化性能は◎• 一方で汎化性能の悪い NN を考えることも簡単• 汎化性能の「良い」 NN と「悪い」 NN を分けるのは何か?“ What is it then that distinguishes neural networks that

generalize well from those that don’t?”

4

Page 5: [DL輪読会]Understanding deep learning requires rethinking generalization

汎化性能に関する従来指標1. 仮説集合 H の複雑さ

1. VC dimension [Vapnik, 1998]2. Rademacher complexity [Bartlett, 2003]

2. アルゴリズム A の安定性1. Uniform stability [Mukherjee et al., 2002]

Þ複雑なモデルの汎化性能の保証には正則化が必須である

5

Page 6: [DL輪読会]Understanding deep learning requires rethinking generalization

本論文の◯✕◯ DL の汎化性能が従来の理論的枠組みで説明できないこと◯ DL が訓練データをすべて覚えているという実証結果◯ DL において正則化が汎化性能に必須でも最重要でもないこと◯ 2 層の MLP が特定条件化でデータを完全に記憶できること◯ SGD が暗黙的正則化として機能すること✕ DL がなぜ汎化性能が良いかの統一的理解✕ DL の汎化性能をどうすれば高められるかの提案

6

Page 7: [DL輪読会]Understanding deep learning requires rethinking generalization

本発表の◯✕◯◯ DL の汎化性能が従来の理論的枠組みで説明できないこと◯◯ DL が訓練データをすべて覚えているという実証結果◯◯ DL において正則化が汎化性能に必須でも最重要でもないこと◯✕ 2 層の MLP が特定条件化でデータを完全に記憶できること◯△ SGD が暗黙的正則化として機能すること✕✕ DL がなぜ汎化性能が良いかの統一的理解✕✕ DL の汎化性能をどうすれば高められるかの提案

7

Page 8: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 1 :無作為化テスト• 目的• どのくらいのパラメタを持つ NN が良いモデルなのか?

• 方法• 無作為化テスト• 出力ラベルをランダムに変更したデータで学習• (普通に考えるとランダム度合いを高めれば学習できないはず)

• 結果• 多くのモデルがランダムにしても 100% の精度で学習

8

Page 9: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 1 :検証方法• 無作為化の方法• 1. ラベルをランダムに変更する• 2. 入力をランダムに変更する (Random , Shuffle , Gaussian)

• データセット• CIFAR10 と ImageNet

• モデル• Inception v3 、 Alxexnet 、 MLPs• 詳細は付録 A 参照

9

Page 10: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 1 :結果( CIFAR10 )

いずれもerr=0%

10

Page 11: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 1 :ランダム度合いの変更

ランダム強=> 収束遅

ランダム強=> 過学習

11

Page 12: [DL輪読会]Understanding deep learning requires rethinking generalization

詳細設定・結果1. 学習率のスケジューリングは行っていない2. なんならハイパーパラメタも調整してない ( True と同じ)3. 適合し始めたらすぐ収束 ( True よりは遅い)4. 完全に(過)学習5. 収束速度は

True < Shuffle Pixel < Gaussian = Rand Pixel < Rand Label6. ImageNet では top-1 が 95.20% 、 top-5 は 99.14%

• ※100 万枚、 1000 カテゴリ、全部ランダムなラベルでの結果12

Page 13: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 1 から得られた示唆• Radermacher complexity and VC-dimension• 仮説集合 H の複雑さの指標• ランダムなラベルに対する予測精度の上界の期待値• 今回の結果から Rademacher complexity は 1

=> 何の上界も抑えない( DL は悪いモデルということになる)• Uniform stability• 訓練アルゴリズム A の安定性の指標• ランダムに 1 つ事例を変えたときに結果がどう変わるか• データの性質を考慮していない?

13

Page 14: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 2 :正則化のオフ• 目的• DL における正則化の効果の確認

• 方法• 各モデルの正則化をオフにする1. データ拡張 (Data augmentation) 2. 重み減衰 (Weight decay)3. ドロップアウト (Dropout)

14

Page 15: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 2 :正則化のオフ (CIFAR10)正則化無し

15

Page 16: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 2 :正則化のオフ (ImageNet)

正則化無し

16

Page 17: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 2 :結果詳細• ImageNet では正則化なくすと top-1 が 18% 低下• Top-1: 59.80%• Top-5: 80.38%

• ただし正則化なくても十分よい• vs. ランダム予測( 0.1% in top-1 )• vs. ILSCRC winner ( 83.6% in top-5 )

• ちなみにデータ拡張の効果が最も大きい• データ拡張のみで top-1 は 72.95% まで向上

17

Page 18: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 3 :暗黙的な正則化• 暗黙的な正則化• 副次的な効果として正則化的な効果を持つもの• 例 1 :早期終了 [Yao et al., 2007; Lin et al.,2016]• 例 2 :バッチ正規化 [Szegedy et al., 2015;He tet al., 2016]

• 明示的な正則化• 明示的に関数の複雑さを制限するもの• 例 1 :ドロップアウト• 例 2 :重み減衰

こちらの効果を検証

18

Page 19: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 3 :早期終了

19

早期終了の効果低

Page 20: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 3 :早期終了 + バッチ正規化

20

訓練はほぼおなじ

早期終了はほぼ効果なし

BN の効果も数 %

Page 21: [DL輪読会]Understanding deep learning requires rethinking generalization

実験 1, 2, 3 で得られた示唆• モデル自体の複雑さでは DL の汎化性能を評価できない• DL はランダムな訓練データにも完全に適合する(実験 1 )

• 正則化は汎化性能を改善するが決定的でも必須でもない• 実験 2: 明示的な正則化無しでも良い汎化性能• 実験 3: 早期終了やバッチ正規化の影響は軽微

結局何が DL の汎化性能を高めているのか?21

Page 22: [DL輪読会]Understanding deep learning requires rethinking generalization

仮説: SGD の利用による暗黙的正則化• 5章に線形モデルでの説明が書いてある•ざっくりまとめると, SGD は暗黙的に正則化として機能する• フォーラム見ると議論あるのでそちらを参考にすると良いかも

22

Page 23: [DL輪読会]Understanding deep learning requires rethinking generalization

仮説:学習の速さ

23

同じ著者の別論文

Page 24: [DL輪読会]Understanding deep learning requires rethinking generalization

まとめ• 主張

• DL の汎化性能は従来の枠組みで説明できない• サポート

• DL はランダムな訓練データにもほぼ完璧にフィットする(データを完全に記憶している)

• DL において正則化は汎化性能を改善するが,正則化ゼロでも良い(モデル構造や学習方法などその他の部分に鍵がありそう)

• 含まれないこと• 良い汎化性能を達成する方法,達成するための将来課題

24

Page 25: [DL輪読会]Understanding deep learning requires rethinking generalization

• H :仮説集合

• h :仮説

• σ :ランダムなラベル

• としたときに最も適合する仮説 h の期待値

Rademacher complexity

25

Page 26: [DL輪読会]Understanding deep learning requires rethinking generalization

VC 次元• 仮説集合に含まれる仮説が細部( Shatter )できる点の数• Shatter とは,任意の 2クラスに分類できること

•経験損失は VC 次元で抑えられる

26

Page 27: [DL輪読会]Understanding deep learning requires rethinking generalization

Uniform Stability• 訓練アルゴリズム A の安定性の指標• ランダムに 1 つ事例を変えたときに結果がどう変わるか• データの性質を考慮していない?

27

Page 28: [DL輪読会]Understanding deep learning requires rethinking generalization

関連研究• [Hardt 2016]• Uniform stability に基づく分析• => uniform stability はランダムなラベルと正しいラベルの結果を区別できない

• [Cybenko, 1989;Mhaskar, 1993] など• これらの研究は関数レベルの近似能力• => 有限サンプルの近似能力を検証

28