GTC 2016 ディープラーニング最新情報

146
エヌビディア合同会社 エンタープライズビジネス事業部 シニアマネージャー 井﨑 武士 GTC 2016 ディープラーニング最新情報

Transcript of GTC 2016 ディープラーニング最新情報

Page 1: GTC 2016 ディープラーニング最新情報

エヌビディア合同会社 エンタープライズビジネス事業部

シニアマネージャー 井﨑 武士

GTC 2016 ディープラーニング最新情報

Page 2: GTC 2016 ディープラーニング最新情報

DEEP LEARNING関連セッション

• 合計826セッション中166セッション

種類 件数

講演 116

パネル・ポスター 21

ハンズオン 17

ハングアウト 8

チュートリアル 4

Page 3: GTC 2016 ディープラーニング最新情報

講演・パネル・ポスターセッション

15%

9%

8%

7%

7%6%6%

5%5%

4%4%4%

20%

画像認識

最適化

プラットフォーム

オートモーティブ

メディカル

分散学習

音声認識

ニューラルネット

フレームワーク

映像認識

ビジョン処理

ロボット

その他

137セッション

Page 4: GTC 2016 ディープラーニング最新情報

Xian-Sheng Hua Senior Director/Researcher, Alibaba Group

DEEP LEARNING IN REAL-WORLD LARGE-SCALE IMAGE SEARCH AND RECOGNITION

Page 5: GTC 2016 ディープラーニング最新情報

5

商品認識と検索

Page 6: GTC 2016 ディープラーニング最新情報

6

特徴抽出は難しい

Page 7: GTC 2016 ディープラーニング最新情報

7

カテゴリ分類

Level1:60+Level2:1200+Leaf:10000+

Page 8: GTC 2016 ディープラーニング最新情報

8

オブジェクト検出正確なバンディングボックス

背景の写りこみ小さいオブジェクト

Page 9: GTC 2016 ディープラーニング最新情報

9

属性分類

Page 10: GTC 2016 ディープラーニング最新情報

10

類似デザイン検索

Page 11: GTC 2016 ディープラーニング最新情報

11

同一商品、類似品検索

Page 12: GTC 2016 ディープラーニング最新情報

Hailin Jin Principal Scientist, Adobe

DEEPFONT: FONT RECOGNITION AND SIMILARITY BASED ON DEEP LEARNING

Page 13: GTC 2016 ディープラーニング最新情報

13

Deep Font:

フォントの認識

フォントの類似性

問題点

効果的に使用されているか

デザインが独創的か

テキスト/イメージ編集での活用

Page 14: GTC 2016 ディープラーニング最新情報

14

課題

フォントの種類は莫大分かっているだけで10万フォント認識の難しさ微妙なデザインの違い実際の社会における学習データを集めるのが極めて難しい学習データとテストデータが異なる人工の学習データを作る必要がある

Page 15: GTC 2016 ディープラーニング最新情報

15

Deep Font

Deep Learning- CNN

大量のデータを処理するのに効果的きめ細かい認識に効果的

OCRの必要が無いEnd to End学習

Page 16: GTC 2016 ディープラーニング最新情報

16

DeepFontのシステム

Page 17: GTC 2016 ディープラーニング最新情報

17

DeepFontの学習

Page 18: GTC 2016 ディープラーニング最新情報

18

データオーグメンテーション

ノイズぼんやりとさせる変形影文字の空き具合アスペクト比

Page 19: GTC 2016 ディープラーニング最新情報

19

ネットワーク・デコンポジション

Page 20: GTC 2016 ディープラーニング最新情報

20

結果

Font Forumでの4383の実在のイメージでテスト

Page 21: GTC 2016 ディープラーニング最新情報

Chiyuan Zhang PhD Student, MIT

AUTOMATED GEOPHYSICAL FEATURE DETECTION WITH DEEP LEARNING

Page 22: GTC 2016 ディープラーニング最新情報

22

弾性波探査

探査段階:弾性波データは石油・ガス産業で非常に重要。深層にある石油を見つけるために使用され石油・ガス探査における様々なフェーズで初期および発掘時に現場の特徴づけに使用される

Page 23: GTC 2016 ディープラーニング最新情報

23

地球物理学的特徴検出の自動化

Page 24: GTC 2016 ディープラーニング最新情報

24

地球物理学的特徴検出の自動化

Page 25: GTC 2016 ディープラーニング最新情報

25

機械学習による断層の検知

Page 26: GTC 2016 ディープラーニング最新情報

26

学習データの合成

Page 27: GTC 2016 ディープラーニング最新情報

27

結果:プロット 単一断層

Page 28: GTC 2016 ディープラーニング最新情報

28

結果:プロット、複数断層

Page 29: GTC 2016 ディープラーニング最新情報

29

結果:プロット、岩塩

Page 30: GTC 2016 ディープラーニング最新情報

Konstantin Kiselev Data Scientist, Youth Laboratories

DEEP LEARNING ALGORITHMS FOR RECOGNIZING THE FEATURES OF FACIAL AGEING

Page 31: GTC 2016 ディープラーニング最新情報

31

美容:肌年齢測定から肌ケアへ若く保つためのケア方法への探求

美容師皮膚科医その他の医師

部分的な意見バイアス

一貫性が無い時間+お金

自己評価(鏡) バイアス

周囲の人部分的な意見バイアス

一貫性が無い

Page 32: GTC 2016 ディープラーニング最新情報

32

しわによる判断従来のプロセス

Page 33: GTC 2016 ディープラーニング最新情報

33

Deep Learningによるアプローチ

1. VGG-11 を用いて顔の領域を検出

2. しわスコアの算出

• SegNetを用いてしわマップを作成

• VGG-16を用いてRYNKLスコアを推定

*

Page 34: GTC 2016 ディープラーニング最新情報

34

データセットの集め方

AI判定による第1回目の国際ビューティコンテスト開催(2015年12月1日~2016年1月18日)

約3000に上る画像(解像度2K以上)+ 情報(体重、身長、年齢、性別、人種、国)

第2回目のコンテストを2016年5月1日~開催予定

結果

平均二乗誤差: 従来手法 0.39、 Deep Learning 0.32

Page 35: GTC 2016 ディープラーニング最新情報

Jiwon Kim Senior Research Engineer, Naver Labs

IMAGE-BASED STICKER RECOMMENDATION USING DEEP LEARNING

Page 36: GTC 2016 ディープラーニング最新情報

36

Lineスタンプのレコメンデーション

Page 37: GTC 2016 ディープラーニング最新情報

37

ネットワーク構成

Page 38: GTC 2016 ディープラーニング最新情報

38

クリック数評価

Page 39: GTC 2016 ディープラーニング最新情報

Bryan Catanzaro Senior Researcher, Baidu Research

TRAINING AND DEPLOYING DEEP NEURAL NETWORKS FOR SPEECH RECOGNITION

Page 40: GTC 2016 ディープラーニング最新情報

40

Deep Speech 音声認識End to End Learning

音声から直接文字を推論するDNN

Page 41: GTC 2016 ディープラーニング最新情報

41

Warp-CTC

BaiduのOpen source化されたCTC実装

CPUとGPUの並列化に効果的

他の実装に比べ100~400倍高速

Apacheライセンス、Cインターフェイス

Page 42: GTC 2016 ディープラーニング最新情報

42

Deep Speech2

Batch Norm

トレーニングデータ:1年半の蓄積データ(英語と北京語)

Page 43: GTC 2016 ディープラーニング最新情報

43

並列処理

モデル並列

データ並列

Page 44: GTC 2016 ディープラーニング最新情報

44

RNNトレーニング性能

Page 45: GTC 2016 ディープラーニング最新情報

45

All reduce / FP16

独自のAllreduceを実装 Maxwell

Pascal (推定)

Page 46: GTC 2016 ディープラーニング最新情報

Nigel Cannings Chief Technical Officer, Intelligent Voice Limited

DEEP CONVOLUTIONAL NEURAL NETWORKS FOR SPOKEN DIALECT CLASSIFICATION OF SPECTROGRAM IMAGES USING DIGITS

Page 47: GTC 2016 ディープラーニング最新情報

47

CNNを用いた方言分類NIST LRE Competition

6言語、20方言

アラビア語(エジプト、イラク、レバノン、マグレビ、標準語)

中国語(広東、北京、上海、台湾)

英語(英国、米国、インド)

フランス語(西アフリカ、ハイチ)

リベリア語(カリブスペイン、ヨーロッパスペインラテンアメリカスペイン、ブラジルポルトガル)

スラブ語(ポーランド、ロシア)

500時間以上のスピーチデータ

Page 48: GTC 2016 ディープラーニング最新情報

48

スペクトログラム+CNN

環境:NVIDIA DIGITS GoogLeNet

会話データを256x256のスペクトログラムに変換

異なるスペクトル表現やコーディングを試行

Page 49: GTC 2016 ディープラーニング最新情報

49

GoogLeNetでの処理

Page 50: GTC 2016 ディープラーニング最新情報

50

結果

Page 51: GTC 2016 ディープラーニング最新情報

Benjamin Elizalde PhD Student, Carnegie Mellon University

MINING AUDIO INFORMATION ON WEB VIDEOS AND RECORDINGS

Page 52: GTC 2016 ディープラーニング最新情報

52

ビデオから都市を特定オーディオで特定

10種類の典型的な都市の音

空調機、クラクション、子供の遊び声、犬の泣き声、アイドリング、銃声、手持ち削岩機、サイレン、ドリル、ストリートミュージック

18都市

バンコク、バルセロナ、北京、ベルリン、シカゴ、ヒューストン、ロンドンロサンゼルス、モスクワ、ニューヨーク、パリ、プラハ、リオ、ローマ、サンフランシスコ、ソウル、シドニー、東京

Page 53: GTC 2016 ディープラーニング最新情報

53

都市の認識フロー

Page 54: GTC 2016 ディープラーニング最新情報

54

認識例Children Playing and Siren in Rome

Page 55: GTC 2016 ディープラーニング最新情報

Jianxiong Xiao Assistant Professor, Princeton University

3D DEEP LEARNING

Page 56: GTC 2016 ディープラーニング最新情報

56

ロボットのための3次元 Deep Learning 認識

Page 57: GTC 2016 ディープラーニング最新情報

57

3次元での認識

Page 58: GTC 2016 ディープラーニング最新情報

58

3次元アモーダル物体検出

Page 59: GTC 2016 ディープラーニング最新情報

59

2次元物体検出

Page 60: GTC 2016 ディープラーニング最新情報

60

3次元アモーダル物体検出

Page 61: GTC 2016 ディープラーニング最新情報

61

3次元アモーダル物体検出

Page 62: GTC 2016 ディープラーニング最新情報

62

3次元 Deep Learning

Page 63: GTC 2016 ディープラーニング最新情報

63

3次元情報の符号化

Page 64: GTC 2016 ディープラーニング最新情報

64

3次元物体提案 ネットワーク

Page 65: GTC 2016 ディープラーニング最新情報

65

2次元コンボリューショナル・ニューラル・ネットワーク

Page 66: GTC 2016 ディープラーニング最新情報

66

3次元コンボリューショナル・ニューラル・ネットワーク

Page 67: GTC 2016 ディープラーニング最新情報

67

マルチスケール3D領域提案ネットワーク

Page 68: GTC 2016 ディープラーニング最新情報

68

マルチスケール3D領域提案ネットワーク

Page 69: GTC 2016 ディープラーニング最新情報

69

3次元物体認識ネットワーク

Page 70: GTC 2016 ディープラーニング最新情報

70

3次元物体認識例

Page 71: GTC 2016 ディープラーニング最新情報

71

結果:性能比較

Page 72: GTC 2016 ディープラーニング最新情報

72

Deep View Planning

Page 73: GTC 2016 ディープラーニング最新情報

Pavlo Molchanov Research Scientist, NVIDIA

HAND GESTURE RECOGNITION WITH 3D CONVOLUTIONAL NEURAL NETWORKS

Page 74: GTC 2016 ディープラーニング最新情報

74

ジェスチャー認識

Page 75: GTC 2016 ディープラーニング最新情報

75

本件のアプローチ方法

Page 76: GTC 2016 ディープラーニング最新情報

76

最良の分類器の選択VIVA CHALLENGE 2015 UCLA

http://cvrr.ucsd.edu/vivachallenge/index.php/hands/hand-gestures/

Page 77: GTC 2016 ディープラーニング最新情報

77

最良の分類器の選択3D Convolutional Neural Network

Page 78: GTC 2016 ディープラーニング最新情報

78

セグメントジェスチャー認識

Page 79: GTC 2016 ディープラーニング最新情報

79

一度目の結果

Page 80: GTC 2016 ディープラーニング最新情報

80

データ・オーグメンテーション

Page 81: GTC 2016 ディープラーニング最新情報

81

データ・オーグメンテーションSpatial geometric Transformation

元データ

拡大

縮小

左回転

右回転

左右移動

上下移動

Page 82: GTC 2016 ディープラーニング最新情報

82

データ・オーグメンテーションTemporal augmentation/Generating new training data

時間方向にフレームをずらす フリップ

Page 83: GTC 2016 ディープラーニング最新情報

83

公式の結果

Page 84: GTC 2016 ディープラーニング最新情報

84

認識速度

Page 85: GTC 2016 ディープラーニング最新情報

85

認識の遅延

Page 86: GTC 2016 ディープラーニング最新情報

86

オンライン・ジェスチャー認識R3DCNN

Page 87: GTC 2016 ディープラーニング最新情報

Shiliang Pu Executive Vice President, Hikvision Research Institute

INTELLIGENT VIDEO ANALYSIS SYSTEM BASED ON GPU AND DISTRIBUTED ARCHITECTURE

Page 88: GTC 2016 ディープラーニング最新情報

88

監視カメラが抱える問題

高解像度化 VS ストレージ

複雑さ VS 精度

大量のデータ VS 効率

Page 89: GTC 2016 ディープラーニング最新情報

89

監視カメラ分析システム

Page 90: GTC 2016 ディープラーニング最新情報

90

認識例

Page 91: GTC 2016 ディープラーニング最新情報

91

複雑なシーンコンテンツは従来のアルゴリズムでは難しい

Page 92: GTC 2016 ディープラーニング最新情報

92

Deep Learningによる飛躍的な認識率改善

従来のアルゴリズム Deep Learning

Page 93: GTC 2016 ディープラーニング最新情報

93

Deep Learningによる認識率向上

Page 94: GTC 2016 ディープラーニング最新情報

94

認識が難しい対象物

Page 95: GTC 2016 ディープラーニング最新情報

95

自動車の特徴における認識率向上

Page 96: GTC 2016 ディープラーニング最新情報

96

顔認識の例

Page 97: GTC 2016 ディープラーニング最新情報

97

対象車両の特定

Page 98: GTC 2016 ディープラーニング最新情報

Aishwarya Agrawal Ph.D. Student, Virginia Tech

VQA: VISUAL QUESTION ANSWERING

Page 99: GTC 2016 ディープラーニング最新情報

99

VQA

静止画について自然言語の自由回答質問を与え、自然言語の回答を生成する

Visual Answering Questions

Page 100: GTC 2016 ディープラーニング最新情報

100

使用用途

視覚障害者の補助

通りを渡っても安全ですか?

監視カメラ赤いシャツを着た男性が乗り去った車の種類は?

ロボットとの会話ノートPCは2階の寝室

にある?

Page 101: GTC 2016 ディープラーニング最新情報

101

VQA データセット

MSCOCOの画像データ自由回答形式の質問複数選択肢がある質問

Page 102: GTC 2016 ディープラーニング最新情報

102

VQA データセット

25万点以上のイメージデータ(MSCOCO+5万のイラストデータ)

75万の質問(3質問/イメージ)

1000万の回答

データセットはこちら

http://www.visualqa.org/

Page 103: GTC 2016 ディープラーニング最新情報

103

2チャンネル VQAモデル

Page 104: GTC 2016 ディープラーニング最新情報

104

精度の指標

Page 105: GTC 2016 ディープラーニング最新情報

105

自由回答形式の質問問題の精度

Page 106: GTC 2016 ディープラーニング最新情報

Ian Goodfellow Senior Research Scientist, OpenAI

GENERATIVE ADVERSARIAL NETWORKS

Page 107: GTC 2016 ディープラーニング最新情報

107

Generative Adversarial NetworksGenerative Modeling

Page 108: GTC 2016 ディープラーニング最新情報

108

Generative Adversarial Network

Page 109: GTC 2016 ディープラーニング最新情報

109

LAPGAN/DCGAN

Page 110: GTC 2016 ディープラーニング最新情報

110

DCGANのベクトル演算性

Page 111: GTC 2016 ディープラーニング最新情報

Mu Li Ph.D. Student, Carnegie Mellon University

Tianqi Chen Ph.D. Student, University of Washington

MXNET: FLEXIBLE DEEP LEARNING FRAMEWORK FROM DISTRIBUTED GPU CLUSTERS TO EMBEDDED SYSTEMS

Page 112: GTC 2016 ディープラーニング最新情報

112

MXNet:分散GPUクラスターから組込みシステムまで

Page 113: GTC 2016 ディープラーニング最新情報

113

MXNet:分散GPUクラスターから組込みシステムまで

Page 114: GTC 2016 ディープラーニング最新情報

114

ミックス プログラミング API

Page 115: GTC 2016 ディープラーニング最新情報

115

MXNet:両方の実装が可能

Page 116: GTC 2016 ディープラーニング最新情報

116

自動パラレルスケジューリング

Page 117: GTC 2016 ディープラーニング最新情報

117

分散コンピューティングデータ並列

Page 118: GTC 2016 ディープラーニング最新情報

118

分散コンピューティング:実装

Page 119: GTC 2016 ディープラーニング最新情報

119

分散コンピューティング:性能結果

Page 120: GTC 2016 ディープラーニング最新情報

120

マルチノード 分散コンピューティング

Page 121: GTC 2016 ディープラーニング最新情報

121

マルチノード分散コンピューティング:性能結果

Page 122: GTC 2016 ディープラーニング最新情報

122

多言語サポート

Page 123: GTC 2016 ディープラーニング最新情報

123

MinPy:MXNet Numpy パッケージ

Page 124: GTC 2016 ディープラーニング最新情報

124

メモリ最適化

Page 125: GTC 2016 ディープラーニング最新情報

125

豊富な動作環境

Page 126: GTC 2016 ディープラーニング最新情報

Antonio M. López Principal Investigator & Associate Professor, Computer Vision Center & Universitat Autònoma de Barcelona

TRAINING MY CAR TO SEE: USING VIRTUAL WORLDS

Page 127: GTC 2016 ディープラーニング最新情報

127

車の認識

Page 128: GTC 2016 ディープラーニング最新情報

128

仮想世界が使用できる?

Page 129: GTC 2016 ディープラーニング最新情報

129

自動注釈付けのための仮想世界

Page 130: GTC 2016 ディープラーニング最新情報

130

自動注釈付けのための仮想世界

Page 131: GTC 2016 ディープラーニング最新情報

131

Page 132: GTC 2016 ディープラーニング最新情報

132

Page 133: GTC 2016 ディープラーニング最新情報

133

Page 134: GTC 2016 ディープラーニング最新情報

134

Page 135: GTC 2016 ディープラーニング最新情報

Song Han PhD student, Stanford University

DEEP COMPRESSION AND EIE: DEEP NEURAL NETWORK MODEL COMPRESSION AND EFFICIENT INFERENCE ENGINE

Page 136: GTC 2016 ディープラーニング最新情報

課題

Page 137: GTC 2016 ディープラーニング最新情報

137

Deep Compression

Page 138: GTC 2016 ディープラーニング最新情報

138

Deep Compression

Page 139: GTC 2016 ディープラーニング最新情報

139

Pruning

Page 140: GTC 2016 ディープラーニング最新情報

140

Pruning:背景

Page 141: GTC 2016 ディープラーニング最新情報

141

Pruningによる精度変化

Page 142: GTC 2016 ディープラーニング最新情報

142

AlexNet & ConvNet

Page 143: GTC 2016 ディープラーニング最新情報

143

Natural TalkとLSTM

Page 144: GTC 2016 ディープラーニング最新情報

144

Natural TalkとLSTM

Page 145: GTC 2016 ディープラーニング最新情報

145

ディープラーニングのシステム開発にお困りでしたら

[email protected]

までお問い合わせください。

内容に応じ、各種パートナー企業様をご紹介します。

コンサルティング、システムインテグレーションなど各種ご相談に応じます

ディープラーニング相談室

Page 146: GTC 2016 ディープラーニング最新情報