Lecture 15 of 41 Scene Graphs: State Videos 1: CGA Shorts ...
Generating Videos with Scene Dynamics
-
Upload
harmonylab -
Category
Engineering
-
view
273 -
download
5
Transcript of Generating Videos with Scene Dynamics
![Page 1: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/1.jpg)
GeneratingvideoswithsceneDynamics
M1 桶智輝 2017/11/17
1
![Page 2: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/2.jpg)
論⽂情報•タイトル• GeneratingvideoswithsceneDynamics
•発表学会• NIPS2016
•被参照数(2017/11/16現在)• 90件
•著者• CarlVondrick,Hamed Pirsiavash,AntonioTorralba(MIT,UniversityofMarylandBaltimoreCountry)
2
![Page 3: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/3.jpg)
概要• 3DGANを⽤いて動画を学習
3
![Page 4: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/4.jpg)
⽣成動画の特徴
4
![Page 5: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/5.jpg)
⽣成動画の特徴•ある部分は静⽌し、ある部分だけ動いている
5
![Page 6: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/6.jpg)
学習ネットワーク構成 - Generator
• ForegroundとBackgroundを分離
6
![Page 7: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/7.jpg)
学習ネットワーク構成 - Discriminator
•⼊⼒はサイズ64x64で32フレームの動画
7
![Page 8: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/8.jpg)
学習パラメータ• Adam(Learningrate:0.0002)• Momentum:0.5• Batchsize:64• w← N(σ2 =0.01,μ =0)
8
![Page 9: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/9.jpg)
実験•データ• Flickrから集めた5000時間overの動画
• アノテーションはなし• 1つの動画は64x64で32フレーム分
•実験• 動画⽣成タスク• 動画認識タスク• 未来動画⽣成タスク
9
![Page 10: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/10.jpg)
動画⽣成タスク -詳細•評価⼿法• 異なる3つのネットワークから⽣成される動画を雇った150⼈にどの動画が好きかをアンケート• ネットワーク種類
• VGANtwostream• 基本型
• VGANonestream• 基本形のGeneratorでBackgroundブランチのない型
• Autoencoder• Encoder部分はDiscriminatorの最終層が100次元Decoder部分はVGANtwostreamのGenaratorと同じ構成
10
![Page 11: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/11.jpg)
動画⽣成タスク -結果• VGAN twostreamの動画⽣成結果
11
![Page 12: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/12.jpg)
動画⽣成タスク -結果• GeneratorのMaskブランチ第3層を可視化• オブジェクトの位置を認識している
12
![Page 13: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/13.jpg)
動画⽣成タスク -結果• 定量的評価• VGANtwostreamの動画を好む⼈が他⼿法の動画を好む⼈と⽐較して多かった• 現実世界の動画と⽐較した追加実験でも他⼿法よりVGANtwostreamを好む⼈が多かった
13
![Page 14: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/14.jpg)
動画認識タスク -詳細•⾏動分類• 動画データセットUCF101の分類タスク• 他の教師なし学習の⼿法と⽐較
• VGANtwostreamで前タスクと同様に学習した後、UCF101でFinetuningしたもの
• 重みをランダムに初期化した後、UCF101でFinetuningしたもの
14
![Page 15: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/15.jpg)
動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習
Whatcategory?
15
![Page 16: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/16.jpg)
動画認識タスク -詳細• VGANtwostreamを動画⽣成タスクと同様に学習•最終層をn-classsoftmax層に置き換え• UCF101を⽤いてカテゴリ分類問題としてFinetuning
1x1x1(n)
Whatcategory?
16
![Page 17: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/17.jpg)
動画認識タスク -結果
•他の教師なし⼿法と⽐較するとAccuracyが⾼い•教師あり学習には⼤きく離されている• Finetuningする際のデータが少なくても有効⻘:ランダムに初期化した重みにFinetuning⾚:VGANで学習した重みにFinetuning
17
![Page 18: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/18.jpg)
• Generatorへの⼊⼒を100次元ベクトルではなく画像を4回畳み込んだベクトルに•⼊⼒画像から32フレームの動画を⽣成
未来動画⽣成ネットワーク構成 - Genarator
18
![Page 19: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/19.jpg)
•⾚⽮印は特に動いてる部分•背景と物体の分離が少し⾒て取れる
未来動画⽣成ネットワーク構成 - Genarator
19
![Page 20: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/20.jpg)
未来動画⽣成ネットワーク構成 - Genarator
• Maskを可視化した結果•オブジェクトを認識できている
20
![Page 21: Generating Videos with Scene Dynamics](https://reader034.fdocuments.net/reader034/viewer/2022042707/5a680f607f8b9a81378b5987/html5/thumbnails/21.jpg)
まとめ• 3DGANを⽤いて動画を学習• 背景とオブジェクトを分離するVGANtwostream• 精度はまだ不⼗分だが動画⽣成に成功• 動画⽣成だけでなく動画認識の事前学習にも有効
21