Bag-of-Frames と時空間特徴量を用いた Semantic...
Transcript of Bag-of-Frames と時空間特徴量を用いた Semantic...
![Page 1: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/1.jpg)
Bag-of-Frames と時空間特徴量を用いた
Semantic Indexing Taskへの取り組み
![Page 2: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/2.jpg)
アウトライン
はじめに
関連研究
手法
時空間特徴抽出手法
Bag of Framesによる全フレーム認識
キーフレームの利用
実行環境
結果
反省点
おわりに
![Page 3: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/3.jpg)
はじめに
国際映像処理ワークショップTRECVID
膨大な動画データを利用
課題の提示、結果の公表
Semantic Indexing Task
動画中の概念を認識し、概念に沿った動画から順に索引付けを行うタスク
2010年から概念カテゴリが20種類から130種類に増加
公式の平均適合率の算出は30種類の概念
![Page 4: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/4.jpg)
関連研究
TRECVIDにおけるマルチフレーム認識
MediaMillチーム[2]
複数のフレームから取得した特徴量を統合
東京工業大学チーム[3]
時空間特徴と視覚特徴の統合
Liu[4]らの研究
Adaboostによる統合
![Page 5: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/5.jpg)
方針
2010年からTRECVIDのデータセットが更新
Webから収集した動画に
野口[1]によるWeb動画認識で利用した特徴
ドロネー三角形を利用した時空間特徴など
本チームがTRECVID 2009で利用した特徴
キーフレームから取得したカラーヒストグラムなど
Multiple Kernel Learningで統合
![Page 6: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/6.jpg)
動画認識の概要
ショット動画
Multiple Kernel Learning(MKL)による学習
Motion:動き特徴
オプティカルフローによる表現
ST:時空間特徴
ドロネー三角形を
用いた手法
ヒストグラムをBag of Frames表現にする Bag-of-Spatio-temporal-
Feature表現
認識
キーフレーム
特徴 (RGBヒストグラムなど
7特徴)
キーフレームから取得
野口の作成した特徴 TRECVID2009で利用した特徴
Gabor:視覚特徴
フレーム毎に取得
![Page 7: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/7.jpg)
ST:時空間特徴
1.SURFによる特徴点抽出
2. オプティカルフローの小さい
特徴点を除去(Lucas-Kanade法)
3.ドロネー三角分割法により
三座標による特徴を取得
4.各特徴の3頂点のオプティカルフローと面積変化を計算
5.視覚特徴と動き特徴を結合し257次元の特徴抽出
SURF視覚特徴64次元×3
動き特徴ヒストグラム(5次元*4フレーム*3座標)
三角面積(1次元*5フレーム)
![Page 8: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/8.jpg)
Bag-of-Spatio Temporal Feature(BoSTF)
Bag-of-Features(BoF)を動画に拡張したもの
画像を局所特徴の出現頻度で表現する(BoF)
動画を時空間特徴の出現頻度で表現する(BoSTF)
ベクトル量子化
ST:時空間特徴は5000次元のBoSTF表現として利用
![Page 9: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/9.jpg)
Motion:動き特徴
オプティカルフローを用いてフレーム全体の動き情報を表現
8方向、7段階に分類し56次元のヒストグラムを抽出
カメラモーションが生じたフレームからは取得しない
![Page 10: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/10.jpg)
カメラモーション除去
動画特有の特徴利用の際、カメラモーション除去が重要
グリッドで動きを計算
動いた領域の割合が一定以上ならカメラモーションと見なす
カメラモーションが検出されたフレームは時空間特徴、動き特徴に利用しない
![Page 11: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/11.jpg)
Gabor:ガボール特徴
ガボールフィルターを用い,画像の局所的な濃淡情報を表現
フィルタカーネル:6方向,4周期
画像を20×20グリッドに分割
一つのフレームから400個の24次元の特徴を抽出
合計9600次元の特徴として利用
![Page 12: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/12.jpg)
Bag of Frames(BoFr)による全フレーム認識
Gabor、Motion特徴はBag of Frames表現で利用する
フレーム一枚から得られた特徴全体を、一つの局所特徴と見なし、1動画中の出現頻度で動画を表現
ベクトル量子化
全フレームの利用により動画の大域的な特徴の取得
Motion:動き特徴は3000次元のBoFr表現として利用
Gabor:ガボール特徴は5000次元のBoFr表現として利用
![Page 13: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/13.jpg)
キーフレームの利用
2009年のTRECVIDで用いたキーフレームから取得した視覚特徴も一部利用した
カラーヒストグラム
画像全体からHSV、RGB、Luvそれぞれの色空間ヒストグラム64次元
1画像4*3分割しHSV、RGB、Luvそれぞれの色空間ヒストグラム768次元
顔特徴
Haar-Likeによる顔検出を利用
検出した顔個数1次元のみ取得
![Page 14: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/14.jpg)
Multiple Kernel Learning(MKL)
カテゴリごとに認識で重要な特徴は異なるはず
重要な特徴に適切な重みづけを行うことで実現
複数のサブカーネルの線形結合
最適な重みβを求める(MKL問題)
凸面最適化問題として解く
![Page 15: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/15.jpg)
実行環境
主に利用した計算クラスタマシン
Phenom II X4 3.0 quad core メモリ4GB
OS:Fedora 11(x64)
処理時間(130カテゴリ合計)
特徴抽出:3.5週間程度
学習データ:2週間程度(40コア程度利用)
テストデータ:1.5週間程度(80コア利用)
MKLの学習:2日前後(100コア利用)
テスト分類:2日前後(100コア利用)
![Page 16: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/16.jpg)
実験
TRECVIDデータセット 学習動画118305ショット
テスト動画144591ショット
2000位までの推定平均適合率(infAP)で評価
Full Category 30カテゴリ認識
Light Category 10カテゴリ認識
手法 統合手法にMKLを利用(UEC_MKL)
特徴を単純結合しSVMを利用(UEC_AVG)
![Page 17: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/17.jpg)
結果(Full Category)
全30チーム中14位(UEC_MKL)
infAP=0.0478(UEC_MKL)86手法中32位
infAP=0.0117(UEC_AVG) 86手法中70位
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
F_A
_M
M.C
apta
inSl
ow
_4
F_A
_R
EG
IM_4_2
F_A
_FT
RD
BJ-
HLF-2
_2
F_A
_T
T+
GT
_ru
n1_1
F_A
_Pic
SOM
_2ge
om
-max
_2
F_C
_M
M.Jezz
a_2
F_A
_C
U.A
thena_
3
F_A
_M
arburg
2_3
F_A
_M
arburg
1_4
F_A
_U
C3M
_4_4
F_A
_U
C3M
_2_2
F_A
_Q
uae
ro_R
UN
03_3
F_A
_in
ria.
will
ow
_1
F_A
_D
FK
I-M
AD
M_4
F_A_VIREO.baseline_vk_c…
F_A
_V
IREO
.bas
elin
e_vk
_3
F_A
_IR
IM_R
UN
4_4
F_A
_T
T+
GT
_ru
n2_2
F_A
_IT
I-C
ER
TH
_2
F_A
_N
HK
STR
L3_3
F_A
_N
TU
-RF-L
_3
F_A
_Fudan
.TV
10.2
_2
F_A
_N
TU
RFB_4
F_A
_in
ria.
will
ow
_3
F_A
_LIF
_R
UN
4_4
F_C
_nii.
ksc
.run1002_2
F_D
_K
BV
R_2
F_A
_Fuzh
ou_R
un1_1
F_D
_K
BV
R_1
F_A
_FIU
-UM
-3_3
F_A
_C
MU
4_4
F_A
_C
MU
2_2
F_A
_FIU
-UM
-4_4
F_A
_Fzu
_R
un3_130c_
3
系列2
系列1
UEC_MKL UEC_AVG
![Page 18: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/18.jpg)
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Air
pla
ne
Anim
al
Asi
an_People
Bic
yclin
g
Boat
_Sh
ip
Bus
Car
Cheeri
ng
Citys
cape
Cla
ssro
om
Dan
cing
Dar
k-s
kin
ned_People
Dem
onst
ration_O
r_Pro
test
Doorw
ay
Explo
sion_Fir
e
Fem
ale_Pers
on
Flo
wers
Gro
und_V
ehic
les
Han
d
Mounta
in
Nig
htt
ime
Old
_People
Runnin
g
Singi
ng
Sitt
ing_
Dow
n
Swim
min
g
Tele
pho
ne
Thro
win
g
Vehic
le
Wal
kin
g_R
unnin
g
Median
Max
Ours
Flowers
Full Categoryのカテゴリ別認識精度
Mountain Swimming Car Bus
Sitting
Down
Dancing Classroom
![Page 19: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/19.jpg)
結果(Light Category)
0
0.02
0.04
0.06
0.08
0.1
0.12
F_A_REGIM…
F_A_MM.Ca…
L_A_Eureco…
F_A_NEC-…
F_A_TT+G…
F_A_CU.Ar…
F_A_NEC-…
F_A_PicSO
…
F_A_PicSO
…
F_A_CU.He…
F_A_Marbu…
F_A_Marbu…
F_A_UC3M…
F_A_Quaer…
F_A_TT+G…
F_A_VIREO…
F_A_UC3M…
F_A_VIREO…
F_A_inria.wi…
L_A_MCPR…
F_A_MUG-…
L_A_Eureco…
L_A_MMM-…
L_A_MMM-…
F_A_Fudan.…
F_A_NHKS…
F_A_brno.b…
L_A_MMM-…
L_A
_C
MU
3_3
F_A_Fuzhou…
F_A_NTUR…
F_A_LIF_R…
F_A_MUG-…
F_D_NTU-…
L_B_JRS-…
L_A_SJTU-…
F_C_nii.ksc.…
F_A_nii.ksc.…
F_A_brno.r…
F_A_LIF_R…
L_A_MMM-…
F_A_uzay.sy…
L_A
_IR
IT_2_2
F_A
_C
MU
1_1
F_A_nii.PyC…
L_B_ntt-ut-…
L_A
_IR
IT_1_1
L_A_LSIS_…
F_A_FIU-…
F_A_IIPLA_…
系列2
系列1
UEC_MKL
UEC_AVG
全37チーム中12位(UEC_MKL)
infAP=0.0393(UEC_MKL) 128手法中31位
infAP=0.0077(UEC_AVG)128手法中94位
![Page 20: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/20.jpg)
Light Categoryのカテゴリ別認識精度
0
0.05
0.1
0.15
0.2
0.25
0.3
Median
Best
Ours
Classroom Bus
![Page 21: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/21.jpg)
結果紹介
成功例:Dancing
466枚:1つの動画から複数選択されていることが多い
失敗例:Bus
31枚:わずかな学習データ
失敗例2:Walking_Running
2379枚:多様な学習データ
![Page 22: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/22.jpg)
反省点
メモリ容量による学習データ数の限度あり
15000個利用した場合2週間計算しても終わらないことも
たくさんのネガティブデータをどう利用するか
今回の場合ネガティブデータ5000個程度
段取りが重要
130種類のカテゴリの認識なので、計画的に行う必要
MKLのパラメータ調整を行う時間が作れなかった
![Page 23: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい](https://reader035.fdocuments.net/reader035/viewer/2022062504/5a7104827f8b9a9d538c8536/html5/thumbnails/23.jpg)
おわりに
まとめ
時空間特徴、bag-of-Framesなどの特徴の利用、MKLによる統合を行った結果、
30チーム中14位、86手法中32位の結果を得た
TRECVID 2011に向けて
学習データの少ないカテゴリが存在
認識精度向上のためWeb上の情報を利用する(Image-net)