ユーザ部門のユーザ部門による 顧客のためのシステ …ユーザ部門のユーザ部門による 顧客のためのシステム構築術 無断で第三者へ開示・複製・転送・配布等しないでください。
ユーザの表情に基づく 映像コンテンツへのタギング
-
Upload
alvin-solis -
Category
Documents
-
view
47 -
download
0
description
Transcript of ユーザの表情に基づく 映像コンテンツへのタギング
![Page 1: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/1.jpg)
ユーザの表情に基づく映像コンテンツへのタギング
神戸大学 大学院工学研究科 宮原 正典,青木 政樹,滝口 哲也,有木 康雄
![Page 2: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/2.jpg)
研究の背景
テレビのディジタル放送開始→多チャンネル化 YouTube, ニコニコ動画など動画共有サイトの発達
ユーザが視聴可能な映像コンテンツが増大 見たい番組を簡単に探すのが困難に
番組自動推薦システムの必要性 ⇒ 映像コンテンツへの自動タギング手法
![Page 3: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/3.jpg)
番組自動推薦システム(ユーザ解析)リモコン操作履歴 [1]
好きなキーワード [2]
顔表情 [3]
(コンテンツ解析)映像シーンの動きシーンの色変化顔・物体認識
タグつきコンテンツデータベース
(番組推薦)
[1]2001,Taka [2]2001,Masumitsu [3]2006,Yamamoto
![Page 4: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/4.jpg)
従来手法の課題と提案
⇒ 関心「有」をさらに,正の関心,負の関心に詳細化
⇒ 特徴抽出に EBGM[1997,Wiskott] の導入
⇒ 学習によって,自動的にリジェクトする機能
従来の顔表情に基づくタギング手法 [2006,Yamamoto]
関心の「有無」の 2 クラスのみを判定
顔の傾きやオクルージョンに弱い
![Page 5: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/5.jpg)
想定環境
User
Webcam
Display
PC
ユーザは PC のディスプレイに映るコンテンツを 1 人で視聴
ウェブカメラはユーザを撮影
PC はコンテンツの再生とユーザ顔動画の解析処理
想定環境上面図
![Page 6: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/6.jpg)
提案システムの概要
特徴抽出
User’s profile
EBGM
SVM
無表情画像
個人用顔表情識別器
個人認識
AdaBoost顔表情認識
・ Neutral
・ Positive
・Negative
・Rejective
Tag
![Page 7: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/7.jpg)
AdaBoost による顔領域抽出
Haar-like 特徴を用いた AdaBoost により,正確な顔領域の抽出を行う. [2001,Viola]
顔領域を切り出すことで,ユーザとカメラとの距離を正規化できる
EBGM において,探索範囲を限定することで,計算時間を短縮
利点
![Page 8: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/8.jpg)
EBGM による特徴点抽出・個人認識
画像を,様々な周波数と方向を持った Gabor フィルターで畳み込み,それらの応答の集合を Jet とする.
顔特徴点の各点の Jet を組み合わせたものを Face Graph と呼び,あらかじめ複数人から Face Graph を生成して束ねたものを Bunch Graph と呼ぶ.
Bunch Graph と入力画像の Face Graph の類似度を計算し,特徴点の探索を行い,特徴点抽出と個人認識を行う.
Jet Bunch GraphGabor Wavelet
[1997,Wiskott]
![Page 9: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/9.jpg)
SVM による顔表情認識
EBGM の個人認識により,個人を特定し,その人の無表情画像と個人顔表情識別器を選択する.
EBGM によって抽出された 34 点の顔特徴点について,無表情のときとの差分を取った, 68次元のベクトルを特徴ベクトルとする.
Multiclass SVM(RBF カーネル ) により顔表情認識を行う.
![Page 10: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/10.jpg)
顔表情のクラス分類 ( タグ ) 定義
クラス名 内容
Neutral (Neu) 無表情
Positive (Pos) 喜び,笑い,快,など
Negative (Neg) 怒り,嫌悪,不快,など
Rejective (Rej)
画面に顔を向けていない,顔の一部が隠れている,
顔が傾いている,など
![Page 11: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/11.jpg)
実験条件
被験者 2名 (A,B) に 1回約 17分間の映像コンテンツを 4回分視聴させる.
その際,被験者を撮影した動画と,再生されている映像コンテンツを同期させながら, 15fpsで記録.
その後,以下のようなインターフェースを用いて,顔表情タギングを手動で行った.
![Page 12: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/12.jpg)
顔動画の手動タギング結果
Neu Pos Neg Rej 合計被験者
A49865 7665 3719 1466 62715
被験者B
56531 2347 3105 775 62758
表:各表情クラスのタギングフレーム数
この手動タギング結果つきの顔動画を
実験動画と呼び,以降の評価実験で用いる.
![Page 13: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/13.jpg)
予備実験 1
特徴抽出
User’s profile
EBGM
SVM
無表情画像
個人用顔表情識別器
個人認識
AdaBoost顔表情認識
・ Neutral
・ Positive
・Negative
・Rejective
Tag
AdaBoost による顔領域抽出の精度について実験を行った
![Page 14: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/14.jpg)
予備実験 1- AdaBoost による顔領域抽出
被験者 A Neu Pos Neg
誤検出数 20 3 1
全フレーム数 49865 7665 3719
誤検出率(%)
0.0401 0.0391 0.0269 被験者 B Neu Pos Neg
誤検出数 132 106 9
全フレーム数 56531 2347 3105
誤検出率(%)
0.2335 4.5164 0.2899
被験者 B は笑うと,顔を大きく上に向ける癖があり,顔以外の部分が顔と誤検出される傾向があった.
未検出率は被験者 A,B ともに 0%だった. 誤検出率については,以下の表の通り.
![Page 15: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/15.jpg)
予備実験 2
特徴抽出
User’s profile
EBGM
SVM
無表情画像
個人用顔表情識別器
個人認識
AdaBoost顔表情認識
・ Neutral
・ Positive
・Negative
・Rejective
Tag
EBGM による個人認識の精度について実験を行った
![Page 16: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/16.jpg)
予備実験 2- EBGM による個人認識
被験者 A Neu Pos Neg
誤認識数 2 0 0
全フレーム数 49845 7662 3718
誤認識率(%)
0.0040 0.0000 0.0000 被験者 B Neu Pos Neg
誤認識数 2 20 0
全フレーム数 56399 2241 3096
誤認識率(%)
0.0035 0.8925 0.0000
個人認識の精度に問題がないことを確認.
EBGM で個人認識をし,個人用の識別器を選択をすることは十分可能といえる.
![Page 17: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/17.jpg)
評価実験
特徴抽出
User’s profile
EBGM
SVM
無表情画像
個人用顔表情識別器
個人認識
AdaBoost顔表情認識
・ Neutral
・ Positive
・Negative
・Rejective
Tag
SVM による顔表情認識の精度について実験を行った
![Page 18: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/18.jpg)
評価実験- SVM による顔表情認識
各被験者について, 4本中 3本の動画から学習を行い,個人顔表情識別器を生成する.残りの1本についてテストを行う. (クロスバリデーション )
リジェクト機能顔領域抽出で顔領域が発見できなかったフレームは無条件で, Rejectiveに分類
顔領域抽出に成功したフレームは,そのまま顔特徴点抽出を行い,学習・認識の対象とする
![Page 19: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/19.jpg)
実験結果- SVM による表情認識
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Neu Pos Neg Rej
(precision)適合率(recall)再現率
![Page 20: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/20.jpg)
考察
平均再現率は 87.6% ,平均適合率は 88.0% と良好な結果が得られた.
被験者が Positive や Negative と答えていても,表情表出の度合いが小さい場合,システムがNeutral と誤認識するパターンが多い.
1つのフレームに表情のタグは 1つしかないと仮定しているので,中間的な表情をしている場合,誤認識が多発する.
![Page 21: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/21.jpg)
デモ映像
![Page 22: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/22.jpg)
まとめと今後の方向
事前学習の手間をできるだけ減らすようにする 複数人同時視聴に対応 顔方向・視線方向の追跡 表情以外のマルチモーダル情報も使い,番組推
薦を行うシステムの構築
EBGM を特徴点抽出に用いることで, Neutral, Positive, Negative, Rejective という4つのクラスに拡張しても高い再現率,適合率が得られた
![Page 23: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/23.jpg)
![Page 24: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/24.jpg)
実験結果- Confusion matrix 被験者A
被験者A Neu Pos Neg Rej 合計 再現率
(%)
Neu 48275 443 525 622 49865 96.81
Pos 743 6907 1 14 7665 90.11
Neg 356 107 3250 6 3719 87.39
Rej 135 0 5 1326 1466 90.45
合計 49509 7457 3781 1968 62715 91.19
適合率(%)
97.51 92.62 85.96 67.38 85.87
![Page 25: ユーザの表情に基づく 映像コンテンツへのタギング](https://reader036.fdocuments.net/reader036/viewer/2022081501/56812a47550346895d8d8606/html5/thumbnails/25.jpg)
実験結果- Confusion matrix 被験者B
被験者B
Neu Pos Neg Rej 合計 再現率(%)
Neu 56068 138 264 61 56531 99.18
Pos 231 2076 8 32 2347 88.45
Neg 641 24 2402 38 3105 77.36
Rej 203 0 21 551 775 71.10
合計 57143 2238 2695 682 62758 84.02
適合率(%)
98.12 92.76 89.13 80.79 90.20