Post on 02-Jan-2016
description
Building text features for object image classification
福田考晃
はじめに
• Wang, Hoiem らによって提案 [CVPR,2009]
• なにをするものか?– 未知画像の既知カテゴリへの分類
• どのように?– 画像から得られる特徴– テキストの特徴 ( flickr tag ) 組み合わせて利用
手法の流れ
• 入力:未知画像• 処理:2つの識別器を構築
– ビジュアル識別器– テキスト識別器
• 出力:カテゴリ
ビジュアル特徴
• 5 つの特徴量を利用– SIFT– Gist– カラーヒストグラム– 勾配特徴– Unified 特徴 ( 上記4つをまとめたもの )
Gist
• 画像全体から得られる特徴量1. 画像を小領域に分割2. 任意周波数,方向の Gabor フィルタの応答算出
小領域に分割
Gabor filter
周波数,方向強
度
Unified 特徴の最適化
• 2枚を1組の画像対を利用• Unified 特徴
• 重みを変更し,以下の式を最小化
Si :画像対の関係を表すSi = 1 : 同じカテゴリの画像Si = 0 : 異なるカテゴリの画像
: i 番目の画像対のカイ2乗距離
手法の流れ
• 入力:未知画像• 処理:2つの識別器を構築
– ビジュアル識別器– テキスト識別器
• 出力:カテゴリ
インターネットから取得したデータセット
• 画像テキスト間の関係• 1,000,000 枚のデータセット
– 700,000 枚• 58 カテゴリで flickr を検索
– PASCAL + Caltech 256 カテゴリ– 300,000 枚
• 以下からダウンロード
手法の流れ
• 入力:未知画像• 処理:2つの識別器を構築
– ビジュアル識別器– テキスト識別器
• 出力:カテゴリ
テキスト特徴
• Flickr データセットから6000 個のタグとグループ名を抽出
• 手順1. 画像入力2. K – Nearest Neighbor で k
個の画像を Flickr データセットから取得
3. 取得した画像のタグとグループ名から特徴量算出
手法の流れ
• 入力:未知画像• 処理:2つの識別器を構築
– ビジュアル識別器– テキスト識別器
• 出力:カテゴリ
識別器の構築
• ビジュアル識別器• テキスト識別器• SVM の利用
– カイ二乗カーネル• 特徴量をカイ2乗距離へ射影
• 識別器の統合– ロジスティック回帰
• 検証用データセットを利用
K(x,y)= exp{-² (x,y)}
² (x,y) = i { (||xi-yi||) ² / ||xi+yi|| }
実験
• 以下を確認1. 異なるビジュアル特徴量におけるテキスト特徴の影響2. テキスト特徴とビジュアル特徴の統合の影響3. 学習画像の影響4. 補助データセットの画像枚数の影響5. カテゴリ名の影響
実験1
• 異なるビジュアル特徴におけるテキスト特徴の構築– KNN 精度に依存
• ビジュアル特徴に依存– 各特徴量の精度比較
• カラーヒストグラムが低• Unified が高
実験2
• テキスト特徴とビジュアル特徴の統合の影響– 互いが相互に作用
実験3
• 学習画像枚数の影響– 画像数少
• テキスト特徴の影響大– 画像数多
• テキスト特徴の影響小– 最も高い利得
• テキストとビジュアルが一致したとき
実験4
• 補助データセットの画像枚数– 200,000 〜 600,000
• 精度上昇大– 600,000 〜 1,000,000
• 精度上昇小
• 精度上昇 ≠ 枚数
実験5
• カテゴリ名の影響• 実験対象
– カテゴリ名に類似したタグが存在する (W)– カテゴリ名に類似したタグが存在しない (WO)
• 類似カテゴリの存在に依存しない
おわりに
• テキストの特徴– Flickr のタグ,グループ名を利用
• Unified 特徴量は有効に作用• テキスト識別器 + ビジュアル識別器 = 相互に作用• 学習画像数が少ない時テキスト特徴の影響大• 精度向上≠ 補助データセット枚数• カテゴリ名の影響はない