論文紹介：Using the Forest to See the Trees: A Graphical. Model Relating Features, Objects, and...

Probabilistic Graphical Models 輪読会 #2 LT

Kevin Murphy, Antonio Torralba, William T. Freeman

MIT AI lab

“Using the Forest to see the Trees: A Graphical Model Relating Features, Objects, and Scenes”

Published in NIPS, 2003

16/05/31

東京工業大学情報工学科 4年

八木拓真(@t_Signull)

Probabilistic Graphical Models 輪読会 #2 LT 1

1ページサマリー

• 物体検出タスクにおいて、局所領域だけでなくコンテキスト(画像全体)の情報を考慮するモデルを提案

• 条件付き確率場(CRF)を用いて、画像中からの物体検出、シーン分類、物体存在判定を同時学習

• GMの初歩的な性質を利用した良いCase study

良い点：

物体存在性判定を組み入れることでテスト時の計算量を削減、その学習には大域特徴と局所特徴の両方を活用

悪い点：

フィルタ/スケール幅が固定のため性能が頭打ちになりやすい・色を考慮していない・性能が実証されていない


歴史的経緯

1999年：LoweがSIFTを提案

2001年：Viola & Jonesの顔検出器

2003年：局所特徴量を用いた初の本格的な一般物体認識[Fergus+, 2003]

←この時点で提案されたモデル→

2004年：Bag-of-keypointsの登場

2005年：HoG特徴の登場

…

2012年：ILSVRCでDeep勢が圧倒

一般物体認識の黎明期に書かれた論文 Probabilistic Graphical Models 輪読会 #2 LT 3

モデル概観


入力画像

シーン特徴量

(728次元)

PCAで80次元に圧縮

“Building”

シーン分類

13×30種類の局所フィルタ

局所特徴量(780次元)

Boosting

100次元に圧縮

物体存在性判定

“人が位置xにいる”

ロジスティック

回帰

基本的なアイデア

• 目的：画像中からの特定物体の検出(detection)

(1) parts-based(複数の小パーツから全体を構成)

(2) patch-based(sliding-windowで探索)

(3) region-based(領域分割->ラベル割り当て)

𝑃(𝑂𝑖𝑐 = 1|𝑣𝑖

𝑐)(パッチ𝑖の特徴量が与えられたときに、そのパッチ中に物体𝑐が存在する確率)がある閾値を越えたとき、物体を検出したとみなす

窓の大きさを変えながら複数のスケールで探索する(原始的なsliding-window)


特徴量

• 白黒パッチ𝐼𝑖(𝑥)に対して次の畳込み計算を施す： |𝐼𝑖 𝑥 ∗ 𝑔𝑘 𝑥 |

得られた輝度ヒストグラムから、分散(variance)と尖度(kurtosis)の2つの統計量を使用

• フィルタはエッジ、ラプラシアンフィルタ、コーナー検出器、長エッジ検出器など１３種類

• さらに、30の空間テンプレートと組み合わせて部分ごとの発火量を得る(合計13x30x2=780d)


GentleBoostを用いた分類器

• ブースティングアルゴリズムの1種であるGentleBoostを使用して最終的な分類器を構築

→AdaBoostでないのは単に性能が悪かったから

• 1つの弱学習器は特徴量𝑣𝑓を用いて

ℎ 𝑣 = 𝑎・(1 𝑖𝑓 𝑣𝑓 > 𝜃 𝑒𝑙𝑠𝑒 0) + 𝑏

• 弱学習器の重みは単純な二乗誤差最小化で計算でき、サンプルの重みを調整しながら(780個中)最大100個の要素を選び出す

• 最終識別器はLogistic回帰で出力を確率化して

𝑃 𝑂𝑖𝑐 = 1 𝛼 𝑣𝑖

𝑐 = 𝜎(𝑤𝑇[1 ℎ𝑡(𝑣)]𝑡

)


選択された特徴量


例えば、パソコンなら枠の縦横の刺激を

重要とみなしていることがわかる

物体存在性の判定

• 画像中に物体𝑐が存在するとき𝐸𝑐 = 1、しないとき𝐸𝑐 = 0とする

• 今回は、画像全体の特徴𝑣𝐺から物体の存在性を予測する別のブースティング分類器を構築

𝑃 𝐸𝑐 = 1 𝑣𝐺 = 𝜎(𝑤𝑇 1 𝛼 𝑣𝐺 ) (ここでは簡単のためモデルを単純化した)

• 全体特徴𝑣𝐺は”gist”と呼ばれ、局所特徴で用いた13種のフィルタ、4つのスケール、7つのマスクを使用して構成した728次元のベクトルをPCAで80次元に圧縮した

• 最終的なモデルではこの分類器を直接は使用しない


画像全体からのシーン分類

• 物体間の共起関係をモデル化することもできるが、シンプルに潜在的なシーン(scene)の存在を仮定

• シーン𝑆が𝑠である確率をone-vs-all分類器で表現(単純に確率が最も大きいものを選ぶ)

𝑃 𝑆 = 𝑠 𝑣𝐺 =𝑃 𝑆𝑠 = 1 𝑣𝐺

𝑃 𝑆𝑠′ = 1 𝑣𝐺𝑠′

(1つ1つのs-vs-other分類器は前で解説したブースティングを使用)

• 単純ながら、3クラス分類でF値0.9程度の高性能


GMを用いた、Scene分類と物体存在判定の結合学習

• 物体検出の結果を利用しつつ、物体存在判定を学習させたい→GMを構築

結合確率 𝑃 𝑆, 𝐸1:𝑛, 𝑂1:𝑁𝑐1 , … , 𝑂1:𝑁

𝑐𝑛 𝑣 = 1

𝑍𝑃 𝑆 𝑉𝐺 𝜙 𝐸𝑐 , 𝑆 𝑃(𝑂𝑖

𝑐

𝑖𝑐

|𝐸𝑐 , 𝑣𝑖𝑐)

• 𝜙(𝐸𝑐 , 𝑆)はシーンと物体の共起回数を格納した表

• 最終的な予測確率：

𝑃 Oic = 1 Ec = e, vi

c = 𝜎 𝑤𝑇 1 𝛼 𝑣𝑖

𝑐 𝑖𝑓 𝑒 = 1

0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

→𝑒 = 0なら、局所特徴の計算は不要 Probabilistic Graphical Models 輪読会 #2 LT 11

モデル概観(再掲)


入力画像

シーン特徴量

(728次元)

PCAで80次元に圧縮

“Building”

シーン分類

13×30種類の局所フィルタ

局所特徴量(780次元)

Boosting

100次元に圧縮

物体存在性判定

“人が位置xにいる”

ロジスティック

回帰

GMによる表現


現在のシーンは？

位置iに物体は

存在する？

このシーンに物体は

存在する？

V-structureの利用

• 赤線で囲まれた領域を見ると、目的変数𝑂 1:𝑁𝑐 は

𝑣と𝐸を親に持つが、自身は子を持たないV-structureを構成している

→𝑂が未観測の場合、親同士は独立

• 故に、位置𝑖に物体が存在する確率は

𝑃 𝑂𝑖𝑐 = 1 𝑣 = 𝑃 𝑂𝑖

𝑐 = 1 𝑣𝑖𝑐 , 𝐸𝑐 = 𝑒 𝑃(𝐸𝑐 = 𝑒|𝑣)

𝑒

と因数分解でき、

𝑂𝑖𝑐の学習は𝐸𝑐と独立に可能


学習/推論の流れ

(1) 物体検出確率𝑃 𝑂𝑖𝑐 = 1 𝑣 の学習

→GentleBoost+Logistic回帰で学習

(2) (1)の結果を受けて、𝜙(𝑆, 𝐸𝑐)と𝑃(𝑆|𝛼 𝑣𝐺 )を同時学習

→𝑃(𝑂𝑖𝑐 = 1|𝑣𝑖

𝑐 , 𝐸𝑐 = 1)の

対数尤度を勾配法で学習

(𝑣𝑖𝑐を考慮する必要有)

推論は矢印を辿ればよい


(1)

(2)

実験条件

• 使用データ：MIT-CBCL(2400枚、5クラス(screens, keyboards, desks, pedestrian, car)

→学習器そのものは物体ごとに別々に学習されるため、

色々なデータセットから画像を寄せ集めた

→実験条件の説明が非常に雑でシーンが各クラスでそ

れぞれ何種類あるかは不明

→物体の見え(見る方向)は統制

• シーン分類はあくまで物体検出の計算を行うか否かの判定にしか使用しないため、(1)物体検出の性能(2)シーン分類の性能は別々に評価


実験結果(物体検出)

大きいオブジェクトの性能が低い Probabilistic Graphical Models 輪読会 #2 LT 17

実験結果 (シーン分類)

結合学習のほうが別々に学習するより精度が低くなってしまった→物体検出器自体の性能不足


まとめ

• 物体検出タスクにおいて、局所領域だけでなくコンテキスト(画像全体)の情報を考慮するモデルを提案

• 条件付き確率場(CRF)を用いて、画像中からの物体検出、シーン分類、物体存在判定を同時学習

• GMの条件付き独立性の性質を活用して、物体検出器の情報をシーン分類・物体存在判定に活用


論文紹介：Using the Forest to See the Trees: A Graphical. Model Relating Features, Objects, and...

Technology

Transcript of 論文紹介：Using the Forest to See the Trees: A Graphical. Model Relating Features, Objects, and...