Building detection with decision fusion

Building Detection With Decision Fusion

Caglar SenarasMete Ozay

Fatos T. Yarman Vural

13年10月5日土曜日

Goal• VHR (Very High Resolution)な衛星画像からの建物検出• 近赤外写真や可視光写真を入力として用いる• 多くの特徴抽出/分類器を組合せて，分類器の精度を上げる（いわゆるアンサンブル学習の手法の一種）

建物マスクを作る航空写真から


State-of-the-art methods

• ルールベースの分類器を作っておく➡屋根の矩形構造を表す形状ベース特徴を使うなど➡不適切な領域を取り除いてから建物を含む領域に着目• 知識ベースでルールを作るので，建物の大きさや形などに対する仮説を用いる必要がある• 仮説の妥当性に全体の精度等が大きく依存する

教師なし [Sirmacek and Unsalan, Ok et al.]

• 学習データから分類器を生成する➡k近傍法やSVMsのパラメータを学習する• 特徴空間のデザインが重要• 複数の分類器を合成しているケースもある

教師あり [Turker and Koc Sau, Inglada, Fauvel et al.]


Proposed systemリモートセンシング画像

Mean-shiftセグメンテーション

植物や影を思われるセグメントを除去

各セグメントから色，形，テクスチャなどの特徴を抽出

各特徴ごとに分類器へ入力してDecision spaceを構築

特徴量を合成して分類


Proposed system

建物検出に特化したセグメンテーションができるように学習データを使ってMean shiftの際のバンド幅パラメータを最適化して設定してやる

リモートセンシング画像







Mean shift segmentation色の情報を使って簡単にセグメンテーションを行うための非常に一般的な手法．実装も非常に楽．

カラー画像　，画素位置に関するバンド幅　　，画素値に関するバンド幅　　とし，画素位置　　　　　と画素値　　　　　　　を結合したベクトルに対してミーンシフトで最頻値の計算をする

I hs

hr (xi, yi) (Li, ui, vi)

カーネル密度推定をする際の位置空間のバンド幅，色空間のバンド幅　 ,　それぞれをどうやって決めるか？が重要hs hr

学習データ内の既知の建物の領域の輪郭と，あるパラメータセットでMean shift segmentationした結果得られた領域の輪郭のカバー率を最大化する

✓j = (hsj , hrj ,minAreaj)

小さいセグメントは捨てる


Mean shift segmentation

GTC✓j =

��(Db✓j)T

#G��

|#G|

SF✓j =

��(Db✓j)T

#G��

��(Db✓j)��

パラメータ　　　　　　　　　　　でMean shiftして得られた建物セグメントの輪郭ピクセルの集合

✓j = (hsj , hrj ,minAreaj)

正解データ上の建物セグメントの輪郭ピクセル集合

OSQ✓j = 2(SF✓j )(GTC✓j )

SF✓j +GTC✓j

✓ = arg max✓j2✓

OSQ✓j

これを最大化するパラメータセットを求める

建物検出に特化したミーンシフトセグメンテーション用パラメータが得られる


Proposed system

近赤外画像の画素NIRとRGBのRの値を使って定義したNormalized Difference Vegetation Indexを画素値として持つ画像にOTSU二値化をして植物セグメントを決定，NIR-R-Gの3チャンネル画像をHSI変換してOTSU二値化で影セグメントを決定，それぞれを除去する








Elimination of vegetation

RGB画像近赤外画像

近赤外画像の画素値：NIRRGB画像のRの値：R

NDVI =NIR� R

NIR + R0

Normalized Difference Vegetation Index

NDVI画像に対してOtsu二値化を施して植物の領域マスクを生成


Elimination of shadow

RGB画像近赤外画像

近赤外画像の画素値：NIRRGB画像のRとGの値：R, G

Ratio Map画像に対してOtsu二値化を施して影の領域マスクを生成

NIR-R-G画像をRGB画像とみなしてHSI変換する

Ratio Map =

S � I

S + I


Elimination of vegetation and shadow segment

あるセグメント　　中の植物ピクセルの数：si Mvi

あるセグメント　　中の影のピクセルの数：si Msi

あるセグメント　　中の全ピクセルの数　：si Mi

あるセグメント　においてsi

M bi > �Mi

なら植物のセグメントとして廃棄

Msi > �Mi

なら影のセグメントとして廃棄

※λは判定の厳しさのパラメータ


Proposed system

様々な特徴検出器を用いて，全15種類の特徴を各セグメントから抽出していく








Feature extraction

D✓ = {si}Ni=1

✓パラメータセット　でMean shift segmentationした結果←N個のセグメント si(i = 1, 2, . . . , N)

が得られたとする．K個の特徴検出器を使う

s1

s2

s3

s4

s5s6

sNs...

画像全体D

(x1,k, y1)

(x2,k, y2)

(x3,k, y3)

(x4,k, y4)

(x5,k, y5)

(x...,k, y...)

(xN,k, yN )

(x6,k, y6)

(特徴量,ラベル)のセットの集合F

⌧k

第k番目の特徴検出器　で各セグメントを，特徴量とそのセグメントのラベルのタプルに写像（学習データから）

⌧k

学習データなので各セグメントのラベルは既知


Feature extraction

色特徴

8ビンのヒストグラムの例

R,G,B,NIRの4チャンネル画像それぞれのチャンネルの標準偏差（よって4次元ベクトル）

stdci

各カラーチャンネルのヒストグラム（8bin）を表す確率密度ベクトル（各ビンに属するピクセル数の，そのセグメント内の全ピクセル数に対する比．よって4x8=32次元ベクトル）

hist pdvi

各チャンネルのヒストグラムの平均（4チャンネルなので4次元ベクトル）

hist meani

各チャンネルのヒストグラムの分散（4チャンネルなので4次元ベクトル）

hist variancei

各チャンネルのヒストグラムの歪度（4チャンネルなので4次元ベクトル）

hist skewnessi

各セグメント　から　　で抽出する特徴一覧⌧ksi


Feature extraction

色特徴

各チャンネルのヒストグラムのpdvのノルム（4チャンネルなので4次元ベクトル）

hist energyi

各チャンネルのヒストグラムごとのエントロピー（4チャンネルなので4次元ベクトル）

hist entropyi

以上，基本的にセグメントごとのヒストグラムの分布の形を表す様々な統計量が色特徴として用いられる



Feature extraction

形状特徴

areai 面積．セグメントのピクセル数の合計値．

rectangularityi 矩形度．minimum bounding rectangleを出して，(面積)/{(長辺の長さ)x(短辺の長さ)}で算出．

axis lengthsi minimum bounding rectangleの長辺と短辺の長さを要素にもつ2次元ベクトル

基本rectangularityを見ているだけ



Feature extraction

テクスチャ特徴まずGray-Level Co-occurrence Matrix (GLCM)を計算する

R,G,B,NIRの各チャンネルを分離して4つのグレースケール画像とみる

各画像を8階調に量子化0,45,90,135度方向それぞれに対してCo-occurrence Matrixを計算

C�x,�y

(i, j) =

nX

p=1

mX

q=1

⇢1, if I(p, q) = i and I(p+�x, q +�y) = j

0, otherwise



Feature extraction

テクスチャ特徴GLCMから計算される4つの量

それぞれ各チャンネルごとに4次元ベクトルとして算出されるので，4x4で16次元ベクトル



Summary: Feature extraction各セグメント　から　　で抽出する特徴一覧⌧ksi

色特徴8つ，形状特徴3つ，テクスチャ特徴4つ合計15個の特徴ベクトルを　　　　　で抽出した．⌧1, . . . , ⌧15

x1,x2, . . . ,x15結果，　　　　　　　という15個のベクトルが1つのセグメントから得られる．それぞれを　　と書く．すべてのベクトルはそれぞれ異なる次元を持っている．行方向に結合したベクトル　　　　　　　　は，この論文では128次元．

xi,k

[x1,x2, . . . ,x15]


Proposed system

抽出された特徴量たちをFuzzy k-nearest neighborで各クラスへの所属度を要素に持つ所属度ベクトルへ写像








Feature classification

抽出された各特徴ベクトルはそれぞれ別々の分類器を用いて建物（　　　　）か背景（　　　　）かのラベルを与えられる

セグメント　のラベル　の値を　と書くと，si yi c xi,k特徴　　の　への所属度合い　　　　　はµc(xi,k)

c

個の近傍を調べる．はファジー度のパラメータ．例えば2くらい

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

yi = 1 yi = 2





c


µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

の　個目の近傍のラベルがcなら1でなければ0

jxi,k

yi = 1 yi = 2





c


µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1


jxi,k

　と　番目の近傍の間の特徴量のユークリッド距離

xi,k j

yi = 1 yi = 2





c


µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

正規化項


jxi,k

　と　番目の近傍の間の特徴量のユークリッド距離

xi,k j

yi = 1 yi = 2


Feature classificationセグメント　のラベル　の値を　と書くと，si yi c xi,k特徴　　の　への所属度合い　　　　　はµc(xi,k)

c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1



c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

要するに



c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

要するに = 2 とすると，右上部分は　　　　　　　なので，(⇢j(xi,k))

�2

j番目の近傍との距離が近ければ分子は大きくなる．遠ければ分子は小さくなる．

x1,k

x2,k

xi,k

xj,k

⇢j(xi,k)

⇢2(xi,k)

⇢1(xi,k)

. . .

個の近傍を調べる．



c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

　　は，　　　のラベルがcのとき1，それ以外0なので正規化項で距離ファクターが割られることから，　個の近傍すべてがラベルcを持つなら値は1，そうでないときは同じラベルが近くにあればあるほど大きな値になる（＝所属度合いが高いとされる）

l(·) ⌘j(xi,k)

→あらかじめk種類の特徴量空間にはラベル既知の学習データがマッピングされているので，Fuzzy k-nnの計算に使われる「近傍」は学習データから選ばれていることに注意



c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

要するに

　　は，　　　のラベルがcのとき1，それ以外0なので正規化項で距離ファクターが割られることから，　個の近傍すべてがラベルcを持つなら値は1，そうでないときは同じラベルが近くにあればあるほど大きな値になる（＝所属度合いが高いとされる）

l(·) ⌘j(xi,k)

→あらかじめk種類の特徴量空間にはラベル既知の学習データがマッピングされているので，Fuzzy k-nnの計算に使われる「近傍」は学習データから選ばれていることに注意



c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1

µ(xi,k) = [µ1(xi,k), µ2(xi,k)]所属度ベクトル：

建物クラスである度合い非建物クラスである度合い

xi,kセグメント　から　で抽出された特徴　　はこのようなベクトルとしてファジーに分類される

si ⌧k



c

µc(xi,k) =

Pj=1 l (⌘j(xi,k)) (⇢j(xi,k))

�2 �1

Pj=1 (⇢j(xi,k))

�2 �1


建物クラスである度合い非建物クラスである度合い

xi,kセグメント　から　で抽出された特徴　　はこのようなベクトルとしてファジーに分類される

si ⌧k

fuzzyk-nnという手法



単純に所属度合いの高いほうのクラスにセグメント　を分類する

si


分類結果：

この分類を行う，という写像＝”分類器”を　　と書くことにする．これまでの処理をまとめると，

⌥k

si⌧k�! xi,k

⌥k��! yi,k ということ．

yi,k = arg max

cµc(xi,k)


Classifier performance　　の精度は，特徴量とラベルのタプルの集合（つまり正解データセット）である　　の中に，推定されたラベル　　　　　　　　　がいくつ含まれるか，で定義できる

⌥kyi,k(i = 1, 2, . . . , N)Fk

(x1,k, y1)

(x2,k, y2)

(x3,k, y3)

(x4,k, y4)

(x5,k, y5)

(x...,k, y...)

(xN,k, yN )

(x6,k, y6)

(特徴量,ラベル)のセットの集合Fk

各セグメントの特徴量

x1,k

x2,k

x3,k

xN,k

yN,k

y3,k

y1,k

y2,k

推定されたラベル

⌥k

......

...

...

...

いくつ同じか？

Perfk = (1/N)NX

i=1

�yi,k(Fk)

⇢1, yi,k 2 Fk

0, yi,k /2 Fk


Summary: Feature classification

ここまでをまとめると

IMSS(✓)��! D✓ = {si}Ni=1

⌧k�! {xi,k}Ni=1⌥k��! {yi,k}Ni=1

画像セグメント特徴ラベル

ここではK=15個ある

ここではK=15個ある

あらかじめこの部分は学習データに対しても行われているため，K種類の特徴量空間それぞれにラベル既知の特徴量がN個ずつ配置されている

それを使ってFuzzy k-nnした結果をもとにラベルを算出








特徴量ごとの所属度ベクトルを行方向に並べたメタ特徴量ベクトルをさらに列方向に並べて作った所属度行列を行方向に圧縮=Fusionする方法を学習し，各セグメントごとに最終的な2Dの所属度ベクトルを算出し，クラスを決定する．


Fusion space

セグメントはN個あるので，上のメタ特徴ベクトルの集合は

Fmeta = {µmeta(si)}Ni=1 と書ける．

µmeta(si) = [µ(xi,1), . . . , µ(xi,k), . . . , µ(xi,K)]

yi,k = arg max

cµc(xi,k) する前の µ(xi,k) = [µ1(xi,k), µ2(xi,k)]

あるセグメントに対して特徴量&分類器のセットの数(K)だけ得られるので

µmeta(si) = [µ(xi,1), . . . , µ(xi,k), . . . , µ(xi,K)]

のように横に連結して2K次元のベクトルが作れる

2K次元空間 :＝Fusion space 上の1点が1つのセグメントを表す

2次元空間 :=Decision space 上の1点が1つの特徴量を表す


Learningメタ特徴ベクトル空間(=Fusion space)に対して，クラス分類を行うメタレイヤー分類器　　　　を学習したい⌥meta

メタ特徴ベクトルはセグメントごとにあるので，画像全体はその集合として表される．これを縦に並べて行列にしたものを所属度行列Ｍとする

M =

2

6664

µmeta(s1)µmeta(s2)

...µmeta(sN )

3

7775=

2

6664

µ(x1,1) . . . µ(x1,K)µ(x2,1) . . . µ(x1,K)

.... . .

...µ(xN,1) . . . µ(xN,k)

3

7775

N ⇥ 2KMは　　　　　行列．

新しいデータに対して，学習データをもとに所属度ベクトルが計算され，これを特徴量の種類分だけ横にならべてメタ特徴ベクトルが作られるので，行列Ｍは新しいデータについて1意に計算される


Learning各セグメントの推定ラベル　　が，正解ラベルcと等しいかどうかを行列で表現したもの，対応クラスラベル行列Yを考える

yi

結局，行列MはN個のセグメントのファジーな各クラスへの所属度合いを色々な特徴量の観点から表したもの．Yは，N個のセグメントのはっきりとした(0か1かの)所属度表現．

N ⇥ 2Yは　　　　行列．

Y =

2

6664

Y1(s1) Y2(s1)Y1(s2) Y2(s2)

.

.

.

.

.

.

Y1(sN ) Y2(sN )

3

7775Yc(si) =

⇢1, if yi = c0, otherwise


LearningMとYは形が違うので，MをZで変換して引き算可能にする

minZ

kMZ � Y k2

と，学習問題は以下のように書ける！

L2ノルム

変換行列Zこそが，K種類の特徴量を合成して2次元の所属度ベクトルに落としこむという手続きそのもの

変換行列Zをどうやって決定するか？が学習の根幹．


Learning

として計算される．

特徴量Fusionのための変換行列Zの求め方いろいろ

Z = M†YMの擬似逆行列(ムーア-ペンローズ)をとすると，変換行列Zは

M† = (MTM)�1MT

Least-squares classifier (LSC)

Fuzzy k-nearest neighbor (Fuzzy k-NN)メタ特徴ベクトルを学習データからも作っておけば，ベースレイヤー（色々な種類の特徴量をとってくるところ）でクラス所属度ベクトル(2次元)を計算できるので，N x 2行列に変換できる

Support Vector Machines (SVM)メタ特徴ベクトルを学習データから作り，メタ特徴ベクトル空間（Fusion space）上でSVMで分類しておいて，それを使う．


Summary: Learning学習部分のまとめ

セグメンテーションし，特徴量をK種類とって，各特徴量についてクラス所属度ベクトルを出す．それを行方向に並べて作ったメタ特徴量ベクトルを作る．それを列方向に並べて所属度行列Mを出す．

という写像Zを学習データから決定

M =

2

6664

µ(x1,1) . . . µ(x1,K)µ(x2,1) . . . µ(x1,K)

.... . .

...µ(xN,1) . . . µ(xN,k)

3

7775

この方向にどう圧縮するか


Parameters任意パラメータまとめ

影，植物領域を決定する際の，セグメントの面積に対する影ピクセル数・植物ピクセル数の割合がどの程度ならそれぞれ影，植物と判断するか

�

特徴量をとってきたあとにFuzzy k-NNで所属度ベクトルを出すが，そのときのファジー度

Fuzzy k-NNの際に，いくつの近傍を考慮するか，というk-NN部分のパラメータ


Experimental results

Original image Meta-layer decision(gray-scale)

Ground truthmask


Experimental results

各セグメントの特徴量を直接分類

特徴量のFusionの仕方（行列Z）を学習して分類した方が精度が高い！


Building detection with decision fusion

Technology

Transcript of Building detection with decision fusion