パターン認識論 - 東北大学 電気・情報系aito/patternrec/summary.pdfパターン認識とは 自然界にあるさまざまな情報を元に、物事を分類・識別
サポートベクターマシン によるパターン認識
-
Upload
casey-booth -
Category
Documents
-
view
62 -
download
0
description
Transcript of サポートベクターマシン によるパターン認識
サポートベクターマシンによるパターン認識
高知大学 理学部 数理情報科学科 4回生 本田研究室
98ー数理019 緒方浩二
背景 サポートベクターマシン( SVM) とは
Vapnik 等によって提案された識別学習 今、注目を集めている新しいパターン
認識手法である パターン認識とは、システムに学習機
能を組み込んだり、最適なパラメータを求めたりする際に必要な技術である
発表の流れ1.パターン認識2.サポートベクトルマシン( SVM )3.線形 SVM4.非線形 SVM5.数値解法6.まとめ
パターン認識ある 次元特徴空間のベクトルと、分類されるべきクラスとの対応付けをすること
:特徴ベクトル :クラス SVM の対象は2クラスの識別問題
in
i yRx
n
ix iy
パターン認識の具体例
2x
1x図- 1 2種類のキノコの特徴ベクトル(青丸および赤丸)の分布
と毒キノコ(赤丸)を見分けるための識別境界(黒実線)
:毒のないクラスの集合 :毒キノコの集合1x 2x
x
SVM によるパターン認識
:識別関数
:識別境界
SVM によるパターン認識では、クラス が、既知の観測データ集合 から、識別規則を満たす識別面 を求める。
1
1))(()( xgsignxf ww
2
1
xx
xx
0)( xgw
y
x)(xgw
)(xfw
SVM の種類 線形 SVM 非線形 SVM -カーネル法ー
線形 SVM マージン
前田英作 IPSJ Magazine Vol.42 No.7 July 2001
SVM ではマージンを最大化する識別面を最良と見なす
線形 SVM の定式化その1線形識別関数
とおく。
ここで、 個の学習パターン の満たすべき条件を、
とする。
)())(()( bxwsignxgsignxf t n ),...,1( nixi
2
1
1
1)(,
xx
xxbxwxgi
i
ii
t
線形 SVM 定式化その2 マージン→
マージンを最大化する識別面を求めることは以下の式を満たす を求めることに相
当
01)(,..
2
1)(
2
bxwyits
wwGMinimize
it
i
w/2
bw ,
マージン最大化に双対な問題
最大化
する λ を求める
制約条件:
ラグランジュ乗数
l
i
l
ji
tjijii xxyyW
1 1,2
1)(
l
iii
i
y
liC
1
0
),,...,1(0
ラグランジュの未定乗数法を用いる
: 0
●
●
●
●●
●
●
●●
●●
××
サポートベクトル λ>0
0
線形 SVM 適用例
前田英作 IPSJ Magazine Vol.42 No.7 July 2001
サポートベクトル o
非線形 SVM- カーネルトリックー
),...,1)(( dixi t
d xxxx ))(),...,(),(()( 21
n
i
tiii
t bxxysignbxwsignxf1
**** )()()()(
◎ カーネル関数
に変換して、変換後の空間において SVM を適用
)(xx
d
iii
t yxyxyxK1
)()()()(),(
2
2
2exp),(
yx
yxK ガウシアン型カーネル
マージン最大化双対問題ーカーネル法の場合ー
最大化
制約条件:
l
iii
i
y
liC
1
0
),,...,1(0
l
i
l
jijijii yyW
1 1,2
1)( xxt
),( ji xxK
数値解法 Gradient Ascent (勾配上昇
法) SMO ( Sequential Minimal Op
timization )
勾配上昇法
SMO(Sequential Minimal Optimization)
を満たす、 2点のラグランジュ係
数のみ可変として、 を最大化する、 は、解析的に解ける。最も、効果的に を最大化できる2点を選択
を更新
繰り返し
02211 xx W
21,W
21,
l
iii
i
l
i
l
jijijijii
y
loC
xxKyyW
1
1 1,
0
),,...,1(0
),(2
1)(
全データを使用せずに効率よく最適化を行える→ データマイニングなど大規模データにも適用可能
非線形 SVM の識別境界の例
前田英作 IPSJ Magazine Vol.42 No.7 July 2001
まとめ(今後の研究課題) まとめ①SVM はマージン最大化基準を採用した識別手法であり、2次最
適化問題を解くことにより、最適な識別関数が得られる② カーネルトリックの利用によって複雑な識別面が扱える③ 大規模データに対する適用可能な効率的なアルゴリズム( SM
O) が存在する 問題① 文字認識など多クラスの識別にそのま まの形では適用できな
い② 二次計画法を解くための計算量の問題③ カーネルの選択