生命情報学基礎論カーネル法

生命情報学基礎論カーネル法

京都大学　化学研究所バイオインフォマティクスセンター

阿久津　達也

講義予定４月１４日（月） : 　生命情報学の基盤４月２１日（月）：　配列の比較と相同性検索４月２８日（月）：　進化系統樹推定５月１２日（月）：　隠れマルコフモデル５月１９日（月）：　タンパク質立体構造予測５月２６日（月）、６月２日（月）：　カーネル法６月９日（月）：　生物情報ネットワークの構造解析６月１６日（月） : 　遺伝子ネットワークの解析と制御（田村）６月２３日（月）：　代謝ネットワークの堅牢性（田村）６月３０日（月）：　木の編集距離（田村）７月７日（月）：　タンパク質相互作用予測（林田）７月１４日（月）：　タンパク質複合体予測（林田）７月１７日（木）：　生物データの圧縮による比較（林田）

内容

サポートベクターマシンとカーネル法タンパク質配列分類のためのカーネル化合物分類のためのグラフカーネル

サポートベクターマシン(1)

カーネル法の一つ、データのクラス予測に利用 1990 年代に、 Cortes と　 Vapnik が発明トレーニングデータとして与えられた正例と負例

から、それらを分離する超平面を計算機械学習、統計学、人工知能、パターン認識、バ

イオインフォマティクスなど様々な分野に応用配列分類タンパク質フォールド予測、二次構造予測遺伝子発現データ解析タンパク質相互作用予測化合物の性質推定 c.f. Kernel Methods in Computational Biology,

MIT Press, 2004

サポートベクターマシン (2)

正例と負例を与えて、それらを最適（マージンを最大）に分離する超平面を学習

カーネルを適切に定義することにより超平面以外での分離が可能

margin

SVM によるテストデータの分類

学習データより超平面を学習 (SVM)

テストデータは、対応する点の超平面に対する位置（上下）で判定

テストデータ

カーネルサポートベクターマシン：基本的には超平面で分離 Φ(x) ( 特徴ベクトル）：「非線形曲面⇒超平面」に写像カーネル： x と y の類似度が高い ⇔ K(x,y) が大

φ (x)

)()(),( yxyx K

カーネルの定義

関数 K: X×X→ R がカーネル　　 iff.　　 X から内積空間 F への写像 Φ が存

在し、　　

　　とかける

)()(),( yxyx K

マーセルの定理 (1)

X を有限空間とし、 K(x,y) を X 上の対称関数とすると、

　 K(x,y) がカーネル　　 iff　行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値

行列 K が半正定値 iff K の固有値がすべて非負 iff (x) (xtKx 0)

マーセルの定理 (2): 証明

K は対称なので、 K=VΛVt とかける。ただし、 Λ は固有値 λi を対角要素とする対角行列で、 V は直交行列。

　　（　　　　　　　　　は λi の固有ベクトル。 VVt= Vt

V =I ）ここで　　　　　　　　　　　　　　とすると

一方、　　　　　　　　　　　　　　　　とすると、　　　　　　　　　　　　　　　

となり、半正定値となる。

nkikki 1

)(

Vx

),()()()(1

jiijt

n

kjkikkji K xxVΛVVVxx

0)()())()((

iii

iii

jｊji

ii

t wwww xxxxKww

njjii 1

Vv

)()(),( jijiK xxxx

マーセルの定理 (3): 連続値の場合

K(x,y) がカーネル iff.

任意の二乗可積分関数 f 　に対して

0)()(),( yxyxyx ddffK

カーネルの性質 (1) 　　　　　　　　　　　　　　のとき、特

徴ベクトル間の距離は

証明

)()(2)()()()(

)()(2

yxyyxx

yx

),(2),(),(

)()(

yxyyxx

yx

KKK

)()(),( yxyx K

カーネルの性質(2)

Ki が以下を満たす時、 K もカーネル

),(),(lim,, yxyxyx KKX nn

カーネルの例 (1)

(x ・ y+c)d はカーネル証明（ d=2, c=0 の場合）

212211212211

212122221111

22211

2

2,,2,,

2

)()(

yyyyyyxxxxxx

yyxxyyxxyyxx

yxyx

yx

カーネルの例 (2) K1, K2 がカーネルの時、以下もカーネル

(i)(ii) より、カーネルの正係数の線形和もカーネル (i)(ii)(iii) より、カーネルの正係数の多項式もカー

ネル

),(),((iii)

)0(),((ii)

),(),((i)

21

1

21

yxyx

yx

yxyx

KK

aKa

KK

カーネルの例 (3)

(i) f(x): X →R ⇒ f(x) f(y) はカーネル証明

　　　　　　　　（別証：　 f(x) を１次元の特徴ベクトルと考える）

(ii) exp(K(x,y)) はカーネル略証：指数関数は正の係数を持つ多項式により任意の精度

で近似でき、また、カーネルの多項式もカーネルとなるため、性質（２）によりカーネルとなる

0)()(

)()(),(

11

1 11 1

n

jjj

n

iii

n

i

n

jjiji

n

i

n

jjiji

fvfv

ffvvKvv

xx

xxxx

カーネルの例 (4) exp(-||x-ｙ ||2/σ2) 　はカーネル　　　　　　　　　（ Gaussian RBF kerne

l ）証明

最初の二項の積は例 (3-i) によりカーネル、　　最後の項は例 (3-ii) によりカーネル、　　それらの積は例 (2-iii) によりカーネル

22

2

2

2

2

2

2expexpexp

exp

yxyx

yx

カーネルの例 (5) 以下は必ずしもカーネルとはならな

い

)(

)tanh(),((iii)

),(log(ii)

),((i)

シグモイドカーネル

yxyx

yx

yx

aK

K

K

サポートベクターマシン : 定式化 (1)

学習データ：　 Rd 上の点とラベルのペアの集合

yi=1 ⇒ 正例　　　 yi=-1 ⇒ 負例最適化問題　（凸二次計画問題）

(w,b): Rd 上の超平面 h: w ・ x+b=0 に対応 1/||w||: h から一番近い xi までの距離（ =margin)

}1,1{,R|),( id

iii yyS xx

1)( subject to

minimize,

by ii

b

xw

www

サポートベクターマシン : 定式化 (2)

サポートベクター

h

γ

1)( bixw

1

)(

bixw

1

)(

bixw

1)( bixw

0

)(

bxw

1)(

subject to

minimize,

by ii

b

xw

www

w/1

サポートベクターマシン : 双対化 (1)

問題の双対化もとの問題のラグランジアンは　　　　　　　 (|S|

=l)

もとの問題は以下の min-max型と等価

更に、この最適解は以下の双対問題の最適解と一致

l

i iii bybL12

1 1)(),,( xwwwαw

),,(maxmin0),(

αww

bLb

),,(minmax),(0

αww

bLb


双対問題の最適解双対問題は

この式の w と b について微分をとり

上記をもとのラグランジアンに代入し

0),,(

0),,(

1

1

l

i ii

l

i iii

yb

bL

ybL

αw

xww

αw

l

i

l

j jijiji

l

i i yybL1 12

11

),,( xxαw

),,(minmax),(0

αww

bLb


双対問題　（凸二次計画問題）

マージン

0

0 subject to

maximize

1

1 121

1

i

l

i ii

l

i

l

j jijiji

l

i i

y

yy

xxα

l

i iiiy1

**

*where,

1xw

w


KKT 相補条件

サポートベクター xi がサポートベク

ター　　⇔　 αi

* > 0

超平面 h

01)( *** by iii xw

0

*

1

*

**

by

bl

i iii xx

xw

サポートベクター

h

γ

サポートベクターマシン : カーネル化

xi ・ xj を K(xi, xj) で置換　（←　 K(xi, xj) =Φ(xi) ・ Φ(xj) ）

識別関数　　　　　　　　（ SV: サポートベクターの集合）

利点：　特徴ベクトルを陽に扱わずに、カーネル値のみが計算できればＯＫ　⇒　カーネルトリック

0,0 subject to

),(maximize

1

1 121

1

i

l

i ii

l

i

l

j jijiji

l

i i

y

Kyy

xxα

**** ),( bKybSVx

iii

i

xxxw

2

minmax *1

*1* iyiy iib

xwxw

ソフトマージン（ 2-ノルム）

正負例が完全には　分離不可の場合

スラック変数 ξi 　の導入

0

1)(

subject to

min1

2

,

i

iii

l

i ib

by

C

xw

www

ξj/||w||ξi/||w||

xi

xj

xk

ξk/||w||

h

γ

ソフトマージン（ 2-ノルム） : 双対化＋カーネル化

0

0 subject to

),(

maximize

1

1 11

21

1

i

l

i ii

l

i

l

j ijCjijiji

l

i i

y

Kyy

xx

α

ソフトマージン（ 1-ノルム）

1-ノルムの場合、二乗和でなく、線形和をとる

0

1)(

subject to

min1,

i

iii

l

i ib

by

C

xw

www

ξj/||w||ξi/||w||

xi

xj

xk

ξk/||w||

h

γ

ソフトマージン（ 1-ノルム） : 双対化＋カーネル化

C

y

Kyy

i

l

i ii

l

i

l

j jijiji

l

i i

0

0 subject to

),(

maximize

1

1 121

1

xx

α

カーネル法古くから多くの研究 SVM 以外にも様々な応用

KPCA: カーネル主成分分析 KCCA: カーネル正準相関分析

SVM による多数のクラスの分類法（一例）

各クラスごとにＳＶＭを構成そのクラスの例を正例、それ以外の例を負例とする

新たなデータをそれぞれのＳＶＭに入力し、スコアが最も良いクラスを出力

実問題に対するカーネルデータから特徴ベクトル (feature vector)

を作るのが一般的、かつ、　多くの場合に実用的特徴ベクトル：　実数値の列例えば、各化合物 x に対し、

Φ(x) = ( 分子量 , 容積 , 表面積 , logP,…)

　とすれば、化合物 x,y に対するカーネルは

　 Φ(x) と Φ(ｙ ) の単なる内積

内容


タンパク質立体構造予測

アミノ酸配列から、タンパク質の立体構造（３次元構造）をコンピュータにより推定

実験よりは、精度が悪い

だいたいの形がわかれば良いのであれば、 4 ～５割の予測率

T V A C L G F S L V V G G R D

アミノ酸配列

コンピュータ

タンパク質立体構造

フォールド予測 (Fold Recognition)

精密な３次元構造ではなく、だいたいの形（ fold) を予測

立体構造は 1000種類程度の形に分類される、との予測 (Chotia, 1992) に基づく

T V A C L G F S L V V G G R D

1000個のテンプレート構造

アミノ酸配列

SCOP データベース

Class.1

Fold.1

Super Family.1

Family.1 Family.2mkkrltitlsesvlenlekmaremglsksam

isvalenykkgq

SCOP Root

ispqarafleevfrrkqslnskekeevakkcg

itplqvrvwfinkrmrs

Class.2

Fold.2

Super Family.2

Family.3

‥‥‥‥‥

‥‥‥‥‥

‥‥‥‥‥

タンパク質立体構造を形状を中心に、人手で、　階層的に、分類したデータベース

Super Family 予測

madqlteeqiaefkeafslfdkdgdgtittkelgtvmrslgqnpteaelqdminevdadg

ngtidfpefltmmark

タンパク質配列

Super Family.1

Super Family.2

Super Family.3：

：

入力配列が SCOP のどのスーパーファミリーに属するかを予測

既存手法の主なターゲット

Class

Fold

Super Family

Family

HMM, PSI-BLAST, SVM

SW, BLAST, FASTA

Threading

Secondary Structure Prediction

　配列解析のためのカーネル配列を実数ベクトルに変換様々なカーネルの提案

Marginalized kernel, Fisher kernel, Local alignment kernel, …

φ (x) ACCGTA CACGTA

TCCGTCC

TCCGTTC

AGCGTG AGCGTAA

TACCGTA

CCACCG CCACCGA

CTACCA

GACCGTA

CTACCGG

GACCTC

タンパク質配列解析のための既存カーネル

HMM から特徴ベクトルを抽出 Fisher カーネル (Jaakkola et al., 2000) Marginalized カーネル (Tsuda et al., 2002)

配列から直接特徴ベクトルを抽出 Spectrum カーネル (Leslie et al., 2002) Mismatch カーネル (Leslie et al., 2003)

他の配列とのスコアを特徴ベクトルとして利用 SVM pairwise (Liao & Noble, 2002)

A C C C C T T A A G A A C G

0 2 0 1 0 1 1 ( ) C C T A A

φ (x)

Spectrumカーネル

C

Spectrum カーネル

部分配列 t の配列 x での出現回数を occ(t,x) とすると

この内積をとり、 k-spectrum カーネルを得る

例： ∑ ={A,C} で、 x=“CAACA”, y=“AACCCA” とすると、

　となるので、

なお、 Spectrum カーネルは接尾辞木というデータ構造を使うと高速に計算可能

ktk xtoccx

)),(()(

)()(),( yxyxK kk

)2,1,1,1()(),0,2,1,1()( 22 yx

4),( yxK

All Substring カーネル (1)

Spectrum カーネルでは長さ k の文字列のみ考えたが、 All substring カーネルではすべての長さの（不連続も含めた）文字列を考える

例： x=“CAC”, y=“ACA” とすると、 φは次のとおり

よって、

*)),('()( txtoccx

t

ytoccxtoccyxyxK ),('),(')()(),(

ε A C AA AC CA CC AAA

… ACA … CAC

……

Φ(x) 1 1 2 0 1 1 1 0 … 0 … 1 ……

Φ(y) 1 2 1 1 1 1 0 0 … 1 … 0 ……

711221),( yxK

All Substring カーネル (2)

All substring カーネル無限次元だが、実際には有限次元動的計画法を用いて効率的に計算できる

例： x=“CAC”, y=“ACA”

ajyj

jyxKyxKyxaK

xK

][:

])1...1[,(),(),(

1),(

ε C CA CAC

ε 1 1 1 1

A 1 1 2 2

AC 1 2 3 5

ACA 1 2 5 7

5212

AC)(C,)(C,

ACA)(C,ACA)CA,(

KK

KK

725

A)(CA,ACA)(CA,ACA)CAC,(

KKK

配列アラインメント

バイオインフォマティクスの最重要技術の一つ

２個もしくは３個以上の配列の類似性判定に利用

文字間の最適な対応関係を求める（最適化問題）

配列長を同じにするように、ギャップ記号（挿入、欠失に対応）を挿入

A G L F S G L G Y

A G L G S V V G

A G L F G S L G Y

A G L G S V V G

ローカルアラインメント　(1) (Smith-Watermanアルゴリズム )

配列の一部のみ共通部分があることが多い　　⇒共通部分のみのアラインメント配列検索において広く利用されている例えば、 HEAWGEH 　と　 GAWED 　の

場合、　　　　　　　　 A W G E　　　　　　　　 A W － E　　というアラインメントを計算

ローカルアラインメント(2)

AWGE

AW - E

H E A G

G

A

E

W

W E H

0 0 0 0 0 0 0 0

0 0 0 0 0 1 0 0

0 0 0 1 0 0 0 0

0 0 0 0 1 0 0

0 0 1 0 1 0 2 1

2

0 0 0 0 0 0 1 1 D

実行例

（ギャップ-1、置換-1、一致1）

djiF

djiF

yxsjiFjiF ji

1),(

)1,(

)(1)1,(

0

max),(,動的計画法

の式

SVM-ペアワイズ法

学習に使う配列の集合を S={s1, s2, …, sn } とする各配列 x に対する特徴ベクトルを次のように定義

カーネルは、この内積をとり

Ssi isxSWx )),(()(SW

)()(),( SWSW yxyxK

x = ACGATTCG

s1 = CTGAAGG s2 = TTCGAA s3 = TACGATGCG

SW(x,s1)=80SW(x,s2)=25

SW(x,s3)=115

)115,25,80()(SW x

LA カーネル

SWアルゴリズムをそのままカーネルとして利用したい　　⇒　カーネルとならない

最適な１個のパスを考えただけではカーネルとならない

全部のパスの重み付き和を考えればカーネルとなる

LA カーネルの定義(1)

文字（残基）ペアのスコア : Kaβ (x,y)

ギャップのスコア： Kgβ (x,y)

otherwise)),(exp(

1||or 1||if0),(

yxs

yxyxKa

)1()(,0)0(

)|)(||)(|(exp),(

nedngg

ygxgyxK g

ただし、

LA カーネルの定義 (2)

カーネルの畳み込み (convolution)

アラインされる文字が n 個ある場合のスコア

LA カーネル

100

1

0)( ),(

Ka

n

gan KKKKKyxK ただし、

0

)( ),(),(i

iLA yxKyxK

yyyxxx

yxKyxKyxKK2121

2211,

2121 ),(),(),(

V F

Ka　β

F L L D D R L - - V L L V - - E K L G A - -

T T

Kｇ　β Kｇ　β Kｇ　β Ka　β Ka　β Ka　β

n=7

LA カーネルと SW スコアの関係

),()),(ln(lim 1 yxSWyxKLA

π ： ( ローカル ) アラインメント

s(x,y,π): x,y の　　アラインメント

π の　　スコア Π ：可能なアライメントの集合

),(

)),,(exp(),(yx

LA yxsyxK

)),,(exp(maxln

),,(max),(

),(

1

),(

yxs

yxsyxSW

yx

yx

定理

LA カーネルと SW スコア

SW スコア：　 1 個の最適なアラインメントのみを考慮 LA カーネル：　すべての可能なアラインメントを考慮

AWGE A - GE

HAWGEG

AGEHV

配列 x

配列 y

SWスコア

LAカーネル

AWGE A - GE

AWGE AG - E

HAWGE A -G - E

HAWGE - G A -G EHV -

π 1

π 2

π 3

π 4

p(x,y,π )=0.003　

p(x,y,π )=0.001　

p(x,y,π )=0.0006　

p(x,y,π )=0.0001　s(x,y,π)=30

s(x,y,π1)=30

s(x,y,π2)=15

s(x,y,π3)= -35

s(x,y,π4)= -115

SVM-ペアワイズ法と LA カーネル

SVM-pairwise

(25, 40, 30, 50)

内積

x yx y

1640

入力配列

特徴ベクトル

カーネル値

(10,30,20,5)

LA kernel

2290

SW スコアデータ

ベース配列群

),(

)),,(exp(yx

yxs

対角優位性問題への対処

２つの配列 x と y について、 K(x,x) と K(x,y) のスケールが違う問題

この時サポートベクターマシンは正負の例を記憶するだけでうまく学習できない。

( 実際上の ) 回避法

1

1

),(~

),(~

),(~

),(ln),(~

yyKxxK

yxKK

yxKyxK

LALA

LAnorm

LALA

　正規化カーネル

K(x,y) 　がカーネルなら以下もカーネル

),(),(

),(),(

yyKxxK

yxKyxKnorm

理由　　　　　　　　　　とおくと　　　　　　　

　　はカーネル

　　よって、 Knorm はカーネル

),(

1)(

xxKxf

),(),(

1

yyKxxK

提案手法の評価法

SVMの学習

54 SCOP Super Families

トレーニングデータ

SVMによる予測

評価 (ROC,ROC50)

テストデータ

ROC による性能評価

カーブが上にあるほど良い性能

mRFP による性能評価

カーブが上にあるほど良い性能

タンパク質相互作用の予測 (1)

相互作用するペア (x1,x2) を正例、

相互作用しないペア (x3,x4) を負例

x1 x2

(x1, x2)(x3, x4)

x3 x4

タンパク質相互作用の予測 (2)

手法１： Φ （ x1 ）と Φ （ x2 ）を並べたものを特徴ベクトルとする ))(),((),( 2121 xxxx

),(),(

))(),(())(),(()),(),,((

4231

43214321

xxKxxK

xxxxxxxxK

手法２： pairwise kernel

),(),(

),(),()),(),,((

3241

42314321

xxKxxK

xxKxxKxxxxK

化合物ータンパク質結合予測

(c1,p1) を化合物 c1 とタンパク質 p1 のペア結合するペアを正例、結合しないペアを負例と

する),(),()),(),,(( 21212211 ppKccKpcpcK proteinmol

p1

c1

結論（タンパク配列に対するカーネル）

様々なカーネルが提案されている Spectrum カーネルでは単純に長さ k の各文字列

の出現頻度を特徴ベクトルとしている All substring カーネルでは動的計画法により効率

的にカーネル値を計算可能ローカルアラインメントカーネルではすべてのロー

カルアラインメントを考慮することにより正定値性を確保

相互作用するペアを正例、しないペアを負例とすることにより、タンパク質相互作用予測、化合物ータンパク質結合予測に利用可能

内容


カーネル法による化合物の分類・性質予測

周辺化グラフ・カーネル　 (1)

Kashima らが 2003 年に提案

h: グラフ G1 におけるパス h’: グラフ G2 におけるパス l(h): パス h のラベル（原子名）の列 K’(x,y): ラベル列間のカーネル関数（例：　 K’(x,y)=1 if x=y, otherwise 0 　　）

))'(),((')'()(),(*2'*

1

21hlhlKhphpGGK

VhVh


C O

Cl

H u1　 u2　

u3　

u4　

H

G1　

H C O H v1　

v4　

v3　

v2　H

v5　 v6　

G2　

1))'(),(('

)OC,H,()'(),OC,H,()(

),,('),,,( 521321

hlhlK

hlhl

vvvhuuuh

0))'''(),''(('

)HC,O,C,H,()'''(

),,,,('''

)ClC,O,C,H,()''(

),,,,(''

12521

42321

hlhlK

hl

vvvvvh

hl

uuuuuh


C O

Cl

H

x　

φ (x)

H 0.03 (

C 0.03

N 0.0

HC 0.02

HO 0.0

CH 0.01

HC H

0.002 )


C

O

Cl

H v1　 v2　

v3　

v4　

G1　

0.9

END

START

0.25

0.3

0.3

0.9

0.3

0.9 0.1 0.1

0.1

0.1

0.25 0.25

0.25

1.03.09.03.025.0

),,,(

1.03.09.025.0

),,(

3242

321

vvvvp

vvvp

3.0)|()1(

3/1)|(

9.0)|()1(

0.1)|(

1.0)(25.0)(

23

23

12

12

0

vvpp

vvp

vvpp

vvp

vpvp

aq

a

aq

a

iqi


n

iiitsn

qavq

qt

qs

vvpvpvvp

upvupp

vpvup

vpvpvp

2111

)(

0

)|()(),,(

)()|()(1

)|(

)()()(


Cl H u1　 u2　G1　

G2　

O K v1　 v3　v2　

H

G1× G2　

v3　u2　( , )

H,K H,O H,H u1　 v1　( , ) ( , ) u1　 v2　 ( , ) u1　 v3　

Cl,K Cl,O Cl,H ( , ) u2　 v1　 ( , ) u2　 v2　

)),(|),((),()),(),)(,((

)|()|()),(|),((

)()(),(

211112211

1)2(

1)1(

11

1)2(

1)1(

11

n

iiiiitsnn

iitiitiiiit

sss

vuvuvuvuvuvu

vvpuupvuvu

vpupvu

周辺化グラフ・カーネル　 (7))())'(),((')'()(),(

*)21(*2'*

1

21hhlhlKhphpGGK

VVhVhVh

VuVutt

VVVVvss

uu

v

,'

)21(

))|'((

))((

1

1

1

1

1||,*121

)(

)()(),(

ts

nts

nnhVhn

I

hGGK

)1/(11 2 xxx

1

1

||,

)()(*

nts

nhVh

h

周辺化グラフ・カーネル⇒逆行列の計算無限次元の特徴ベクトルの内積⇒有限時間　（カーネルトリック）

周辺化グラフカーネルの問題点

パス（の集合）だけを用いて化学構造を表現反応中心などの情報を十分に取り入れることが困難？

行列のサイズが大きく（数千× 数千）なるため、逆行列の計算に時間がかかるすべてのトレーニングデータのペア（化合物のペア）について、それぞれ、逆行列を計算することが必要

⇒ 　構造情報 (Morgan Index) との組み合わせ

Morgan インデックス

化学構造の一意名を計算機により計算するために1960 年代に考案 CAS(Chemical Abstract Service) で利用

等価な原子に同じ番号（整数値）が与えられるような、各原子への番号づけを計算

簡単な繰り返し計算による番号づけ等価で無い原子にも同じ番号がつく可能性（でも、低

い）

⇒ Marginalized グラフカーネルにおいて、原子名とともに、モーガンインデックスを利用原子名およびモーガンインデックスの両者が一致するパ

スのみを考慮⇒ 　部分構造に関する特徴も、ある程度、取り入れられる

Morgan インデックスの計算法

すべての原子に番号１を割り当てるすべての原子 x について以下を実行

x に結合している原子の番号を総和を、 x の番号とする

計算機実験 MUTAG データを利用

標準的ベンチマークテストの一つ化合物のサルモネラ菌の変異性への影響データ 125個の正例、６３個の負例を利用各例 1 個のみをテストデータとし、他を学習

データとしたテストを繰り返したソフトウェア

SVMソフトとして、 GIST (http://microarray.cpmc.columbia.edu/gist)

を利用他は C++ で記述

結論（化合物に関するカーネル法）

周辺化グラフカーネルパスの出現頻度を特徴ベクトルとする逆行列計算により、無限次元ベクトルの内積を

有限時間で計算可能（カーネルトリック）モーガンインデックスの利用により精度を保ち

つつ高速化可能

パスでなく部分木、もしくは、部分グラフを使う従来のケモインフォマティクス分野で開発された

特徴ベクトル（ descriptor ）を利用グラフ構造だけでなく、３次元構造データを利用

他のカーネル

参考文献 SVMおよびカーネル一般

N. Cristianini & J. Shawe-Taylor: An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge Univ. Press, 2000.

（日本語訳：　大北（訳）、サポートベクターマシン入門、共立出版 , 2005 ）

J. Shawe-Taylor & N. Cristianini : Kernel Methods for Pattern Analysis, Cambridge Univ. Press, 2004.

赤穂：　カーネル多変量解析 , 岩波書店 , 2008. バイオインフォマティクスにおけるカーネル

Kernel Methods in Computational Biology, MIT Press, 2004. 丸山、阿久津：　バイオインフォマティクス –配列データ解析と構

造予測 , 朝倉書店 , 2007.

生命情報学基礎論カーネル法

Documents

Transcript of 生命情報学基礎論カーネル法

生命情報学基礎論 カーネル法

Documents

Transcript of 生命情報学基礎論 カーネル法

生命情報学基礎論カーネル法

Transcript of 生命情報学基礎論カーネル法