PrePPI: structure-based protein-protein interaction prediction

46
Structure-based prediction of protein-protein interactions on a genome-wide scale 大大 大大 (@tonets) 2014/07/04 Qiangfeng Cliff Zhang, et al. Nature, 490(7421): 556-560, 2012.

description

Structure-based prediction of protein-protein interactions on a genome-wide scale Qiangfeng Cliff Zhang, et al. Nature, 490(7421): 556-560, 2012.

Transcript of PrePPI: structure-based protein-protein interaction prediction

Page 1: PrePPI: structure-based protein-protein interaction prediction

Structure-based prediction of protein-protein interactions on a genome-wide scale

大上 雅史 (@tonets)2014/07/04

Qiangfeng Cliff Zhang, et al. Nature, 490(7421): 556-560, 2012.

Page 2: PrePPI: structure-based protein-protein interaction prediction

2

• タンパク質の 3 次元構造情報とその他の非構造情報を組み合わせたタンパク質間相互作用( PPI )予測手法の提案

• PPI の解明は細胞のメカニズムの解明のために重要• Y2H ( yeast two-hybrid )等のハイスループットな技術がすでに存在• 計算機上での予測手法も盛んに研究されているが,

その精度はまだまだ発展途上• 我々はハイスループットな実験手法と同等の精度( ? )を達成した

Abstract

Page 3: PrePPI: structure-based protein-protein interaction prediction

Introduction• 現在までのところ、タンパク質の構造情報は配列の情報に

比べ極端に数が少ない– 酵母の例だと 10% 以下(割合 :600/6500, 2010 年)

• よって、タンパク質間相互作用の研究における貢献度は小さい

• しかし、この先3次元の構造情報が増えていけば,タンパク質の単体や複合体のモデリングに有効であることは明らかである

• これまでの研究で構造的特徴付けされた複合体をテンプレートとして用いる手法はいくつかあるが、我々は新たに二次構造を用いた幾何学的関係をテンプレートに利用する

3

Page 4: PrePPI: structure-based protein-protein interaction prediction

Method

4

Page 5: PrePPI: structure-based protein-protein interaction prediction

PrePPI

5

Fig. 1

• 候補構造生成に相同性モデルを用いたもの• 構造情報と非構造情報をベイズ統計で組み合わせたもの

Page 6: PrePPI: structure-based protein-protein interaction prediction

候補構造の生成

6

Page 7: PrePPI: structure-based protein-protein interaction prediction

候補構造の生成手順• 配列相同性検索を用いて入力タンパク質の代表構造を特定す

る– 実験的定義構造か相同性モデルに一致– 相同性:遺伝子やタンパク質が、進化的に共通の祖先を持つ場合のこ

と• 構造アラインメントを用いて類似のタンパク質を大量に用意

– 近いのと遠いの両方(平均 1500 個)– Ska というツールを使用

• うちどれか 2 つを相互作用モデルのテンプレートとする– PDB に存在するもの

• 複合体モデルはテンプレートに重ね合わせることで作る

7

Page 8: PrePPI: structure-based protein-protein interaction prediction

どのくらいの量か• この過程で得られる候補構造の数– 酵母の 5 億 5 千万の候補構造• 酵母のタンパク質 3600 個, PPI 候補 240 万

– ヒトの 120 億の候補構造• タンパク質 13000 , PPI 候補 3600 万

• 構造ベースアラインメントを用いた– 3 次元構造では計算時間が膨大なため

8

Page 9: PrePPI: structure-based protein-protein interaction prediction

スコア関数 1

9

Page 10: PrePPI: structure-based protein-protein interaction prediction

予測のための 5 つの構造に基づく経験的特徴量

• SIM– テンプレートと入力タンパク質の構造の類似度

• SIZ and COV– SIZ: テンプレートとの共通の結合面残基の個数– COV: その割合

• OS– SIZ のうち、結合面の残基ペアが両方とも一致している個数

• OL– テンプレートの結合面残基のうち、入力タンパク質においても

結合面に存在するものの個数

10

Page 11: PrePPI: structure-based protein-protein interaction prediction

SIM• 構造の類似度

– テンプレートと入力タンパク質を二次構造を用いて比較– 2 つのタンパク質について PSD を求め、平均をとって使う

• PSD ( protein structural distance )– 二重動的計画法( DDP )を用いた二次構造比較+ RMSD による

スコア

1. まず、二次構造要素( SSE, secondary structural element )同士の距離や角度からある二次構造ペア間の類似度 を網羅的に求める

11

距離 角度

𝑝 ,𝑞 ,𝑟 :パラメータ𝑖 , 𝑗 ,𝑚 ,𝑛 :二次構造番号

二重動的計画法( DDP )を用いた二次構造比較スコア

Page 12: PrePPI: structure-based protein-protein interaction prediction

SIM• つまり ? (二重動的計画法)

12

タンパク質A B

a1

a2a3

a4

b1

b2b3

b4a1

a2

b1

b2

二次構造

角度 距離

これの平均

a1

a2

a3

a4

を計算

b1 b2 b3 b4

𝑆 (𝑎1 ,𝑏1)

10

a1

a2

a3

a4

b1 b2 b3 b4

40

組み合わせの数だけ作成

20

30

30

5 2

2

3

7

9

1

ローレベル動的計画法

ハイレベル動的計画法

累積

𝑠 ( 𝐴 ,𝐵 )=100

残基

Page 13: PrePPI: structure-based protein-protein interaction prediction

SIM• 二重動的計画法 DDP の例 (Double Dynamic Programing)

13

Page 14: PrePPI: structure-based protein-protein interaction prediction

SIM• 二重動的計画法 DDP の例 (Double Dynamic Programing)

14

Page 15: PrePPI: structure-based protein-protein interaction prediction

SIM• もうひとつのスコア

optimized CαRMSD– RMSD: 2 つのタンパク質を重ね合わ

せたときの、各原子間の距離をもとにした構造差

– まず二次構造アラインメントを用いて大まかな一致箇所を探す

– 残基間アラインメントを用いて一致する残基を探し、重ね合わせ、 RMSD を求める。

15

タンパク質3次元構造のペア

二次構造と溶媒露出面積を求める

二次構造アラインメント(さっきのやつ)

残基間アラインメント

剛体重ね合わせ、 RMSD 計算

RMSD は収束したか

no

yes

終了

流れ

Page 16: PrePPI: structure-based protein-protein interaction prediction

SIM

• 最終的なスコア– 二つのタンパク質について PSD を求め、平均

をとって使う

16

𝑥 , 𝑦 :パラメータ

RMSD スコア

二次構造スコア

Page 17: PrePPI: structure-based protein-protein interaction prediction

SIZ and COV• SIZ– 2つの構造で共通の結合面残基ペアの個数

• COV– その割合

17

Page 18: PrePPI: structure-based protein-protein interaction prediction

OS and OL• OS– SIZ のうち、結合面残基ペアの両方ともが一致している

個数• OL– テンプレートの結合面残基のうち、入力タンパク質に

おいても結合面に存在するものの個数

18

Page 19: PrePPI: structure-based protein-protein interaction prediction

ベイジアンネットワーク (BN)を用いた学習モデル 1/3

• 複数の DB を組み合わせる( Table S1 )– 2つ以上の DB に含まれている PPI ペアを信頼性の高いもの ; HC (High Confidence) とする– そうでないものを信頼性の低いもの ; LC (Low Confidence )– それ以外を N (negative) とする

• HC と N を用いる

10-fold cross validation

19

学習に用いたデータベース( DB )

• さきほどまでの5つの特徴量をベイジアンネットワークで組み合わせ、 PPI の予測モデルを作成する

yeast human

Page 20: PrePPI: structure-based protein-protein interaction prediction

BN を用いたモデル 2/3

• COV, SIZ, OL, OS– 全結合ベイジアンネットワーク– 同時確率

• SIM– ナイーブベイズ(他の4つとは関連が薄いため)

20

COV

SIZ

OL

OS

SIMClass

特徴量の利用方法( Fig. S1 )

Page 21: PrePPI: structure-based protein-protein interaction prediction

BN を用いたモデル 3/3

• 相互作用判定のための尤度比( LR, Likelihood Ratio )

21

𝑂𝑝𝑟𝑖𝑜𝑟=𝑃 (𝐻𝐶)𝑃 (𝑁 )

𝑂𝑝𝑜𝑠𝑡=𝑃 (𝐻𝐶∨𝑏𝑖𝑛)𝑃 (𝑁∨𝑏𝑖𝑛)

LR𝑵𝑩≥𝟔𝟎𝟎閾値

bin: 分類クラス

Page 22: PrePPI: structure-based protein-protein interaction prediction

BN 用いたモデル : 例• つまり

22

10 個 990 個

HC N

学習データセット

HC:8N:92

HC:2N:898

0.5< 0.5≧SIM

COV SIZ OS OL4< 0.6< 3< 5<

HC:7 N:93

4≧ 0.6≧ 3≧ 5≧HC:3 N:897

𝑂𝑝𝑟𝑖𝑜𝑟 1

𝑂𝑝𝑟𝑖𝑜𝑟 2

簡単化のため、クラス数をとても減らしています

𝑂𝑝𝑟𝑖𝑜𝑟=199

Page 23: PrePPI: structure-based protein-protein interaction prediction

BN を用いたモデル : 例

この値が大きければ相互作用すると判断

23

𝑂𝑝𝑜𝑠𝑡 1=793

入力タンパク質ペア

𝐶𝑂𝑉 >4 ,𝑆𝐼𝑍>0.6 ,𝑂𝑆>3 ,𝑂𝐿>5𝑆𝐼𝑀>0.5

𝑂𝑝𝑜𝑠𝑡2=892

LR 𝑩𝟒=𝑂𝑝𝑜𝑠𝑡1

𝑂𝑝𝑟𝑖𝑜𝑟 1

= 793×991≈7.45

LR𝑵𝑩=𝑂𝑝𝑜𝑠𝑡2

𝑂𝑝𝑟𝑖𝑜𝑟 2

= 892×991≈8.61

LR𝑵𝑩=𝟔𝟒 .𝟏

ひとつ前のスライドの色の濃い方に含まれる

Page 24: PrePPI: structure-based protein-protein interaction prediction

スコア関数 2

24

Page 25: PrePPI: structure-based protein-protein interaction prediction

比較、組み合わせのための5 つの非構造情報( NS )

1. 相互作用ペアのタンパク質の必須性2. 発現の時間変動の相関係数

– 複合体を形成するタンパク質同士は遺伝子が共発現することが多い3. 遺伝子オントロジー( GO, Gene ontology )の機能類似性

– GO: 生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクト / 統一されたデータベース

4. MIPS の機能類似性5. 系統発生プロファイルの類似性

25

Page 26: PrePPI: structure-based protein-protein interaction prediction

非構造情報• 5番目:系統発生プロファイルの類似性

– それぞれのタンパク質について、特定のタンパク質またはドメインの発生の有無を 0,1 のベクターで表現する

– その類似度をピアソンの相関係数( PCC )で測る• 複数のドメインを持つものは、それぞれのドメインについて

相関係数を計算し、高い方を採用する• 2つの配列の同一性が 40%以上の場合は計算しない

26

Page 27: PrePPI: structure-based protein-protein interaction prediction

構造情報と非構造情報の合体• 単純ベイズ分類器で結合

27

LR (SM, 𝑬𝟏 ,𝑬𝟐 ,𝑬𝟑 ,𝑬𝟒 ,𝑬𝟓 )=LR𝑺𝑴∗∏𝒊=𝟏

𝟓

𝑳𝑹𝑬 𝒊

: 構造情報: 非構造情報

Page 28: PrePPI: structure-based protein-protein interaction prediction

Results & Discussion

28

Page 29: PrePPI: structure-based protein-protein interaction prediction

構造と非構造の比較結果その1 Fig. S3

• 非構造情報を用いた場合、閾値の LR が大きくなると急激に悪化する

•  構造情報は high confidence level で有効である

29

• TP ( True positive )o HC のみ

• TP_ALLo HC+LC

• Po すべての positive 予測の個数

Page 30: PrePPI: structure-based protein-protein interaction prediction

構造と非構造の比較結果その2 Fig. S4

• SM は低 FPR ( 0.1%以下)のときに特に効果を発揮する

• 大量のネガティブペアが存在する PPI 予測では、これは効果的である

30

• A: 全てのデータセット• B: yeast のみ• C: B のうち全ての特徴量が  利用できるもののみ

• D: B のうち構造情報を利用 できるもののみ

• E: yeast で学習して humanで試した?

Page 31: PrePPI: structure-based protein-protein interaction prediction

31

Page 32: PrePPI: structure-based protein-protein interaction prediction

2つの相補性• 構造情報と非構造情報は相補的関係にあ

る– 力を合わせたほうが良い結果( Fig. S4 )– Fig. S6 でもわかる( LR>600 )

32

Page 33: PrePPI: structure-based protein-protein interaction prediction

ハイスループットな実験とも比べた

• Fig.2 Fig.S8• ほぼ同等かそれ以上の精度• PrePPI と実験的手法では正解したペアが違う ( 次のスライド )

組み合わせると有効だろう

33

Page 34: PrePPI: structure-based protein-protein interaction prediction

34

ハイスループットな実験とも比べた

Page 35: PrePPI: structure-based protein-protein interaction prediction

DREAM exercise• DREAM (Dialogue for Reverse Engineering Assessments and Methods) とい

う予測競走のイベントにおいて、 PrePPI が一番良い

35

Page 36: PrePPI: structure-based protein-protein interaction prediction

生物学的実験による確認• 19 個の予測結果を免疫沈降法( IP )とウエスタンブロッ

ティング( IB )によって確認( Fig. S10~ S14, Table S6 )– 他の4つの研究室に依頼– 大部分が実験的にも確認できた( Table. S6 )– 例1( Fig.S10 )

• PPAR-γ は β 細胞機能に働くが、直接か間接か?→実験結果から直接の可能性を示した

36

Page 37: PrePPI: structure-based protein-protein interaction prediction

免疫沈降法 (IP) とウエスタンブロッティング(IB)

• 手順

37

A B

Flag HA

A B

Flag とかくっつける まず Flag ついているやつだけ取り出す

A

Flag

今度はその中から HA がついているやつを取り出してみる

対象のタンパク質

B

HA

何もなし相互作用しない

相互作用するIB

IP複合体も取り出せる

単体のみ

Page 38: PrePPI: structure-based protein-protein interaction prediction

我々が成功したたった 3 つの理由 その 1

• モデル化できる相互作用を増やすことが重要( Fig. S16 )– 今回は相同性モデルや構造的に遠い関係のものも利用したが、実験的に定義

された PDB内に存在する構造だけを用いると、候補構造の数は一気に減ってしまう

– ただし,精度は PDB中のものを用いたほうが高い– だが,相同性モデルで予測されたものも研究が進めば正しいことが証明され

るはず

38

候補構造の数 既に知られている PPI の割合

Page 39: PrePPI: structure-based protein-protein interaction prediction

我々が成功したたった 3 つの理由 その 2

スコアがつよい• 近い family 同士のタンパク質も区別できる( Fig. S15 )

– 結合面の情報を用いたから。例えば、出現残基の統計的要素など– それに加え、共発現などの非構造情報も大事

39SMのみ

PrePPI

幅広いスコア分布

Page 40: PrePPI: structure-based protein-protein interaction prediction

我々が成功したたった 3 つの理由 その 3

ベイズ– 個々の独立性を保ちながら、弱い証拠が組み合わさ

り高い精度を出した

40

Page 41: PrePPI: structure-based protein-protein interaction prediction

相同性モデルによって発見できた例

• 構造的には遠い関係、相同性モデルを用いた例• どちらも質量分析によって実験的に証明された

41

Page 42: PrePPI: structure-based protein-protein interaction prediction

Conclusion

42

Page 43: PrePPI: structure-based protein-protein interaction prediction

結論• 相同性モデルを用いることは新たな機能関係の

発見に有効

• PrePPI はハイスループットな実験と同等の精度を達成

• 我々は structural biology が分子システム生物学において重要な役割を持っていることを示した

43

Page 44: PrePPI: structure-based protein-protein interaction prediction

PrePPIサーバ

44

https://bhapp.c2b2.columbia.edu/PrePPI/

Page 45: PrePPI: structure-based protein-protein interaction prediction

45

CALM1 の検索結果( calmodulin タンパク質)

DB には PPI はないけど CALM1 と CETN2 の予測のスコア特に構造のスコアが高い!見てみよう(ポチー

Page 46: PrePPI: structure-based protein-protein interaction prediction

46

CALM1-CETN2 のモデル構造