バイオインフォマティクス - Lab...DNAマイクロアレイによる...

34
バイオインフォマティクス (第5回) 慶應義塾大学生命情報学科 榊原康文

Transcript of バイオインフォマティクス - Lab...DNAマイクロアレイによる...

Page 1: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

バイオインフォマティクス(第5回)

慶應義塾大学生命情報学科

榊原康文

Page 2: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

クラスタリングとは

◆類似性にしたがって分類 (グループ分け)

クラスター : 内部の要素はお互いに似ているが、外部のものとは異なる集合

クラスタリングにより3つのグループに分類

Page 3: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

遺伝子のグループ化

遺伝子(それがコードするタンパク質)の機能の同定

同じ機能を持つ遺伝子をグループ化

① (アミノ酸)配列の相同性に基づくグループ化

◆ タンパク質のファミリー,スーパーファミリー,など

② マイクロアレイデータの発現プロファイルを用いた

遺伝子のクラスタリング

Page 4: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

DNAチップとマイクロアレイ解析

Page 5: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

DNAマイクロアレイによる遺伝子発現プロファイルの解析法

対象とする遺伝子のmRNAから cDNA を合成(長さを 500塩基程度にそろえる )

ガラス基板上にスポットし乾燥・固定化

正常細胞↓

mRNA↓

cDNA+蛍光色素Cy3(緑)

腫瘍細胞↓

mRNA↓

cDNA+蛍光色素Cy5(赤)

蛍光強度差を検出

Page 6: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

遺伝子発現プロファイルのクラスタリング

赤:好気性

緑:嫌気性

発現情報のみを用いて発現パターンの類似

した遺伝子をクラスター(グループ)にし

ていく

◼ 酵母(S. cerevisiae)の既知遺伝子で,似た機能

をもつものは同じクラスターに分類されることを

確認(Eisen et al.,PNAS, 1998.)

◼ クラスタリングによって得られた結果に対し,同

一クラスター内の既知遺伝子の生物学的な注

釈(アノテーション情報)をもとに未知遺伝子の

機能を推定

Page 7: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

マイクロアレイデータの発現プロファイル

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ● ●

● ● ●

● ●

条件1

(時間1)

条件2

(時間2)

条件10

(時間10)

遺伝子1

遺伝子2

遺伝子16

● ●

● ● ●

● ●

● ●

● ● ●

● ●

● ● ●

条件1

条件2

条件10

...

遺伝子1

遺伝子2

遺伝子16

...

発現プロファイル

Page 8: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

発現プロファイルのクラスタリング

● ● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

条件1

条件2

条件10

...

遺伝子1’

遺伝子2’

遺伝子16’

...

クラスター1

クラスター2

クラスター3

発現プロファイル

Page 9: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

クラスタリングを用いたマイクロアレイ解析

◆発現データ (発現プロファイル)

– 行 : 遺伝子 (cDNA, EST, etc)

– 列 : 条件 (サンプル, 時間, etc)

Ngenes

M conditions

からなる N × M 行列

クラスタリング – 行 / 列成分に適用

– 要素 : 各遺伝子の各条件における発現レベル

Page 10: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

“Distinct types of diffuse large B-cell lymphoma identified by

gene Expression profiling”, Alizadeh et al., Nature, 2000

び慢性大B細胞リンパ腫(diffuse large B-cell lymphoma)

同一の組織学的所見だが,

臨床経過が著しく異なる患者の存在

階層クラスタリングを用いて

がん化前の分化状態で分類

(臨床経過の予測が可能に)

マイクロアレイ解析の実際例

マイクロアレイ実験からの大規模なデータは,コンピュータによる解析が不可欠!!

Page 11: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

クラスタリングの対象:二通り

① 条件にしたがって,遺伝子をクラスタリング

– 基本:遺伝子の分類

– 協調的に機能する / 類似の遺伝子セットの同定

– 典型的な発現パターンの同定 (細胞周期, 胞子形成, etc)

② 遺伝子にしたがって,条件をクラスタリング

– サンプルの分類(組織の状態の分類,疾患の分類)

– 条件の検定 (既知の機能分類に分けられたかどうか, etc)

(仮定 : 類似遺伝子なら発現プロファイルも似ている)

Page 12: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

クラスタリングとは

◆類似性にしたがって分類 (グループ分け)

良いクラスタリングの条件 : 内部の要素はお互いに似ているが,外部のものとは異なる集合

良いクラスタリング 悪いクラスタリング

Page 13: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

類似性の尺度

入力ベクトル x = (x1, …, xn), y = (y1, …, yn)

◆ユークリッド距離 :

◆マンハッタン距離 :

◆ (ピアソン)相関係数 :

=

−=n

i

iiE yxyxd1

2)(),(

.),(1

=

−=n

i

iiM yxyxd

==

=

−−

−−

=n

i

i

n

i

i

n

i

ii

C

yyxx

yyxx

yxd

1

2

1

2

1

)()(

))((

),(

(値域:−1≦ dC≦ 1)

Page 14: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

どの尺度を使えばいいのか?

0

1

2

3

4

1 2 3 4

1.0 2.0 3.0 4.0

A 1.0 1.0 1.5 1.5

B 2.5 2.5 3.5 3.5

C 1.5 1.5 1.0 1.0

B

A

C

dc(A, B) = 1

dc(A, C) = -1

dE(A, B) = 3.54

dE(A, C) = 1

ユークリッド距離

ピアソン相関係数

どの尺度を使うか 何を検出したいのか

Page 15: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

どの尺度を使えばいいのか?

◆ Correlation-based : 発現変化の相関をみる

◆ Distance-based : 発現変化の絶対量をみる

どの尺度を使うか 何を検出したいのか

(ピアソン相関係数,など)

(一般に,マンハッタン距離の方がoutlinerに対してロバスト)

条件が経過時間ならば Corrleation-based

条件が様々な環境(熱ショック, 飢餓)ならば Distance-based

Page 16: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

クラスタリングアルゴリズム

Unsupervised (教師なし, 事前ラベルなし) :

階層クラスタリング, k-means法,

fuzzy k-means法, SOM(自己組織化マップ)法

クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小

[目標]

◼ 類似性にしたがって分類 (グループ分け)

Page 17: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層的クラスタリング

◼ ボトムアップ的手法

• Step1. 各要素分のクラスタを考える

• Step2. 全てのペアの類似度を調べ,類似度が最大のペアを1つにマージする

• Step3. 全てのペアについて類似度を再計算

• Step4. クラスタが1つになるまで,Step2, 3 を繰り返す

現在のクラスタペアをマージしたクラスタを生成

Page 18: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層的クラスタリング

系統図(dendrogram)階層的クラスタリングの結果:

Page 19: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層的クラスタリング

◼ クラスタの類似度の計算

• 最短距離法. クラスタ間の最短距離

• 最長距離法. クラスタ間の最長距離

• 群間平均法. クラスタ間の平均距離

),(min),(,

yxdGGdji GyGx

ji

=

),(max),(,

yxdGGdji GyGx

ji

=

),(||||

1),(

,yxd

GGGGd

ji GyGxji

ji

=

Page 20: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング

◼ クラスタの類似度の計算

A

B

C

•最短距離法

•最長距離法

•群間平均法

A, C をマージ

Page 21: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング

◼ クラスタの類似度の計算

A

B

C

•最短距離法

•最長距離法

•群間平均法

B, C をマージ

Page 22: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング

◼ クラスタの類似度の計算

A

B

C

•最短距離法

•最長距離法

•群間平均法

A, C をマージ

Page 23: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング

◼ クラスタの類似度の計算

• 最短距離法. クラスタ間の最短距離

• 最長距離法. クラスタ間の最長距離

• 群間平均法. クラスタ間の平均距離

伸長したクラスタが得られる

コンパクトなクラスタが得られる

平均的なサイズのクラスタが得られる

Page 24: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング

Step1.データセット Step2-1.距離計算

Step2-2.マージ Step3.距離再計算

Page 25: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング例:ユークリッド距離 (群間平均法)

[1] [2]

A: 1 0

B: 2 2

C: 3 3

D: 0 -1

E: -1 1

A: B: C: D:

B: 2.236

C: 3.605 1.414

D: 1.414 3.605 5.000

E: 2.236 3.162 4.472 2.236

入力ベクトル

距離行列

距離マップ

系統樹

A

B

D

C

E

AB C D

E

Page 26: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング例:ユークリッド距離

最短距離法 最長距離法

AB C D

E

BDA C

E

Page 27: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング例:ピアソン相関係数 (群間平均法)

[1] [2]

A: 1 0

B: 2 2

C: 3 3

D: 0 -1

E: -1 1

A: B: C: D:

B: 0.292

C: 0.292 0.000

D: 1.000 1.707 1.707

E: 1.707 1.000 1.000 1.707

入力ベクトル

距離行列

距離マップ

系統樹

A

B

D

C

E

B

D

E

C

A

==

==

1

2

1

2

1),(

i

i

i

i

i

ii

C

yx

yx

yxd

Page 28: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層的クラスタリングの応用例

“Systematic Variation in gene expression patterns in

Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000

◼ がん細胞の種類に関して,遺伝子発現プロファイルを用いたクラスタリングによりグループ分けすることができた

CNS:中枢神経,renal:腎臓,ovarian:卵巣,leukaemia:白血病,

colon:結腸,melanoma:メラノーマ(黒色腫)

Page 29: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

k-means法

◼ トップダウン的手法

• Step1. 最終的なクラスタ数 k を設定

• Step2. 任意の k 個のクラスタ中心を設定 (random)

• Step3-1. 各要素を最も近いクラスタ中心に割り当てる(一般に,ユークリッド距離に関して)

• Step4. 重心が変化しなくなるまで,Step3 を繰り返す

各クラスタ中心を,そのクラスタ内の全要素の重心で置き換える

• Step3-2.

Page 30: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

1 2

Step1.データセット Step2.クラスタ中心設定

Step3-1.クラスタ割り当て Step3-2.新クラスタ中心算出

k-means法

1 2

2

1

1

1

11

1 1 1

1

1

1

1

12

22

2

2

2

2

2

2

2

2

2

Page 31: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

k-means法:ユークリッド距離

k=2 k=3

A

B

D

C

E

A

B

D

C

E

Page 32: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

k-means法の問題点

◼ 初期値に強く依存する

クラスタ数 : k

多くのヒューリスティックな解法が提案(ベイズ推論を用いる,など)

クラスタ中心の初期設定

事前に制約を設定する (Constrained k-means, etc)

◼ 得られた結果は k 個のクラスタのみ

各クラスタ間の関係などは不明

Page 33: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

クラスタリングによるマイクロアレイ解析は一般的だが …

⚫ 様々なアルゴリズムが存在する

それぞれに長所・短所があるので,目的に合わせて最適なアルゴリズム・パラメータを選択する

⚫ クラスタリング結果の妥当性・有意性評価は困難

ランダムデータからでも相関のあるクラスタは生成される

1. 注意深く,結果を解釈する (生物学的に)

2. 複数のソース(DNA配列情報, etc)と組み合わせて有意性の高い結果を得るようにする

まとめ

Page 34: バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 (長さを500塩基程度にそろえる)

階層クラスタリング演習問題

下記の4つの入力ベクトルを,階層クラスタリングを用いて,クラスタリングした結果の系統樹を書きなさい.この時,距離関数はユークリッド距離と群間平均法を用いなさい.

入力ベクトル

系統樹