Download - バイオインフォマティクス - Lab...DNAマイクロアレイによる遺伝子発現プロファイルの解析法対象とする遺伝子の mRNAからcDNA を合成（長さを500塩基程度にそろえる）

バイオインフォマティクス（第５回）

慶應義塾大学生命情報学科

榊原康文

クラスタリングとは

◆類似性にしたがって分類 (グループ分け)

クラスター : 内部の要素はお互いに似ているが、外部のものとは異なる集合

クラスタリングにより３つのグループに分類

遺伝子のグループ化

遺伝子（それがコードするタンパク質）の機能の同定

同じ機能を持つ遺伝子をグループ化

① （アミノ酸）配列の相同性に基づくグループ化

◆ タンパク質のファミリー，スーパーファミリー，など

② マイクロアレイデータの発現プロファイルを用いた

遺伝子のクラスタリング

DNAチップとマイクロアレイ解析

DNAマイクロアレイによる遺伝子発現プロファイルの解析法

対象とする遺伝子のmRNAから cDNA を合成（長さを 500塩基程度にそろえる）

ガラス基板上にスポットし乾燥・固定化

正常細胞↓

mRNA↓

cDNA+蛍光色素Cy3(緑)

腫瘍細胞↓

mRNA↓

cDNA+蛍光色素Cy5(赤)

蛍光強度差を検出

遺伝子発現プロファイルのクラスタリング

赤：好気性

緑：嫌気性

発現情報のみを用いて発現パターンの類似

した遺伝子をクラスター（グループ）にし

ていく

◼ 酵母（S. cerevisiae）の既知遺伝子で，似た機能

をもつものは同じクラスターに分類されることを

確認（Eisen et al.,PNAS, 1998.）

◼ クラスタリングによって得られた結果に対し，同

一クラスター内の既知遺伝子の生物学的な注

釈（アノテーション情報）をもとに未知遺伝子の

機能を推定

マイクロアレイデータの発現プロファイル

● ●

● ●

●

● ●

● ●

● ●

● ●

● ●

● ● ●

● ● ●

● ●

条件１

（時間１）

条件２

（時間２）

条件10

（時間10）

●

●

●

遺伝子１

遺伝子２

遺伝子16

● ●

● ● ●

● ●

● ●

●

●

● ● ●

●

● ●

●

●

●

● ● ●

条件１

条件２

条件10

．．．

遺伝子１

遺伝子２

遺伝子16

．．．

発現プロファイル

発現プロファイルのクラスタリング

● ● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

●

● ●

●

● ● ● ● ● ●

● ● ● ● ●

● ● ● ● ● ●

条件１

条件２

条件10

．．．

遺伝子１’

遺伝子２’

遺伝子１６’

．．．

クラスター１

クラスター２

クラスター３

発現プロファイル

クラスタリングを用いたマイクロアレイ解析

◆発現データ (発現プロファイル)

– 行 : 遺伝子 (ｃDNA, EST, etc)

– 列 : 条件 (サンプル, 時間, etc)

Ngenes

M conditions

からなる N × M 行列

クラスタリング – 行 / 列成分に適用

– 要素 : 各遺伝子の各条件における発現レベル

“Distinct types of diffuse large B-cell lymphoma identified by

gene Expression profiling”, Alizadeh et al., Nature, 2000

び慢性大B細胞リンパ腫(diffuse large B-cell lymphoma)

同一の組織学的所見だが，

臨床経過が著しく異なる患者の存在

階層クラスタリングを用いて

がん化前の分化状態で分類

(臨床経過の予測が可能に)

マイクロアレイ解析の実際例

マイクロアレイ実験からの大規模なデータは，コンピュータによる解析が不可欠！！

クラスタリングの対象：二通り

① 条件にしたがって，遺伝子をクラスタリング

– 基本：遺伝子の分類

– 協調的に機能する / 類似の遺伝子セットの同定

– 典型的な発現パターンの同定 (細胞周期, 胞子形成, etc)

② 遺伝子にしたがって，条件をクラスタリング

– サンプルの分類（組織の状態の分類，疾患の分類）

– 条件の検定 (既知の機能分類に分けられたかどうか, etc)

(仮定 : 類似遺伝子なら発現プロファイルも似ている)

クラスタリングとは

◆類似性にしたがって分類 (グループ分け)

良いクラスタリングの条件 : 内部の要素はお互いに似ているが，外部のものとは異なる集合

良いクラスタリング悪いクラスタリング

類似性の尺度

入力ベクトル x = (x1, …, xn), y = (y1, …, yn)

◆ユークリッド距離 :

◆マンハッタン距離 :

◆ （ピアソン）相関係数 :

=

−=n

i

iiE yxyxd1

2)(),(

.),(1

=

−=n

i

iiM yxyxd

==

=

−−

−−

=n

i

i

n

i

i

n

i

ii

C

yyxx

yyxx

yxd

1

2

1

2

1

)()(

))((

),(

（値域：−1≦ dC≦ 1）

どの尺度を使えばいいのか？

0

1

2

3

4

1 2 3 4

1.0 2.0 3.0 4.0

A 1.0 1.0 1.5 1.5

B 2.5 2.5 3.5 3.5

C 1.5 1.5 1.0 1.0

B

A

C

dc(A, B) = 1

dc(A, C) = -1

dE(A, B) = 3.54

dE(A, C) = 1

ユークリッド距離

ピアソン相関係数

どの尺度を使うか何を検出したいのか

どの尺度を使えばいいのか？

◆ Correlation-based : 発現変化の相関をみる

◆ Distance-based : 発現変化の絶対量をみる

どの尺度を使うか何を検出したいのか

(ピアソン相関係数，など)

(一般に，マンハッタン距離の方がoutlinerに対してロバスト)

条件が経過時間ならば Corrleation-based

条件が様々な環境(熱ショック, 飢餓)ならば Distance-based

クラスタリングアルゴリズム

Unsupervised (教師なし, 事前ラベルなし) :

階層クラスタリング, k-means法,

fuzzy k-means法, SOM(自己組織化マップ)法

クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小

[目標]

◼ 類似性にしたがって分類 (グループ分け)

階層的クラスタリング

◼ ボトムアップ的手法

• Step1. 各要素分のクラスタを考える

• Step2. 全てのペアの類似度を調べ，類似度が最大のペアを１つにマージする

• Step3. 全てのペアについて類似度を再計算

• Step4. クラスタが1つになるまで，Step2, 3 を繰り返す

現在のクラスタペアをマージしたクラスタを生成


系統図（dendrogram）階層的クラスタリングの結果：


◼ クラスタの類似度の計算

• 最短距離法. クラスタ間の最短距離

• 最長距離法. クラスタ間の最長距離

• 群間平均法. クラスタ間の平均距離

),(min),(,

yxdGGdji GyGx

ji

=

),(max),(,

yxdGGdji GyGx

ji

=

),(||||

1),(

,yxd

GGGGd

ji GyGxji

ji

=

階層クラスタリング


A

B

C

•最短距離法

•最長距離法

•群間平均法

A, C をマージ



A

B

C

•最短距離法

•最長距離法

•群間平均法

B, C をマージ



A

B

C

•最短距離法

•最長距離法

•群間平均法

A, C をマージ



• 最短距離法. クラスタ間の最短距離

• 最長距離法. クラスタ間の最長距離

• 群間平均法. クラスタ間の平均距離

伸長したクラスタが得られる

コンパクトなクラスタが得られる

平均的なサイズのクラスタが得られる


Step1.データセット Step2-1.距離計算

Step2-2.マージ Step3.距離再計算

階層クラスタリング例：ユークリッド距離（群間平均法）

[1] [2]

A: 1 0

B: 2 2

C: 3 3

D: 0 -1

E: -1 1

A: B: C: D:

B: 2.236

C: 3.605 1.414

D: 1.414 3.605 5.000

E: 2.236 3.162 4.472 2.236

入力ベクトル

距離行列

距離マップ

系統樹

A

B

D

C

E

AB C D

E

階層クラスタリング例：ユークリッド距離

最短距離法最長距離法

AB C D

E

BDA C

E

階層クラスタリング例：ピアソン相関係数（群間平均法）

[1] [2]

A: 1 0

B: 2 2

C: 3 3

D: 0 -1

E: -1 1

A: B: C: D:

B: 0.292

C: 0.292 0.000

D: 1.000 1.707 1.707

E: 1.707 1.000 1.000 1.707

入力ベクトル

距離行列

距離マップ

系統樹

A

B

D

C

E

B

D

E

C

A

==

==

1

2

1

2

1),(

i

i

i

i

i

ii

C

yx

yx

yxd

階層的クラスタリングの応用例

“Systematic Variation in gene expression patterns in

Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000

◼ がん細胞の種類に関して，遺伝子発現プロファイルを用いたクラスタリングによりグループ分けすることができた

CNS：中枢神経，renal：腎臓，ovarian：卵巣，leukaemia：白血病，

colon：結腸，melanoma：メラノーマ（黒色腫）

k-means法

◼ トップダウン的手法

• Step1. 最終的なクラスタ数 k を設定

• Step2. 任意の k 個のクラスタ中心を設定 (random)

• Step3-1. 各要素を最も近いクラスタ中心に割り当てる(一般に，ユークリッド距離に関して)

• Step4. 重心が変化しなくなるまで，Step3 を繰り返す

各クラスタ中心を，そのクラスタ内の全要素の重心で置き換える

• Step3-2.

1 2

Step1.データセット Step2.クラスタ中心設定

Step3-1.クラスタ割り当て Step3-2.新クラスタ中心算出

k-means法

1 2

2

1

1

1

11

1 1 1

1

1

1

1

12

22

2

2

2

2

2

2

2

2

2

k-means法：ユークリッド距離

k=2 k=3

A

B

D

C

E

A

B

D

C

E

k-means法の問題点

◼ 初期値に強く依存する

クラスタ数 : k

多くのヒューリスティックな解法が提案(ベイズ推論を用いる，など）

クラスタ中心の初期設定

事前に制約を設定する (Constrained k-means, etc)

◼ 得られた結果は k 個のクラスタのみ

各クラスタ間の関係などは不明

クラスタリングによるマイクロアレイ解析は一般的だが …

⚫ 様々なアルゴリズムが存在する

それぞれに長所・短所があるので，目的に合わせて最適なアルゴリズム・パラメータを選択する

⚫ クラスタリング結果の妥当性・有意性評価は困難

ランダムデータからでも相関のあるクラスタは生成される

1. 注意深く，結果を解釈する (生物学的に)

2. 複数のソース(DNA配列情報, etc)と組み合わせて有意性の高い結果を得るようにする

まとめ

階層クラスタリング演習問題

下記の４つの入力ベクトルを，階層クラスタリングを用いて，クラスタリングした結果の系統樹を書きなさい．この時，距離関数はユークリッド距離と群間平均法を用いなさい．

入力ベクトル

系統樹

Download - バイオインフォマティクス - Lab...DNAマイクロアレイによる 遺伝子発現プロファイルの解析法 対象とする遺伝子の mRNAからcDNA を合成 （長さを500塩基程度にそろえる）

Download - バイオインフォマティクス - Lab...DNAマイクロアレイによる遺伝子発現プロファイルの解析法対象とする遺伝子の mRNAからcDNA を合成（長さを500塩基程度にそろえる）