バイオインフォマティクス(第5回)
慶應義塾大学生命情報学科
榊原康文
クラスタリングとは
◆類似性にしたがって分類 (グループ分け)
クラスター : 内部の要素はお互いに似ているが、外部のものとは異なる集合
クラスタリングにより3つのグループに分類
遺伝子のグループ化
遺伝子(それがコードするタンパク質)の機能の同定
同じ機能を持つ遺伝子をグループ化
① (アミノ酸)配列の相同性に基づくグループ化
◆ タンパク質のファミリー,スーパーファミリー,など
② マイクロアレイデータの発現プロファイルを用いた
遺伝子のクラスタリング
DNAチップとマイクロアレイ解析
DNAマイクロアレイによる遺伝子発現プロファイルの解析法
対象とする遺伝子のmRNAから cDNA を合成(長さを 500塩基程度にそろえる )
ガラス基板上にスポットし乾燥・固定化
正常細胞↓
mRNA↓
cDNA+蛍光色素Cy3(緑)
腫瘍細胞↓
mRNA↓
cDNA+蛍光色素Cy5(赤)
蛍光強度差を検出
遺伝子発現プロファイルのクラスタリング
赤:好気性
緑:嫌気性
発現情報のみを用いて発現パターンの類似
した遺伝子をクラスター(グループ)にし
ていく
◼ 酵母(S. cerevisiae)の既知遺伝子で,似た機能
をもつものは同じクラスターに分類されることを
確認(Eisen et al.,PNAS, 1998.)
◼ クラスタリングによって得られた結果に対し,同
一クラスター内の既知遺伝子の生物学的な注
釈(アノテーション情報)をもとに未知遺伝子の
機能を推定
マイクロアレイデータの発現プロファイル
● ●
● ●
●
● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ●
● ●
条件1
(時間1)
条件2
(時間2)
条件10
(時間10)
●
●
●
遺伝子1
遺伝子2
遺伝子16
● ●
● ● ●
● ●
● ●
●
●
● ● ●
●
● ●
●
●
●
● ● ●
条件1
条件2
条件10
...
遺伝子1
遺伝子2
遺伝子16
...
発現プロファイル
発現プロファイルのクラスタリング
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
●
● ●
●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
条件1
条件2
条件10
...
遺伝子1’
遺伝子2’
遺伝子16’
...
クラスター1
クラスター2
クラスター3
発現プロファイル
クラスタリングを用いたマイクロアレイ解析
◆発現データ (発現プロファイル)
– 行 : 遺伝子 (cDNA, EST, etc)
– 列 : 条件 (サンプル, 時間, etc)
Ngenes
M conditions
からなる N × M 行列
クラスタリング – 行 / 列成分に適用
– 要素 : 各遺伝子の各条件における発現レベル
“Distinct types of diffuse large B-cell lymphoma identified by
gene Expression profiling”, Alizadeh et al., Nature, 2000
び慢性大B細胞リンパ腫(diffuse large B-cell lymphoma)
同一の組織学的所見だが,
臨床経過が著しく異なる患者の存在
階層クラスタリングを用いて
がん化前の分化状態で分類
(臨床経過の予測が可能に)
マイクロアレイ解析の実際例
マイクロアレイ実験からの大規模なデータは,コンピュータによる解析が不可欠!!
クラスタリングの対象:二通り
① 条件にしたがって,遺伝子をクラスタリング
– 基本:遺伝子の分類
– 協調的に機能する / 類似の遺伝子セットの同定
– 典型的な発現パターンの同定 (細胞周期, 胞子形成, etc)
② 遺伝子にしたがって,条件をクラスタリング
– サンプルの分類(組織の状態の分類,疾患の分類)
– 条件の検定 (既知の機能分類に分けられたかどうか, etc)
(仮定 : 類似遺伝子なら発現プロファイルも似ている)
クラスタリングとは
◆類似性にしたがって分類 (グループ分け)
良いクラスタリングの条件 : 内部の要素はお互いに似ているが,外部のものとは異なる集合
良いクラスタリング 悪いクラスタリング
類似性の尺度
入力ベクトル x = (x1, …, xn), y = (y1, …, yn)
◆ユークリッド距離 :
◆マンハッタン距離 :
◆ (ピアソン)相関係数 :
=
−=n
i
iiE yxyxd1
2)(),(
.),(1
=
−=n
i
iiM yxyxd
==
=
−−
−−
=n
i
i
n
i
i
n
i
ii
C
yyxx
yyxx
yxd
1
2
1
2
1
)()(
))((
),(
(値域:−1≦ dC≦ 1)
どの尺度を使えばいいのか?
0
1
2
3
4
1 2 3 4
1.0 2.0 3.0 4.0
A 1.0 1.0 1.5 1.5
B 2.5 2.5 3.5 3.5
C 1.5 1.5 1.0 1.0
B
A
C
dc(A, B) = 1
dc(A, C) = -1
dE(A, B) = 3.54
dE(A, C) = 1
ユークリッド距離
ピアソン相関係数
どの尺度を使うか 何を検出したいのか
どの尺度を使えばいいのか?
◆ Correlation-based : 発現変化の相関をみる
◆ Distance-based : 発現変化の絶対量をみる
どの尺度を使うか 何を検出したいのか
(ピアソン相関係数,など)
(一般に,マンハッタン距離の方がoutlinerに対してロバスト)
条件が経過時間ならば Corrleation-based
条件が様々な環境(熱ショック, 飢餓)ならば Distance-based
クラスタリングアルゴリズム
Unsupervised (教師なし, 事前ラベルなし) :
階層クラスタリング, k-means法,
fuzzy k-means法, SOM(自己組織化マップ)法
クラスタ内の類似度 = 最大, クラスタ外の類似度 = 最小
[目標]
◼ 類似性にしたがって分類 (グループ分け)
階層的クラスタリング
◼ ボトムアップ的手法
• Step1. 各要素分のクラスタを考える
• Step2. 全てのペアの類似度を調べ,類似度が最大のペアを1つにマージする
• Step3. 全てのペアについて類似度を再計算
• Step4. クラスタが1つになるまで,Step2, 3 を繰り返す
現在のクラスタペアをマージしたクラスタを生成
階層的クラスタリング
系統図(dendrogram)階層的クラスタリングの結果:
階層的クラスタリング
◼ クラスタの類似度の計算
• 最短距離法. クラスタ間の最短距離
• 最長距離法. クラスタ間の最長距離
• 群間平均法. クラスタ間の平均距離
),(min),(,
yxdGGdji GyGx
ji
=
),(max),(,
yxdGGdji GyGx
ji
=
),(||||
1),(
,yxd
GGGGd
ji GyGxji
ji
=
階層クラスタリング
◼ クラスタの類似度の計算
A
B
C
•最短距離法
•最長距離法
•群間平均法
A, C をマージ
階層クラスタリング
◼ クラスタの類似度の計算
A
B
C
•最短距離法
•最長距離法
•群間平均法
B, C をマージ
階層クラスタリング
◼ クラスタの類似度の計算
A
B
C
•最短距離法
•最長距離法
•群間平均法
A, C をマージ
階層クラスタリング
◼ クラスタの類似度の計算
• 最短距離法. クラスタ間の最短距離
• 最長距離法. クラスタ間の最長距離
• 群間平均法. クラスタ間の平均距離
伸長したクラスタが得られる
コンパクトなクラスタが得られる
平均的なサイズのクラスタが得られる
階層クラスタリング
Step1.データセット Step2-1.距離計算
Step2-2.マージ Step3.距離再計算
階層クラスタリング例:ユークリッド距離 (群間平均法)
[1] [2]
A: 1 0
B: 2 2
C: 3 3
D: 0 -1
E: -1 1
A: B: C: D:
B: 2.236
C: 3.605 1.414
D: 1.414 3.605 5.000
E: 2.236 3.162 4.472 2.236
入力ベクトル
距離行列
距離マップ
系統樹
A
B
D
C
E
AB C D
E
階層クラスタリング例:ユークリッド距離
最短距離法 最長距離法
AB C D
E
BDA C
E
階層クラスタリング例:ピアソン相関係数 (群間平均法)
[1] [2]
A: 1 0
B: 2 2
C: 3 3
D: 0 -1
E: -1 1
A: B: C: D:
B: 0.292
C: 0.292 0.000
D: 1.000 1.707 1.707
E: 1.707 1.000 1.000 1.707
入力ベクトル
距離行列
距離マップ
系統樹
A
B
D
C
E
B
D
E
C
A
==
==
1
2
1
2
1),(
i
i
i
i
i
ii
C
yx
yx
yxd
階層的クラスタリングの応用例
“Systematic Variation in gene expression patterns in
Human cancer cell lines”, Ross, D., et al. Nature Genetics, 2000
◼ がん細胞の種類に関して,遺伝子発現プロファイルを用いたクラスタリングによりグループ分けすることができた
CNS:中枢神経,renal:腎臓,ovarian:卵巣,leukaemia:白血病,
colon:結腸,melanoma:メラノーマ(黒色腫)
k-means法
◼ トップダウン的手法
• Step1. 最終的なクラスタ数 k を設定
• Step2. 任意の k 個のクラスタ中心を設定 (random)
• Step3-1. 各要素を最も近いクラスタ中心に割り当てる(一般に,ユークリッド距離に関して)
• Step4. 重心が変化しなくなるまで,Step3 を繰り返す
各クラスタ中心を,そのクラスタ内の全要素の重心で置き換える
• Step3-2.
1 2
Step1.データセット Step2.クラスタ中心設定
Step3-1.クラスタ割り当て Step3-2.新クラスタ中心算出
k-means法
1 2
2
1
1
1
11
1 1 1
1
1
1
1
12
22
2
2
2
2
2
2
2
2
2
k-means法:ユークリッド距離
k=2 k=3
A
B
D
C
E
A
B
D
C
E
k-means法の問題点
◼ 初期値に強く依存する
クラスタ数 : k
多くのヒューリスティックな解法が提案(ベイズ推論を用いる,など)
クラスタ中心の初期設定
事前に制約を設定する (Constrained k-means, etc)
◼ 得られた結果は k 個のクラスタのみ
各クラスタ間の関係などは不明
クラスタリングによるマイクロアレイ解析は一般的だが …
⚫ 様々なアルゴリズムが存在する
それぞれに長所・短所があるので,目的に合わせて最適なアルゴリズム・パラメータを選択する
⚫ クラスタリング結果の妥当性・有意性評価は困難
ランダムデータからでも相関のあるクラスタは生成される
1. 注意深く,結果を解釈する (生物学的に)
2. 複数のソース(DNA配列情報, etc)と組み合わせて有意性の高い結果を得るようにする
まとめ
階層クラスタリング演習問題
下記の4つの入力ベクトルを,階層クラスタリングを用いて,クラスタリングした結果の系統樹を書きなさい.この時,距離関数はユークリッド距離と群間平均法を用いなさい.
入力ベクトル
系統樹
Top Related