Reconstruction of clonal trees and tumor composition
-
Upload
joe-miyamoto -
Category
Data & Analytics
-
view
268 -
download
0
Transcript of Reconstruction of clonal trees and tumor composition
![Page 1: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/1.jpg)
Reconstruction of clonal trees and tumor composition from multi-sample sequencing data
Mohammed El-Kebir et al
国立がんセンター研究所特任研究補助員
宮本 丈
ソフトウエア名: AncesTree
![Page 2: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/2.jpg)
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
![Page 3: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/3.jpg)
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
![Page 4: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/4.jpg)
がんの進化モデル
• ヒトの場合、多時刻点でのデータ取得は難しい。• 進化過程の推測 -> 薬剤耐性の獲得過程などを知る
![Page 5: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/5.jpg)
サンプリングの解像度
√
高コスト
低コスト
C ならば、種間の系統樹推定と同じ -> 距離が近いので、比較的簡単しかし• allelic drop out の問題• 増幅過程でのエラーの問題• コストの問題から、今のところ難しい。
A.B のどちらにも対応できる包括的な手法が求められる
A.bulk B.Multi-sample C.Single-cell
![Page 6: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/6.jpg)
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
![Page 7: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/7.jpg)
単純化のための仮定1. Cancer は単一の祖先細胞から派生したも
のと仮定2. CNA は今のところ考慮に入れない3. Infinite site assumption … 二度同じ部位に
変異が起きることはない
![Page 8: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/8.jpg)
目標
これ から これを作る
複数の clone が混じったサンプル
F
Clone の系統樹 ( それぞれの頂点がユニークな遺伝型 )Tおよびそれぞれのサンプル中の割合 U
![Page 9: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/9.jpg)
系統樹 T を行列表現 B に直す行 は、 T の頂点 の遺伝型を表す。
列はそれぞれの mutation を表す (0= 変異なし、 1= 変異あり )
このような B を完全系統樹行列と呼び、逆行列を持つ ( 証明略 )
さらに以下の条件を加えると、 T に対応する B はただひとつとなる
• を満たす r はただひとつ存在する ( 上図の一番上の行 )• 一番上以外の行 j には かつ
を満たすような k がただひとつ存在する->(i.e. 親がただひとつ存在する )
• 対角成分はすべて1
![Page 10: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/10.jpg)
Usage Matrix U を定義するとF = ½(UB) が成り立つ
F … N( 変異箇所 )×M( サンプル数 ) の行列。要素 はサンプル p の i 番目の VAF を指すSum condition( 後述 ) を満たす
U … Usage Matrix 、 M × N の行列要素 はサンプル p におけるクローン i の割合
B … 完全系統樹行列
既知
未知
未知
このような定式化を VAFFP(Variant Allele Frequency Factorization Problem)と呼ぶ。こうすることで色々便利になる
![Page 11: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/11.jpg)
Sum condition
• すべてのサンプル p 及び変異 j に対して
ただし δ(vj) は、 j が頂点 v で初めて出現した時 のみ 1 、それ以外は 0
T を作るために F が満たさなければならない仮定
![Page 12: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/12.jpg)
Sum condition の直感的説明
1サンプルでは系統樹が一意に定まらない場合も
① ②
Wei Jiao. et al(2014)
![Page 13: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/13.jpg)
Sum condition の直感的説明
2つ目のサンプルで一意に定まる場合がある
A < B + C のため、②ではデータを説明できない。
Wei Jiao. et al(2014)
![Page 14: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/14.jpg)
過去の論文は…• M = 1 の特殊系だったり• F が頻度ではなく 2 値だったり• 観測された F と、モデルから生成された F
の距離を最小にするもの
だったりする
これらはみな、この定式化の特殊系とみなせる
![Page 15: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/15.jpg)
VAFFP の解き方• 各々の変異を頂点にもつ完全グラフ G(V 、 A) を考える。• その中の部分グラフ G` のうち、以下の条件をみたすものを考
えると、 G` は一意に求まる ( 証明略 )
1. 有根2. 有向3. 非巡回4. 最小全域木 (Minimum Spanning Tree)5. 対応する T が sum condition を満たす
G` を求めれば、系統樹がわかる!
種々の成約のもとで、辺の数を最大化 ->
整数計画法とみなせ、 NP 完全実装は IBM の数理計画問題用 C++ ライブラリ、 CPLEX を用いて行った
![Page 16: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/16.jpg)
VAFFP の解き方よって…以下の順に解く1. F から完全グラフ G を作成する2. G` およびそれに対応する完全系統樹行列 B を求める3. F = (1/2)UB を U について解く、
系統樹だけが知りたいのなら、2までで止めれば計算資源の削減になる
![Page 17: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/17.jpg)
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
![Page 18: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/18.jpg)
エラーを考慮に入れる
• 実際のシーケンスデータは、 VAF の頻度に誤差があり、T を作成できない場合がある。
• 祖先関係がはっきりしない変異をクラスタリングしてしまう
よって
![Page 19: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/19.jpg)
エラーを考慮に入れる1. 観測された VAF のもとで、変異 j が変異 k の親
となる事後確率 を計算 ( 後述 )
2. を満たす j,kをクラスタ化
3. 変異 K,l がクラスタ間をまたがる場合は
の時のみ、親子とみなし辺を引くα… クラスタ係数β… クラスタ間結合係数、
![Page 20: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/20.jpg)
の出し方• p,j における変異アレルの頻度を 、正常アレルの頻度
を とする
よって
• の分布 をとし
• を計算
![Page 21: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/21.jpg)
最小全域木の仮定をゆるめる最大化すべき関数が
だったところに、罰則項を加える
に変更すると、すべての変異を選ぶ必要がなくなる。
実データでは、 CNA のせいで VAF が 0.5 を超える場合があるため
非常に有効な仮定
サンプル p 、変異 j の VAFクラスタ内の平均 VAF
![Page 22: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/22.jpg)
今後の課題1. CNA を取り込む2. 複数回走らせ、結果を統合する (バギン
グ? ) みたいなことができるかも3. VAF の分布を β 分布で見積もるのは分散
を過小評価してしまう可能性あり (e.g. 増幅バイアス )
![Page 23: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/23.jpg)
発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較
![Page 24: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/24.jpg)
対抗ソフトウェア• CITUP
BICベースで、 U と B を同時に求める• SciClone
VAF 頻度分布に β 混合分布を仮定して変分ベイ ズで推定?詳細不明• PhylosubVAF 頻度分布を生成するモデルを、階層混合ディリクレ過程を用いた潜在空間モデルと想定し、 MCMC でパラメータ推定 最近 CNA にも対応したもよう
![Page 25: Reconstruction of clonal trees and tumor composition](https://reader030.fdocuments.net/reader030/viewer/2022032700/55d70f69bb61eb75188b4716/html5/thumbnails/25.jpg)
他の手法より優れているところ• VAF のデータを直接使わず、事後確率でクラスタ
リングするため、 ( 特に低 Depth で ) より正確。
• すべての変異を考慮する必要がない
• 系統樹のみを求めることができる
などといろいろあるが、実際には前半の定式化が美しかったからだと思われる
議論を厳密にし、がんの系統樹推定は整数計画法の形で表せることを示した