Large-scale imputation of epigenetic datasets for systematic annotation
of diverse human tissues
2015/3/17 Epigenome Roadmap 輪読会
RIKEN ACCC BiT 露崎弘毅
欠損値について
そのまま扱う = サンプルサイズがばらばら
削除して完全データにする = 著しく情報が損失
??
? ?? ?
なんらかの理由で観測されない場合がある
データ
特徴量
例:遺伝子発現量、
蛍光強度
例: 実験、組織、細胞
??
? ?? ?
??
? ?? ?
現実のデータはたびたび欠損値がある不完全データ
??
? ?? ?
AはBより有意と言っていいのか?
A
B
検定p=0.01
p=0.03
列単位で削除 行単位で削除
DNAマイクロアレイ : ゴミで蛍光が観測されないプローブがある SNPアレイ : チップが対応していないSNPが存在(メタ解析で関係) NGS : リード数が少ない
欠損値補完 = Imputation
??
? ?? ?
2.41.3
0.5 1.41.4 3.5
欠損値を予測するImputation
そのための根拠(古典的な統計学)
- 平均値代入、回帰代入、Hot-deck代入(似たデータから補完)、Cold-deck代入(同じデータの違う状況下でのデータから補完)、Average the available items, Last observation carried forward, Stochastic回帰代入- 欠損メカニズムをモデル化- 最近の方法 : Full Information maximum likelehood(FIML)、多重代入法…etc
欠損値に関するメモ(オミックス研究と関連して)
どれも一長一短
??
? ?? ?
似たデータを参考にするという方針(尺度: 相関係数、LDブロックなど)
2.4 2.5 2.3?
? ?? ?
2.1?
1.9
? ?? ?
2.12.3
列を似せる
行を似せる
オミックス解析でのImputation
列利用の方が結果が良いという比較研究はあるが大分データ依存的だとは思う(Celton, M. et. al., 2010)
似たデータ内にも欠損値があったりするので、EMアルゴリズムで逐次的に推定する
この論文でImputeしたもの
sample(n=127)
mark (n=4315)
Figure 1a
Roadmap Epigenomics
Project (n=111)
ENCODE Project (n=16)
著者らが sample-mark matrix と言っているもの
mark : 25bpの各サイトにマップされたリードのカバレッジ
sample : 細胞、組織データ
ヒストン修飾、DNAアクセシビリティ、メチル化、RNA-seqなどを見た
この論文でのImputationの方針行も列も使おう!
i) 同じサンプル内の異なるmarkからの情報 (あるmarkのカバレッジは周囲のmarkに似ているだろうという仮定)
ii) 異なるサンプル間でのターゲットmarkからの情報(あるmarkのカバレッジは他のサンプルでも似ているだろうという仮定)
sample c ?mark m
sample c ?mark m
mark m
mark m
sample c’
sample c’’
提案手法 : ChromImpute法
sample c ?mark m
sample c’mark m
sample c’’mark m
?
周囲500bpくらい
推定するときの重み(カバレッジが厚いところほど優先)
カバレッジ
ポジション
周りのマッピング状況から、欠損値を回帰モデルで推測する
補足 : アンサンブル回帰木回帰木 : 区間毎に値を推定する(非線形な回帰をやりたかったから使った)
scikit-learn 1.8 Decision Treesより
アンサンブル回帰木 : 木を沢山書いて、平均をとる 要するにバギング、ブートストラップ集約(Random Forestではない?)
Regression tree ensembles in the perspective of kernel-based methodsより
1個の回帰木 100個の回帰木の平均
結果
sampleレベルで他と似ている markレベルで他と似ているFigure 1b,c
1. 他のデータに似せる事ができた
ランダムに200kbとってきても似てる
Figure 2a Figure 2c
相関係数計算しても似てる
結果2. H3K4me3のTSS(PromRecov)
Figure 3ac
この縦軸の値はSupplementary Figで説明しているらしいのだが、
壊れてて見れない><カバレッジが観測データと似てる
結果5. Quality control
あえて似てないデータだけを 使ってImputationした
Worst10を使ったImputationの結果の 良し悪しは実験のQC
の参考になる
結果は悪くなった
同じサンプルでもデータのクオリティによっては結果が悪くなる
結果6. クロマチン状態
著者らは過去にChromHMMという手法でクロマチン状態の予測を行った(Ernst, J. & Kellis M., 2012)
欠損値があるところは予測精度が悪かった
欠損値がある箇所を削除すると データがかなり減ってしまった
今回、ChromImputeと組み合わせる事で、精度が改善された
(これが一番やりたかった事では?)
Top Related