『主成分分析を用いた教師なし学習による変数選択』...

24
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定 田口善弘@物理.中大 twitter_ID:@Yh_Taguchi Present Icon WACODE(わこうど) 3 rd 2015/11/14 () 14:00 to 17:30 理化学研究所 和光地区 脳科学池之端研究棟(C56) 3階 会議室A Y-h. Taguchi, Scientific Reports, 7: 44016  (2017) doi:10.1038/srep44016 Principal Components Analysis Based Unsupervised Feature Extraction Applied to Gene Expression Analysis of Blood from Dengue Haemorrhagic Fever Patients

Transcript of 『主成分分析を用いた教師なし学習による変数選択』...

Page 1: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

『主成分分析を用いた教師なし学習による変数選択』を用いたデング出血熱原因遺伝子の推定

田口善弘@物理.中大twitter_ID:@Yh_Taguchi

Present Icon

WACODE(わこうど) 3rd

2015/11/14 (土) 14:00 to 17:30理化学研究所 和光地区

脳科学池之端研究棟(C56) 3階 会議室A

Y­h. Taguchi, Scientific Reports, 7: 44016  (2017) doi:10.1038/srep44016Principal Components Analysis Based Unsupervised Feature Extraction Applied to Gene Expression Analysis of Blood from Dengue Haemorrhagic Fever Patients

Page 2: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

方法論的動機方法論的動機:複数のサンプルクラス(例:患者対健常人)遺伝子発現プロファイルなどから「二群の差」という観点から遺伝子選択をするのはよくないのでは?

理由理由:・「差の定義」があいまい。例例:PP値値→有意な差、はサンプル数を増やせばいくらでも小さくできる。Fold ChangeFold Change→なんで「2倍以上と1/2以下」にするの?etc, etc

なので「差とはなにか?」ということもデータに決めさせたい!

→「教師なし学習教師なし学習」

Page 3: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

ある時、突然、PCAが使えると気づいた....。

 N 遺伝子

カテゴリクラス

主成

分分

析PC1

サンプル

M サンプル

N × M 行列X (実数値)

PC2

PC1

クラス間差異なし

N遺伝子×Mサンプルの遺伝子発現量/プロモーターメチル化/non-coding RNA発現量の行列があったとする。Mサンプルはクラス(図では4)に分かれているとする。遺伝子を低次元に埋め込むとクラス間で差がある遺伝子が外側にはじき出される(●)。PC1がクラス間差異を表現するので。

主成分得点

主成分負荷量

Page 4: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

人工データによるデモ人工データによるデモ

10 サンプル10 サンプル

90 遺伝子 10 遺伝子

N(0)N()

[N()+N(0)]/2

+:Top 10 外れ値つまり、外れ値を選べば、 2クラス間で差異がある遺伝子を自動的に(教師なしで)選択できる精度精度 :(100 :(100 試行中試行中)) 89.5% ( 52.6% (PC1

PC2

正規分布 μ:平均  ½ :標準偏差

Page 5: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

なんでこんな簡単なことに誰も気づかなかった?なんでこんな簡単なことに誰も気づかなかった?

→変数選択に使える主成分の寄与度がとても小さい(〜数%)

→普通のPCAの教科書には「数%はゴミ」と書いてあるので誰も真面目に検討しなかった。

→「ゴミ」に意味があるの?

→NNが数万なら、数%は数百に相当するので1%が無意味、とは言えない。

→しかし、通常の統計では1%はやっぱり「ゴミ」なので顧みられない

→「数万ある遺伝子のうち、働いているのは数百個」とかいうゲノム科学特有の問題設定だからうまくいっているだけの可能性あり

Page 6: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

で、具体例

Page 7: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

デング出血熱デング出血熱

熱が下がった後に出血して死に至る病。熱が下がっているのでデング熱そのものは治癒していると思われ、出血の原因は宿主側の問題と思われているが、原因は不明

提案手法を使って、原因遺伝子を推定しよう!

Page 8: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセットその1データセットその1Control:9感染者(発熱前):19発熱患者(非出血熱):18出血熱:10MM=9+19+18+10=56サンプル

NN=54715プローブ(含むコントロール)

プローブをPCAで低次元に埋め込んだところ、PC2(寄与率1.4%1.4%)とPC3(寄与率0.4%0.4%)が4クラスのよい分別軸(主成分負荷量)になっていると判明した。

Page 9: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

biplotbiplot主成分得点

(遺伝子)PC3

PC2

主成負荷量(サンプル)

PC3

PC2

主成分得点/負荷量PC3

PC2

主成分得点/負荷量を重ね描きした可視化。原点から見て同じ方向にあるサンプルと遺伝子は関係していると思えば大体合っている。

Page 10: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

PC2(1.4%)

PC

3(0.

4%)

biplotbiplot+:デング熱+非デング熱+:正常+発熱前感染者

○:選択プローブ(879)○:非選択プローブガウス分布仮定BHでの補正P値<0.01

4クラスのサンプルだが、2クラスと解釈すべき、と「データが」教えてくれる→教師なし学習の利点

Page 11: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

選択された遺伝子を絞り込むために別のデータセットその2も考慮する

データセットその2データセットその2急性患者:19回復後:11MM=19+11=30サンプル

NN=24354プローブ(含むコントロール)

プローブをPCAで低次元に埋め込んだところ、PC2(寄与率33%%)とPC3(寄与率3%3%)が2クラスのよい分別軸(主成分負荷量)になっていると判明した。

Page 12: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

PC

3(3%

)biplotbiplot

+:急性患者+:回復後

○:選択プローブ(275)○:非選択プローブガウス分布仮定BHでの補正P値<0.01

+と+の配置が デ ー タセット1とよく似ている→解析の妥当性を示唆。

PC2(3%)

Page 13: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセット1データセット1:879プローブデータセット2データセット2:275プローブ 46遺伝子

両データセットの共通遺伝子→推定精度向上両データセットの共通遺伝子→推定精度向上

この46遺伝子は....データセット1で「デング熱+非デング熱」と「正常+発熱前感染者」を、データセット2で「急性患者」と「回復後」を、階層的クラスタリングで綺麗に分けることができる。

→手法の正しさを示唆

(P=1×10­17)

P値の小ささ→手法の正しさを示唆

Page 14: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセット1データセット1 データセット2

デング熱+非デング熱

正常+発熱前 感染者 回復後 急性患者

Page 15: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

この46遺伝子は....データセット1、データセット2で46遺伝子「だけ」を使ってPCAを実行すると、より解釈しやすく、かつ両データセットで整合性のある結果(サンプルの附置が同じ)を与えてくれる

→手法の正しさを示唆

Page 16: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセット1データセット1 DHF:出血デング熱(+)DF:非出血デング熱(+)Infected:感染(++)non-infected:非感染(++)

PC2(13%)

PC

3(4%

)

+++

○:プローブ(46遺伝子関連)

サンプル附置

biplotbiplot

Page 17: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセットデータセット22

PC2(7%)

PC

3(1.

6%)

DSS:出血デング熱(+)Uncomplidated:非出血デング熱(+)Infected:感染(++)non-infected:非感染(+)

○:プローブ(46遺伝子関連)

サンプル附置

biplotbiplot

Page 18: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

遺伝子の附置も実は整合性が高い遺伝子の附置も実は整合性が高い

データセット1

デー

タセット

2ピアソン 順位相関PC2

PC3

Page 19: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

『主成分分析を用いた教師なし学習による変主成分分析を用いた教師なし学習による変数選択数選択』はデータドリブンで遺伝子選択基準を与えてくれ、それにしたがって遺伝子を選択すれば、普遍性の高い(実験条件やサンプルによらない)遺伝子選択、および、それによるPCAの結果を与えてくれることがわかった。これはおそらく「生物学的に意味がある結果」を与えてくれていると思われる。

しかし、まだ、「偶然かも」しれない。

→第3のデータセット第3のデータセットで確認

Page 20: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセット3データセット3

    デング熱 出血デング熱急性期  56             24中間 32             12発病後 31             20治癒後 16             18

MM=56+24+32+12+31+20+16+18=209 サンプル

NN=22184プローブ

Page 21: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

○:選択プローブ(359)○:非選択プローブガウス分布仮定BHでの補正P値<0.01

+:データセット1、2共通

PC

3(1.

4%)

PC2(5.3%)

データセット1,2共通遺伝子に相当するプロー

ブ(++):は印象的な三芒星を形作っている。なかなかこれを「偶然」と思うのは難しかろう

データセット3データセット3

Page 22: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

データセット1データセット1とデータセット2データセット2で共通に選択された46遺伝子「だけ」を使ってデータデータセット3セット3に対してPCAを実行すると.....

Page 23: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

急性期中間発病後治癒後

PC

3(6.

3%)

PC2(11%)

DSS:出血デング熱uncmp.非出血デング熱

時間発展を見ると、出血熱と非出血熱の分岐が徐々に生じている時間発展を見ると、出血熱と非出血熱の分岐が徐々に生じている

biplotbiplot

Page 24: 『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定

結論結論

「データドリブンでデータドリブンで」遺伝子選択基準をつくるという方法はロバストな結果を導くのに有用である。

特に異ったデータセット間で「ANDAND」をとることで普遍性の高い結果が得られる。

検証用のデータセット3は遺伝子選択にはまったく使われていないにも関わらず、選択された遺伝子「だけだけ」を使ったPCAは生物学的に意義深い結果を導くことに成功している。

最初にデモで見たように、『主成分分析を用いた教師なし学習による変数選択』の成否はパラメータ(データの分布)にかかっている。にも関わらず、非常にしばしば同手法は「極めてう極めてうまく機能するまく機能する」。

その事自体の生物学的な意味生物学的な意味があるはずだが、不明。