『主成分分析を用いた教師なし学習による変数選択』...

『主成分分析を用いた教師なし学習による変数選択』を用いたデング出血熱原因遺伝子の推定

田口善弘＠物理.中大twitter_ID:@Yh_Taguchi

Present Icon

WACODE（わこうど） 3rd

2015/11/14 (土) 14:00 to 17:30理化学研究所和光地区

脳科学池之端研究棟(C56) 3階会議室A

Yh. Taguchi, Scientific Reports, 7: 44016 (2017) doi:10.1038/srep44016Principal Components Analysis Based Unsupervised Feature Extraction Applied to Gene Expression Analysis of Blood from Dengue Haemorrhagic Fever Patients

方法論的動機方法論的動機：複数のサンプルクラス（例：患者対健常人）遺伝子発現プロファイルなどから「二群の差」という観点から遺伝子選択をするのはよくないのでは？

理由理由：・「差の定義」があいまい。例例：PP値値→有意な差、はサンプル数を増やせばいくらでも小さくできる。Fold ChangeFold Change→なんで「２倍以上と１／２以下」にするの？etc, etc

なので「差とはなにか？」ということもデータに決めさせたい！

→「教師なし学習教師なし学習」

ある時、突然、PCAが使えると気づいた....。

N 遺伝子

カテゴリクラス

主成

分分

析PC1

サンプル

M サンプル

N × M 行列X (実数値)

PC2

PC1

クラス間差異なし

N遺伝子×Mサンプルの遺伝子発現量／プロモーターメチル化／non-coding RNA発現量の行列があったとする。Mサンプルはクラス（図では４）に分かれているとする。遺伝子を低次元に埋め込むとクラス間で差がある遺伝子が外側にはじき出される（●）。PC1がクラス間差異を表現するので。

主成分得点

主成分負荷量

人工データによるデモ人工データによるデモ

10 サンプル10 サンプル

90 遺伝子 10 遺伝子

N(0)N()

[N()+N(0)]/2

+:Top 10 外れ値つまり、外れ値を選べば、２クラス間で差異がある遺伝子を自動的に（教師なしで）選択できる精度精度 :(100 :(100 試行中試行中)) 89.5% ( 52.6% (PC1

PC2

正規分布 μ：平均　½ :標準偏差

なんでこんな簡単なことに誰も気づかなかった？なんでこんな簡単なことに誰も気づかなかった？

→変数選択に使える主成分の寄与度がとても小さい（〜数％）

→普通のPCAの教科書には「数％はゴミ」と書いてあるので誰も真面目に検討しなかった。

→「ゴミ」に意味があるの？

→NNが数万なら、数％は数百に相当するので１％が無意味、とは言えない。

→しかし、通常の統計では１％はやっぱり「ゴミ」なので顧みられない

→「数万ある遺伝子のうち、働いているのは数百個」とかいうゲノム科学特有の問題設定だからうまくいっているだけの可能性あり

で、具体例

デング出血熱デング出血熱

熱が下がった後に出血して死に至る病。熱が下がっているのでデング熱そのものは治癒していると思われ、出血の原因は宿主側の問題と思われているが、原因は不明

提案手法を使って、原因遺伝子を推定しよう！

データセットその１データセットその１Control：9感染者（発熱前）：19発熱患者（非出血熱）：18出血熱：10MM=9+19+18+10=56サンプル

NN=54715プローブ（含むコントロール）

プローブをPCAで低次元に埋め込んだところ、PC2（寄与率１．４％１．４％）とPC3（寄与率0.4%0.4%）が４クラスのよい分別軸（主成分負荷量）になっていると判明した。

biplotbiplot主成分得点

（遺伝子）PC3

PC2

主成負荷量（サンプル）

PC3

PC2

主成分得点／負荷量PC3

PC2

主成分得点／負荷量を重ね描きした可視化。原点から見て同じ方向にあるサンプルと遺伝子は関係していると思えば大体合っている。

PC2(1.4%)

PC

3(0.

4%)

biplotbiplot+:デング熱＋非デング熱+:正常＋発熱前感染者

○：選択プローブ(879)○：非選択プローブガウス分布仮定BHでの補正P値<0.01

４クラスのサンプルだが、２クラスと解釈すべき、と「データが」教えてくれる→教師なし学習の利点

選択された遺伝子を絞り込むために別のデータセットその２も考慮する

データセットその２データセットその２急性患者：19回復後：11MM=19+11=30サンプル

NN=24354プローブ（含むコントロール）

プローブをPCAで低次元に埋め込んだところ、PC2（寄与率33％％）とPC3（寄与率3%3%）が２クラスのよい分別軸（主成分負荷量）になっていると判明した。

PC

3(3%

)biplotbiplot

+:急性患者+:回復後


＋と＋の配置がデータセット１とよく似ている→解析の妥当性を示唆。

PC2(3%)

データセット１データセット１：８７９プローブデータセット２データセット２：２７５プローブ４６遺伝子

両データセットの共通遺伝子→推定精度向上両データセットの共通遺伝子→推定精度向上

この４６遺伝子は....データセット１で「デング熱＋非デング熱」と「正常＋発熱前感染者」を、データセット２で「急性患者」と「回復後」を、階層的クラスタリングで綺麗に分けることができる。

→手法の正しさを示唆

(P=1×1017)

P値の小ささ→手法の正しさを示唆

データセット１データセット１データセット２

デング熱＋非デング熱

正常＋発熱前　感染者回復後急性患者

この４６遺伝子は....データセット１、データセット２で４６遺伝子「だけ」を使ってPCAを実行すると、より解釈しやすく、かつ両データセットで整合性のある結果（サンプルの附置が同じ）を与えてくれる

→手法の正しさを示唆

データセット１データセット１ DHF:出血デング熱（＋）DF:非出血デング熱（＋）Infected:感染（＋＋）non-infecteｄ：非感染（＋＋）

PC2(13%)

PC

3(4%

)

＋

＋＋＋

○：プローブ（４６遺伝子関連）

サンプル附置

biplotbiplot

データセットデータセット22

PC2(7%)

PC

3(1.

6%)

DSS:出血デング熱（＋）Uncomplidated:非出血デング熱（＋）Infected:感染（＋＋）non-infecteｄ：非感染（＋）

＋

＋

○：プローブ（４６遺伝子関連）

サンプル附置

＋

biplotbiplot

遺伝子の附置も実は整合性が高い遺伝子の附置も実は整合性が高い

データセット１

デー

タセット

２ピアソン順位相関PC2

PC3

『主成分分析を用いた教師なし学習による変主成分分析を用いた教師なし学習による変数選択数選択』はデータドリブンで遺伝子選択基準を与えてくれ、それにしたがって遺伝子を選択すれば、普遍性の高い（実験条件やサンプルによらない）遺伝子選択、および、それによるPCAの結果を与えてくれることがわかった。これはおそらく「生物学的に意味がある結果」を与えてくれていると思われる。

しかし、まだ、「偶然かも」しれない。

→第３のデータセット第３のデータセットで確認

データセット３データセット３

　　　　デング熱　出血デング熱急性期　 56 24中間 32 12発病後 31 20治癒後 16 18

MM=56+24+32+12+31+20+16+18=209 サンプル

NN=22184プローブ


+:データセット１、２共通

PC

3(1.

4%)

PC2(5.3%)

データセット１，２共通遺伝子に相当するプロー

ブ（++）:は印象的な三芒星を形作っている。なかなかこれを「偶然」と思うのは難しかろう

データセット３データセット３

データセット１データセット１とデータセット２データセット２で共通に選択された46遺伝子「だけ」を使ってデータデータセット３セット３に対してPCAを実行すると.....

急性期中間発病後治癒後

PC

3(6.

3%)

PC2(11%)

DSS:出血デング熱uncmp.非出血デング熱

時間発展を見ると、出血熱と非出血熱の分岐が徐々に生じている時間発展を見ると、出血熱と非出血熱の分岐が徐々に生じている

biplotbiplot

結論結論

「データドリブンでデータドリブンで」遺伝子選択基準をつくるという方法はロバストな結果を導くのに有用である。

特に異ったデータセット間で「ANDAND」をとることで普遍性の高い結果が得られる。

検証用のデータセット３は遺伝子選択にはまったく使われていないにも関わらず、選択された遺伝子「だけだけ」を使ったPCAは生物学的に意義深い結果を導くことに成功している。

最初にデモで見たように、『主成分分析を用いた教師なし学習による変数選択』の成否はパラメータ（データの分布）にかかっている。にも関わらず、非常にしばしば同手法は「極めてう極めてうまく機能するまく機能する」。

その事自体の生物学的な意味生物学的な意味があるはずだが、不明。

『主成分分析を用いた教師なし学習による変数選択』...

Science

Transcript of 『主成分分析を用いた教師なし学習による変数選択』...