Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepatic Cholangiocarcinoma...

Comprehensive analysis of transcriptome and metabolome analysis in Intrahepatic Cholangiocarcinoma and Hepatocellular Carcinoma

Sci. Rep. 2015, 5:16294

Yoshiki Murakami, Shoji Kubo, Akihiro Tamori, Saori Itami, Etsushi Kawamura, Keiko Iwaisako, Kazuo Ikeda, Norifumi Kawada, Takahiro Ochiya and YH. Taguchi*

*田口善弘、中央大学、物理学科 Twitter OKTwitter OK

　お詫び：ここ数年「主成分分析を用いた教師なし学習による変数選択」というのをずっと研究していまして、これはその応用例の論文なのですが、２０１５年４月に「投稿」された論文でして、当然、研究やったのは２０１４年でしておよそ２年前の技術レベルの問題となってしまっております。技術レベル的に古いのは否めないですが、ハイライトトラックに複数応募した中から特にこれを選んで頂けましたので今日はこれを紹介します（まあ、そんな古いの出すなって話なんですが）。ご容赦ください。　新しいことは（終わってしまいましたが）ポスター７２番に掲示しております。　あと、これはメディカルの人と書いた「応用」論文なのでバイオインフォマティクス的に面白いところのツッコミが足りないので一部、追加計算しました。

昨日の岡野原先生の招待講演のTake Home Messageは

DL流行ってるからみんなで使おう！

でも

もうすぐ自動運転できるよ！

でもなく、

Feature ExtractionFeature Extractionは教師なし学習で！は教師なし学習で！

だと思います。

はい、僕もやっています（PCAだけど)。やっと俺の時代が来たぜ！（嘘）

問題意識：カテゴリカル多クラス問題（特にn p;≪ 少サンプル(n)多変数(p)）の時の変数選択はどうすべき？

カテゴリカル多クラス問題＝多クラスに対しグルーピングもランキングも事前情報がない場合。

よくある（流行り）：・疎性モデリング（去年まで科研費をもらっていた。感謝します）　＝正則化項つき判別問題に落とす（例:Lasso)　問題点：やってみるとわかるけど、選択変数にあんまり安定性がない。疎性モデリングはもともと画像とかの圧縮センシングが源流で変数がピクセルとかフーリエモードとかなので最終的に画像がきれいならいいので画像ごとに違う変数が選ばれても無問題でそもそも「毎回同じ変数を選びたい」とニーズがない。しかし、生物学の場合、サンプルが変わると選ばれる変数が変わる、ではいろいろ困る。

グリーディー（貪欲）サーチ：とにかくひたすら判別がよくなるように変数を足したり引いたりして判別率が極小になるまで頑張る。フィルター、ラッパー、などと呼ばれる方法がある。問題点：変数が多い(n p)≪ とそもそも収束しない。変数選択の安定性がない。

今回の問題：「肝臓がん(HCC)によく似ているがより悪性の胆管肝臓がん(ICC)というものがある。胆管肝臓がんの早期発見・肝臓がんとの区別を血液検査で高精度で行えるバイオマーカーがほしい（今回は血中の測定ではありません！）」

データ：３２サンプルICC : ６人　（がん＋隣接正常細胞）HCC：１０人　（がん＋隣接正常細胞）　mRNA,miRNA,メタボロームのデータがある。（典型的なn p≪ のカテゴリカル４クラス問題）

解析方法：よくある「３種類の変数を統合して何か（例：判別率）を最適化する変数をベイズとかで探索」はしない。しない。

理由：最終的に医療現場持って行くにはロバストネス大切。（昔、数十個のサンプルでバイオマーカー探して論文を投稿して、レビューワーが数を増やしたら通してやると行ったらいきなり１００個のサンプルが追加され、「これでバリデーションして同じバイオマーカー選んでください」と言われて真っ青になったことあります）

→「主成分分析を用いた教師なし学習による変数選択」

まず、mRNA,miRNA,化合物の発現プロファイルを別々にPCAする（サンプルじゃなく）

⇓主成分得点→mRNA,miRNA,化合物に付与

主成分負荷量→９６サンプル（３種類×[6×ICC+10×HCC]×２）

⇓３２サンプルに付与された

３２次元ベクトルの９６個の主成分負荷量を「ー（ピアソン相関係数の絶対値）」を距離にして

階層的クラスタリング⇓

相関が大きい「主成分負荷量の組」を選択（注目すべきサンプル依存性の抽出）

PC1,PC2:mRNA,miRNAPC3:化合物

安定性：４群から一個ずつ減らして２８サンプルにした

論文ではやってません！

スペアマン相関係数

確かに相関がある。⇓

四群の間に差がある、というだけより、独立な３

つの計測量の間に相関がある、という方が偶然度は低い。また、生物学的に意味がある変化であること可能性も高い

（仮説ですが...）⇓

この５つで変数選択

主成分負荷量の散布図

５８３個中５３個 62,976個中67個 60,180個中２８１個

化合物 mRNA miRNA対応する主成分得点で外れ値になる化合物,mRNA,miRNAを選択

お詫び、この時（２年前）はまだ「何を外れ値とするか」という理解があやふやで適当に選んでいました（現在は基準ができています）。ですが、全体の数からみたら極少数個しか選んでいないにもい関わらず、広がりは選ばれてない大多数に比べて大きいことから非常に例外的な外れ値だということには変わりははないことをご理解ください

外れ値＝寄与が大きい外れ値＝寄与が大きい

安定性：４群から一個ずつ減らして３２サンプル→２８サンプルにした

化合物化合物　　　32サンプル　　　　　　　　非選択選択 28サンプル非選択　 525 5 　　　　　　選択　 5 48 　

論文ではやってません！

mRNAmRNA 　　　32サンプル　　　　　　　　　非選択選択 28サンプル非選択 58650 14 　　　　　　選択　 0 53

miRNAmiRNA 　　　32サンプル非選択選択 28サンプル非選択 59889 8 選択 5 278

非選択選択　523 11 11 38

非選択選択58626 32 　 29 30

非選択選択59829 72 72 207

(vs 教師あり学習（SAM)）

ここまではHCC,ICC,正常細胞などのサンプルのラベルを全く使っていないので完全な教師なし学習による変数選択。選択した変数で判別ができるかを確認する。

手順１．選択した化合物、mRNA,miRNA「だけ」で再度PCA。　サンプルに主成分負荷量を付与２．K番目までの主成分負荷量を使って線形判別　（交差検定はleave one out cross validation)

化合物 84.3%*84.3%* K=18正常細胞 HCC ICC

正常細胞 14 0 2

予測 HCC 0 5 0

ICC 2 1 8

miRNA 78.1%**78.1%** K=6

正常細胞 13 1 1

予測 HCC 2 4 1

ICC 1 1 8

*)P=0.01**)P<0.001 mRNA　×

教師なし学習による変数選択は選択安定性の点で教師あり学習による変数選択より優れているし、そこそこのパフォーマンスも実現できる。

ここで教師なし学習でやったことを教師あり学習でやろうとすると、分類情報を変数選択に直接使ったらやらせになっちゃうから、

サンプルを学習セットと検証セットに分割⇓

学習セットで教師あり学習で変数選択⇓

検証セットで精度検証

という手順が必要だが、全部で３２サンプルしかなく、６サンプルしかないクラスもある場合にこんな手順は現実的だろうか？（いや、ない）

また、教師あり学習による変数選択は、変数選択の安定性において、教師なし学習による変数選択より劣っている以上、学習セットと検証セットへの分割が変われば違う変数が選択されてしまうだろう。それでは元々の「バイオマーカーを見つけたい」という問題に抵触してしまう。

結局、カテゴリカル多クラス問題（特にn p;≪ 少サンプル(n)多変数(p)）の時の変数選択には教師なし学習が最適なのでは？

Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepatic Cholangiocarcinoma...

Science

Transcript of Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepatic Cholangiocarcinoma...