Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepatic Cholangiocarcinoma...
-
Upload
y-h-taguchi -
Category
Science
-
view
247 -
download
2
Transcript of Comprehensive analysis of transcriptome andmetabolome analysis in Intrahepatic Cholangiocarcinoma...
Comprehensive analysis of transcriptome and metabolome analysis in Intrahepatic Cholangiocarcinoma and Hepatocellular Carcinoma
Sci. Rep. 2015, 5:16294
Yoshiki Murakami, Shoji Kubo, Akihiro Tamori, Saori Itami, Etsushi Kawamura, Keiko Iwaisako, Kazuo Ikeda, Norifumi Kawada, Takahiro Ochiya and YH. Taguchi*
*田口善弘、中央大学、物理学科 Twitter OKTwitter OK
お詫び:ここ数年「主成分分析を用いた教師なし学習による変数選択」というのをずっと研究していまして、これはその応用例の論文なのですが、2015年4月に「投稿」された論文でして、当然、研究やったのは2014年でしておよそ2年前の技術レベルの問題となってしまっております。技術レベル的に古いのは否めないですが、ハイライトトラックに複数応募した中から特にこれを選んで頂けましたので今日はこれを紹介します(まあ、そんな古いの出すなって話なんですが)。ご容赦ください。 新しいことは(終わってしまいましたが)ポスター72番に掲示しております。 あと、これはメディカルの人と書いた「応用」論文なのでバイオインフォマティクス的に面白いところのツッコミが足りないので一部、追加計算しました。
昨日の岡野原先生の招待講演のTake Home Messageは
DL流行ってるからみんなで使おう!
でも
もうすぐ自動運転できるよ!
でもなく、
Feature ExtractionFeature Extractionは教師なし学習で!は教師なし学習で!
だと思います。
はい、僕もやっています(PCAだけど)。やっと俺の時代が来たぜ!(嘘)
問題意識:カテゴリカル多クラス問題(特にn p;≪ 少サンプル(n)多変数(p))の時の変数選択はどうすべき?
カテゴリカル多クラス問題=多クラスに対しグルーピングもランキングも事前情報がない場合。
よくある(流行り):・疎性モデリング(去年まで科研費をもらっていた。感謝します) =正則化項つき判別問題に落とす(例:Lasso) 問題点:やってみるとわかるけど、選択変数にあんまり安定性がない。疎性モデリングはもともと画像とかの圧縮センシングが源流で変数がピクセルとかフーリエモードとかなので最終的に画像がきれいならいいので画像ごとに違う変数が選ばれても無問題でそもそも「毎回同じ変数を選びたい」とニーズがない。しかし、生物学の場合、サンプルが変わると選ばれる変数が変わる、ではいろいろ困る。
グリーディー(貪欲)サーチ:とにかくひたすら判別がよくなるように変数を足したり引いたりして判別率が極小になるまで頑張る。フィルター、ラッパー、などと呼ばれる方法がある。問題点:変数が多い(n p)≪ とそもそも収束しない。変数選択の安定性がない。
今回の問題:「肝臓がん(HCC)によく似ているがより悪性の胆管肝臓がん(ICC)というものがある。胆管肝臓がんの早期発見・肝臓がんとの区別を血液検査で高精度で行えるバイオマーカーがほしい(今回は血中の測定ではありません!)」
データ:32サンプルICC : 6人 (がん+隣接正常細胞)HCC:10人 (がん+隣接正常細胞) mRNA,miRNA,メタボロームのデータがある。(典型的なn p≪ のカテゴリカル4クラス問題)
解析方法:よくある「3種類の変数を統合して何か(例:判別率)を最適化する変数をベイズとかで探索」はしない。しない。
理由:最終的に医療現場持って行くにはロバストネス大切。(昔、数十個のサンプルでバイオマーカー探して論文を投稿して、レビューワーが数を増やしたら通してやると行ったらいきなり100個のサンプルが追加され、「これでバリデーションして同じバイオマーカー選んでください」と言われて真っ青になったことあります)
→「主成分分析を用いた教師なし学習による変数選択」
まず、mRNA,miRNA,化合物の発現プロファイルを別々にPCAする(サンプルじゃなく)
⇓主成分得点→mRNA,miRNA,化合物に付与
主成分負荷量→96サンプル(3種類×[6×ICC+10×HCC]×2)
⇓32サンプルに付与された
32次元ベクトルの96個の主成分負荷量を「ー(ピアソン相関係数の絶対値)」を距離にして
階層的クラスタリング⇓
相関が大きい「主成分負荷量の組」を選択(注目すべきサンプル依存性の抽出)
PC1,PC2:mRNA,miRNAPC3:化合物
安定性:4群から一個ずつ減らして28サンプルにした
論文ではやってません!
スペアマン相関係数
確かに相関がある。⇓
四群の間に差がある、というだけより、独立な3
つの計測量の間に相関がある、という方が偶然度は低い。また、生物学的に意味がある変化であること可能性も高い
(仮説ですが...)⇓
この5つで変数選択
主成分負荷量の散布図
583個中53個 62,976個中67個 60,180個中281個
化合物 mRNA miRNA対応する主成分得点で外れ値になる化合物,mRNA,miRNAを選択
お詫び、この時(2年前)はまだ「何を外れ値とするか」という理解があやふやで適当に選んでいました(現在は基準ができています)。ですが、全体の数からみたら極少数個しか選んでいないにもい関わらず、広がりは選ばれてない大多数に比べて大きいことから非常に例外的な外れ値だということには変わりははないことをご理解ください
外れ値=寄与が大きい外れ値=寄与が大きい
安定性: 4群から一個ずつ減らして32サンプル→28サンプルにした
化合物化合物 32サンプル 非選択 選択 28サンプル 非選択 525 5 選択 5 48
論文ではやってません!
mRNAmRNA 32サンプル 非選択 選択 28サンプル 非選択 58650 14 選択 0 53
miRNAmiRNA 32サンプル 非選択 選択 28サンプル 非選択 59889 8 選択 5 278
非選択 選択 523 11 11 38
非選択 選択58626 32 29 30
非選択 選択59829 72 72 207
(vs 教師あり学習(SAM))
ここまではHCC,ICC,正常細胞などのサンプルのラベルを全く使っていないので完全な教師なし学習による変数選択。選択した変数で判別ができるかを確認する。
手順1.選択した化合物、mRNA,miRNA「だけ」で再度PCA。 サンプルに主成分負荷量を付与2.K番目までの主成分負荷量を使って線形判別 (交差検定はleave one out cross validation)
化合物 84.3%*84.3%* K=18正常細胞 HCC ICC
正常細胞 14 0 2
予測 HCC 0 5 0
ICC 2 1 8
miRNA 78.1%**78.1%** K=6
正常細胞 13 1 1
予測 HCC 2 4 1
ICC 1 1 8
*)P=0.01**)P<0.001 mRNA ×
教師なし学習による変数選択は選択安定性の点で教師あり学習による変数選択より優れているし、そこそこのパフォーマンスも実現できる。
ここで教師なし学習でやったことを教師あり学習でやろうとすると、分類情報を変数選択に直接使ったらやらせになっちゃうから、
サンプルを学習セットと検証セットに分割⇓
学習セットで教師あり学習で変数選択⇓
検証セットで精度検証
という手順が必要だが、全部で32サンプルしかなく、6サンプルしかないクラスもある場合にこんな手順は現実的だろうか?(いや、ない)
また、教師あり学習による変数選択は、変数選択の安定性において、教師なし学習による変数選択より劣っている以上、学習セットと検証セットへの分割が変われば違う変数が選択されてしまうだろう。それでは元々の「バイオマーカーを見つけたい」という問題に抵触してしまう。
結局、 カテゴリカ ル多クラス問題(特にn p;≪ 少サンプル(n)多変数(p))の時の変数選択には教師なし学習が最適なのでは?