Now and then: next-generation sequencing database to encourage the big data science
-
Upload
tazro-ohta -
Category
Technology
-
view
2.636 -
download
3
description
Transcript of Now and then: next-generation sequencing database to encourage the big data science
データベースから見た 次世代シーケンスによる研究の “これまでとこれから” 研究者を助けるために データベースは何をすべきか
Database Center for Life Science 大田達郎 Tazro Ohta
Now and then: next-generation sequencing database to encourage the big data science
まとめ
• データ解析が大変な時代はもう終わった
• データを奉納する人々にご利益を
Summary: stop annoying about NGS data processing, giving rewards to open-data scientists
データ解析が大変な時代はもう終わった
“data processing is not the most annoying part anymore”
今、大規模シーケンスは何が大変なのか
• 自身でシーケンスするのと同じくらい公開データを使うケースが多い!
• それぞれのフローで共通する部分,異なる部分
• それぞれどこが大変なのか?
• 「データの解析が大変なんでしょ」と思われて『いた』!
• 自前シーケンスは実験デザインの方が大事
• 公開データは「実験デザインの情報をいかに手に入れるか」が大事
the hardest part is designing whole sequencing experiment, for both self-sequencing and using public sequencing data
通常のシーケンスプロジェクトにおける研究ワークフロー
サンプリング ライブラリプレップ シーケンシング QC マッピング/アセンブル 解析
• 「次世代はデータ解析が大変」から「良いシーケンスがあればどうにかなる」へ!
• ツールや手法、論文も多く出回っており、解析が大変な時代はもう終わる
• 計算機資源の問題も公共リソースなどによって解決できる
• 重要なのはよくデザインされた実験と質の高いライブラリ
後になってからはどうしようもない 技術的な問題なのでどうにかなる
over the data processing, just a technical part, now researcher must care about designing experiment
公共のシーケンスデータを利用するためのフロー
検索 メタデータの収集 ダウンロード QC マッピング/アセンブル 解析
• 「データの質は解析ではどうにもならない」のは同じ!
• データの質の判断には実験条件などのメタ情報の充実が必要
• 大量のデータから効率よく必要なデータを探さなくてはならない
• サイズの大きなデータはDL・展開に時間がかかるので「ハズレ」を引きたくない
解凍
on-line local
using public data requires retrieving detailed metadata to control the quality of sequencing
公開データの利用コストを下げるためのDB的アプローチ
• 必要なデータを素早く検索できる!
• 「目的とするデータがどのくらい登録されているか」を可視化
• 解析に必要なメタデータが確認できる!
• PubMed, PMCから文献情報を抽出
• リード情報の追加 (リード数,リード長,エラー率,etc.)
• 「ハズレ」を避けることでDL/解凍のコストを削減
• 予めクオリティを確認することでQC処理を省略
an approach from the database: improving data search system with method description from papers as metadata
検索システムの開発 DBCLS SRA (http://sra.dbcls.jp)
FastQCによるSequence Qualityの提供 (http://sra.dbcls.jp)
オッこのデータよさそう→ダウンロードする(一晩)→解凍する(一晩)→見てみる→全部Nでした→\(^o^)/
DBCLS SRAによって実現するコストの削減
検索 メタデータの収集 DLQC マッピング/アセンブル 解析
• 目的は“研究目的に合致する質の高いデータを最小コストで手に入れる”こと!
• 「ないものを探し続ける」ことを防ぐ
• 「同じものが複数あるなら良い方を使いたい」をサポートする
• 検索の自動化もサポート
解凍 QC
on-line local
“retrieving data that works for one’s study from the public database with minimum effort”
どうにかなったのか
“And it goes..”
どうにもならなかった
• データの量やバリエーションに依存する問題!
• データが分散する問題!
• メタ情報の問題!
• 文献情報など補足情報の問題
not so good: amount and variation of data, data distribution to various public DB, insufficient quality of metadata, difficulty with linking data to publication
データ量は延々増え続けている
http://www.ncbi.nlm.nih.gov/Traces/sra/
2PB >
データ量は延々増え続けている
http://trace.ddbj.nig.ac.jp/DRASearch/
データのバリエーションも増えている
http://liorpachter.wordpress.com/seq/
[*-Seq].size > 80
データのバリエーションも増えている
DB側はざっくりしたStudy Type
by study (http://sra.dbcls.jp/trends.html)
データが分散する
by study (http://sra.dbcls.jp/trends.html)
TCGA data moved to CGHub http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history
メタ情報の問題
Total = 338,765!(words.size == 0).size = 92,089!(words.size > 200).size = 2,184Sanger Center
(template?)
Volumes of free word field “design description”
大切なことは全てPubMedが教えてくれた http://sra.dbcls.jp/cgi-bin/publication.cgi
「論文が出たからデータを公開する」はむしろ少数派? (もしくは出ても報告しない)
0
37500
75000
112500
150000
total publication#submission
0
50000
100000
150000
200000
total publication#sample
0
100000
200000
300000
400000
total publication#run
115440
3059
194338
31787
376904
51202
26.5%16.4% 13.6%
not all the published data has paper publication (or never update after the first data submission)
どげんかせな
• データの量やバリエーションに依存する問題!• 単純に計算量が増える
• 情報の粒度はどこまで対応するべきか
• データが分散する問題!• 管理上のコストと利用上のコストの兼ね合い
• メタ情報の問題!• 登録者によって記述量に差がある
• 文献情報など補足情報の問題!• そもそも文献がない
• Materials&Methods にどこまで詳しく書かれているか
“summary of those problems”
どうにかなるのか
Is there any hope?
どうにかなってくれ
• 未来予測
• Compression strategy の問題!
• Sequencing technology の進化は予測が難しい
The other problems; problems of data compression strategy, estimation of sequencing technology advance
Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.
Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.
Sequencing Technology の進化は予測が云々 (1) https://www.nanoporetech.com
Sequencing Technology の進化は予測が云々 (2) http://gnubio.com
Sequencing Technology の進化は予測が云々 (3) http://www.picoseq.com/
データを奉納する人々にご利益を
“giving rewards to open-data scientists”
http://www.flickr.com/photos/ogachin/5420953786/
データベース神社システムの実現に向けて
• 「質の高いメタ情報と共にデータを登録してもらう」ことが必須!
• データ登録時の負担を減らすことが大事
• 変化するデータの性質にフレキシブルに対応する
• データを登録する研究者の協力も欠かせない
• 質の高いデータ登録をしてくれる研究者に「ご利益」を!
• 今はメタ情報の質も「善意ベース」
• 論文がciteされる,グラントが取れるなどの評価に繋げる必要がある
Improving the DB ecosystem to make submission with high-quality metadata easy, giving rewards to researchers who made highly cited submission, etc.
まとめ
• データ解析が大変な時代はもう終わった!
• これからは「質の高いシーケンスをするのが大変」な時代
• 解析できる人が実験デザインの段階から関わる必要がある
• 公開データは「質の高いメタ情報を書いてもらう」ためにDBの改善が必須
• データを奉納する人々にご利益を!
• 善意ベースでは限界があるので質の高いデータを公開するインセンティブが必要
Summary: well-designed sequencing project for highly reusable data, make an incentive to submit high-quality metadata
Acknowledgement
• いつも綺麗なデータを公開してくれるみなさま
• データベースプロジェクトで日々暗躍するDBCLS, DDBJ, NBDCの同志のみなさま
• 有り難いアドバイスやご意見をくださるNGS現場の会のみなさま
• ちょっと協力してみようかな?と思ってくださった会場のみなさま
• オーガナイザのこだまさん、なかざとさん
Thank you!