[DDBJing30] メタゲノム解析と微生物統合データベース
-
Upload
dna-data-bank-of-japan-center -
Category
Education
-
view
406 -
download
11
Transcript of [DDBJing30] メタゲノム解析と微生物統合データベース
第30回 DDBJing 講習会 in 東京 2014 12/18 @JST東京本部 配布用資料
メタゲノム解析と微生物統合データベース
森 宙史 Hiroshi Mori, Ph.D. [email protected]
東京工業大学 大学院生命理工学研究科 生命情報専攻 黒川・中島・山田研
1
16S rRNA gene amplicon sequencing analysis (メタ16S解析)
DNA extrac:on
PCR amplifica:on
DNA Sequencing
Pre-‐analysis (Remove Primer, Chimera etc.)
Taxonomic assignment and Comparison between samples
Sequence clustering with species level by CD-‐HIT-‐EST or UCLUST, etc.
TestSample2 SRR061008 SRR061006 SRR061003 SRR061004 SRR095659 SRR094400 SRR090399 TestSample1 SRR094717
0.0
0.2
0.4
0.6
0.8
1.0
Who’s there? Togo picture gallery by DBCLS is licensed under a Crea:ve Commons AYribu:on 2.1 Japan license (c)
2
DNA extrac:on
DNA Sequencing
Assemble
Metagenomic reads
Con:g sets
Gene finding
Gene sets
BLASTP
Gene Func:on abundance Pathway abundance Pathway reconstruc:on Taxonomic abundance
Who’s there? What are they doing?
Sample1 Metadata Sample2 Metadata
Compara:ve metagenomics
MGA, MetaGeneMark
SOAPdenovo2, Velvet, IDBA-‐UD etc.
Metagenomic sequencing analysis (メタゲノム解析)
Togo picture gallery by DBCLS is licensed under a Crea:ve Commons AYribu:on 2.1 Japan license (c)
3
DB名 環境メタゲノム サンプル数
ヒトメタゲノム サンプル数
MG-‐RAST 14,188 3,291
JGI IMG/M 1,694 840
INSDC DRA/ERA/SRA 23,214 18,108
Taxonomic division RefSeqのゲノム数
Archaea 375 Bacteria 24,119 Fungi 289
公開されているゲノム・メタゲノムのデータ数 (2014年6月時点)
4
・ メタ16S・メタゲノム解析データ(塩基配列データ)から、容易に 系統組成および遺伝子機能組成の情報を抽出したい ・ 組成情報を既存のメタ16S・メタゲノム解析サンプルと比較したい
その環境の細菌群集は他のサンプルと比較するとどのような共通性・違いがあるか? その環境のメタデータと自分のサンプルのメタデータを比べて、何が異なるのか?
5
integrates lots of data related to microbes. Especially, we integrates the microbial data that can be linked to genomes.
Ortholog: MBGD
Genome: GTPS/RefSeq
Annota:on: TogoAnnota:on
Culture Collec:on: NBRC/JCM
Metadata: INSDC SRA
Metagenome: INSDC SRA
Taxonomy: NCBI Taxonomy
hYp://microbedb.jp/
Gene Taxon Environment
Red color indicates our collaborators. 6
MicrobeDB.jpを用いて出来ること
1. 既存のゲノム中の各遺伝子の情報 (オーソログ、モデル微生物での高精度アノテーション、系統プロファイル、環境プロファイル)
2. 菌株保存機関に存在する菌株の情報 (生育培地、表現型情報、遺伝子機能組成、環境プロファイル)
3. 様々な環境中の細菌群集の情報 (系統組成、遺伝子機能組成)
4. 上記の情報がシームレスに連携 (exp. 高温環境に多く存在する遺伝子はどのような遺伝子か? その遺伝子は、どの系統が主に持っているのか?)
7
Metagenome/Microbes Environmental Ontology (MEO) Ver. 0.7
797 terms
BioPortal hYp://bioportal.bioontology.org/ で最新版を公開
atmosphere (MEO:0000001)
geosphere (MEO:0000002)
hydrosphere (MEO:0000004)
environment
human ac:vity associa:on
(MEO:0000003)
organism associa:on
(MEO:0000005)
・air • oxic • anoxic :
・soil • forest • plain :
・sea • lake • water :
・rumen • mucus • rhizosphere :
・bioreactor • farm • naKo :
Collaborate with DBCLS 岡本忍、川島秀一
8
公共塩基配列DB (INSDC SRA)
メタゲノムDB
NIG Super Computer
解析 パイプライン
MeGAP-‐MicrobeDB.jp
MeGAP
メタゲノム配列データを取得
大規模計算実行
既存のメタ16S・ メタゲノムの 解析済み データを 取得
メタ16S・ メタゲノム 配列データ (fastq形式)
ユーザ
アップロード
系統組成 (Genus, Family, Order, Class, Phylum)
遺伝子機能組成 (ホモログ、代謝パスウェイ)
MicrobeDB.jp中の 既存メタ16S・ メタゲノムデータとの 比較解析結果
MeGAPから得られた 系統組成・
ホモログ組成(tsv形式)
9
10
MeGAP (MetaGenome Annota:on Pipeline) version 0.1 hYp://fs2.bio.:tech.ac.jp/megap/
配列の前処理 (目的: 高精度配列データの抽出)
3’端のQuality Trim (Quality value <17) 配列長でフィルタリング(<50 base)
FASTQ ファイル
Qualityでフィルタリング Quality Average >25
Nを含む配列除去
ユーザがメタ16S or メタゲノム の情報を入力
高精度 メタゲノム配列データ
高精度メタ16S 配列データ
11
メタ16S解析パイプライン
UCHIME Reference mode でキメラを検出
キメラ除去済みOTU
OTU代表配列
Reference 16S rRNA gene database
UCHIME De novo mode でキメラを検出
両modeでキメラとされた OTUをキメラと判定、
そのOTUを構成する全リードを除去
高精度メタ16S 配列データ
UCLUST Iden:ty >97%, coverage >90%
RDP Classifierを用いてbootstrap cutoff >50% で各OTUの代表配列を系統アサインメント
Genus-‐Phylumレベルの系統組成 12
13
系統組成
メタゲノム解析パイプライン 高精度メタゲノム
配列データ
CLAST Refseq Prokaryote Genome
Top Hitのみ抽出
各株の遺伝子ごとに Hit数を集計
全体のリード数で補正
OrthologごとにHit数を集計 Strainレベルで Hit数を集計
系統組成 遺伝子機能組成 代謝パスウェイ組成
GPUを用いた 塩基配列の類似性検索
KEGG Ortholog
KEGG Pathway
(Yano et al., 2014, BMC Bioinforma:cs)
14
15
MeGAP-‐MicrobeDB.jp version 0.1 hYp://fs2.bio.:tech.ac.jp/megaptomicrobedb.jp/
MicrobeDB.jp中の既存サンプルとの比較解析
メタゲノムDB
サンプルとの距離行列計算
階層的 クラスタリング
組成の 可視化
1-‐Pearson相関係数
Complete Linkage法
ユーザのサンプルのGenus組成・KO組成
既存メタ16SサンプルのGenus組成 既存メタゲノムサンプルのKO組成
上記の各ステップはRで実行 16
類似した 100サンプルを抽出
類似した100サンプルとのKO組成 (メタゲノム)
17
類似した100サンプルとのGenus組成 (メタ16S)
Genus組成によるサンプル間階層的クラスタリングの結果 (メタ16S)
18
SRR
0477
54SR
R05
6157
SRR
1717
96SR
R17
0533
SRR
0561
45SR
R05
5616
SRR
0493
73SR
R04
6330 SR
R04
6902
SRR
0410
06SR
R17
0301
SRR
0550
38SR
R05
4955
SRR
0564
79SR
R04
4766
SRR
0567
12SR
R04
4992
SRR
0481
16SR
R09
0947
SRR
0449
10SR
R05
6239
SRR
0452
92SR
R05
5870
SRR
0552
47SR
R05
5977
SRR
0561
22SR
R04
7920
SRR
0481
82SR
R20
1927
SRR
2019
01SR
R17
0070
SRR
0503
30SR
R04
8699
SRR
0440
90SR
R04
4123
SRR
0515
83SR
R04
6225
SRR
0410
27SR
R04
0933
SRR
1701
62SR
R17
0959
SRR
0485
36SR
R04
3600
SRR
0455
46SR
R04
7450
SRR
0440
30SR
R04
3994
SRR
1720
02SR
R04
8662
SRR
1712
12SR
R04
4656
SRR
0415
47SR
R04
6241
SRR
0456
47SR
R04
5607
SRR
0492
27SR
R04
4718 SR
R32
8963
SRR
3288
79 SRR
0487
82SR
R04
9962
SRR
0461
97SR
R04
4654
SRR
0900
82SR
R09
0049
Test
1.fa
stq
SRR
4085
25SR
R17
0142
SRR
0514
49SR
R05
1472
SRR
1722
87SR
R32
8866
SRR
1722
80SR
R04
6305
SRR
0483
80SR
R04
4671
SRR
3287
69SR
R32
8673
SRR
0560
33SR
R04
7997
SRR
0446
75SR
R04
8859
SRR
0485
26SR
R04
8551
SRR
4085
30 SRR
0474
48SR
R04
4652
SRR
0446
65SR
R04
4683
SRR
0485
79SR
R04
8650
SRR
0480
51SR
R04
1015
SRR
0472
21SR
R04
7878
SRR
0483
44SR
R04
4028
SRR
0439
89SR
R17
0860
SRR
0436
34SR
R09
1093
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Cluster Dendrogram
hclust (*, "complete")d_cor
Hei
ght
・ メタ16S・メタゲノム解析データから、容易に 系統組成および遺伝子機能組成の情報を抽出したい
MeGAP hYp://fs2.bio.:tech.ac.jp/megap/ ・ 組成情報を既存のメタ16S・メタゲノム解析サンプルと比較したい
MeGAP-‐MicrobeDB.jp hYp://fs2.bio.:tech.ac.jp/megaptomicrobedb.jp/
その環境の細菌群集は他のサンプルと比較するとどのような共通性・違いがあるか? その環境のメタデータと自分のサンプルのメタデータを比べて、何が異なるのか?
19
まとめ
データの収集およびクオリティコントロール、 更新の自動化など持続可能なシステムの構築 データ生産者から継続的にデータを受け付ける窓口のシステムとして微生物ゲノム自動アノテーションシステム「MiGAP」およびメタゲノム解析パイプライン「MeGAP」を利用し、MicrobeDB.jpと一体運用を実現する。また、これまで手作業で実施してきたDBの更新作業を可能な限り自動化し更新体制を強化する。
データ 生産者
微生物ゲノム 自動アノテーションシステム
メタゲノム解析パイプライン
メタデータの入力 RDFへの変換
ユーザのデータと 公共DB中のデータの統合
RefSeq SRA
公共DB中の ゲノム・メタゲノムデータ
20
Acknowledgement 東京工業大学 黒川顕・山田拓司・山本希・鈴木真也
国立遺伝学研究所 中村保一・菅原秀明・神沼英里・藤澤貴智
基礎生物学研究所 内山郁夫・千葉啓和・西出浩世
21
DBCLS (ライフサイエンス統合データベースセンター) 岡本忍・川島秀一・片山俊明・山本泰智