New submission system for DDBJ Sequence Read Archive (DRA) starts
[DDBJing33] DDBJ...
-
Upload
dna-data-bank-of-japan-center -
Category
Education
-
view
564 -
download
2
Transcript of [DDBJing33] DDBJ...
DDBJ Pipeline講習: NGS公共データベースを利用したDNA多型解析ワークフローの実習
国立遺伝学研究所 大量遺伝情報研究室 望月孝子
ユーザデータ
DNA多型
DNA多型 注釈
DDBJ Pipeline: DDBJ Read Annotation Pipeline
DDBJ Sequence Read Archive (DRA)
DDBJ Sequence Read Archive (DRA)
基礎処理部
高次処理部
ユーザデータ
マッピング
de novo アセンブリ
DNA多型注釈
(DNApod)
発現量解析
Contig, Scaffold注釈
転写因子結合部位解析
解析目的別ワークフロー
DDBJ Read Annotation Pipeline 全体像
HLA 解析ツール !(金沢大 細道先生)
DDBJ Pipeline: DDBJ Read Annotation Pipeline
geneReference
exonintron
DNApod
DNApod : DNA Polymorphism annOtation Database
DDBJ Sequence Read Archive (DRA)
DDBJ Read Annotation Pipeline基礎処理部
DNApod workflow高次処理部
ユーザデータ
ワークフローとデータベースを公開
バクテリア~動物、植物を網羅して
行く予定!
現在、イネ679系統、トウモロコシ404系統、ソルガム66系統
GACCGAGCTACGCCTCCTGTGGA!! GAGCTACGCCACCTG ! GAGCTACGCCACCTG ! GAGCTACGCCACCTG ! AGCTACGCCACCTGT ! GCTACGCCACCTGTG ! GCTACGCCACCTGTG ! !
Reference
SNP
Reads(BWA)
(samtools mpileup)
WGS:!whole-genome sequencing
マニュアル : https://github.com/inutano/soylatte/blob/master/README.md
DBCLS SRA Metadata Search
DRAデータサーチ
基礎処理部マッピング
DNA多型検出&注釈
コンセンサス配列の決定
ホモSNPs検出
既知遺伝子による注釈付け
高次処理部 (p-galaxy)
DRA
ERA013525
E.coli O157:H7 !strain ZAP430
インポート
- ERR018562
【実習】DNA多型注釈 DNApod ワークフロー
DRAデータを用いて解析するには、まず、「import public DRA」でデータをインポートしなければならない。 (今回の講習データはインポート済み)
E.coli O157:H7 strain ZAP430
1. Private DRA entryを選択
ユーザオリジナルデータを使用する場合は、FTP
upload
3.解析に使用するデータを選択 4.次へ
2.DRAアクセッションを選択
ERA013525
クエリの選択DDBJ Pipeline 基礎処理部
1. Reference Genome Mappingを選択 Mapping / de novo Assembly
ツール、各種選択できます。
2.ツールを選択
3.次へ
マッピングツールの選択DDBJ Pipeline 基礎処理部
4.次へ
1.Downlaod or upload referenceを選択
3.UPLOADをクリック
2.ローカルPCのファイルを選択
マウスなどのモデル生物は、Major genome setsで以前にリファレンスを用意しています。 また、INSD, Refseqデータのインポートもできます。
リファレンスの指定DDBJ Pipeline 基礎処理部
講習用のリファレンスファイルはこちらからダウンロードしてください。 Escherichia coli_ O157:H7 str. Sakai (ftp://tga.nig.ac.jp/dnapod/sequence1.fasta)
1.適宜パラメータを指定する
2.次へ
実行パラメータの設定DDBJ Pipeline 基礎処理部
必要に応じて実行パラメータを変更してください。パラメータの詳細は、各ツールのHELPをご確認下さい。
!
統計量
bwaにてマッピング
ユニーク化
samtoolsでDNA多型を検出した
結果
実行結果の確認 - 詳細 -DDBJ Pipeline 基礎処理部
0
5
10
15
20
25
30
35
40
0 10 20 30 40 50 60 70
Err
ors
by
Read P
osi
tion (
%)
Read Position (bp)
1.クリック
2. DDBJ pipeline基礎処理部の アカウント作成に使用したEmailとパス
ワードを入力
3.クリック
講習用IDとパスは配布資料をご参照ください。
ログインDDBJ Pipeline 高次処理部
1.クリック
3.基礎処理部をログアウトした場合のみ基礎処理部のIDとパス
ワードを入力してログイン2.クリック
4. インポートしたいデータのImportボタンをクリック
5. データがインポートされた
基礎処理部にログインしたままの場合は、この画面は出てきませ
ん。 本講習会では、koshu01で実行した結果を使用します。基礎部を一度ログアウトして、 ID: koshu01 Password: nigkoshu01 でログインしてください。
目玉マークをクリックするとファイルの中身を確認
できます。
基礎処理部のsamtools mpileupのデータインポートDDBJ Pipeline 高次処理部
3.ヒストリーから解析ファイルを指定
4.検出条件の指定
5.実行
指定した閾値以上かつ、GT 1/1 でホモSNPのデータのみが出力されている。
2.ファイルフォーマットを指定
6.データの中身を確認
1.クリック
ホモSNPsの検出DDBJ Pipeline 高次処理部
1.クリック
2.ヒストリーから解析ファイルを指定
3. アノテーションを指定
3.入力、出力ファイルの形式を選択
今回は このオプションで実行
4.実行
ファイルが2つ作成されます。
SNPsアノテーション SnpEffDDBJ Pipeline 高次処理部
vcfファイルのINFOフィールド内にEFF=でアノテーションが付与される。
詳細はSnpEffのサイトを参照 http://snpeff.sourceforge.net/SnpEff_manual.html#input
…
…
SNPsアノテーション SnpEff 出力ファイル (1) アノテーション情報 DDBJ Pipeline 高次処理部