[DDBJing33] Mass Submission System の紹介
-
Upload
dna-data-bank-of-japan-center -
Category
Education
-
view
605 -
download
4
Transcript of [DDBJing33] Mass Submission System の紹介
Mass Submission System紹介
DDBJ annotator李 慶 範
第33回 DDBJing 講習会 (DDBJ)
NGS data(raw reads)
+ Assembly
+ Annotation
Sanger data
e.g. WGS, CON, TSA etc.e.g. 16S rRNA, EST etc.
e.g. complete genome
DDBJ Data Submission
DDBJ Trace Archive
(DTA)http://trace.ddbj.nig.ac.jp/dta/index_e.html
DDBJ Sequence Read
Archive
(DRA)http://trace.ddbj.nig.ac.jp/dra/index_e.html
DDBJ Nucleotide Sequence
Submission Systemhttp://www.ddbj.nig.ac.jp/sub/websub-e.html
Mass Submission Systemhttp://www.ddbj.nig.ac.jp/sub/mss_flow-e.html
Interactive nucleotide sequence
submission system via WWW
Raw outputs
Kosuge,T. et al. Nucl. Acids Res.(2014) 42(D1):D44-D49
- multi-FASTA format
- authenticated submission system based on e-mail
- flexible input system
- specialized templates such as 16S rRNA, CDS, D-loop etc.
6.Issue Accession
No.
1.MSSRequest
2.Introduce how to use
MSS
3.BioProject
BioSample
4. Submission files
5. Check by annotators
UME check
tool
- large-scale sequences
- multiple nucleotide sequences
- complex or many features
- FASTA file + Annotation file+Annotation file
+Sequence file
(+)AGP file(CON)
(submitter)
(submitter)
(submitter)
- Genome-level data
- Transcriptome Shotgun Assembly
(TSA)
For large-scale data
WGS, CON, EST, TSA, complete genome etc.
1
raw reads
次世代シークエンサ(NGS)の Genomic DNA
Assembly(overlapping)
個々に登録された一連の配列データを相互に結合し, より長い配列を構築(supercontig, scaffoldcontig)
WGS data contig(overlapping reads) 配列
Sequencing gap を用いた断片配列の連結構造
Complete genome
Finished配列
CON datagap gap
・WGS (Whole Genome Shotgun)
-冗長な raw reads をつなぎ合わせた contig(overlapping reads)- CDS 等のアノテーションの記載が可能/未記載も登録可能- "アノテーションファイル + 配列ファイル"
・CON division
-個々に登録された一連の配列データ(WGS または HTG データ)をsequencing gap を用い相互に結合し、再構築したデータ- CDS 等のアノテーションの記載が可能/未記載も登録可能- "アノテーションファイル + AGP ファイル" + option(配列ファイル)
・Complete genome sequence (Taxonomic Division)
-配列解析を Finishing したデータ- CDS,tRNA,rRNA等のアノテーションに /locus_tag の使用- "アノテーションファイル + 配列ファイル"
Genome-level data 概要
MSS submission
DDBJ Sequence Read Archive (DRA)
MSS submission
第33回 DDBJing 講習会 (DDBJ) 2
http://www.ddbj.nig.ac.jp/sub/wgs-j.html
http://www.ddbj.nig.ac.jp/sub/con-j.html
第33回 DDBJing講習会 (DDBJ) 3
contig(overlapping reads) 配列
Sequencing gap を用いた断片配列の連結構造
gap gap
Genome-level data 概要
MSS submission
WGS data
http://www.ddbj.nig.ac.jp/sub/wgs-j.html
WGS 登録データについて
raw reads
新型シーケンサー由来の Genomic DNA
Assembly
TSA data
contig(overlapping) 配列
Transcriptome Shotgun Assembly (TSA) data 概要
MSS submission
再構成された (assembled) mRNA 配列
EST data
cDNA1cDNA2
cDNA3
TSA contig1
TSA contig2TSA contig3
-先立ってアセンブリの元となる1次転写産物 (primary transcripts)の配列データ(プライマリーエントリ)が DDBJ/EMBL-Bank/GenBank の EST division,DDBJ Trace Archive,DDBJ Sequence Read Archive (DRA) の何れかに登録されている必要がある(注意);プライマリーエントリが TSA 登録者と異なる登録者に帰属する配列データである場合は,TPA
(Third Party Annotation)
http://www.ddbj.nig.ac.jp/sub/tsa-j.html
MSS submission
DRA
MSS submission
第33回 DDBJing 講習会 (DDBJ) 4
DDBJ Submission System
http://www.ddbj.nig.ac.jp/index-j.html
アノテーションをつけた塩基配列の登録
http://www.ddbj.nig.ac.jp/submission_general-j.html
・DDBJ Nucleotide Sequence Submission System(Web経由の塩基配列登録システム)
・Mass Submission System (MSS)
第33回 DDBJing 講習会 (DDBJ)
MSS利用案内 1
5
Mass Submission System
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html
登録予定データが,件数が多い,多数の Feature を持つ,配列が長大,などの場合や,web経由の登録システムが対応していないデータ(例:WGS)の登録
特徴
・定型化したテキストファイルの利用による登録-登録に必要なアノテーションファイルと配列ファイル
->登録者側で作成(テキストファイル)->スクリプト、(MS Excel などの) 表計算ソフト、テキストエディタ等を使用
-作成したファイルは、ソフトウェアツールでチェックUME (Utilities for MSS file Errorcheck)Paser/transChecker
・データ転送が簡便(Eメール、D-way 経由)・大規模データの登録向き
受付対象のデータ
・エントリ数(登録する配列の数)が多い例: 大規模転写物(EST, HTC, TSA) , ゲノム断片(GSS, HTG),特定の遺伝子や領域(16S rRNA, ITS-rRNA など)
・1エントリあたり,多数(概ね30以上)のBiological Feature例: オルガネラゲノム,プラスミド全長など
・配列が長大 (概ね 500 kbp 以上)例: 全ゲノム規模データ,遺伝子クラスターなど
・塩基配列登録システムが対応していない登録例:WGS,CONなど
第33回 DDBJing 講習会 (DDBJ)
MSS利用案内 2
6
6.アクセッション
番号発行
1.登録依頼
2.MSS 利用案内登録案内
3.BioProject
BioSample
登録
4.登録ファイル作成
5.査定作業
MSS
UME check tool
+Annotation file+Sequence file(+)AGP file (for CON)
-登録ファイルフォーマットチェックツール
データ公開・公開待ち
データ公開・共有
MSS submission flow
登録者塩基配列解析データ
BP/BS 登録対象データ- Genome-level data (WGS, CON, complete genome)- Transcriptome Shotgun Assembly (TSA)
INSDC
第33回 DDBJing 講習会 (DDBJ) 7
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html
1.登録依頼
http://www.ddbj.nig.ac.jp/sub/masssub-j.html
1. 以前にMSS を利用されたことがありますか?
2. コンタクトパーソン* 氏名(英語)* E-mail address* FAX number* 所属 (英語)
3. 登録担当者
4. 登録データの概略* 公開予定* 件数* Sequencing Technology (複数選択可)* データ種別* 生物学的概要(日本語可)
5. 補足情報 (日本語可)
MSS submission flow
MSS申し込みフォームMSS申し込み必須項目を記載
第33回 DDBJing 講習会 (DDBJ) 8
2.MSS 利用案内登録案内
Subject: [DDBJ:mass-0001] How to use MSSFrom: [email protected]
登録依頼の内容を確認
登録案内メール送付
MSS submission flow
第33回 DDBJing 講習会 (DDBJ) 9
2.MSS 利用案内登録案内
登録案内メールの参照リンク
MSS関連資料
・データファイルチェック用ツール・データファイル作成関連ドキュメント・アノテーション関連ドキュメント
MSS submission flow
第33回 DDBJing 講習会 (DDBJ)
http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
10
3.BioProject・BioSample登録
- BioProject登録
http://trace.ddbj.nig.ac.jp/bioproject/index.html
From: [email protected]
----------------------------------------------------------------------------------PSUB ID | BioProject ID | Organism name | Hold/ReleasePSUBxxxxxx | PRJDBxxxx | Streptomyces flavus | Hold----------------------------------------------------------------------------------
BP/BS 登録対象データ- Genome-level data (WGS, CON, complete genome)- Transcriptome Shotgun Assembly (TSA)
BioProject IDOrganism namelocus_tag prefix 登録
MSS 登録に使用
BioProject登録完了(locus_tag prefix 取得)
研究プロジェクトとプロジェクトに由来するデータをまとめるためのデータベース
MSS submission flow
例、
第33回 DDBJing 講習会 (DDBJ) 11
3.BioProject・BioSample登録
- BioSample登録
BioSample登録完了
BP/BS 登録対象データ- Genome-level data (WGS, CON, complete genome)- Transcriptome Shotgun Assembly (TSA)
http://trace.ddbj.nig.ac.jp/biosample/index.html
From: [email protected]
----------------------------------------------------------[Submission ID]SSUBxxxxxx[Hold/Release]HoldSample Name | BioSample IDStreptomyces flavus | SAMD000xxxxx-----------------------------------------------------------
BioSample IDMSS 登録に使用
DDBJ の一次データベースに登録されている実験データを得るのに使われた生物学的な試料 (サンプル) についての情報を集中して管理するデータベース
MSS submission flow
例、
第33回 DDBJing 講習会 (DDBJ) 12
4. MSS 登録ファイル作成
・配列ファイル作成・アノテーションファイル作成・ AGPファイル作成(CON data)
http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
http://www.ddbj.nig.ac.jp/sub/mss/make_files-j.html
MSS submission flow
第33回 DDBJing 講習会 (DDBJ) 13
配列
・ベクター,リンカー,アダプターなどの配列は必ず除去-ベクターなどの配列自体は例外
・特殊なケースを除き,末端の n は除去
・塩基配列には a,t,g,c 以外にも、必要に応じて、各種核酸コードが使用可能
・途中にスペース、空行が入らないように
4. MSS 登録ファイル作成
http://www.ddbj.nig.ac.jp/sub/mss/sequence_file-j.html
エントリ名
・エントリ名は行頭の「>」に続けて、[space], " [double-quote], ? [question], [back-slash] を含まない半角英数字 32 文字以内
・エントリ名はエントリ毎にユニークな文字列- clone 名,isolate 名といった個々のエントリによって異なる名称の使用が一般的
・アノテーションファイルと配列ファイルの同一のエントリ名-同じエントリ名をつけ、同じ順番になるようにそれぞれ入力
・入力されたエントリ順にアクセッション番号を発行
終端子
・終端子として配列情報終了フラグ(//)を必ず入力
(配列ファイル作成)
MSS submission flow
第33回 DDBJing 講習会 (DDBJ) 14
4. MSS 登録ファイル作成 (アノテーションファイル作成)
Entry, Feature, Location, Qualifier, Value の 5 カラム
アノテーションファイルでは全てのエントリに共通な情報
COMMON
Entry 情報
SUBMITTER
REFERENCE
COMMENT
登録者情報
登録データ関連の文献情報
FEATURES/Location/Qualifiers で記述できないその他の情報やコメント
Biological Feature
Biological feature の定義、記述方法の詳細The DDBJ/EMBL/GenBank Feature Table: Definitionhttp://www.ddbj.nig.ac.jp/FT/full_index.html
一般登録ファイルの例
MSS submission flow
第33回 DDBJing 講習会 (DDBJ)15
type WGS を記載DATATYPE
ST_COMMENT
BioProjectBioSampleDRA(option)
特定データベースへのリンク
Genome assembly 情報- Assembly software- Genome coverage- Sequencers
4. MSS 登録ファイル作成 (アノテーションファイル作成)WGS登録ファイルの例
KEYWORD
DBLINK
http://www.ddbj.nig.ac.jp/sub/locus_tag-j.html
一定な識別子を遺伝子とその関連 feature の検索を目的として割り当てたものCDS,tRNA,rRNA, ncRNA など遺伝子関連のfeature 配下に記載
locus_tag は
DIVISION と DATATYPE で示されたデータ種別を基本に細分化した情報、実験手法に関する情報などを、原則として、規定値で記載例、WGSデータ: WGSとmethodological keyword 記載
・INSDC agreed methodological keywords- STANDARD_DRAFT- HIGH_QUALITY_DRAFT- IMPROVED_HIGH_QUALITY_DRAFT- ANNOTATION_GRADE- NON_CONTIGUOUS_FINISHED
MSS submission flow
第33回 DDBJing 講習会 (DDBJ)16
4. MSS 登録ファイル作成 ( CONの AGP ファイル作成)
CON登録ファイルの例 (AGP ファイル)
・AGP ファイル
- CON エントリを構築する際のピースエントリの順序,種類,方向等が記載
-公開フラットファイル上に表示 "contig 行"
例、CONTIG join(BZZZ01123456.1:1..1345,gap(1500),BZZZ01123457.1:1..1456,
gap(unk100),complement(BZZZ01123458.1:1..1230))
- AGPファイルは、UME (Utilities for MSS Error check)でチェック可
http://www.ddbj.nig.ac.jp/sub/mss/agp_file-j.html
MSS submission flow
9 カラムで構成
第33回 DDBJing 講習会 (DDBJ) 17
4. MSS 登録ファイル作成 (Sample files)
http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html
MSS submission flow
アノテーションファイルの作成に際しては、サンプルアノテーションファイルをご参照ください
第33回 DDBJing 講習会 (DDBJ) 18
4. MSS 登録ファイル作成 (登録ファイルフォーマットチェック)
http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
UME (Utilities for MSS file Error check)Mass Submission System (MSS) を利用した登録に必要な配列ファイルとアノテーションファイルのフォーマットチェックを行うツール
-あらかじめ、Java Development Kit (JDK) をインストール- OS と実行環境に応じて、ツールを選択
MSS submission flow
第33回 DDBJing 講習会 (DDBJ)19
4. MSS 登録ファイル作成登録ファイルフォーマットチェック・データの送付
登録に必要な配列ファイルとアノテーションファイルを作成し、登録予定データの一部をサンプルデータとして DDBJ に送付
ファイルサイズが合計で 10 M byte を超える場合は、公開鍵と秘密鍵を用いた SCP によるファイル転送
登録ファイルフォーマットチェックの後データの送付
・Parser エラーメッセージ一覧http://www.ddbj.nig.ac.jp/sub/validator-j.html#parser
・transChecker エラーメッセージ一覧http://www.ddbj.nig.ac.jp/sub/validator-j.html#transChecker
・AGPParser エラーメッセージ一覧http://www.ddbj.nig.ac.jp/sub/validator-j.html#AGP
#2 Parser の機能-構文とフォーマットを検証
#3 transChecker の機能-アミノ酸翻訳を検証
(登録データが CDS feature を含む場合)
#4 FFconv の機能-擬似的なフラットファイルを作成
#5 CON エントリの配列の構築- AGPファイルとピースエントリの配列ファイルを用いて構築
#1 アノテーションファイルと配列ファイルをそれぞれ指定
http://www.ddbj.nig.ac.jp/sub/mss/ume-j.html
#1
#2
#3
#4
#5
MSS submission flow
第33回 DDBJing 講習会 (DDBJ)20
6.アクセッション番号発行
[Hold-Date] 20150612Accession number : BXXX01000001-BXXX01000100 (100 entries)
5.査定作業
From: DDBJ <[email protected]>
査定作業完了後
アクセッション番号発行
MSS submission flow
例、WGS data
第33回 DDBJing 講習会 (DDBJ) 21
MSS submission 公開ファイルとの対応関係
第33回 DDBJing 講習会 (DDBJ) 22
MSS submission 公開ファイルとの対応関係
http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html
第33回 DDBJing 講習会 (DDBJ) 23
..中略..
..中略..
MSS submissionWGS 公開ファイルの記載例
http://getentry.ddbj.nig.ac.jp/top-j.html
#1
#2
#3
#4
#5
#1 Accession No.
#2 DBLINK
#3 KEYWORDS
#4 ST_COMMENT
#5 locus_tag
第33回 DDBJing 講習会 (DDBJ) 24
MSS ホームhttp://www.ddbj.nig.ac.jp/sub/mss/massSub-j.htmlhttp://www.ddbj.nig.ac.jp/sub/mss/massSub-e.html
MSS 用データファイル作成 -目次-http://www.ddbj.nig.ac.jp/sub/mss/make_files-j.html
http://www.ddbj.nig.ac.jp/sub/mss/make_files-e.html
UME ユーザーマニュアルhttp://www.ddbj.nig.ac.jp/sub/mss/ume-j.htmlhttp://www.ddbj.nig.ac.jp/sub/mss/ume-e.html
Parser ユーザーマニュアルhttp://www.ddbj.nig.ac.jp/sub/mss/parser-j.htmlhttp://www.ddbj.nig.ac.jp/sub/mss/parser-e.html
transChecker ユーザーマニュアルhttp://www.ddbj.nig.ac.jp/sub/mss/transchecker-j.htmlhttp://www.ddbj.nig.ac.jp/sub/mss/transchecker-e.html
サンプルアノテーションファイルhttp://www.ddbj.nig.ac.jp/sub/mss/sample-j.htmlhttp://www.ddbj.nig.ac.jp/sub/mss/sample-e.html
アノテーションファイルとフラットファイルの対応関係http://www.ddbj.nig.ac.jp/sub/mss/ann2ff-j.htmlhttp://www.ddbj.nig.ac.jp/sub/mss/ann2ff-e.html
MSS submission
MSS登録関連ページ
MSS参考資料
第33回 DDBJing 講習会 (DDBJ) 25