[DDBJing33] BioProject, BioSample, DDBJ Sequence Read Archive の紹介
-
Upload
dna-data-bank-of-japan-center -
Category
Education
-
view
527 -
download
7
Transcript of [DDBJing33] BioProject, BioSample, DDBJ Sequence Read Archive の紹介
BioProject, BioSample, DDBJ Sequence Read Archive の紹介
福田 亜沙美Fukuda Asami
DDBJ センター、アノテータDDBJ center, annotator
2015年11月11日
DDBJ センターが運営するデータベース
INSDC: オープンアクセスデータベース
個人レベルの遺伝型と表現型
JGA
アクセス制限データベース
ヒトデータ審査委員会
DDBJ
アセンブリ
アノテーション
リード
Quality value
アライメント
(bam)
DRA
BioProjectBioSample
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
SRA データモデル
SRA データは3つのデータベースにまたがる
第33回 DDBJing 講習会 (JST東京)
BioProject
2015年11月11日
http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027
ゲノム配列SRA データ
Pubmed 論文情報
プロジェクト概要
プロジェクト単位でデータをまとめる
NCBI BioProject:
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
プロジェクトの定義は柔軟
第33回 DDBJing 講習会 (JST東京)
植物サンプルのゲノム配列と遺伝子発現を解析 三つの微生物株のゲノム配列を解析
BioSample
2015年11月11日
BioSample でサンプル情報を集中管理
データベースに散在していたサンプル情報を集中管理
サンプル記述を標準化
http://trace.ddbj.nig.ac.jp/biosample/index.html
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
属性 (attributes) でサンプルを記述
「属性名:値」のペアでサンプルを記述 (例: tissue:liver)
http://www.ncbi.nlm.nih.gov/biosample/1990977
パッケージ
サンプル属性
関連データ
タイトル
NCBI BioSample:
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
BioProject/BioSample でデータをまとめる
BioSample 1 BioSample 2
data
Umbrella BioProject
GenomeBioProject
TranscriptomeBioProject
EpigenomeBioProject
data data data data data
データベースを横断してデータをまとめる
第33回 DDBJing 講習会 (JST東京)
データ登録の流れ
2015年11月11日
DRA 登録の流れ
第33回 DDBJing 講習会 (JST東京)
1. 「なぜ」そのサンプルをシークエンスしたのか 2. 「なに」をシークエンスしたのか
3. 「どのように」シークエンスしたのか
4. シークエンスの結果
登録を始める前に
2015年11月11日
D-way アカウントを取得しておく
D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得
公開鍵と center name をアカウントに登録し、DRA 登録権限を取得
DRA
BioProject BioSample
公開鍵 と center name を
D-way アカウントに登録
http://trace.ddbj.nig.ac.jp/book/account.html登録アカウント Handbook:
center name : SRA が組織に運用上割り振っている略号
公開鍵 : 秘密鍵とペアでユーザの認証に使用される
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
予めメタデータの構成を決めておく
登録する前に必要な BioProject・BioSample・Experiment・Run の数を決めておく
サンプル数 (≦ Experiment/Run 数) から考えると分かりやすい
1. 最もシンプルな登録 2. 三つの菌株の比較ゲノム解析
http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例
メタデータ: シークエンスデータがどのようにして得られたのかを説明するデータ
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
今回の登録例
枯草菌3株のゲノム配列をペアードエンドでシークエンスしたデータ
第33回 DDBJing 講習会 (JST東京)
登録手順
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
DRA 新規登録の作成
登録アカウントにログインし、新規 DRA 登録を作成
DRA ファイル受付サーバに対応するディレクトリが作成される
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
データファイルの転送
鍵認証で DRA ファイル受付サーバにアクセスし、
データファイルを新規登録に対応するディレクトリにアップロード
DRA ファイル受付サーバ
秘密鍵 公開鍵
DRA 新規登録
シークエンスデータファイル(fastq, bam etc)
http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード
ファイル名に空白を含めない
サブディレクトリをつくらない
ディスク郵送には対応していますが、登録処理に時間がかかります
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
メタデータ作成ツールを起動
DRA 登録リストから登録ページへ移動し、メタデータ作成ツールを起動
第33回 DDBJing 講習会 (JST東京)
ファイルがアップロードされていないとエラーになります
2015年11月11日
BioProject の作成
作成済みのプロジェクトを選択 or 新規作成
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
BioProject 登録管理情報の入力
登録者情報(名前、メールアドレス、所属組織)
即日公開 or 非公開を選択 (公開予定日は指定できない)
第33回 DDBJing 講習会 (JST東京)
アカウントの所有者情報がコピーされます
2015年11月11日
BioProject の投稿
プロジェクト (概要・研究費・プロジェクトのタイプなど) を入力
内容を入力して投稿
第33回 DDBJing 講習会 (JST東京)
アノテーション付きゲノム配列を登録する場合、Locus tag prefix を取得します
2015年11月11日
プロジェクトの選択
新規作成したプロジェクトが選択された状態になります
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
作成済みのサンプルを選択 or 新規作成
2015年11月11日
BioSample 登録管理情報の入力
第33回 DDBJing 講習会 (JST東京)
登録者情報(名前、メールアドレス、所属組織)
即日公開 or 非公開を選択 (公開予定日は指定できない)
BioProject の登録管理情報がコピーされます
2015年11月11日
サンプルの種類を選択
サンプルの種類 (Sample type) に応じた属性セット
http://trace.ddbj.nig.ac.jp/biosample/attribute.htmlサンプル属性一覧:
第33回 DDBJing 講習会 (JST東京)
例: ゲノムの場合 num_replicons が必須
2015年11月11日
サンプル属性を記載
Sample type に対応したタブ区切りのテキストファイルをダウンロード
エクセルなどで1行に1サンプルの情報を入力し、テキストファイルをアップロード
必須属性に対する値がない場合は “missing” などを記入
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
サンプルを投稿
属性ファイルの内容を確認し投稿
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
サンプルの選択
第33回 DDBJing 講習会 (JST東京)
新規作成したサンプルが選択された状態になります
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
DRA 登録管理情報の作成
登録者情報と公開予定日 (2年後まで指定可能) を記入
第33回 DDBJing 講習会 (JST東京)
BioProject の登録管理情報がコピーされます
2015年11月11日
DRA Experiment の作成
デフォルトで選択した BioSample を参照している Experiment が作成される
サンプルから構築したライブラリー、シークエンサーやリード長について記入
第33回 DDBJing 講習会 (JST東京)
タブ区切りテキストファイルでまとめて内容を作成することができます
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
DRA Run の作成
第33回 DDBJing 講習会 (JST東京)
タブ区切りテキストファイルでまとめて内容を作成することができます
デフォルトで作成した Experiment と同数の Run が作成される
Run に含まれるデータファイルを記述
2015年11月11日
DRA メタデータの投稿
メタデータ作成後 [Submit/Update DRA metadata] をクリックして投稿
オブジェクト相互が過不足なく参照されているかどうかチェックされます
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
データファイルの検証処理
データファイルの形式とメタデータとの整合性が検証され、
アーカイブ用の SRA ファイルが作成されます
第33回 DDBJing 講習会 (JST東京)
検証処理を開始
2015年11月11日
よくある検証処理エラー
合計長を記入 (例 Forward 100 + Reverse 100 = 200)
ファイルが破損している場合は再度ファイルをアップロード
空白を除去
サブディレクトリを含めず、ファイルそのものをアップロード
配列長が一定のペアリードで Experiment.Spot Length にペアの合計
配列長が記入されていない
メタデータ中の md5 値と転送されたファイルの md5 値が異なる
アップロードされたデータファイル名に空白が含まれている
サブディレクトリを含んでいる
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
次世代シークエンスデータの登録フロー
DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第33回 DDBJing 講習会 (JST東京)
DRA Run の作成
2015年11月11日
アクセッション番号の発行
BioProject (PRJDB)
BioSample (SAMD)
Submission (DRA), Experiment (DRX), Run (DRR)
第33回 DDBJing 講習会 (JST東京)
データの公開と更新BioProject・BioSample・DRA
2015年11月11日
BioProject と BioSample の連動公開
塩基配列データの公開は参照している BioProject/BioSample の公開を引き起こす
BioProject/BioSample の公開は参照元の塩基配列データの公開を引き起こさない
BioProject/BioSample公開
DRA/DDBJ 塩基配列データ
公開
BioProject/BioSample公開
DRA/DDBJ 塩基配列データ
非公開
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
データの公開
公開されたデータはミラーされ DDBJ/EBI/NCBI で利用できるようになります
DDBJ DRASearch
NCBI BioProject
NCBI BioSample
NCBI SRA
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
データの更新
更新内容を BioProject チームに連絡
関連する論文が公開されたら pubmed ID などの文献情報を連絡
BioProject
BioSample
DRA
更新内容を BioSample チームに連絡
Sample name は ID として使用しているため変更不可
メタデータの内容と公開予定日はアカウントにログインし、自身で変更
データファイルの追加: 新規登録を作成し、既存のオブジェクトを参照する
Do it yourself
Request by e-mail
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
お問い合わせ先
http://trace.ddbj.nig.ac.jp/contact.html
登録について問い合わせる場合には D-way アカウント名と
データの ID をお知らせください
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
アノテータ募集中
第33回 DDBJing 講習会 (JST東京)
http://www.ddbj.nig.ac.jp/whatsnew/wn151014-j.html
補足
2015年11月11日
プロジェクト番号でデータが関連付けられる
同じプロジェクト番号を参照しているデータが関連付けられる
DDBJ
DRA
リード
Quality value
アノテーション
BioProject
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
アンブレラプロジェクトの活用
アンブレラプロジェクト (非公開にできない) でプロジェクトをまとめる
大規模プロジェクトからの成果を整理して提示することができる
初期段階でアンブレラを取得し、関係者に周知することを推奨
DDBJ 側では申告されないとアンブレラとの関係が分からない
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活用
アンブレラ
プライマリー
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
微生物ゲノム配列の登録
Strain-level taxonomy ID にかわり BioSample 微生物ゲノムを識別
BioProject BioSampleStrain: 1Locus tag prefix: AAAA1
BioSampleStrain: 2Locus tag prefix: AAAA2
BioSampleStrain: 3Locus tag prefix: AAAA3
BioProjectStrain: 1Locus tag prefix: AAAA1Strain-level taxonomy ID: 10
BioProjectStrain: 2Locus tag prefix: AAAA2Strain-level taxonomy ID: 11
BioProjectStrain: 3Locus tag prefix: AAAA3Strain-level taxonomy ID: 12
Species-level taxonomy ID: 100
Federhen S et al. Stand Genomic Sci (2014) doi: 10.4056/sigs.4851102
2014年2月以前
2014年2月以降
Genome
Genome
Genome
Bacteria: AStrain: 1
Bacteria: AStrain: 2
Bacteria: AStrain: 3
Genome
Genome
Genome
Bacteria: AStrain: 1
Bacteria: AStrain: 2
Bacteria: AStrain: 3
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
Biological/technical replicates
BioSample ではなく SRA Experiment で表現することを推奨
http://trace.ddbj.nig.ac.jp/dra/faq.html#samples-for-sra
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
別々の論文に発表する場合
論文ごとに BioProject を分けると別々にデータを公開することができる
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
アカウント外の BioProject/BioSample を参照
アカウントをまたがった参照を希望する場合は DRA チームに連絡
参照元と先、双方の登録者の承認が必要
連動公開に注意
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
データファイルの追加
新しい DRA 登録から既存の BioProject を参照することでデータを追加
http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加
第33回 DDBJing 講習会 (JST東京)
2015年11月11日
ファイルの破損を md5 値でチェック
md5 値が一致 : ファイルの破損なし
md5 値が不一致 : ファイルの破損あり
DRA ファイル受付サーバ
md5 値
md5 値
md5 値
md5 値=
≠
md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値
http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値
第33回 DDBJing 講習会 (JST東京)