DDBJ Sequence Read Archive (DRA) の紹介 (第25回 DDBJing 講習会)

24
25DDBJing 講習会 in 三島 (2012.1.26) DDBJ Sequence Read Archive (DRA) の紹介 国立遺伝学研究所 生命情報・DDBJ研究センター 日本DNAデータバンク 児玉 悠一

Transcript of DDBJ Sequence Read Archive (DRA) の紹介 (第25回 DDBJing 講習会)

第25回 DDBJing 講習会 in 三島 (2012.1.26)

DDBJ Sequence Read Archive (DRA)

の紹介

国立遺伝学研究所

生命情報・DDBJ研究センター

日本DNAデータバンク

児玉 悠一

次世代 (以降) シークエンサ

から出力される

1次データのための公共データベース

DDBJ Sequence Read Archive

国際協力

SRA 2007 年~

ERA 2008 年~

DRA 2008 年~

Sequence Read Archive

データ形式は3極で同一 形式は共同で策定

登録はどこか1極でOK 公開データは共有される

次世代データの流れ

1次データ

アノテーションされた塩基配列データ

定量データ

解析パイプライン

プロジェクトデータ

1次データ ベースコール

Quality

スポット座標

454 (Roche)

Solexa (Illumina)

SOLiD (ABI) etc

登録対象

画像データ

配列のみのデータ @SRR001654.1 9460:7:1:830:763 length=36

GTCAATATTAATCATACCAATATACTCAAAAAATAA

+SRR001654.1 9460:7:1:830:763 length=36

I+-&*4)%+5'#%/)&$%$#%"#&%'%"$%#%%!""

@SRR001654.2 9460:7:1:402:781 length=36

GGTCTAAAAAGCAAAATTCAGTCTTCAAAATAATTC

+SRR001654.2 9460:7:1:402:781 length=36

II+(%$+%'&+*-0+/*("%&+"*&"(*$""#%%&$

@SRR001654.3 9460:7:1:433:775 length=36

GTGCTTTTTTTTTTCCAGGAAGTTGTCTCCTCTATC

+SRR001654.3 9460:7:1:433:775 length=36

II3DI>IIIIIIIB7.,&%&'&)."+%,$"&$&"%#

fastq データ 塩基配列 + Quality Value

メタデータ (データに関する情報:実験手法、解析方法 etc)

ランデータ

登録に必要なデータ

“メタデータ” + “ランデータ” どんな実験? どんな研究?

どんなサンプル?

ランの結果

メタデータ

6個の オブジェクト

アクセッション番号は それぞれのオブジェクトに

対して発行されます

実体は XML ファイル

ランデータは Run の下に

メタデータ in XML

<?xml version="1.0" encoding="UTF-8"?>

<EXPERIMENT_SET xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">

<EXPERIMENT alias="2010007891" expected_number_runs="8" expected_number_spots="547063"

expected_number_reads="547063" accession="SRX000017">

<TITLE>454 sequencing of Roseburia faecis M72/1 genomic fragment library</TITLE>

<STUDY_REF accession="SRP000011" refname="2005892953"/>

<DESIGN>

<DESIGN_DESCRIPTION>454 Sequencing of Roseburia faecis M72/1 Whole Genome Shotgun

Library</DESIGN_DESCRIPTION>

<SAMPLE_DESCRIPTOR accession="SRS000011" refname="Roseburia faecis M72/1"/>

<LIBRARY_DESCRIPTOR>

<LIBRARY_NAME>2010007891</LIBRARY_NAME>

<LIBRARY_STRATEGY>WGS</LIBRARY_STRATEGY>

<LIBRARY_SOURCE>GENOMIC</LIBRARY_SOURCE>

<LIBRARY_SELECTION>RANDOM</LIBRARY_SELECTION>

<LIBRARY_LAYOUT>

<SINGLE/>

</LIBRARY_LAYOUT>

</LIBRARY_DESCRIPTOR>

<SPOT_DESCRIPTOR>

<SPOT_DECODE_SPEC>

<NUMBER_OF_READS_PER_SPOT>2</NUMBER_OF_READS_PER_SPOT>

<READ_SPEC>

<READ_INDEX>0</READ_INDEX>

Submission

Study

Experiment (24 h)

Experiment (12 h)

Experiment (0h)

Sample

Run Run

Run

24 h

12 h

0 h

例) 培養細胞: 薬剤処理 0, 12, 24 h 後の転写プロファイル解析

登録後オブジェクトを追加できます

オブジェクトでデータを表現

データ登録

登録者

ランデータ

メタデータ

ファイルを転送

ファイル受付サーバ

登録受付システム D-way 登録マニュアルに従い、まずは D-way アカウントを申請してください

http://trace.ddbj.nig.ac.jp/dra/submission.shtml

ウェブ上で作成

登録ポータル D-way

アカウント申請後に 知らされる ID とパスワードで

ログインします

新規登録 (drauser-0004)

の詳細画面に移動します

新規登録を作成

登録詳細画面

メタデータ作成ツール MetaDefine

を起動します

メタデータの作成

オブジェクト に対応したタブ

XML を意識することなく、 情報を入力していくだけで メタデータを作成できます

ポップアップ説明

入力支援

メタデータの投稿

テンプレートや 過去の登録内容を 利用できます

入力内容をチェックします。 エラーメッセージが表示された場合は

内容を修正します

チェックが通ったメタデータを投稿します

ランデータの転送

詳細はウェブサイトをご覧くださいhttp://trace.ddbj.nig.ac.jp/dra/documentation.shtml

登録に対応するディレクトリ drauser/submission/drauser-0004

にファイルを転送

ランデータファイル

ファイル受付サーバ

機種 ファイル

454 sff

Illumina qseq

SOLiD csfasta + QV.qual

ランデータのチェック

ランデータファイルのチェックを開始

ランデータファイルの情報

表示されるエラーメッセージに従い メタデータの修正やランデータファイルの

再転送をしてください

アクセッション番号発行

アクセッション番号

メタデータとランデータが揃い status が data_validated になった後、査定を開始します。

不備がなければアクセッション番号を発行します。

※不備がある場合は Submission.Contact に記入された メールアドレス宛に問い合わせます

※Contact にはできるだけ複数の連絡先を指定してください

データの更新は D-way から

メタデータの更新

例) pubmed id の追加

公開予定日の変更

※1年後まで指定でき、延長可能です

※2日前から変更できません

データの公開

生物名 etc での絞り込み

検索結果リスト

ダウンロード

指定された公開予定日になるとデータが自動的に公開されます。 公開されたデータは EBI/NCBI SRA にミラーされます

詳細

1次データ

アノテーションされた塩基配列データ

定量データ

プロジェクトデータ

BioProject

次世代シークエンサの登場で 生産性が飛躍的に向上!

↓ これらをつなぐ ID がない!

BioProject

↓ 1つのプロジェクト/ラボからのデータが 複数のデータベースに登録されるように

データをグループ化

複数のデータベースに存在するデータをグループ化

例) ゲノム支援プロジェクト

動物ゲノム

植物ゲノム

大きなプロジェクトは2階層で表現

プロジェクトの登録

ゲノム配列の登録 (必須) 複数のデータベースにまたがって登録する 複数のプロジェクトメンバーからの登録 登録するデータ量が多い

プロジェクトを登録するケース

D-way から

プロジェクトのゴール、研究費、対象生物、データの種類 etc を登録

連絡先

DDBJ Sequence Read Archive

http://trace.ddbj.nig.ac.jp/dra

[email protected]

DDBJ BioProject

http://trace.ddbj.nig.ac.jp/bioproject

[email protected]

謝辞

大久保公策,中村保一,菅原秀明,神沼英里 野崎亜沙美,藤本昌宏,風間考弘