DDBJing on 20140612 by Hidemasa Bono
-
Upload
hidemasa-bono -
Category
Education
-
view
736 -
download
3
description
Transcript of DDBJing on 20140612 by Hidemasa Bono
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
公共データベースを使い倒した知のめぐりのよい生命科学研究
坊農 秀雅 情報・システム研究機構
ライフサイエンス統合データベースセンター(DBCLS)
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
公共データベースとは?
•誰でも自由に使えるデータベース(DB)!
•世界中の研究者が協力して維持!•日本では「統合データベースプロジェクト」!
– NBDC DBCLS DDBJ を中心に多くの大学や研究機関が協力!
–安心してすぐに利用できるデータを提供!–公共DBとして外に出す際にデータを綺麗に
2
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
• 2014年度から!•柏の葉キャンパス駅前のビル!•遺伝研DDBJ/CIBの隣のビル!
•「統合」なのに分割移転w!
•予算的、制度的な都合!•地理的に と統合
3
DBCLS移転しました
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
本日のトピック: 統合DBの
1. 現状 2. 活用法 3. 活用事例
1. 現状 2. 活用法 3. 活用事例
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
3つの「センター」
• DDBJ: DNAデータアーカイブ!• DBCLS: データベース統合基盤技術開発!• NBDC: 戦略立案、funding
5
http://dbcls.rois.ac.jp/about
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
NBDC
• Since 2011 (4年目)!
• http://biosciencedbc.jp/
6
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
integbio.jp
7
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
DBを探す(カタログ)
8
http://integbio.jp/dbcatalog/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
データを探す(横断検索)
9
http://biosciencedbc.jp/dbsearch/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
データを使う(アーカイブ)
10
http://dbarchive.biosciencedbc.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
本日のトピック: 統合DBの
1. 現状 2. 活用法 3. 活用事例
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
2. 統合DBの活用法•使い方動画!
–統合TV!
•文献!–新着論文レビュー・領域融合レビュー!
–PubMed+PMC!• Allie/colil/inMexes!
–OMIM+gene!• gendoo!
• DNA配列!–GGRNA/GGGenome!–DBCLS SRA!
•遺伝子発現!–発現目次!–RefEx!
• RDF!–togogenome!–togotable
12
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
togotv(統合TV)•動画によるDBやツールのチュートリアル!
–各DBやツール名で検索!
•統合データベース講演会AJACSの動画も!• YouTubeにも!!
!
•約770の動画 (アップデート込)
13クリエイティブ・コモンズ 表示 2.1 日本
http://youtube.com/togotv
http://togotv.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN15
© 2014 DBCLS Licensed under CC BY 2.1JAPAN1616
© 2014 DBCLS Licensed under CC BY 2.1JAPAN17
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
流行りのクラウド化!
18
© 2014 DBCLS Licensed under CC BY 2.1JAPAN19
クラウド化とはいうものの…
謹告•統合TV作り手を募集しています!
–生命科学のDBやウェブツールに興味のある方!
–Camtasia studioというソフトウェアで作成!
–作成プロトコール: 「統合TVの作り方」!– http://togotv.dbcls.jp/20120220.html – http://togotv.dbcls.jp/20120221.html
–国立遺伝学研究所(三島市)まで来れる方(応相談)
© 2014 DBCLS Licensed under CC BY 2.1JAPAN20大人気のサービス
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
新着論文レビュー
21クリエイティブ・コモンズ 表示 2.1 日本
http://first.lifesciencedb.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN22
http://leading.lifesciencedb.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
Pubmed & PMC
23
http://www.ncbi.nlm.nih.gov/gquery/?term=ALL%5Bfilter%5D
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
Allie
24
http://allie.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN25
http://colil.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
inMeXes
26
http://docman.dbcls.jp/im/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
gendoo遺伝子、疾患について、関連する疾患、薬剤、臓器、生命現象などの特徴をキーワードでリスト表示するツール
27
http://gendoo.dbcls.jp/
Nakazato T et al. Nucl.Acids Res. (2009) 37, W166-W169
© 2014 DBCLS Licensed under CC BY 2.1JAPAN28
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
塩基配列データベース
29
INSDC!DDBJ/(EMBL)/GenBank
NCBI!RefSeq
TraceArchive
Sequence Read
Archive (SRA)
nr/nt Title:Nucleotide collection (nt) Description:The nucleotide collection consists of GenBank+EMBL+DDBJ+PDB+RefSeq sequences, but excludes EST, STS, GSS, WGS, TSA, patent sequences as well as phase 0, 1, and 2 HTGS sequences. The database is partially non-redundant.
http://www.insdc.org/Annotated sequences
Capillary reads
Next generation reads
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
RefSeq• Reference Sequenceの略!
• NCBIが提供する配列解析に使うための文字通り "reference"(リファレンス)となるべき配列データベースのこと!
•その配列の多くは核酸配列データベースのDDBJやEMBL、GenBank由来であり、それらの中からもっとも代表としてふさわしい(参照の基準となる)ものが、目で見て選ばれている
30
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
GGRNAあらゆるキーワードや 塩基配列・アミノ酸配列から遺伝子(RefSeqのmRNA+ncRNA)をGoogle のように検索できるウェブサーバ
31
http://ggrna.dbcls.jp/
Naito Y and Bono H Nucl.Acids Res. (2012), 40, W592-W596
© 2014 DBCLS Licensed under CC BY 2.1JAPAN3232
GooGle ライクな Genome 検索エンジンhttp://GGGenome.dbcls.jp/
Genomeも検索できたらええなあ… やりましょう!!
© 2014 DBCLS Licensed under CC BY 2.1JAPAN33
プローブも検索できたらええなあ… やりましょう!!Probe Search http://probe.dbcls.jp/
GGRNA GGGenomeへ
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
SRA(Sequence Read Archive)• NGSのデータベース(除くヒト個人のデータ)!
• NCBI/EBI/DDBJによって維持管理!–DDBJではDRAとも呼称
34
NBDCヒトデータベース
http://humandbs.biosciencedbc.jp/
Image generated by http://sra.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN35
http://sra.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN36
http://sra.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN37
http://sra.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN38
http://sra.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN39
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
遺伝子発現データベース• GEO(NCBI)とArrayExpress(EBI)!
–http://www.ncbi.nlm.nih.gov/geo/ –http://www.ebi.ac.uk/arrayexpress/
•かつてはCIBEX(DDBJ)も!
• RNAseqデータはこちらにも登録がある!–Transcriptome analysisとも!
•必要なデータを見つけづらい
40
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
遺伝子発現目次
41
http://lifesciencedb.jp/geo/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN42 http://RefEx.dbcls.jp
© 2014 DBCLS Licensed under CC BY 2.1JAPAN43
© 2014 DBCLS Licensed under CC BY 2.1JAPAN44
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
RDFによるDB統合
45
ゲノムの配列情報と多種多様なアノテーションデータを個別のオントロジー、データ変換プログラムを開発し RDF 形式にして統合
45
Slide from トーゴーの日シンポジウム2013 「データベース統合の実現に向けて2」 by 岡本忍 (DBCLS)
NCBI: BioProject/RefSeq -- 既存のリファレンス配列 DDBJ: Annotation pipeline/GTPS -- 新規ゲノム配列
ゲノム配列
UniProt: Protein functions and links Formats: GFF3, GTF, GVF, DAS, BED ... Tools: Cufflinks, BLAST, InterProt ...
アノテーション
NCBO: BioPortal, OBO (GO, SO ...) DBCLS: MEO, GMO, MCCV ...
オントロジー
INSDC, NCBI: SRA, GEODBCLS: RefEx, Kusarinoko GOLD, GSC: 環境メタデータBulk data: 文献, 画像 ...
実験・メタデータ
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
Togogenome•生物種とゲノムに関連する多種多様な情報をセマンティック・ウェブ技術により集約し、ゲノム情報の統合的で新しい検索を実現したシステム
46
http://togogenome.org/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
TogoTable• EXCELなどの表形式データに記載されているバイオデータベースのID番号やアクセッション番号からアノテーション情報をネットワーク経由で取得し、元の表形式データに追加するウェブアプリケーション
47
http://togotable.dbcls.jp/
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
祝! PDB record数10万越え• TogoTableによるDB紐付け→TogogenomeによるNGS readの可視化!?!
!
•参考!–塩基配列 171M records, 202G bases (DDBJ Rel.96)!
• http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html
–遺伝子発現 50k experiments, 1.4M samples (Arrayexpress latest) http://www.ebi.ac.uk/arrayexpress/
48
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
本日のトピック: 統合DBの
1. 現状 2. 活用法 3. 活用事例
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
3. 統合DBの活用事例
A. ヒト疾患モデル化研究: パーキンソン病様のカイコ!
B. ブタ成熟脂肪細胞の脱分化機構の網羅的解析
50
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
パーキンソン病• Parkinson’s disease(PD)!•神経変性疾患!•症状の進行に伴って血液中の尿酸量が減少!
–その理由はこれまで不明!
• PDモデル生物種:尿酸代謝系に異常を持つ変異体は未発見!–PDの症状に似た特徴があり、なおかつ尿酸代謝系に異常を持つカイコ変異体系統(op)
51
doi:10.1371/journal.pone.0069130.g001
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
非モデル生物には!遺伝子機能アノテーションがない
52
Data source: ftp://ftp.ensembl.org/pub/release-68/fasta/
「localBLASTで遺伝子対応表作成」http://bonohu.jp/blog/2013/07/25/
TBLASTX
11,285 IDs in B.mori !(5,854 H.sapiens transcript IDs)
B.mori H.sapiens E-value DescriptionKa00003 ENST00000373371 5e-16 solute carrier family 2 Ka00005 ENST00000394878 2e-21 ribosomal protein,
large P0Ka00006 ENST00000277541 2e-12 notch 1…… …… ……Conversion table
ないものは作ればいい → Kaiko functional annotation pipeline
Kaiko array
B.mori WT op50 Sequence
Ka00003 0.1 0.5 CAAATAA.
Ka00005 0.2 -1.2 TAGCGA.
Ka00006 0.3 1.0 GGCTTC.
…… …… ……
H.sapiens Sequence GOID
ENST00000373371 ATTGGCTGC..
ENST00000394878 ATGCCCAGG..
ENST00000277541 GCGCGTGT...
…… …… ……
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
ヒトのIDに変換すると…•ヒトで使われているツールが利用可能!
–市販のパスウェイ解析ソフト KeyMolnet®を利用!• KeyMolnet®はUniProtIDを入力として受け付けるので、対応するそのIDをBiomartで付与!
–参考:「BioMartを使ってさまざまなIDの変換対応表を作成する」 http://togotv.dbcls.jp/20110927.html
53
B.mori Ensembl UniProt UniProt IDKa00003 ENST000003733 Q9NY64 GTR8_HUMANKa00005 ENST000003948Ka00006 ENST000002775 P46531 NOTC1_HUMAN…… …… …… ……
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
研究者によるmanual curation!を経て…
54
Induced expression
Activation or direct binding
doi:10.1371/journal.pone.0069130.g002
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
qPCR in wild-type & op mutant
•脂肪体(左)と精巣(右)
55
Rel
ativ
e Q
uant
ifica
tion
(RQ
)
Rel
ativ
e Q
uant
ifica
tion
(RQ
)
Tabunoki H, Ono H, Ode H, Ishikawa K, Kawana N, Banno Y, Shimada T, Nakamura Y, Yamamoto K, Satoh J, Bono H. PLOS ONE 8(7): e69130. (2013)!http://dx.plos.org/10.1371/journal.pone.0069130
doi:10.1371/journal.pone.0069130.g002
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
3. 統合DBの活用事例
A. ヒト疾患モデル化研究: パーキンソン病様のカイコ!
B. ブタ成熟脂肪細胞の脱分化機構の網羅的解析
56
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
ブタ成熟脂肪細胞の脱分化機構の 網羅的解析
•日大生物資源科学部 加野浩一郎教授との共同研究!
•脱分化脂肪細胞(dedifferentiated fat cells: DFAT) vs 成熟脂肪細胞(mature adipocytes: MAs)
57
http://www.med.nihon-u.ac.jp/department/saisei/dfat.html より
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
DFAT cells vs MAs
Ono H, Oki Y, Bono H, Kano K. Biochem Biophys Res Commun. (2011) 407, 562-7. doi: 10.1016/j.bbrc.2011.03.063.
58
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
ブタをヒトに対応づける
59
Affy Porcine Affy HG U133-PLUS-2
Ensembl Transcript
Description
Ssc.26492.1.A1_at 1553137_s_at ENST00000305883 Kruppel-like factor 11 [Source:HGNC Symbol;Acc:11811]
Ssc.27622.1.S1_at 1553137_s_at ENST00000305883 Kruppel-like factor 11 [Source:HGNC Symbol;Acc:11811]
Ssc.9136.1.S1_at 1554283_at ENST00000515616 CCR4 carbon catabolite repression 4-like (S. cerevisiae) [Source:HGNC Symbol;Acc:14254]
Ssc.17478.1.A1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.22678.1.S1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.23810.3.A1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.9986.1.A1_at 1558101_at ENST00000403491 nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.17286.1.A1_at 201236_s_at ENST00000290551 BTG family, member 2 [Source:HGNC Symbol;Acc:1131]
Ssc.9707.1.A1_at 201236_s_at ENST00000290551 BTG family, member 2 [Source:HGNC Symbol;Acc:1131]
Ssc.22550.1.A1_at 201465_s_at ENST00000371222 jun proto-oncogene [Source:HGNC Symbol;Acc:6204]
Ssc.9075.1.A1_at 201465_s_at ENST00000371222 jun proto-oncogene [Source:HGNC Symbol;Acc:6204]
Ssc.3411.1.A1_at 201531_at ENST00000248673 zinc finger protein 36, C3H type, homolog (mouse) [Source:HGNC Symbol;Acc:12862]
Ssc.16460.1.S1_at 201693_s_at ENST00000239938 early growth response 1 [Source:HGNC Symbol;Acc:3238]
Ssc.19629.1.A1_at 201693_s_at ENST00000239938 early growth response 1 [Source:HGNC Symbol;Acc:3238]
Ssc.19629.2.S1_s_at 201693_s_at ENST00000239938 early growth response 1 [Source:HGNC Symbol;Acc:3238]
.... .... .... ....
ブタのマイクロアレイデータをヒトに外挿!⇒ ヒトのマイクロアレイ解析ツールが利用可能に!!
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
対応付けの詳細• BLASTを自分でやる方法!
• biomartを使う方法!–「BioMartを使って二つの生物種の対応するデータを取得する」 http://togotv.dbcls.jp/20120628.html !
–「BioMartを使ってさまざまなIDの変換対応表を作成する」 http://togotv.dbcls.jp/20110927.html
60
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
During MA dedifferentiation• 308 down-regulated genes!• 368 up-regulated genes
61
Data analyzed with Ingenuity Pathways Analysis(IPA)
© 2014 DBCLS Licensed under CC BY 2.1JAPAN62
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
詳細な手順は統合TVに•「DAVIDを使ってマイクロアレイデータを解析する」 http://togotv.dbcls.jp/20120927.html!
•「DAVIDの使い方 実践編」 http://togotv.dbcls.jp/20130528.html
63
Affymetrix webinarにも…
http://bit.ly/bonoaffywebinar
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
同じプラットフォームなら 別グループのデータも比較可能
• NCBI GEOの同じプラットフォームで検索!–GSE15472 “Induced
Pluripotent Stem Cells from the Pig Somatic Cells”!
•自分のデータと混ぜて正規化+クラスタリング
64
•統合TVの「発現制御解析」!• http://togotv.dbcls.jp/ja/contents/category/expression
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
結論: それ、統合TVでできるよ• Local BLASTの使い方!
–Windows http://togotv.dbcls.jp/20110119.html !•導入・準備編 !
•検索実行・オプション編!
–MacOSX http://togotv.dbcls.jp/20110420.html !•導入・準備編!•検索実行・オプション編!
–AJACS名古屋 http://motdb.dbcls.jp/?AJACS32%2Fbono
65
© 2014 DBCLS Licensed under CC BY 2.1JAPAN66
募集
謹告•統合TV作り手!
–三島エリアで一緒にコンテンツ作成してくれる人!•インターン ‒公共DBを使い倒した大規模データ解析を一緒に ‒単なるデータ解析でなく、統合TVの新しいコンテンツとなるような解析事例を「共同研究」で
‒大学院生や若手のポスドクを想定 ‒「解析請負」ではなく、「解析技術教育請負」 ‒2014年夏にDBCLSのスペースが出来てから…