新規医療開発に関わる統計学 (バイオインフォマティクス)

66
新規医療開発に関わる統計学 (バイオインフォマティクス) 坊農 秀雅(ぼうのう ひでまさ) 大学共同利用機関法人 情報・システム研究機構 ライフサイエンス統合データベースセンター (DBCLS)

description

群馬大学未来医療研究人材養成拠点形成事業e-learning講義「新規医療開発に関わる統計学 (バイオインフォマティクス)」2014年4月7日収録。 内容としては初心者向け

Transcript of 新規医療開発に関わる統計学 (バイオインフォマティクス)

Page 1: 新規医療開発に関わる統計学 (バイオインフォマティクス)

新規医療開発に関わる統計学(バイオインフォマティクス)

坊農 秀雅(ぼうのう ひでまさ) 大学共同利用機関法人 情報・システム研究機構 ライフサイエンス統合データベースセンター

(DBCLS)

Page 2: 新規医療開発に関わる統計学 (バイオインフォマティクス)

本講義の内容1. バイオインフォマティクスとは?!

2. NGSとは? できること!3. NGSデータ解析の概要!4. 具体的な解析例!5. データの解釈!6. データの再利用

2

Page 3: 新規医療開発に関わる統計学 (バイオインフォマティクス)

1.バイオインフォマティクスとは?

Page 4: 新規医療開発に関わる統計学 (バイオインフォマティクス)

(かつての)バイオインフォマティクス研究者の職種別分類

•アルゴリズム屋!–方法を考える人!–「NP完全」がキーワード!

•実装屋!–プログラムやツールを書く人!

•解析屋!–プログラムを使って実際に生データを相手に手を動かす人

数学的 抽象的

生物的 具体的Biologistの範疇

4

Page 5: 新規医療開発に関わる統計学 (バイオインフォマティクス)

バイオインフォマティクスの範疇

シミュレーション

イメージ解析

!

パスウェイ解析

遺伝子発現解析

!

アミノ酸配列解析 塩基配列解析

さらに、臨床データ解析も5

Page 6: 新規医療開発に関わる統計学 (バイオインフォマティクス)

2. NGS(Next Generation Sequencer)とは? -NGSでできること

Page 7: 新規医療開発に関わる統計学 (バイオインフォマティクス)

DNA塩基配列解読の超高速化•かつてはSanger法 •最近は「次世代シーケンサー(NGS)」 ‒Illumina: Sequence By Synthesis

• http://www.youtube.com/watch?v=womKfikWlxM ‒Life Technologies(現 ThermoFisher Scientific) •ヌクレオチドがDNA鎖に取り込まれる過程でポリメラーゼによって放出される水素イオンを検出

• http://www.youtube.com/watch?v=MxkYa9XCvBQ ‒PacBio: 一分子・リアルタイム(SMRT®)検出

• http://www.youtube.com/watch?v=NHCJ8PtYCFc 7

Page 8: 新規医療開発に関わる統計学 (バイオインフォマティクス)

MiSeq• Illumina社のデスクトップ次世代シーケンサ •群馬大学にも導入済み •最新の v3 試薬だと1runで ‒300塩基(base) ‒x 5000万リード ‒= 15 Gb(参考: ヒトハプロイドゲノム 約3Gb)

8

Page 9: 新規医療開発に関わる統計学 (バイオインフォマティクス)

NGSでできること• RNA転写量測定!

–RNAseq(transcriptome sequencing)!• DNA結合タンパク質の結合配列の解析!

–ChIPseq(ヒストンや転写因子)!

• ChIPはChromatin immunoprecipitationの略!

•多型解析!–Exome(exon限定), Re-sequence!

•その他、塩基配列解読が伴うさまざまな応用9

Page 10: 新規医療開発に関わる統計学 (バイオインフォマティクス)

NGSからの生データ•FASTQフォーマットのファイル ‒4行/readが基本単位 ‒MiSeq v3 •5000万リードx4行 •=2億行

•ファイルサイズも4Gbyte/file超 ‒FAT32フォーマットでは扱えない

•いわゆる「開く」ことが不可能10

SRR001356.1 2023DAAXX:5:1:123:563 length=33 TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC +SRR001356.1 2023DAAXX:5:1:123:563 length=33 -IIIIIIII8IIIIIIIIIII6IIIIIIIII9I @SRR001356.2 2023DAAXX:5:1:123:476 length=33 TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG +SRR001356.2 2023DAAXX:5:1:123:476 length=33 IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III @SRR001356.3 2023DAAXX:5:1:121:746 length=33 GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT +SRR001356.3 2023DAAXX:5:1:121:746 length=33 IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

Page 11: 新規医療開発に関わる統計学 (バイオインフォマティクス)

3. NGSによるデータ解析の概要 トランスクリプトーム解析

(RNAseq)

Page 12: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNAseqとは?•「次世代シーケンサを利用して、サンプル中の RNA の中身に関する情報を得るために cDNA をシーケンシングする方法」!–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳!

• Whole transcriptome shutgun sequencing (WTSS) や!

• Transcriptome sequencingとも

12

Page 13: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNAseq データ 解析の流れ1

予測転写単位ごとの(推定)発現量情報

SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

FASTQ

1.tophat (bowtie)

2.cufflinks

3.cummeRbund13

遺伝子アノテーション

ゲノム .fa

ゲノムアノテーション

.gtf

ゲノムに対する多重配列アラインメント

.bam

Page 14: 新規医療開発に関わる統計学 (バイオインフォマティクス)

種々のデータフォーマット

14

ファイルフォーマット ファイル拡張子

1 FASTA .fa .fasta

2 FASTQ .fq .fastq

3 SRA/SRA-lite .sra .lite.sra

4 SAM/BAM .sam .bam

5 GTF(GFF) .gtf .gff

6 VCF .vcf

Page 15: 新規医療開発に関わる統計学 (バイオインフォマティクス)

1. FASTA

• FASTAというプログラムで使われる配列データ形式!–プレーンテキスト。ファイル拡張子: .fa .fasta など!

• 1行目に“>”で始まる1行のヘッダ行!

• 2行目以降に実際のシーケンス文字列

15

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]!LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV!EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG!LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL!GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX!IENY

参考: http://ja.wikipedia.org/wiki/FASTA

Page 16: 新規医療開発に関わる統計学 (バイオインフォマティクス)

2. FASTQ• NGSデータの配列データ形式のデファクトスタンダード!

–プレーンテキスト。ファイル拡張子: .fq .fastq など!

• 1行目に“@”で始まる1行のヘッダ行!

• 2行目に実際の塩基配列!

• 3行目に”+”!

• 4行目に2行目に記述した配列のクオリティ値

16

@SEQ_ID!GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT!+!!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

参考: http://ja.wikipedia.org/wiki/Fastq

Page 17: 新規医療開発に関わる統計学 (バイオインフォマティクス)

3. SRA, SRA-lite

• FASTQ形式の代わりに使われている、NGS配列データ配布フォーマット!

–配列拡張子: .sra .lite.sra !

• SRA-toolkitを使ってFASTQを生成できる!–http://www.ncbi.nlm.nih.gov/Traces/sra/?view=software

17

fastq-dump -A SRR233129 SRR233129.lite.sra

Page 18: 新規医療開発に関わる統計学 (バイオインフォマティクス)

4. SAM/BAM•ゲノムマッピングしたときに生成されるアラインメントのフォーマット!

–リファレンスゲノム配列に対するアラインメント!

• SAMはプレーンテキスト(ASCII)形式なのに対して、BAMはバイナリ(binary)形式!

18参考: http://genome.sph.umich.edu/wiki/SAM

1:497:R:-272+13M17D24M! 113! 1! 497! 37! 37M! 15! 100338662! 0! CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG! 0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>>!XT:A:U! NM:i:0!SM:i:37! AM:i:0!X0:i:1!X1:i:0!XM:i:0!XO:i:0!XG:i:0!MD:Z:37!19:20389:F:275+18M2D19M! 99! 1! 17644!0! 37M! =! 17919!314! TATGACTGCTAATAATACCTACACATGTTAGAACCAT! >>>>>>>>>>>>>>>>>>>><<>>><<>>4::>>:<9!RG:Z:UM0098:1! XT:A:R! NM:i:0!SM:i:0!AM:i:0!X0:i:4!X1:i:0!XM:i:0!XO:i:0!XG:i:0!MD:Z:37!19:20389:F:275+18M2D19M! 147! 1! 17919!0! 18M2D19M! =! 17644!-314! GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT! ;44999;499<8<8<<<8<<><<<<><7<;<<<>><<! XT:A:R! NM:i:2!SM:i:0!AM:i:0!X0:i:4!X1:i:0!XM:i:0!XO:i:1!XG:i:2!MD:Z:18^CA19!9:21597+10M2I25M:R:-209! 83! 1! 21678!0! 8M2I27M! =! 21469!-244! CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT! <;9<<5><<<<><<<>><<><>><9>><>>>9>>><>! XT:A:R! NM:i:2!SM:i:0!AM:i:0!X0:i:5!X1:i:0!XM:i:0!XO:i:1!XG:i:2!MD:Z:35!

Page 19: 新規医療開発に関わる統計学 (バイオインフォマティクス)

5. GTF(GFF)• General Transfer Format. GFF(General

Feature Format)のversion2!

•ゲノムアノテーションのフォーマット!–例: ゲノム上のどこに遺伝子があるか

19参考: http://asia.ensembl.org/info/website/upload/gff.html

X! Ensembl! Repeat!2419108! 2419128! 42! .! .! hid=trf; hstart=1; hend=21!X! Ensembl! Repeat!2419108! 2419410! 2502! -! .! hid=AluSx; hstart=1; hend=303!X! Ensembl! Repeat!2419108! 2419128! 0! .! .! hid=dust; hstart=2419108; hend=2419128!X! Ensembl! Pred.trans.!2416676! 2418760! 450.19!-! 2! genscan=GENSCAN00000019335!X! Ensembl! Variation! 2413425! 2413425! .! +! .! !X! Ensembl! Variation! 2413805! 2413805! .! +! .

Page 20: 新規医療開発に関わる統計学 (バイオインフォマティクス)

6. VCF• Variant Call Format!•配列の多型を記述するフォーマット

20参考: http://en.wikipedia.org/wiki/Variant_Call_Format

##fileformat=VCFv4.0!##fileDate=20110705!##reference=1000GenomesPilot-NCBI37!##phasing=partial!##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">!##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">!##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">!##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">!##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">!##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">!##FILTER=<ID=q10,Description="Quality below 10">!##FILTER=<ID=s50,Description="Less than 50% of samples have data">!##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">!##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">!##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">!##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">!#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3!2 4370 rs6057 G A 29 . NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.!2 7330 . T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3!2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4!2 130237 . T . 47 . NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2!2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

Page 21: 新規医療開発に関わる統計学 (バイオインフォマティクス)

NGSに比べてマイクロアレイ• 2000年前後に使われ初めて、ある程度(技術として)枯れてきた!–参考: 公共データベースの登録数の推移!

–遺伝子発現バンク(GEO)目次 http://lifesciencedb.jp/geo/!

•本もそれなりに出ている

21

Page 22: 新規医療開発に関わる統計学 (バイオインフォマティクス)

マイクロアレイ解析の流れ

遺伝子アノテーション

Genespringoligoprobeに対応する遺伝子ごとの発現量

22

Page 23: 新規医療開発に関わる統計学 (バイオインフォマティクス)

マイクロアレイのデータ形式の実際•タブ区切りテキスト!

–数万(=スポットの数)行!

• (古い)Excelでも「開ける」!–Excel2003の行数制限内!

•コマンドライン操作なしで中身が直接見れる

23

Page 24: 新規医療開発に関わる統計学 (バイオインフォマティクス)

データ解析に必要なものマイクロアレイ NGS(RNAseq)

解析ソフト +++ +++

遺伝子 アノテーション +++ +++

ゲノム アノテーション - ++

ゲノム配列 - ++

コマンドライン操作 + +++

計算機パワー + +++24

Page 25: 新規医療開発に関わる統計学 (バイオインフォマティクス)

マイクロアレイとの違い: RPKM• Reads Per Kilobase per Million mapped reads!•ノーマライズした遺伝子発現量!

–100万リード数マップされたとき、転写産物を1000塩基長としたときのマップされたリード数!

• FPKMもほぼ同じ!–Fragments Per Kilobase of exon per Million

mapped fragments!– !

• Reference: Nat Methods, 5(7):621-628.25

Page 26: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNAseq データ解析の流れ2•リファレンスゲノム配列がないとき!–transcriptome の de novo

assembly!•「UniGeneを自分で作る」!

–現状、より膨大な計算時間が

• immature • state-of-the-art

26

Page 27: 新規医療開発に関わる統計学 (バイオインフォマティクス)

4. 具体的な解析例

Page 28: 新規医療開発に関わる統計学 (バイオインフォマティクス)

The cat way•理化学研究所の二階堂愛さんのブログ!

–http://cat.hackingisbelieving.org/lecture/ !

!

!

!

•オープンソースソフトウェア!–Tuxedo suite!

• bowtie,tophat,cufflinks!–R + Bioconductor

28

cuffdiff -p 24 ensembl_gene.gtf ! -L iPS_01,iPS_02,hESC_01,hESC_02,Fibroblast_01,Fibroblast_02! -o results iPS_01.bam,iPS_2.bam hESC_1.bam,hESC_2.bam Fibroblast_01.bam,Fibroblast_02.bam!

tophat -p 8 -r 100 -o output_dir/iPS_01 bowtie2_indexes/mm9 iPS_01_1.fastq iPS_01_2.fastq

Page 29: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNAseq データ 解析の流れ1

ゲノムに対する多重配列アラインメント

.bam

ゲノムアノテーション

.gtf

予測転写単位ごとの(推定)発現量情報

SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

FASTQゲノム .fa

29

遺伝子アノテーション

1.tophat (bowtie)

2.cufflinks

3.cummeRbund

Page 30: 新規医療開発に関わる統計学 (バイオインフォマティクス)

統計解析環境R

• Rを使ったトランスクリプトーム解析!–(Rで)マイクロアレイデータ解析!

• http://www.iu.a.u-tokyo.ac.jp/~kadota/r.html

–(Rで)塩基配列解析 • http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html!

!

• トランスクリプトーム解析 by 門田幸二 from 共立出版 –http://www.kyoritsu-pub.co.jp/bookdetail/9784320123700

30

Page 31: 新規医療開発に関わる統計学 (バイオインフォマティクス)

有償のソフトウェアの利用

•CLC Genomics workbench!•Agilent!

–Avadis NGS!–GeneSpring!

•TIBCO Spotfire

31

Page 32: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNAseq データ 解析の流れ1

ゲノムに対する多重配列アラインメント

.bam

ゲノムアノテーション

.gtf

予測転写単位ごとの(推定)発現量情報

SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

FASTQゲノム .fa

1.tophat (bowtie)

2.cufflinks

3.cummeRbund32

遺伝子アノテーション

Page 33: 新規医療開発に関わる統計学 (バイオインフォマティクス)

統合TVに動画チュートリアルが

• CLC Genomics Workbench でショートリードのマッピングを行う!–http://togotv.dbcls.jp/20110628.html

33

Page 34: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNA-seq by Avadis NGS

• http://togotv.dbcls.jp/20111124.html 34

Page 35: 新規医療開発に関わる統計学 (バイオインフォマティクス)

ChIP-seq by Avadis NGS

• http://togotv.dbcls.jp/20120626.html35

Page 36: 新規医療開発に関わる統計学 (バイオインフォマティクス)

GeneSpring

36• https://www.youtube.com/user/GeneSpringTV

Page 37: 新規医療開発に関わる統計学 (バイオインフォマティクス)

Spotfireによるcuffdiff出力の可視化

37

% cuffdiff -p 8 Caenorhabditis_elegans.WBcel215.69.gtf -L N2,UV -o cuffdiff SRR454084.bam SRR454085.bam

Page 38: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RNAseq データ 解析の流れ1

ゲノムに対する多重配列アラインメント

.bam

ゲノムアノテーション

.gtf

予測転写単位ごとの(推定)発現量情報

SRR001356.1 2023DAAXX:5:1:123:563 length=33!TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!+SRR001356.1 2023DAAXX:5:1:123:563 [email protected] 2023DAAXX:5:1:123:476 length=33!TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!+SRR001356.2 2023DAAXX:5:1:123:476 [email protected] 2023DAAXX:5:1:121:746 length=33!GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!+SRR001356.3 2023DAAXX:5:1:121:746 length=33!IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

FASTQゲノム .fa

1.tophat (bowtie)

2.cufflinks

3.cummeRbund38

遺伝子アノテーション

Page 39: 新規医療開発に関わる統計学 (バイオインフォマティクス)

5. データの解釈

Page 40: 新規医療開発に関わる統計学 (バイオインフォマティクス)

発現解析• 2つの状態を比べた時に遺伝子発現が!–上がった遺伝子群!–下がった遺伝子群!

–例: ヒト培養細胞で低酸素刺激して発現が2倍上がった遺伝子100個中20が転写因子。これは有意?!•ヒトには約三万個の遺伝子に約千ほどの転写因子。!• 30,000 x 20/100 = 6,000 なので…!

• GSEA(Gene Set Enrichment Analysis)40

Page 41: 新規医療開発に関わる統計学 (バイオインフォマティクス)

DAVID (Database for Annotation, Visualization and Integrated Discovery)

41

Page 42: 新規医療開発に関わる統計学 (バイオインフォマティクス)

42

Page 43: 新規医療開発に関わる統計学 (バイオインフォマティクス)

43

Page 44: 新規医療開発に関わる統計学 (バイオインフォマティクス)

44

Page 45: 新規医療開発に関わる統計学 (バイオインフォマティクス)

45

Page 46: 新規医療開発に関わる統計学 (バイオインフォマティクス)

© 2013 DBCLS Licensed under CC 表示 2.1 日本

#NGLSBI

© 2014 DBCLS Licensed under CC 表示 2.1 日本

RefEx: 遺伝子発現 リファレンスデータセット

•臓器ごとの発現比較を4つの実験手法とBodyParts3Dで!–正常組織・臓器における遺伝子発現のリファレンス!–再利用可能で有用なパブリックデータの活用例!

•「組織特異的遺伝子」検索機能の実装

46

EST Classical Expressed Sequence Tags

GeneChip Affymetrix’s microarray

CAGE Cap Analysis of Gene Expression

RNAseq Transcriptome Sequencing

http://RefEx.dbcls.jp/

Page 47: 新規医療開発に関わる統計学 (バイオインフォマティクス)

© 2013 DBCLS Licensed under CC 表示 2.1 日本

#NGLSBI

© 2013 DBCLS Licensed under CC 表示 2.1 日本© 2013 DBCLS Licensed under CC BY 2.1JAPAN 47http://RefEx.dbcls.jp/

Page 48: 新規医療開発に関わる統計学 (バイオインフォマティクス)

© 2013 DBCLS Licensed under CC 表示 2.1 日本

#NGLSBI

© 2013 DBCLS Licensed under CC 表示 2.1 日本© 2013 DBCLS Licensed under CC BY 2.1JAPAN 48

Page 49: 新規医療開発に関わる統計学 (バイオインフォマティクス)

© 2013 DBCLS Licensed under CC 表示 2.1 日本

#NGLSBI

© 2013 DBCLS Licensed under CC 表示 2.1 日本© 2013 DBCLS Licensed under CC BY 2.1JAPAN 49

Page 50: 新規医療開発に関わる統計学 (バイオインフォマティクス)

RefExのデータはどこから?

•オリジナルは公共データベース!–そこから使いやすく加工して提供!

!

•それ以外のデータも再利用したい?

50

Page 51: 新規医療開発に関わる統計学 (バイオインフォマティクス)

6. データの再利用

公共NGSデータベース: SRA

公共遺伝子発現データベース

ゲノムブラウザからの利用

データ登録

Page 52: 新規医療開発に関わる統計学 (バイオインフォマティクス)

SRA(Sequence Read Archive)• NGSのデータベース(除くヒト個人のデータ)!

• NCBI/EBI/DDBJによって維持管理!–DDBJはDRAとも呼称

52

Image generated by http://sra.dbcls.jp/

NBDCヒトデータベース

http://humandbs.biosciencedbc.jp/

Page 53: 新規医療開発に関わる統計学 (バイオインフォマティクス)

53http://sra.dbcls.jp/

Page 54: 新規医療開発に関わる統計学 (バイオインフォマティクス)

遺伝子発現データベース• GEO(NCBI)とArrayExpress(EBI)!

–http://www.ncbi.nlm.nih.gov/geo/ –http://www.ebi.ac.uk/arrayexpress/

• RNAseqデータはこちらにも登録がある!–Transcriptome analysisとも!

!

•必要なデータを見つけづらい

54

Page 55: 新規医療開発に関わる統計学 (バイオインフォマティクス)

GEO目次

55

Page 56: 新規医療開発に関わる統計学 (バイオインフォマティクス)

UCSC Genome Browser!は再利用可能データの宝庫

‘Track’を追加56

http://genome.ucsc.edu/

Page 57: 新規医療開発に関わる統計学 (バイオインフォマティクス)

多くのTrackは隠されている

57

Page 58: 新規医療開発に関わる統計学 (バイオインフォマティクス)

カスタマイズしよう

58

Page 59: 新規医療開発に関わる統計学 (バイオインフォマティクス)

59

Page 60: 新規医療開発に関わる統計学 (バイオインフォマティクス)

60

Page 61: 新規医療開発に関わる統計学 (バイオインフォマティクス)

‘default tracks’で元に戻せる

61

Page 62: 新規医療開発に関わる統計学 (バイオインフォマティクス)

自分のデータもSRAへ登録•論文掲載の必須条件になっていることも!•データを他の研究者に再利用してもらうことが研究の価値を高める上でとても大事!!

•日本だとDRA(DDBJ)へ!•日本語でのやりとり

62

Page 63: 新規医療開発に関わる統計学 (バイオインフォマティクス)

http://www.ddbj.nig.ac.jp/63

Page 64: 新規医療開発に関わる統計学 (バイオインフォマティクス)

データ登録

64

Page 65: 新規医療開発に関わる統計学 (バイオインフォマティクス)

DRA video tutorial

65http://trace.ddbj.nig.ac.jp/dra/video.html

Page 66: 新規医療開発に関わる統計学 (バイオインフォマティクス)

復習は統合TVで

66

•動画によるDBやツールのチュートリアル ‒ 各DBやツール名、

•統合データベース講演会AJACSの動画も •YouTubeでも •約750の動画             (アップデート込)

66

で検索

クリエイティブ・コモンズ 表示 2.1 日本