2019 第4回バイオインフォマティクス実習€¦ ·...

40
2019年度 4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室 中林潤

Transcript of 2019 第4回バイオインフォマティクス実習€¦ ·...

Page 1: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

2019年度第4回バイオインフォマティクス実習

先端医科学研究センター バイオインフォマティクス解析室中林潤

Page 2: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

ATAC‐seqデータ解析• bed formatピークファイルをUCSC genome browserにアップロード

•ピーク領域の配列をTable Browserで取得

• MEME Suiteでピーク領域配列のモチーフ検索

Page 3: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

カバー率 = (N × L) / G : 1塩基当りの断⽚数リード数 : Nリード数 : Lゲノム⻑ : G

…AGGTGCATGCCGCATCGATCGAGC…

AGGTGCATGGCATGCCGCAT

GCATCGATCGAGC

paired endsingle end

ゲノム

リード

Next Generation Sequencer (NGS)

DNAを断⽚化して配列を読む→参照ゲノムにマッピング→配列を再構成する

カバー率が⼗分でないと正確な配列情報が得られない。

Page 4: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

ChIP‐seq

Page 5: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

ATAC‐seq

Tn5 transposase

insertion

insertion sequence as a primerPCR amplification

NGSmapped onto reference genome

Page 6: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

⽂字の羅列︖

thoughyetofhamletourdearbrothersdeaththememorybegreenandthatitusbefittedtobearourheartsingriefandourwholekingdomtobecontractedinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewithwisestsorrowthinkonhimtogetherwithremembranceofourselvesthereforeoursometimesisternowourqueentheimperialjointresstothiswarlikestatehaveweastwerewithadefeatedjoywithanauspiciousandadroppingeyewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdelightanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhichhavefreelygone15withthisaffairalongforallourthanks

Page 7: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

ハムレットのせりふ

thoughyetofhamletourdearbrothersdeaththememorybegreenandthatitusbefittedtobearourheartsingriefandourwholekingdomtobecontractedinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewithwisestsorrowthinkonhimtogetherwithremembranceofourselvesthereforeoursometimesisternowourqueentheimperialjointresstothiswarlikestatehaveweastwerewithadefeatedjoywithanauspiciousandadroppingeyewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdelightanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhichhavefreelygone15withthisaffairalongforallourthanks

Page 8: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Motif

#1 GACAGAAAGGGCAAAGAGGAAGTGAAAGCTAAGAAGACT#2 GTCCCCTGAAAGTAAGAGGAAGTGAAAGCTGTCTGCTGG#3 TGCCAAACATGGAAAGGGGAAGTGAAAGAGACAGACGTA#4 GGTCTCATGGGAAAACAGGAAGTGAAAGCACAACTAAGA#5 TGGCCTGGCTGAAAGGGGGAAGTGAAAGCGAGGTGAACT#6 TCTTAACCTGACAAACAGGAAGTGAAAGTACCTTTCGGG

specific sequence repeatedly observed in genome DNA↓

functionally and biologically significant region↓

motif

Page 9: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

モチーフ解析

• 30億塩基対の配列から特定の配列を⾒つける• 総当り計算時間→ 30億の2乗不可能

• MEME Suiteを⽤いたモチーフ検索

Page 10: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

データのダウンロードGEOデータベースGSM2937018GSM2937018_ATAseq‐EGFP‐1_peaks.narrowPeak.gz

http://ncbi.nlm.nih.gov/geo

Page 11: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Bed file format

染色体番号 スタートポジション エンドポジション ID 数値 ストランド

chr1 191423 191584 EGFP1_peak_1 71 +

chr1 629825 630062 EGFP1_peak_2 763 +

chr1 633909 634155 EGFP1_peak_3 764 +

・・・

ピークの位置を記述するフォーマット

Page 12: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

UCSC genome browser

http://genome.ucsc.edu

Genomes項⽬から該当する参照ゲノムを選択する今回はhg38

add custom tracksボタンをクリック

Page 13: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

custom trackのアップロード

ファイルを選択をクリックbedファイルを選択submitボタンをクリック

Page 14: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

custom trackのアップロード

goをクリックして表⽰

Page 15: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

custom trackの表⽰

custom track

Page 16: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Table BrowserTools項⽬からTable Browserを選択

Page 17: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

ピーク領域の配列を取得

group:Custom TracksTracks:User Track

output format:sequenceoutput file:ファイル名

get outputボタンをクリック

Page 18: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Table Browser

get sequenceをクリック

Page 19: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

FASTA file format

>配列名、説明など配列

>hg38_ct_UserTrack_3545_EGFP1_peak_270 range=chr1:36306876‐36307119 5'pad=0 3'pad=0 strand=+ repeatMasking=noneCGCGGAGGCCGCGCTGTGCGCGCCGCCGAGGTGAGCGCAAGGGCGGGGAC

>hg38_ct_UserTrack_3545_EGFP1_peak_578 range=chr1:93847167‐93847655 5'pad=0 3'pad=0 strand=+ repeatMasking=noneGCCTGGGCCTGCAACTCTGGGGTCCCGGCCGGGCTGGAGCGGCCGCCGGA

Page 20: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

https://meme‐suite.org/index.html

MEMEをクリック

Page 21: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

upload sequenceのファイルを選択をクリックしてFASTAファイルを選択

Start Searchをクリック

Page 22: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

Recent Jobsに⾃分のjobが表⽰される

Page 23: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

MEME HTML outputをクリックして結果を表⽰

Page 24: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

検出された配列のロゴが表⽰される

得られた結果を他の解析へサブミットできる

Page 25: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME SuiteTOMTOMで既知のモチーフのどれに該当するか検索

Page 26: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

Start Searchをクリック

Page 27: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suite

TOMTOM HTML outputをクリック

Page 28: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

MEME Suiteデータベースに登録されているモチーフの中から⼀致するものを検索してくれる

Page 29: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

モンテカルロシミュレーションで円の⾯積を求める⽅法

⾯積=半径×半径× 3.14

⾯積=(円内の点 /点の総数)×四⾓の⾯積10cm

円の⾯積

10 cm

Page 30: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

#1  GTAAAATCCGTCGTG#2  GTTGTTCCCAAAAGC#3  GTCTGTAAAAGGCTC#4  GAAAATTGCCTCCGT

#1  AAAAAAAAAAAAAAA#2  AAAAAAAAAAAAAAA#3  AAAAAAAAAAAAAAA#4  AAAAAAAAAAAAAAA

配列“AAAA”の持つ情報量

#1  GTCACATCAGTCGTG#2  GTTGTTCACAGAAGC#3  GTCTGTACATGGCAC#4  GTAGATAGCCTCCGT

情報量+

情報量なし

情報量なし

Page 31: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

#1 GTAAGTACAGATAGCCACAG#2 GTATGTTCCCGATAAGTTTA#3 GTATGTTCATGTCTGATACT#4 GCATGATAGCTGCCCAAGTT#5 GTATGTTGACGATATTACTT#6 GTAAGTATCCAGATATTACT

問題20塩基 6配列中に4塩基のモチーフ

Page 32: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Step 1

#1  GTAAGTACAGATAGCCACAG#2  GTATGTTCCCGATAAGTTTA#3  GTATGTTCATGTCTGATACT#4  GCATGATAGCTGCCCAAGTT#5  GTATGTTGACGATATTACTT#6  GTAAGTATCCAGATATTACT

配列を⼀つランダムに選択

Page 33: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Step 2

1 2  3  4A G T AT C C CT G T CC C A AA T C C

GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA

GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT

GTAAGTATCCAGATATTACT

#1#2#3#4#6

1 2 3 4

A 2 0 1 2T 2 1 2 0G 0 2 0 0C 1 2 2 3

4塩基配列をランダムに選択

Page 34: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

1 2 3 4A 0.4 0 0.2 0.4T 0.4 0.2 0.4 0G 0 0.4 0 0C 0.2 0.4 0.4 0.6

塩基の確率最初の塩基がAの確率

TGC

⼆番⽬の塩基がAの確率TGC

Page 35: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Step 3

#5  GTATGTTGACGATATTACTT

K

i

M

j i

ij

pp

F1 1

2log4

最初に選んだ配列中の4塩基配列の確率

GTAT : ‐∞TATG :  ‐∞

…TGAC : 4log2(0.4/0.342)+4log2(0.4/0.208)+4log2(0.2/0.283)+4log2(0.6/0.167)=10.055

1 2 3 4A 0.4 0 0.2 0.4T 0.4 0.2 0.4 0G 0 0.4 0 0C 0.2 0.4 0.4 0.6

pi34/120=0.283

41/120=0.342

25/120=0.208

20/120=0.167

Page 36: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

position‐specific scoring matrix (PSSMs)

L

j CGTA

jCGTA

PP

1 },,,{

},,,,{2logPSSMs

pij : probability that jth bases is {A, T, G, C}pi  : frequency of {A,T,G,C}

⻑さLの塩基配列の確率

L base motif1 2 3 4 … LA G G C T

Page 37: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Step4

GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA

GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT

GTAAGTATCCAGATATTACT

#1#2#3#4#5#6

GTATGTTGACGATATTACTT

PSSMsが最⼤となる4塩基を選択

Page 38: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

1 2 3 4

A 0 0.8 0.4 0.8T 0 0 0.6 0.2G 0.6 0.2 0 0C 0.4 0 0 0

GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA

GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT

GTATGTTGACGATATTACTTGTAAGTATCCAGATATTACT

#1#2#3#4#5#6

pi

34/120=0.28341/120=0.342

25/120=0.20820/120=0.167

PSSM最⼤となる配列を選択

Page 39: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA

GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT

GTAAGTATCCAGATATTACT

モチーフが⾒つかる

Page 40: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

•宿題GEOデータベースからGSM4073848のデータを取得し、モチーフ解析を⾏ってみてください

•アンケートにご協⼒ください。 「先端研 バイオインフォマティクス解析室」ホームページまたはQRコードにアクセスし回答してください。

https://www.yokohama‐cu.ac.jp/amedrc/section/support/bioinfomatics2.html