第2回バイオインフォマティクス実習...2019年度...

41
2019年度 2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室 中林潤

Transcript of 第2回バイオインフォマティクス実習...2019年度...

Page 1: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

2019年度第2回バイオインフォマティクス実習

先端医科学研究センター バイオインフォマティクス解析室中林潤

Page 2: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

細胞A

細胞B

exon intron

リード数をカウント→発現量

細胞からmRNAを抽出→DNAライブラリ→次世代シーケンサ

RNA-seq タグ数と発現量

Page 3: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Tophatによるマッピング

• Johns Hopkins UniversityCenter for Computational Biology

• http://ccb.jhu.edu/software/tophat/index.shtml

• Transcriptome解析⽤マッピングツールBowtie2を呼び出してマッピングスプライスジャンクションを予測する

Page 4: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• htseq-countコマンドhtseq-count マッピング後のsamファイル名 アノテーション⽤gtfファイル名 > 出⼒ファイル名

Cygwin X$htseq‐count SRR3939298.sam GRCh38.gtf > SRR3939298_count.txt

Htseqによるカウント計測

Page 5: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

GEOデータベース検索http://ncbi.nlm.nih.gov

GEO Datasetsを選択

GSE123860を⼊⼒して検索

5

GEO database 検索

Page 6: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

GSE123860_BT549_counts.txt.gz

GSE123860のデータを取得

課題配布フォルダからGSE123860_BT549_counts.txtを各⾃のデスクトップにコピー

Page 7: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

X> Sys.setenv(http_proxy=“http://proxy.med.yokohama-cu.ac.jp:8080”)

> source(“http://bioconductor.org/biocLite.R”)

> biocLite(“edgeR”)

> library(edgeR)

R console

edgeRパッケージのインストールとロード

Page 8: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

X> x <- read.table(“GSE123860_BT549_count.txt”, header = T, sep = “¥t”)

> rownames(x) <- x$Gene_ID

> x <- x[,-1]

R console

データの読み込みと整形

ファイルメニューから“ディレクトリの変更”を選択して、デスクトップに移動

Page 9: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

X> d <- DGEList(counts = x, group = c(rep(“V”, 3), rep(“S”, 3)))

> d <- calcNormFactors(d)

> d <- estimateCommonDisp(d)

> d <- estimateTagwiseDisp(d)

> result <- exactTest(d)

R console

edgeR packageの実⾏

Page 10: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

X> result.table <- topTags(result, nrow(x))@.Data[[1]]

> result.sig <- subset(result.table, result.table$FDR < 0.05)

> result.sig.up <- subset(result.sig, result.sig$logFC > 0)

> result.sig.down <- subset(result.sig, result.sig$logFC < 0)

> write.table(result.sig, “result.sig.txt”, quote=F, sep=“¥t”)

> plotSmear(result)

R console

結果の出⼒

Page 11: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• GO term遺伝⼦の機能や構造を記述するための、⽣物種に⾮依存的な統⼀された⽤語。

• GO解析遺伝⼦リストの中に特定のGOタームを持つ遺伝⼦が⾼頻度に存在しているか判定して、その機能を推定する。

GO解析

Page 12: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

性質1 性質2A群 a bB群 c d

2×2クロス集計表

!!!!!!!!!dcbanhgfe

CCC

pgn

cfaea

ef

g h n

… …

⾚⽟20

⽩⽟80

10個⾚ ︓4⽩ ︓6

取った 残り⾚ 4 16⽩ 6 74

208010010 90

p=0.0841073計100個

ある集団のある変数に出現頻度の偏りがあるか判定する⽅法

Fisher’s の正確確率検定

Page 13: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

発現変動遺伝⼦ GOタームAを持つ遺伝⼦80 20

1480全遺伝⼦20000

発現変動遺伝⼦ 残り

GOタームAを持つ遺伝⼦ 20 1480その他の遺伝⼦ 80 18420

全遺伝⼦ : 20000GOタームAを持つ遺伝⼦ : 1500発現変動遺伝⼦ : 100

1500

200001850010019900

p-value = 0.00004509

クロス集計表

Page 14: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

発現変動遺伝⼦

その他

GOタームBを持つ遺伝⼦

5 95

その他 95 19805

100

20000

19900

100 19900

p-value = 0.0001461発現変動遺伝⼦

その他

GOタームAを持つ遺伝⼦

10 1490

その他 90 18410

1500

20000

18500

100 19900

p-value = 0.3379

全遺伝⼦ : 20000GOタームBを持つ遺伝⼦ : 100発現変動遺伝⼦ : 100

全遺伝⼦ : 20000GOタームAを持つ遺伝⼦ : 1500発現変動遺伝⼦ : 100

クロス集計表

Page 15: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

http://www.cytoscape.orgグラフ作成⽤アプリケーション

Cytoscape

Page 16: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• cytoscapeのホームページからインストーラーをダウンロード

• インストールして実⾏

• プロクシの設定

• APPをインストール

CytoscapeにAPPをインストール

Page 17: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

編集メニューからpreferencesのPropertiesを選択

Proxyの設定

Page 18: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

cytoscape preference editorウインドウのproxy server に“proxy.med.yokohama-cu.ac.jp”proxy server port に“8080”proxy server typeに”http”を⼊⼒してModifyをクリック

Proxyの設定

Page 19: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

APPsのApp Managerを選択

APPのインストール

Page 20: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

App ManagerウインドウのBiNGOを選択installをクリック

APPのインストール

Page 21: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Appメニューの中にBiNGOが表⽰されるので、選択して実⾏

APPのインストール

Page 22: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

X> result.sig.up <- result.sig.up[order(result.sig.up$logFC, decreasing = T),]

> write(as.character(rownames(result.sig.up))[1:200], “clipboard”)

> result.sig.down <- result.sig.down[order(result.sig.down$logFC),]

> write(as.character(rownames(result.sig.down))[1:200], “clipboard”)

R console

Page 23: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

BiNGO settingsウィンドウのCluster Nameに適当な名前を⼊⼒Paste Gene from Textにチェック⼊⼒欄に遺伝⼦名を⼊⼒⽣物種を選択Start BiNGOをクリック

BiNGOの実⾏

Page 24: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• 特定の遺伝⼦セットと発現⽐の間に相関があるか調べる

24

Gene Set Enrichment Analysis (GSEA)

KO/WTgene set{Otx2,Msx1,Rbp1,…}

発現⽐ランキングの上位に偏って存在する遺伝⼦セットと発現に相関あり

発現⽐ランキングの下位に偏って存在する遺伝⼦セットと発現に逆相関あり

発現⽐ランキングによる偏り無し遺伝⼦セットと発現に相関なし

Page 25: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

25

http://www.broadinstitute.org/gsea/index.jsp

Broad Institute

Page 26: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

DownloadセクションからGSEAを取得JavaプログラムなのでOSに依存しないメールアドレスを登録する必要あり

26

GSEAのダウンロード

Page 27: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• 課題配布フォルダからgsea-3.0.jarを各⾃のデスクトップにコピー

• gsea-3.0.jarをダブルクリック

27

Gene Set Enrichment Analysis (GSEA)

Page 28: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

28

GSEA

Page 29: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• 必要なファイルは3つ

• 発現プロファイル gctファイル

• 遺伝⼦セット grpファイル

• カテゴリー clsファイル

29

データのロード

Page 30: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

#1.2

21530 6

NAME Description V1 V2 V3 S1 S2 S3

Ctss NA 1730.1 1681.1 1653.2 10.5 10.9 13.2

Ahnak NA 1650.3 1510.1 1701.3 14.2 15.1 11.3

… … … … … …

遺伝⼦数サンプル数

遺伝⼦名⼤⽂字、⼩⽂字の区別に注意

常に必要

常に必要

ファイル名の拡張⼦はgct30

gctのファイル︓発現プロファイル

Page 31: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

データファイルをload

31

GSEA

Page 32: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

#gene symbol

Evi1

Myct1

grpファイル

遺伝⼦名の羅列gctファイルと⼤⽂字、⼩⽂字を⼀致させるファイル名の拡張⼦はgrp

clsファイル

6 2 1#V SV V V S S S

サンプル数

クラス数常に必要

clsファイルはスペース区切りのテキストファイル拡張⼦はcls

32

grpファイル︓gene set clsファイル︓カテゴリーの記述

Page 33: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• 課題配布フォルダから• GSE123860_BT549_GSEA.gct• GSE123860_BT549.cls• 各ファイルを各⾃のデスクトップフォルダへコピー

33

Page 34: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Browse for filesをクリックしてファイルを選択

34

データのロード

Page 35: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

Run GSEAをクリックして実⾏

35

実⾏

Page 36: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

gctファイルを選択

発現⽐の⽅向 S/Vfalse

gene_set

runをクリックして実⾏ステータスが表⽰Successと表⽰されたらクリックして結果を確認

36

実⾏

MsigDBに登録されているgene setを選択

Page 37: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

enrichment result in htmlをクリック

37

結果の表⽰

Page 38: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

detailsをクリック

38

結果の表⽰

Page 39: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

統計量

enrichment score

39

結果の表⽰

Page 40: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• GSE123860_A549_count.txt.gzで、今回の解析を実⾏してください。

宿題

Page 41: 第2回バイオインフォマティクス実習...2019年度 第2回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室

• バイオインフォマティクスフォーラムhttps://163.212.171.228/bioinformaticsforumバイオインフォマティクス実習に関する質問、バイオインフォマティクス全般に関する質問など投稿してください。

• 実習の資料について「先端研バイオインフォマティクス解析室」ホームページにslide shareのURLを掲載しています。https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html2018年度以前のパスワード︓bijishu

2019年度のパスワード︓実習後にお知らせします。

• アンケートにご協⼒ください。「先端研バイオインフォマティクス解析室」ホームページまたはQRコードにアクセスし回答ください。

https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html

お知らせ