第2回バイオインフォマティクス実習...2019年度...

2019年度第2回バイオインフォマティクス実習

先端医科学研究センターバイオインフォマティクス解析室中林潤

細胞A

細胞B

exon intron

リード数をカウント→発現量

細胞からmRNAを抽出→DNAライブラリ→次世代シーケンサ

RNA-seq タグ数と発現量

Tophatによるマッピング

• Johns Hopkins UniversityCenter for Computational Biology

• http://ccb.jhu.edu/software/tophat/index.shtml

• Transcriptome解析⽤マッピングツールBowtie2を呼び出してマッピングスプライスジャンクションを予測する

• htseq-countコマンドhtseq-count マッピング後のsamファイル名アノテーション⽤gtfファイル名＞出⼒ファイル名

Cygwin X$htseq‐count SRR3939298.sam GRCh38.gtf > SRR3939298_count.txt

Htseqによるカウント計測

GEOデータベース検索http://ncbi.nlm.nih.gov

GEO Datasetsを選択

GSE123860を⼊⼒して検索

5

GEO database 検索

GSE123860_BT549_counts.txt.gz

GSE123860のデータを取得

課題配布フォルダからGSE123860_BT549_counts.txtを各⾃のデスクトップにコピー

X> Sys.setenv(http_proxy=“http://proxy.med.yokohama-cu.ac.jp:8080”)

> source(“http://bioconductor.org/biocLite.R”)

> biocLite(“edgeR”)

> library(edgeR)

R console

edgeRパッケージのインストールとロード

X> x <- read.table(“GSE123860_BT549_count.txt”, header = T, sep = “¥t”)

> rownames(x) <- x$Gene_ID

> x <- x[,-1]

R console

データの読み込みと整形

ファイルメニューから“ディレクトリの変更”を選択して、デスクトップに移動

X> d <- DGEList(counts = x, group = c(rep(“V”, 3), rep(“S”, 3)))

> d <- calcNormFactors(d)

> d <- estimateCommonDisp(d)

> d <- estimateTagwiseDisp(d)

> result <- exactTest(d)

R console

edgeR packageの実⾏

X> result.table <- topTags(result, nrow(x))@.Data[[1]]

> result.sig <- subset(result.table, result.table$FDR < 0.05)

> result.sig.up <- subset(result.sig, result.sig$logFC > 0)

> result.sig.down <- subset(result.sig, result.sig$logFC < 0)

> write.table(result.sig, “result.sig.txt”, quote=F, sep=“¥t”)

> plotSmear(result)

R console

結果の出⼒

• GO term遺伝⼦の機能や構造を記述するための、⽣物種に⾮依存的な統⼀された⽤語。

• GO解析遺伝⼦リストの中に特定のGOタームを持つ遺伝⼦が⾼頻度に存在しているか判定して、その機能を推定する。

GO解析

性質1 性質2A群 a bB群 c d

2×2クロス集計表

!!!!!!!!!dcbanhgfe

CCC

pgn

cfaea

ef

g h n

… …

⾚⽟20

⽩⽟80

10個⾚ ︓4⽩ ︓6

取った残り⾚ 4 16⽩ 6 74

208010010 90

p=0.0841073計100個

ある集団のある変数に出現頻度の偏りがあるか判定する⽅法

Fisher’s の正確確率検定

発現変動遺伝⼦ GOタームAを持つ遺伝⼦80 20

1480全遺伝⼦20000

発現変動遺伝⼦残り

GOタームAを持つ遺伝⼦ 20 1480その他の遺伝⼦ 80 18420

全遺伝⼦ : 20000GOタームAを持つ遺伝⼦ : 1500発現変動遺伝⼦ : 100

1500

200001850010019900

p-value = 0.00004509

クロス集計表

発現変動遺伝⼦

その他

GOタームBを持つ遺伝⼦

5 95

その他 95 19805

100

20000

19900

100 19900

p-value = 0.0001461発現変動遺伝⼦

その他

GOタームAを持つ遺伝⼦

10 1490

その他 90 18410

1500

20000

18500

100 19900

p-value = 0.3379

全遺伝⼦ : 20000GOタームBを持つ遺伝⼦ : 100発現変動遺伝⼦ : 100

全遺伝⼦ : 20000GOタームAを持つ遺伝⼦ : 1500発現変動遺伝⼦ : 100

クロス集計表

http://www.cytoscape.orgグラフ作成⽤アプリケーション

Cytoscape

• cytoscapeのホームページからインストーラーをダウンロード

• インストールして実⾏

• プロクシの設定

• APPをインストール

CytoscapeにAPPをインストール

編集メニューからpreferencesのPropertiesを選択

Proxyの設定

cytoscape preference editorウインドウのproxy server に“proxy.med.yokohama-cu.ac.jp”proxy server port に“8080”proxy server typeに”http”を⼊⼒してModifyをクリック

Proxyの設定

APPsのApp Managerを選択

APPのインストール

App ManagerウインドウのBiNGOを選択installをクリック


Appメニューの中にBiNGOが表⽰されるので、選択して実⾏


X> result.sig.up <- result.sig.up[order(result.sig.up$logFC, decreasing = T),]

> write(as.character(rownames(result.sig.up))[1:200], “clipboard”)

> result.sig.down <- result.sig.down[order(result.sig.down$logFC),]

> write(as.character(rownames(result.sig.down))[1:200], “clipboard”)

R console

BiNGO settingsウィンドウのCluster Nameに適当な名前を⼊⼒Paste Gene from Textにチェック⼊⼒欄に遺伝⼦名を⼊⼒⽣物種を選択Start BiNGOをクリック

BiNGOの実⾏

• 特定の遺伝⼦セットと発現⽐の間に相関があるか調べる

24

Gene Set Enrichment Analysis (GSEA)

KO/WTgene set{Otx2,Msx1,Rbp1,…}

発現⽐ランキングの上位に偏って存在する遺伝⼦セットと発現に相関あり

発現⽐ランキングの下位に偏って存在する遺伝⼦セットと発現に逆相関あり

発現⽐ランキングによる偏り無し遺伝⼦セットと発現に相関なし

25

http://www.broadinstitute.org/gsea/index.jsp

Broad Institute

DownloadセクションからGSEAを取得JavaプログラムなのでOSに依存しないメールアドレスを登録する必要あり

26

GSEAのダウンロード

• 課題配布フォルダからgsea-3.0.jarを各⾃のデスクトップにコピー

• gsea-3.0.jarをダブルクリック

27

Gene Set Enrichment Analysis (GSEA)

28

GSEA

• 必要なファイルは3つ

• 発現プロファイル gctファイル

• 遺伝⼦セット grpファイル

• カテゴリー clsファイル

29

データのロード

#1.2

21530 6

NAME Description V1 V2 V3 S1 S2 S3

Ctss NA 1730.1 1681.1 1653.2 10.5 10.9 13.2

Ahnak NA 1650.3 1510.1 1701.3 14.2 15.1 11.3

… … … … … …

遺伝⼦数サンプル数

遺伝⼦名⼤⽂字、⼩⽂字の区別に注意

常に必要

常に必要

ファイル名の拡張⼦はgct30

gctのファイル︓発現プロファイル

データファイルをload

31

GSEA

#gene symbol

Evi1

Myct1

…

grpファイル

遺伝⼦名の羅列gctファイルと⼤⽂字、⼩⽂字を⼀致させるファイル名の拡張⼦はgrp

clsファイル

6 2 1#V SV V V S S S

サンプル数

クラス数常に必要

clsファイルはスペース区切りのテキストファイル拡張⼦はcls

32

grpファイル︓gene set clsファイル︓カテゴリーの記述

• 課題配布フォルダから• GSE123860_BT549_GSEA.gct• GSE123860_BT549.cls• 各ファイルを各⾃のデスクトップフォルダへコピー

33

Browse for filesをクリックしてファイルを選択

34

データのロード

Run GSEAをクリックして実⾏

35

実⾏

gctファイルを選択

発現⽐の⽅向 S/Vfalse

gene_set

runをクリックして実⾏ステータスが表⽰Successと表⽰されたらクリックして結果を確認

36

実⾏

MsigDBに登録されているgene setを選択

enrichment result in htmlをクリック

37

結果の表⽰

detailsをクリック

38

結果の表⽰

統計量

enrichment score

39

結果の表⽰

• GSE123860_A549_count.txt.gzで、今回の解析を実⾏してください。

宿題

• バイオインフォマティクスフォーラムhttps://163.212.171.228/bioinformaticsforumバイオインフォマティクス実習に関する質問、バイオインフォマティクス全般に関する質問など投稿してください。

• 実習の資料について「先端研バイオインフォマティクス解析室」ホームページにslide shareのURLを掲載しています。https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html2018年度以前のパスワード︓bijishu

2019年度のパスワード︓実習後にお知らせします。

• アンケートにご協⼒ください。「先端研バイオインフォマティクス解析室」ホームページまたはQRコードにアクセスし回答ください。

https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html

お知らせ

第2回バイオインフォマティクス実習...2019年度...

Documents

Transcript of 第2回バイオインフォマティクス実習...2019年度...