第2回バイオインフォマティクス実習...2019年度...
Transcript of 第2回バイオインフォマティクス実習...2019年度...
2019年度第2回バイオインフォマティクス実習
先端医科学研究センター バイオインフォマティクス解析室中林潤
細胞A
細胞B
exon intron
リード数をカウント→発現量
細胞からmRNAを抽出→DNAライブラリ→次世代シーケンサ
RNA-seq タグ数と発現量
Tophatによるマッピング
• Johns Hopkins UniversityCenter for Computational Biology
• http://ccb.jhu.edu/software/tophat/index.shtml
• Transcriptome解析⽤マッピングツールBowtie2を呼び出してマッピングスプライスジャンクションを予測する
• htseq-countコマンドhtseq-count マッピング後のsamファイル名 アノテーション⽤gtfファイル名 > 出⼒ファイル名
Cygwin X$htseq‐count SRR3939298.sam GRCh38.gtf > SRR3939298_count.txt
Htseqによるカウント計測
GEOデータベース検索http://ncbi.nlm.nih.gov
GEO Datasetsを選択
GSE123860を⼊⼒して検索
5
GEO database 検索
GSE123860_BT549_counts.txt.gz
GSE123860のデータを取得
課題配布フォルダからGSE123860_BT549_counts.txtを各⾃のデスクトップにコピー
X> Sys.setenv(http_proxy=“http://proxy.med.yokohama-cu.ac.jp:8080”)
> source(“http://bioconductor.org/biocLite.R”)
> biocLite(“edgeR”)
> library(edgeR)
R console
edgeRパッケージのインストールとロード
X> x <- read.table(“GSE123860_BT549_count.txt”, header = T, sep = “¥t”)
> rownames(x) <- x$Gene_ID
> x <- x[,-1]
R console
データの読み込みと整形
ファイルメニューから“ディレクトリの変更”を選択して、デスクトップに移動
X> d <- DGEList(counts = x, group = c(rep(“V”, 3), rep(“S”, 3)))
> d <- calcNormFactors(d)
> d <- estimateCommonDisp(d)
> d <- estimateTagwiseDisp(d)
> result <- exactTest(d)
R console
edgeR packageの実⾏
X> result.table <- topTags(result, nrow(x))@.Data[[1]]
> result.sig <- subset(result.table, result.table$FDR < 0.05)
> result.sig.up <- subset(result.sig, result.sig$logFC > 0)
> result.sig.down <- subset(result.sig, result.sig$logFC < 0)
> write.table(result.sig, “result.sig.txt”, quote=F, sep=“¥t”)
> plotSmear(result)
R console
結果の出⼒
• GO term遺伝⼦の機能や構造を記述するための、⽣物種に⾮依存的な統⼀された⽤語。
• GO解析遺伝⼦リストの中に特定のGOタームを持つ遺伝⼦が⾼頻度に存在しているか判定して、その機能を推定する。
GO解析
性質1 性質2A群 a bB群 c d
2×2クロス集計表
!!!!!!!!!dcbanhgfe
CCC
pgn
cfaea
ef
g h n
… …
⾚⽟20
⽩⽟80
10個⾚ ︓4⽩ ︓6
取った 残り⾚ 4 16⽩ 6 74
208010010 90
p=0.0841073計100個
ある集団のある変数に出現頻度の偏りがあるか判定する⽅法
Fisher’s の正確確率検定
発現変動遺伝⼦ GOタームAを持つ遺伝⼦80 20
1480全遺伝⼦20000
発現変動遺伝⼦ 残り
GOタームAを持つ遺伝⼦ 20 1480その他の遺伝⼦ 80 18420
全遺伝⼦ : 20000GOタームAを持つ遺伝⼦ : 1500発現変動遺伝⼦ : 100
1500
200001850010019900
p-value = 0.00004509
クロス集計表
発現変動遺伝⼦
その他
GOタームBを持つ遺伝⼦
5 95
その他 95 19805
100
20000
19900
100 19900
p-value = 0.0001461発現変動遺伝⼦
その他
GOタームAを持つ遺伝⼦
10 1490
その他 90 18410
1500
20000
18500
100 19900
p-value = 0.3379
全遺伝⼦ : 20000GOタームBを持つ遺伝⼦ : 100発現変動遺伝⼦ : 100
全遺伝⼦ : 20000GOタームAを持つ遺伝⼦ : 1500発現変動遺伝⼦ : 100
クロス集計表
http://www.cytoscape.orgグラフ作成⽤アプリケーション
Cytoscape
• cytoscapeのホームページからインストーラーをダウンロード
• インストールして実⾏
• プロクシの設定
• APPをインストール
CytoscapeにAPPをインストール
編集メニューからpreferencesのPropertiesを選択
Proxyの設定
cytoscape preference editorウインドウのproxy server に“proxy.med.yokohama-cu.ac.jp”proxy server port に“8080”proxy server typeに”http”を⼊⼒してModifyをクリック
Proxyの設定
APPsのApp Managerを選択
APPのインストール
App ManagerウインドウのBiNGOを選択installをクリック
APPのインストール
Appメニューの中にBiNGOが表⽰されるので、選択して実⾏
APPのインストール
X> result.sig.up <- result.sig.up[order(result.sig.up$logFC, decreasing = T),]
> write(as.character(rownames(result.sig.up))[1:200], “clipboard”)
> result.sig.down <- result.sig.down[order(result.sig.down$logFC),]
> write(as.character(rownames(result.sig.down))[1:200], “clipboard”)
R console
BiNGO settingsウィンドウのCluster Nameに適当な名前を⼊⼒Paste Gene from Textにチェック⼊⼒欄に遺伝⼦名を⼊⼒⽣物種を選択Start BiNGOをクリック
BiNGOの実⾏
• 特定の遺伝⼦セットと発現⽐の間に相関があるか調べる
24
Gene Set Enrichment Analysis (GSEA)
KO/WTgene set{Otx2,Msx1,Rbp1,…}
発現⽐ランキングの上位に偏って存在する遺伝⼦セットと発現に相関あり
発現⽐ランキングの下位に偏って存在する遺伝⼦セットと発現に逆相関あり
発現⽐ランキングによる偏り無し遺伝⼦セットと発現に相関なし
25
http://www.broadinstitute.org/gsea/index.jsp
Broad Institute
DownloadセクションからGSEAを取得JavaプログラムなのでOSに依存しないメールアドレスを登録する必要あり
26
GSEAのダウンロード
• 課題配布フォルダからgsea-3.0.jarを各⾃のデスクトップにコピー
• gsea-3.0.jarをダブルクリック
27
Gene Set Enrichment Analysis (GSEA)
28
GSEA
• 必要なファイルは3つ
• 発現プロファイル gctファイル
• 遺伝⼦セット grpファイル
• カテゴリー clsファイル
29
データのロード
#1.2
21530 6
NAME Description V1 V2 V3 S1 S2 S3
Ctss NA 1730.1 1681.1 1653.2 10.5 10.9 13.2
Ahnak NA 1650.3 1510.1 1701.3 14.2 15.1 11.3
… … … … … …
遺伝⼦数サンプル数
遺伝⼦名⼤⽂字、⼩⽂字の区別に注意
常に必要
常に必要
ファイル名の拡張⼦はgct30
gctのファイル︓発現プロファイル
データファイルをload
31
GSEA
#gene symbol
Evi1
Myct1
…
grpファイル
遺伝⼦名の羅列gctファイルと⼤⽂字、⼩⽂字を⼀致させるファイル名の拡張⼦はgrp
clsファイル
6 2 1#V SV V V S S S
サンプル数
クラス数常に必要
clsファイルはスペース区切りのテキストファイル拡張⼦はcls
32
grpファイル︓gene set clsファイル︓カテゴリーの記述
• 課題配布フォルダから• GSE123860_BT549_GSEA.gct• GSE123860_BT549.cls• 各ファイルを各⾃のデスクトップフォルダへコピー
33
Browse for filesをクリックしてファイルを選択
34
データのロード
Run GSEAをクリックして実⾏
35
実⾏
gctファイルを選択
発現⽐の⽅向 S/Vfalse
gene_set
runをクリックして実⾏ステータスが表⽰Successと表⽰されたらクリックして結果を確認
36
実⾏
MsigDBに登録されているgene setを選択
enrichment result in htmlをクリック
37
結果の表⽰
detailsをクリック
38
結果の表⽰
統計量
enrichment score
39
結果の表⽰
• GSE123860_A549_count.txt.gzで、今回の解析を実⾏してください。
宿題
• バイオインフォマティクスフォーラムhttps://163.212.171.228/bioinformaticsforumバイオインフォマティクス実習に関する質問、バイオインフォマティクス全般に関する質問など投稿してください。
• 実習の資料について「先端研バイオインフォマティクス解析室」ホームページにslide shareのURLを掲載しています。https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html2018年度以前のパスワード︓bijishu
2019年度のパスワード︓実習後にお知らせします。
• アンケートにご協⼒ください。「先端研バイオインフォマティクス解析室」ホームページまたはQRコードにアクセスし回答ください。
https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html
お知らせ