第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... ·...

25
1回バイオインフォマティクス実習コース 横浜市大 先端医科学研究センター バイオインフォマティクス研究室 室長 田村智彦 准教授 中林潤 免疫学 小泉真一 データベースからデータの取得 正規化 ファイルへ出力 1

Transcript of 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... ·...

Page 1: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

第1回バイオインフォマティクス実習コース 横浜市大 先端医科学研究センター

バイオインフォマティクス研究室 室長 田村智彦 准教授 中林潤 免疫学 小泉真一

•データベースからデータの取得

•正規化

•ファイルへ出力 1

Page 2: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

M402LL教室のPC環境 • YCUアカウントでログイン 読み書き可能フォルダ Z:/ユーザ名 読み込み可能フォルダ 課題配布/BioInfoJishu • インターネット接続可 proxyサーバ経由 • R ver 3.0.2がインストール済

2

Page 3: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

統計解析ソフトR • オープンソースの統計解析ソフト http://cran.r-project.org で配布

• Windows Mac Linuxで使用可能

• 様々な研究分野で広く使われている

• 参考 http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html

3

Page 4: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

http://cran.r-project.org

4

Page 5: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Rの起動

スタートメニューからRを選択して起動 5

Page 6: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Rのコンソール

コンソール 実行させる“コマンド”を入力 enter キーで実行

6

Page 7: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

proxyの設定(横浜市大の場合)

R起動直後に実行しないと設定されないことがあります。

R console X

>Sys.setenv(http_proxy=“http://proxy.yokohama-cu.ac.jp:8080”) >Sys.getenv(“http_proxy”)

メールサーバ

WWWサーバ

proxyサーバ

自宅

大学 企業

インターネット

7

Page 8: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Rの基本操作

R console X

> 34 + 58 > 92 > 105 / 33 > 3.181818 > pi > 3.141593 > sqrt(2) > 1.414214 > x <- 10 > y <- 15 > z <- x + y > x <- seq(-10, 10, by=0.1) > plot(sin(x), type=”l”)

8

Page 9: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

作業ディレクトリに移動

ファイルメニューから“ディレクトリの変更”を選択 作業ディレクトリを選択(読み書き可能な各自のアカウントフォルダを選択) 次回ログイン時に、今回書き込んだデータが保持されます。

9

Page 10: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

ファイルの読み込み

10

R console X

> p <- read.table(“Kokonoe.txt”, header=T, sep=“¥t”) > p[1,1] > p[1,3]

Page 11: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

ユーザ定義関数

11

R console X

> bmi <- function(q){ + r <- p[q,4] / (p[q,3] / 100)^2 + return(r)} > bmi(3) > p <- cbind(p, p[,4] / (p[,3] / 100)^2) > write.table(p, “Kokonoe_rev.txt”, quote=F, sep=“¥t”)

入力 (引数)

関数 ユーザが定義した手順で計算を実行

出力 (戻り値)

Page 12: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

edit関数を使った入力

12

R console X

> bmi <- edit(bmi)

別ウインドウにテキストエディタが開くので、そこで入力の訂正を行う。

Page 13: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Packageのインストール

Package

複数の関数をまとめたものがパッケージとして提供されている。

13

Page 14: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Bioconductor.org

• バイオインフォマティクス関連のパッケージを配布しているサイト

http://bioconductor.org

14

Page 15: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Packageのインストール

今回使用するpackage •“affy” Affymetrixデータ処理用パッケージ •“AnnotationDbi” アノテーション用ゲノムインデックス

15

Page 16: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Bioconductor, biocLiteの設定

Bioconductor バイオインフォマティクス関連のパッケージを配布しているサイト biocLite.R バイオインフォマティクス関連のパッケージをインストールするインストーラ パッケージ間の依存関係やバージョンの整合性を調整してくれる。

R console X

> source(“http://bioconductor.org/biocLite.R”)

16

Page 17: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

Package “affy” Package “AnnotationDbi”

Package “mogene10stv1cdf”

R console X

> biocLite(“affy”) > library(affy) > biocLite(“AnnotationDbi”) > library(AnnotationDbi)

> biocLite(“mogene10stv1cdf”)

> library(mogene10stv1cdf)

17

Page 18: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

GEOデータベース検索 http://ncbi.nlm.nih.gov

GEO Datasets を選択

キーワードを入力

18

Page 19: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

データの取得 • 課題配布→BioInfoJishuフォルダから

GSE40493フォルダをZ:/デスクトップに移動

• Rの作業フォルダをZ:/デスクトップ/GSE40493に変更

R console X

> dir()

コンソールにCELファイル名が表示されたら、データの取得とディレクトリの変更が完了しています。

19

Page 20: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

データの読み込み

R console X

> x <- ReadAffy()

作業フォルダ内のCELファイルの内容を変数xに格納する。

20

Page 21: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

rma法で正規化

R console X

>y <- rma(x)

RMA (Robust Multi-Array Average) 法 Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Irizarry RA, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, Scherf U, Speed TP Biostatistics 2003 4(2):249-64 Affymetrixマイクロアレイデータの正規化法として良く用いられている手法の一つ。 以下の3ステップでデータを正規化する。 1) バックグラウンド補正 2) quantile normalization 3) median polish法でsammalize

正規化したデータを変数yに格納する

21

Page 22: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

write.exprsでファイルに出力

R console X

> write.exprs(y, “GSE40493_Normalize.txt”)

yの内容をタブ区切りテキストファイルとして出力。 GSE40493フォルダにGSE40493_Normalizeと言う名前のテキストファイルができていれば作業が完了しています。

22

Page 23: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

タブ区切りテキストファイルをExcelで開く

23

Page 24: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

課題

• GEOデータベース、アクセション番号GSE26910のデータを取得し、正規化して結果をテキストファイルに出力してください。

• 今回の実習で使ったパッケージでは足りないものがあります。

• ヒント:サンプルを採取した細胞は?

24

Page 25: 第1回バイオインフォマティクス実習コース › ~kyotenpr › wp-content › ... · •geoデータベース、アクセション番号 gse26910のデータを取得し、正規化して結果

第2回

• 正規化後のデータを可視化

• 散布図

• ヒートマップ

• その他

25