バイオインフォマティクス(2013年度以降用改訂版)

63
© 2012 DBCLS Licensed under CC 表示 2.1 日本 バイオインフォマティクス 大学共同利用機関法人 情報・システム研究機構 (ROIS) ライフサイエンス統合データベースセンター (DBCLS) 坊農 秀雅

description

Bioinformatics primer lecture for oncologists who want to make full use of available database resources in the world.

Transcript of バイオインフォマティクス(2013年度以降用改訂版)

Page 1: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

バイオインフォマティクス大学共同利用機関法人

情報・システム研究機構 (ROIS)ライフサイエンス統合データベースセンター

(DBCLS)坊農 秀雅

Page 2: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

本講義の内容•「道具」と「部品」を扱うための知識

1.バイオインフォマティクスとは2.基本的なコンピュータリテラシー

•それらの道具を用いて「生物情報」を 実際の研究に役立てていくアプローチ3.文献情報検索4.塩基配列データベースとゲノムブラウザー5.遺伝子発現情報データベース

2

Page 3: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

1. バイオインフォマティクスとは•生命現象を「情報」の立場で解明していこうとする研究

•バイオテクノロジーと生命の情報処理を意味するインフォマティクスを連携させた技術

•コンピュータを実験デバイスとして使って、生物学的に有意な結論を引き出そうとする学問–坊農秀雅「バイオインフォマティクス入門」 羊土社 2002

3

Page 4: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

バイオインフォマティクスの歴史•ツール‒配列解析:ドットマトリックス       (ハープロット)→ 動的計画法•RNA二次構造予測‒配列類似(相同)性検索•FASTA, BLAST, BLAT etc.

•データベース(DB)‒最初のDB: タンパク質 (アミノ酸)配列‒塩基配列DB:1980年代初頭

4

Page 5: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

日米での標準的なバイオインフォマティクスのテキスト

5

Page 6: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

バイオインフォマティクスの範疇

シミュレーション

イメージ解析

パスウェイ解析

遺伝子発現解析

アミノ酸配列解析塩基配列解析

さらに、臨床データ解析も6

Page 7: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

(かつての)バイオインフォマティクス研究者の職種別分類

•アルゴリズム屋–方法を考える人–「NP完全」がキーワード

•実装屋–プログラムやツールを書く人

•解析屋–プログラムを使って実際に生データを相手に手を動かす人

7

数学的抽象的

生物的具体的Biologistの範疇

Page 8: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

2. 基本的なコンピュータリテラシー•インターネット検索

–Google検索(ググる)•ライフサイエンス分野に特化した検索

–データベースを探す• integbioデータベースカタログ

–データベースを検索する•生命科学データベース横断検索

–使い方を動画で知る 9

Page 9: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本10

http://integbio.jp/dbcatalog/

Page 10: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本11

http://integbio.jp/dbcatalog/

Page 11: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本12

高血圧

Page 12: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本13

Page 13: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本14

Page 14: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本15

Page 15: バイオインフォマティクス(2013年度以降用改訂版)

統合DBとは?

© 2012 DBCLS Licensed under CC 表示 2.1 日本

•安心してすぐに利用できるデータを提供‒「ぐるなび」、「食べログ」、「クックパッド」

•公共DBとして外に出す際にデータを綺麗に‒「分別回収→リサイクル」

•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力

ライフサイエンスデータのロジスティクス(流通業)

16

Page 16: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

統合TV (togoTV)•動画によるDBやツールのチュートリアル‒ 各DBやツール名、

•統合データベース講演会AJACSの動画も•YouTubeからも•Videocastでも•約650のコンテンツ(アップデート含む)

で検索

17

Page 17: バイオインフォマティクス(2013年度以降用改訂版)

統合TV(togoTV)

© 2012 DBCLS Licensed under CC 表示 2.1 日本18

Page 18: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

医学研究で多用するウェブツール3.文献情報検索

–PubMed とそれを利用した各サービス–日本語文献検索(ライフサイエンス新着論文レビュー他)

4.塩基配列データベースとゲノムブラウザー–RefSeq–SRA–UCSC Genome Browser

5.遺伝子発現解析–NCBI GEO(Gene Expression Omnibus)とGEO目次–BioGPS–RefEx

20

Page 19: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

3. 文献情報検索•英文: PubMed

–inMeXes: 逐次PubMed/MEDLINE表現検索–Allie: 略語検索

•日本語: cinii

–ライフサイエンス新着論文レビュー–ライフサイエンス領域融合レビュー–蛋白質核酸酵素 全文検索

21

Page 20: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

PubMed• http://pubmed.gov/•米国立医学図書館(NLM: National Library of

Medicine)が編纂する医学文献DB

–件数: (20121223 16:00現在)

–NLMの下部組織NCBI(National Center for Biotechnology Information)のEntrezから検索可能

22

「PubMedで論文を検索する」http://togotv.dbcls.jp/20120830.html

Page 21: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

PubMed 検索例: ‘cancer’

23

Page 22: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

inMeXes

• http://docman.dbcls.jp/im/•ライフサイエンス統合DBセンター(DBCLS)が提供する逐次PubMed/MEDLINE表現検索

24

「inMeXesを使い倒す」http://togotv.dbcls.jp/20091216.html

Page 23: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本25

Page 24: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本26

LifeScience Dictionaryのサイトにリンク

Page 25: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

Allie• http://allie.dbcls.jp/• Allie(アリー)は生命科学分野において利用されている略語とその展開形を検索するサービス

27

「Allieを使って略語の正式名称を検索する2010」http://togotv.dbcls.jp/20100831.html

Page 26: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

Allie検索例: ‘SPF’

28

Page 27: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

CiNii• http://ci.nii.ac.jp/•国立情報学研究所(NII: National Institute of

Informatics) が提供する日本語文献検索システム。「さいにー」と発音

29

作成中…‘CiNii’で以下のフォームから検索http://togotv-curated.dbcls.jp/

Page 28: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

cinii 検索例: 「がん 低酸素」

30

Page 29: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

ライフサイエンス新着論文レビュー

Nature, Science, Cell などのトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について論文の著者自身の執筆による専門分野の異なる生命科学研究者にむけた日本語によるレビューを、自由に閲覧・利用できるようウェブ上にていち早く無料で公開するサイト

31

「ライフサイエンス新着論文レビュー FirstAuthor's を使い倒す」http://togotv.dbcls.jp/20110301.html

http://first.lifesciencedb.jp/

Page 31: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

ライフサイエンス領域融合レビュー

生命科学において注目される分野・学問領域における最新の研究成果について、第一線の研究者の執筆による日本語の レビューを、だれでも自由に閲覧・利用できるよう、無料で公開します。

33

http://leading.lifesciencedb.jp/

「ライフサイエンス領域融合レビューLeadingAuthor'sを使い倒す」http://togotv.dbcls.jp/20121113.html

Page 32: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本34

Page 33: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

蛋白質核酸酵素 全文検索• http://lifesciencedb.jp/pne/•生化学・分子生物学の日本語総説誌

–Since 1953, しかし2010年1月休刊• 1985年~2008年の通常号の総説、計2,216論文が対象–2009,2010年分の全文検索結果については共立出版のサイトに掲載されている抄録へのリンクのみ

35

「蛋白質核酸酵素全文検索を使い倒す」http://togotv.dbcls.jp/20080911.html

Page 34: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本36

Page 35: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

4. 塩基配列データベースとゲノムブラウザー

• RefSeq–GGRNA

• Sequence Read Archive(SRA)• UCSC Genome Browser

–遺伝子名から検索–ゲノムアノテーションをカスタマイズする

•例: 転写因子結合サイト

38

Page 36: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

RefSeqとは• Reference Sequenceの略• NCBIが提供する配列解析に使うための文字通り

"reference"(リファレンス)となるべき配列データベースのこと

• その配列の多くは核酸配列データベースのDDBJやEMBL、GenBank由来であり、それらの中からもっとも代表としてふさわしい(参照の基準となる)ものが、目で見て選ばれている

39

「遺伝子のRefSeq IDを調べる 2011」http://togotv.dbcls.jp/20110218.html

Page 37: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

GGRNA

• http://ggrna.dbcls.jp/•ライフサイエンス統合DBセンター(DBCLS)が提供する遺伝子(RefSeq)をGoogleのように検索できるサイト

40

「GGRNAで遺伝子をGoogleのように検索する」http://togotv.dbcls.jp/20120124.html

Page 38: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

GGRNA検索例

41

Page 39: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

核酸配列DB

INSDCDDBJ/EMBL/GenBank

NCBIRefSeq

TraceArchive

Sequence Read

Archive (SRA)

nr/nt Title:Nucleotide collection (nt)Description:The nucleotide collection consists of GenBank+EMBL+DDBJ+PDB+RefSeq sequences, but excludes EST, STS, GSS, WGS, TSA, patent sequences as well as phase 0, 1, and 2 HTGS sequences. The database is partially non-redundant.

42

Page 40: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

SRA(Sequence Read Archive)•いわゆる次世代シーケンサー(NGS)から得られる塩基配列のアーカイブ

43データ取得元: DBCLS SRA http://sra.dbcls.jp/

Page 41: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

文献情報からNGSデータを検索

44DBCLS SRA http://sra.dbcls.jp/

Page 42: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

疾患別NGSデータ登録数2012/12/25現在。データ取得元:DBCLS SRAhttp://sra.dbcls.jp/cgi-bin/diseasetree.cgi

45

Page 43: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

Genome Browserとは?•アノテーションが付加された遺伝子のゲノム上の位置やその周辺を表示できるツール–UCSC Genome Browser http://genome.ucsc.edu/ –Ensembl Genome Browser http://ensembl.org/

46

Page 44: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

遺伝子名から検索

47

Page 45: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本48

Page 46: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本49

Page 47: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本50

Page 48: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

使い方いろいろ。詳しくは統合TVで

•ゲノムアノテーションをカスタマイズする

• BLATを使って塩基・アミノ酸配列断片から検索

51

「UCSC Genome Browserの使い方~表示+ENCODE編~ 2012」http://togotv.dbcls.jp/20120528.html

「ウイルスの持ち出した宿主の遺伝子配列がコードされている領域をアミノ酸配列レベルでゲノム中から探し当てる 2012」http://togotv.dbcls.jp/20121030.html

Page 49: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

5. 遺伝子発現解析• NCBI GEO(Gene Expression Omnibus)

–GEO目次• BioGPS• RefEx• Human Protein Atlas

53

Page 50: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

NCBI GEO• Gene Expression Omnibus(GEO)• NCBIによる遺伝子発現情報のアーカイブ

–現状、主にマイクロアレイ実験による発現データ–今後、RNA-seqなど次世代シーケンサーによるデータが増えてくると見込まれる

54

「NCBI GEOの使い方1~マイクロアレイデータの検索・取得~ 2011」http://togotv.dbcls.jp/20110711.html「NCBI GEOの使い方2~遺伝子プロファイルの検索・処理済みデータの取得~」http://togotv.dbcls.jp/20111020.html

Page 51: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

GEO目次• http://lifesciencedb.jp/geo/ • NCBI GEO を快適に使い、データの全容を俯瞰するための仕組み

•ライフサイエンス統合DBセンター(DBCLS)が提供。週一回更新。

55

「遺伝子発現バンク(GEO)目次を使い倒す 2010」http://togotv.dbcls.jp/20100326.html

Page 52: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

GEO 目次

56

Page 53: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

BioGPS• http://biogps.org/ • GeneChipを用いたヒト、マウス、ラットのさまざまな組織や細胞(株)における遺伝子発現プロファイルのデータベース

•英語版Wikipedia(Gene Wiki)等、様々な外部データベースへのリンクが充実

57

「遺伝子発現プロファイルデータベースBioGPSを使い倒す 2012」http://togotv.dbcls.jp/20120911.html

Page 54: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

BioGPS検索例: ‘pparg’

58

Page 55: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本59

Page 56: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

RefEx(Reference Expression dataset)

•http://refex.dbcls.jp/ 4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた40種類の正常組織における遺伝子発現データを統合し並列に表現することで、手法間の比較とともに各遺伝子の発現量を直感的に比較することが可能なリファレンス(参照)データセット

60

作成中…‘RefEx’で以下のフォームから検索http://togotv-curated.dbcls.jp/

Page 57: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

RefEx

61

Page 58: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

RefEx liver specific genes

62

Page 59: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

RefEx:Specific gene

63

Page 60: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

Human Protein Atlas

• http://www.proteinatlas.org/• 14,079 genes with protein expression

profiles based on 17,298 antibodies.

64

「Human Protein Atlasでタンパク質の発現状況を調べる2011」http://togotv.dbcls.jp/20110113.html

ESR1

Page 61: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

Human Protein Atlas 検索例:‘ESR1’

65

Page 62: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本66

Page 63: バイオインフォマティクス(2013年度以降用改訂版)

© 2012 DBCLS Licensed under CC 表示 2.1 日本

まとめ•バイオインフォマティクスは

–「道具」として21世紀の医学生物学に必須

–「道具」「部品」ともに勃興が著しい•最新の「部品」情報をインターネット検索を駆使して把握し、「道具」の原理をある程度理解して、使い倒しましょう!

•復習はこのアイコンを目印に!

67

統合TVによる統合TV(統合TV Curated)の使い方http://togotv.dbcls.jp/20110406.html