SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

33
SNPのオープンデータを覗き見る Tada Satoshi TokyoWebmining #47 2015.06.27

Transcript of SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

Page 1: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

SNPのオープンデータを覗き見る

Tada Satoshi TokyoWebmining #47 2015.06.27

Page 2: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

自己紹介

• 多田 智史 ( @pinmarch_t )

• Bioinformatics 業界歴約10年 プログラマ

▫ 画像解析プログラム(非蛍光アレイ)

▫ HPLC+MALDI-TOF MS Differential解析

▫ DB構築(遺伝子カタログ, LIMS, 解析システム)

▫ NGSデータの処理と各種解析 +αでDB構築

• (大学~大学院はTgマウスの脳発生観察業)

2

Page 3: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

Topics

• SNPとSNP解析について

• 遺伝子解析サービスのSNPと SNPのオープンデータについて

• がんの遺伝子変異解析について

3

Page 4: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

SNP?

• SNP = Single Nucleotide Polymorphism (一塩基多型) ちなみに”スニップ”は日本のみで通用するらしい

• 塩基(A, T, G, C)で構成されるDNA配列に変化が起こる 変異(mutation)

• 世代を経るなかで固定される(生存に致命的な影響がない)

4

染色体

変化

DNA配列

Page 5: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

SNP? Mutation? Variant?

• (Common) SNP 集団内で同じ変異が1%以上存在している

▫ 多い方 Major allele / 少ない方 Minor allele

• “SNP”ってどうなん? HGVS(Human Genome Variation Society)によると

Mutation and polymorphism

In some disciplines the term "mutation" is used to indicate "a change" while in other disciplines it is used to indicate "a disease-causing change". Similarly, the term "polymorphism" is used both to indicate "a non disease-causing change" or "a change found at a frequency of 1% or higher in the population". To prevent this confusion we do not use the terms mutation and polymorphism (including SNP or Single Nucleotide Polymorphism) but use neutral terms like "sequence variant","alteration" and "allelic variant". Human Mutation (Vol. 19 ( 1) of 2002) contains several contributions discussing these issues as well as the fact that the term"mutation" has developed a negative connotation (see Cotton RGH - p.2, Condit CM et al. - p.69 and Marshall JH - p.76).

http://www.hgvs.org/mutnomen/recs.html

5

Page 6: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

SNP? Mutation? Variant?

• (Common) SNP 集団内で同じ変異が1%以上存在している

▫ 多い方 Major allele / 少ない方 Minor allele

• “SNP”ってどうなん? HGVS(Human Genome Variation Society)によると

Mutation and polymorphism

In some disciplines the term "mutation" is used to indicate "a change" while in other disciplines it is used to indicate "a disease-causing change". Similarly, the term "polymorphism" is used both to indicate "a non disease-causing change" or "a change found at a frequency of 1% or higher in the population". To prevent this confusion we do not use the terms mutation and polymorphism (including SNP or Single Nucleotide Polymorphism) but use neutral terms like "sequence variant","alteration" and "allelic variant". Human Mutation (Vol. 19 ( 1) of 2002) contains several contributions discussing these issues as well as the fact that the term"mutation" has developed a negative connotation (see Cotton RGH - p.2, Condit CM et al. - p.69 and Marshall JH - p.76).

http://www.hgvs.org/mutnomen/recs.html

6

Mutation 変化(change) のときもあれば 病原となる変化(disease-causing change)もある 同様に、 Polymorphism (SNP含む) 病原とならない変化(non disease-causing change)と1%以上の集団にある変化

(change found at a frequency of 1% or higher in the population)どちらにも使う ややこしいので、”(sequence/allelic) variant”や”alteration”を使いましょう。

Page 7: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

HWE/HWP(Hardy-Weinberg Equilibrium or Principle)

• ハーディー・ワインバーグの法則 集団内でのSNP解析で基礎となる法則

自由交配である

集団が十分に大きい(理想的には無限大)

他の集団との間で異動がない

突然変異が起こらない

自然選択が働かない

このとき、(2倍体の場合)アレルAとaの頻度p, qにおいてどの世代でもp + q = 1, AA:Aa:aa = p2:2pq:q2 となる

• HWP(Hardy-Weinberg Probability or Proportion) HWEに沿っているかの適合度検定

χ二乗検定やMCMCなどを使用する Wigginton et al., Am J Hum Genet. 2005 May; 76(5): 887–893. Guo and Thompson, Biometrics. 1992 Jun;48(2): 361-372.

7

Page 8: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

ハプロタイプ

• 遺伝の過程で複数の対立遺伝子(変異)がセットになっている(ランダム性に乏しい)組み合わせ ハプロタイプ

• 2つの対立遺伝子をI1, I2とし、それぞれの頻度をp1, p2、ハプロタイプの頻度をh12としたときの下記式で求められるδが0でないとき連鎖不平衡という。

• 疾患の原因遺伝子を探すときに連鎖不平衡解析が用いられる。(Common disease-common variant hypothesis)

8

染色体

保存された変化

DNA配列

𝛿 = 𝐶𝑜𝑣 𝐼1, 𝐼2 = 𝑝1𝑝2 − ℎ12

Page 9: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

• SNPがあることで何が変わるのか? 形質に影響する(ことがある)

• 体質に関わることがある (髪質やアルコール代謝の効率など)

• 薬剤との相性に関わることがある

• 1つのSNPで疾患に関わることがある

• 複数のSNPの組み合わせで疾患に関わることがある (Common disease-common variant hypothesis)

9

SNP(genotype)と表現型(phenotype)

Page 10: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

遺伝子検査サービス

• SNPの有無を調べる方法 DNAマイクロアレイ, シーケンシング etc.

• 「体質を調べる」ことに主眼を置いた民間による遺伝子検査サービスが複数社から提供されている (マイクロアレイの 低価格化による)

• 2016年度には2000億円 規模になる?

美容経済新聞 http://bhn.jp/news/10830 記述より

(億円)

10

Page 11: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

遺伝子検査サービスの対象SNP例

11

Page 12: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

rsID

• SNP(variant)にはIDが付けられている rs番号

▫ dbSNP等で公開されている http://www.ncbi.nlm.nih.gov/snp

12

Page 13: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

ヒトSNPオープンデータ

• ヒトゲノムを対象とした研究で一部のデータはオープン

• 国内の研究で得られたもの

▫ NBDC(National Bioscience Database Center)が整備

▫ NBDCヒトデータベース http://humandbs.biosciencedbc.jp/

13

Page 14: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

SNPオープンデータの内容

• hum0013, hum0014, hum0015の各データの中身

• hum0013 (http://humandbs.biosciencedbc.jp/hum0013-v1)

▫ 研究グループ: 日本ファーマコジェノミクスデータサイエンスコンソーアム(JPDSC)

▫ 研究代表者: 末松 浩嗣

▫ 日本PGxデータサイエンスコンソーシアムPGx研究のための 日本人健常者2994名のSNP遺伝子型データ

• hum0014 (http://humandbs.biosciencedbc.jp/hum0014-v1)

▫ 研究グループ: オーダーメイド医療の実現プログラム

▫ 研究代表者: 久保 充明

▫ 日本人における心筋梗塞関連遺伝子の特定

▫ 心筋梗塞患者1666人、対照健常者3198人

• hum0015 (http://humandbs.biosciencedbc.jp/hum0015-v1)

▫ 研究グループ: 東北メディカル・メガバンク

▫ 研究代表者: 山本 雅之

▫ ヒト全ゲノム解析に基づく高精度の住民ゲノム参照パネルの作成

▫ 東北メディカル・メガバンク機構の地域住民コホート調査に参加した 20歳以上の1070人の成人健常者

14

Page 15: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

SNPオープンデータのrsID数

• hum0013, hum0014, hum0015のrsIDの構成 ▫ dbSNP142 common SNPの番号を基準としてカウント

▫ 常染色体上のID数合計を100%

15

1 2 3 4 5 6 7 8 9 10 11 12 13 15 17 22 X

14,858,635

1,801,718

454,918

4,195,332

544

100%

Page 16: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

MYCODEのデータと合わせる

• hum0013, hum0014, hum0015 / MYCODE 544 rsIDs

16

hum0013, hum0014, hum0015 hum0013, hum0014, hum0015 ∩ MYCODE

hum0013 1,826,385

hum0014 454919

hum0015 4,195,332

314,182

379,523 1,010,443

264,736

hum0013 391

hum0014 374

hum0015 470

288

329 342

256

on dbSNP142 common on dbSNP142 common

Page 17: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

心筋梗塞患者のSNPデータで検定

• hum0014のデータからfisher.test()で抽出

• p<0.05なrsIDは 35 / 374 (遺伝子数は33), 28 / 256

17

WT Het+Hom

Case

Control

(ABO) (APOB) (ARHGAP31) (B3GNT2-TMEM17)

(BET1L) (C2CD4A-C2CD4B)

(C7orf10)

(CDKAL1) (CDKN2B-AS1) (CDKN2B;CDKN2B-AS1)

(DIO1) (DKKL1) (FTOP1-ZFP36L2)

(GC)

(GCKR) (GNL3;PBRM1;SNORD19)

(HLA-DPA1) (HLA-DQB1-MTCO3P1)

(IL2-IL21) (KLK3-KLK2) (MIR1204-MIR1205)

(MIR3925-LAP3P2)

(MRPS17P5-PTPRK)

(PDGFRA) (PHACTR1) (PLCE1) (PLXDC2-AMD1P1)

(PTCSC3-MBIP)

(REST) (RFX6) (SUSD2) (TOMM40) (UCK2)

Page 18: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

MYCODEでの心疾患関連SNP

• p<0.05なrsIDは 35 / 374 (遺伝子数は33), 28 / 256

18

(ABO) (APOB) (ARHGAP31) (B3GNT2-TMEM17)

(BET1L) (C2CD4A-C2CD4B)

(C7orf10)

(CDKAL1) (CDKN2B-AS1) (CDKN2B;CDKN2B-AS1)

(DIO1) (DKKL1) (FTOP1-ZFP36L2)

(GC)

(GCKR) (GNL3;PBRM1;SNORD19)

(HLA-DPA1) (HLA-DQB1-MTCO3P1)

(IL2-IL21) (KLK3-KLK2) (MIR1204-MIR1205)

(MIR3925-LAP3P2)

(MRPS17P5-PTPRK)

(PDGFRA) (PHACTR1) (PLCE1) (PLXDC2-AMD1P1)

(PTCSC3-MBIP)

(REST) (RFX6) (SUSD2) (TOMM40) (UCK2)

項目名 検査遺伝子 (遺伝子名)

心筋梗塞 rs11748327 (IRX1 - ADAMTS16)

心房細動 rs2634073

心不全 rs10519210 (CA12 - USP3)

冠動脈性心疾患 rs671 (ALDH2) rs944797 (CDKN2B-AS1)

拡張型心筋症 rs2234962 (BAG3)

Page 19: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

MYCODEでの心疾患関連SNP

• p<0.05なrsIDは 35 / 374 (遺伝子数は33), 28 / 256

19

(ABO) (APOB) (ARHGAP31) (B3GNT2-TMEM17)

(BET1L) (C2CD4A-C2CD4B)

(C7orf10)

(CDKAL1) (CDKN2B-AS1) (CDKN2B;CDKN2B-AS1)

(DIO1) (DKKL1) (FTOP1-ZFP36L2)

(GC)

(GCKR) (GNL3;PBRM1;SNORD19)

(HLA-DPA1) (HLA-DQB1-MTCO3P1)

(IL2-IL21) (KLK3-KLK2) (MIR1204-MIR1205)

(MIR3925-LAP3P2)

(MRPS17P5-PTPRK)

(PDGFRA) (PHACTR1) (PLCE1) (PLXDC2-AMD1P1)

(PTCSC3-MBIP)

(REST) (RFX6) (SUSD2) (TOMM40) (UCK2)

項目名 検査遺伝子 (遺伝子名)

心筋梗塞 rs11748327 (IRX1 - ADAMTS16)

心房細動 rs2634073

心不全 rs10519210 (CA12 - USP3)

冠動脈性心疾患 rs671 (ALDH2) rs944797 (CDKN2B-AS1)

拡張型心筋症 rs2234962 (BAG3)

Page 20: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

PLCE1

• MYCODEでの項目

▫ さきほどのPLCE1はrs3765524だった

• 心筋梗塞とデング熱?

20

項目名 検査遺伝子 (遺伝子名)

胃がん rs3781264 (PLCE1)

胃がん(噴門部胃がん) rs2274223 (PLCE1)

デング熱 rs3132468 (MICB) rs3765524 (PLCE1)

Page 21: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

PLCE1 x 心筋梗塞 x デング熱

• “心筋梗塞 デング熱”でググってみた なにか出てきた。(しかも最近)

21

http://medical.nikkeibp.co.jp/leaf/mem/pub/hotnews/etc/201506/542762.html

Page 22: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

PLCE1 x ネフローゼ症候群

• PLCE1はOMIMによるとネフローゼの原因遺伝子

22

http://www.omim.org/entry/608414

Page 23: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

PLCE1 x ネフローゼ症候群 x 胃癌?

• PLCE1はOMIMによるとネフローゼの原因遺伝子 (胃癌との関連についても別途項目がある)

23

http://www.omim.org/entry/608414

Page 24: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

プリオン病耐性変異

• Kuru族にあるクロイツフェルト・ヤコブ病にならない遺伝子変異をマウスで確認した ▫ M129V (rs1799990) 病原性の変異

▫ E219K (rs1800014) 日本人で見つかっている耐性変異

▫ G127V (rs267606980) Kuru族の持っている耐性変異、129Mであることが条件

24

Asante et. al., Nature 522, 478–481 (2015)

Page 25: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

プリオン病耐性変異 (dbSNP)

25

Page 26: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

プリオン変異 in MYCODE

• Kuru族にあるクロイツフェルト・ヤコブ病にならない遺伝子変異をマウスで確認した ▫ M129V (rs1799990) 病原性の変異

▫ E219K (rs1800014) 日本人で見つかっている耐性変異

▫ G127V (rs267606980) Kuru族の持っている耐性変異、129Mであることが条件

• MYCODEでは別の場所に設定されていた

26

Asante et. al., Nature 522, 478–481 (2015)

項目名 検査遺伝子 (遺伝子名)

クロイツフェルト・ヤコブ病 rs6107516 (PRNP)

Page 27: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

医療での遺伝子検査

• 一般消費者用の遺伝子検査では検査できないSNPがある 薬の副作用を調べる

遺伝性疾患の原因変異

▫ インフォームドコンセントを前提とし、遺伝カウンセリング等のサポート体制が必要

• 日本人類遺伝学会『遺伝学的検査に関するガイドライン』 http://jshg.jp/resources/index.html http://jshg.jp/resources/data/10academies.pdf

• 日本医学会「医療における遺伝学的検査・診断に関するガイドライン」の概要 http://jams.med.or.jp/guideline/genetics-diagnosis.html http://jams.med.or.jp/guideline/genetics-diagnosis.pdf

27

Page 28: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

遺伝子変異の種類

• Variantには複数種類ある

▫ 生殖細胞系列変異 (germline mutation or SNP) 遺伝病、遺伝性腫瘍、etc.

▫ 体細胞変異 (somatic mutation or variant) 癌細胞 etc.

▫ アミノ酸変異が起こらない (“silent” or “synonymous” mutation)

▫ アミノ酸変異を起こす (“missense”, “nonsense” or “non-synonymous” mutation)

28

Page 29: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

がん研究での遺伝子変異

• 癌細胞では通常では起こらない様々な遺伝子変異が起こりやすい

▫ SNV, short or long indel

▫ Amplification, Deletion

▫ Fusion

アレイまたはNGSのデータからこれらを検出し、計算を行う

29

Beerenwinkel et al.,Syst. Biol. 64(1):e1–e25, 2015

Page 30: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

がんの遺伝子変異とクローナリティ

• 癌細胞での遺伝子変異は進化と見ることもできる ▫ 体細胞変異の多様性により薬剤耐性や浸潤・転移能を獲得していく現象が起こると考えられている

主にNGSのデータから解析を行う

30

Beerenwinkel et al.,Syst. Biol. 64(1):e1–e25, 2015

Page 31: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

アミノ酸変化の影響予測

• PolyPhen-2 http://genetics.bwh.harvard.edu/pph2/

▫ アライメントスコアと、過去の知見からのNaïve bayes 分類を利用

Adzhubei et. al., Nature Methods 7(4): 248-249 (2010).

31

Page 32: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

Random Forestを使用した癌種判定

• The Pan-Cancer Analysis Project (癌種横断的な解析) ▫ Data was retrieved from the Pan-Cancer Analysis repository (synapse accession: syn1710680)

▫ Functional somatic mutations unique to tumours were identified and represented as a samples x genes mutation matrix (mutated=1, non-mutated=0)

▫ Pairwise Random Forest models were built for the 5 cancer differentiation subtypes (Adenocarcinoma, Squamous, Urotherial, Brain, Haematological)

• Urotherial(尿路系腫瘍) vs. Haematological(造血器腫瘍)の判定精度は87.8%、他の組み合わせでも平均で85%

32

http://dx.doi.org/10.6084/m9.figshare.1084404

Russel et. al. (2014)

Page 33: SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)

遺伝子変異の研究の今後

• 単純な遺伝子機能解析 ↓

多数の遺伝子変異が関係することを前提とした多ノイズのデータから疾患原因遺伝子(群)を見つけ出す解析

• 多層的オミックス解析 (Phenome x Genome x Transcriptome x Epigenom x Metabolom …?)

• Meta-analysis (Pool analysis)

• 「ビッグデータ」の解析手法が反映されていく?

33

以上

今回のデータをスプレッドシートで公開しています。 https://goo.gl/Z841On