SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
-
Upload
pinmarcht-tada -
Category
Data & Analytics
-
view
1.616 -
download
2
Transcript of SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る
Tada Satoshi TokyoWebmining #47 2015.06.27
自己紹介
• 多田 智史 ( @pinmarch_t )
• Bioinformatics 業界歴約10年 プログラマ
▫ 画像解析プログラム(非蛍光アレイ)
▫ HPLC+MALDI-TOF MS Differential解析
▫ DB構築(遺伝子カタログ, LIMS, 解析システム)
▫ NGSデータの処理と各種解析 +αでDB構築
• (大学~大学院はTgマウスの脳発生観察業)
2
Topics
• SNPとSNP解析について
• 遺伝子解析サービスのSNPと SNPのオープンデータについて
• がんの遺伝子変異解析について
3
SNP?
• SNP = Single Nucleotide Polymorphism (一塩基多型) ちなみに”スニップ”は日本のみで通用するらしい
• 塩基(A, T, G, C)で構成されるDNA配列に変化が起こる 変異(mutation)
• 世代を経るなかで固定される(生存に致命的な影響がない)
4
染色体
変化
DNA配列
SNP? Mutation? Variant?
• (Common) SNP 集団内で同じ変異が1%以上存在している
▫ 多い方 Major allele / 少ない方 Minor allele
• “SNP”ってどうなん? HGVS(Human Genome Variation Society)によると
Mutation and polymorphism
In some disciplines the term "mutation" is used to indicate "a change" while in other disciplines it is used to indicate "a disease-causing change". Similarly, the term "polymorphism" is used both to indicate "a non disease-causing change" or "a change found at a frequency of 1% or higher in the population". To prevent this confusion we do not use the terms mutation and polymorphism (including SNP or Single Nucleotide Polymorphism) but use neutral terms like "sequence variant","alteration" and "allelic variant". Human Mutation (Vol. 19 ( 1) of 2002) contains several contributions discussing these issues as well as the fact that the term"mutation" has developed a negative connotation (see Cotton RGH - p.2, Condit CM et al. - p.69 and Marshall JH - p.76).
http://www.hgvs.org/mutnomen/recs.html
5
SNP? Mutation? Variant?
• (Common) SNP 集団内で同じ変異が1%以上存在している
▫ 多い方 Major allele / 少ない方 Minor allele
• “SNP”ってどうなん? HGVS(Human Genome Variation Society)によると
Mutation and polymorphism
In some disciplines the term "mutation" is used to indicate "a change" while in other disciplines it is used to indicate "a disease-causing change". Similarly, the term "polymorphism" is used both to indicate "a non disease-causing change" or "a change found at a frequency of 1% or higher in the population". To prevent this confusion we do not use the terms mutation and polymorphism (including SNP or Single Nucleotide Polymorphism) but use neutral terms like "sequence variant","alteration" and "allelic variant". Human Mutation (Vol. 19 ( 1) of 2002) contains several contributions discussing these issues as well as the fact that the term"mutation" has developed a negative connotation (see Cotton RGH - p.2, Condit CM et al. - p.69 and Marshall JH - p.76).
http://www.hgvs.org/mutnomen/recs.html
6
Mutation 変化(change) のときもあれば 病原となる変化(disease-causing change)もある 同様に、 Polymorphism (SNP含む) 病原とならない変化(non disease-causing change)と1%以上の集団にある変化
(change found at a frequency of 1% or higher in the population)どちらにも使う ややこしいので、”(sequence/allelic) variant”や”alteration”を使いましょう。
HWE/HWP(Hardy-Weinberg Equilibrium or Principle)
• ハーディー・ワインバーグの法則 集団内でのSNP解析で基礎となる法則
自由交配である
集団が十分に大きい(理想的には無限大)
他の集団との間で異動がない
突然変異が起こらない
自然選択が働かない
このとき、(2倍体の場合)アレルAとaの頻度p, qにおいてどの世代でもp + q = 1, AA:Aa:aa = p2:2pq:q2 となる
• HWP(Hardy-Weinberg Probability or Proportion) HWEに沿っているかの適合度検定
χ二乗検定やMCMCなどを使用する Wigginton et al., Am J Hum Genet. 2005 May; 76(5): 887–893. Guo and Thompson, Biometrics. 1992 Jun;48(2): 361-372.
7
ハプロタイプ
• 遺伝の過程で複数の対立遺伝子(変異)がセットになっている(ランダム性に乏しい)組み合わせ ハプロタイプ
• 2つの対立遺伝子をI1, I2とし、それぞれの頻度をp1, p2、ハプロタイプの頻度をh12としたときの下記式で求められるδが0でないとき連鎖不平衡という。
• 疾患の原因遺伝子を探すときに連鎖不平衡解析が用いられる。(Common disease-common variant hypothesis)
8
染色体
保存された変化
DNA配列
𝛿 = 𝐶𝑜𝑣 𝐼1, 𝐼2 = 𝑝1𝑝2 − ℎ12
• SNPがあることで何が変わるのか? 形質に影響する(ことがある)
• 体質に関わることがある (髪質やアルコール代謝の効率など)
• 薬剤との相性に関わることがある
• 1つのSNPで疾患に関わることがある
• 複数のSNPの組み合わせで疾患に関わることがある (Common disease-common variant hypothesis)
9
SNP(genotype)と表現型(phenotype)
遺伝子検査サービス
• SNPの有無を調べる方法 DNAマイクロアレイ, シーケンシング etc.
• 「体質を調べる」ことに主眼を置いた民間による遺伝子検査サービスが複数社から提供されている (マイクロアレイの 低価格化による)
• 2016年度には2000億円 規模になる?
美容経済新聞 http://bhn.jp/news/10830 記述より
(億円)
10
遺伝子検査サービスの対象SNP例
11
rsID
• SNP(variant)にはIDが付けられている rs番号
▫ dbSNP等で公開されている http://www.ncbi.nlm.nih.gov/snp
12
ヒトSNPオープンデータ
• ヒトゲノムを対象とした研究で一部のデータはオープン
• 国内の研究で得られたもの
▫ NBDC(National Bioscience Database Center)が整備
▫ NBDCヒトデータベース http://humandbs.biosciencedbc.jp/
13
SNPオープンデータの内容
• hum0013, hum0014, hum0015の各データの中身
• hum0013 (http://humandbs.biosciencedbc.jp/hum0013-v1)
▫ 研究グループ: 日本ファーマコジェノミクスデータサイエンスコンソーアム(JPDSC)
▫ 研究代表者: 末松 浩嗣
▫ 日本PGxデータサイエンスコンソーシアムPGx研究のための 日本人健常者2994名のSNP遺伝子型データ
• hum0014 (http://humandbs.biosciencedbc.jp/hum0014-v1)
▫ 研究グループ: オーダーメイド医療の実現プログラム
▫ 研究代表者: 久保 充明
▫ 日本人における心筋梗塞関連遺伝子の特定
▫ 心筋梗塞患者1666人、対照健常者3198人
• hum0015 (http://humandbs.biosciencedbc.jp/hum0015-v1)
▫ 研究グループ: 東北メディカル・メガバンク
▫ 研究代表者: 山本 雅之
▫ ヒト全ゲノム解析に基づく高精度の住民ゲノム参照パネルの作成
▫ 東北メディカル・メガバンク機構の地域住民コホート調査に参加した 20歳以上の1070人の成人健常者
14
SNPオープンデータのrsID数
• hum0013, hum0014, hum0015のrsIDの構成 ▫ dbSNP142 common SNPの番号を基準としてカウント
▫ 常染色体上のID数合計を100%
15
1 2 3 4 5 6 7 8 9 10 11 12 13 15 17 22 X
14,858,635
1,801,718
454,918
4,195,332
544
100%
MYCODEのデータと合わせる
• hum0013, hum0014, hum0015 / MYCODE 544 rsIDs
16
hum0013, hum0014, hum0015 hum0013, hum0014, hum0015 ∩ MYCODE
hum0013 1,826,385
hum0014 454919
hum0015 4,195,332
314,182
379,523 1,010,443
264,736
hum0013 391
hum0014 374
hum0015 470
288
329 342
256
on dbSNP142 common on dbSNP142 common
心筋梗塞患者のSNPデータで検定
• hum0014のデータからfisher.test()で抽出
• p<0.05なrsIDは 35 / 374 (遺伝子数は33), 28 / 256
17
WT Het+Hom
Case
Control
(ABO) (APOB) (ARHGAP31) (B3GNT2-TMEM17)
(BET1L) (C2CD4A-C2CD4B)
(C7orf10)
(CDKAL1) (CDKN2B-AS1) (CDKN2B;CDKN2B-AS1)
(DIO1) (DKKL1) (FTOP1-ZFP36L2)
(GC)
(GCKR) (GNL3;PBRM1;SNORD19)
(HLA-DPA1) (HLA-DQB1-MTCO3P1)
(IL2-IL21) (KLK3-KLK2) (MIR1204-MIR1205)
(MIR3925-LAP3P2)
(MRPS17P5-PTPRK)
(PDGFRA) (PHACTR1) (PLCE1) (PLXDC2-AMD1P1)
(PTCSC3-MBIP)
(REST) (RFX6) (SUSD2) (TOMM40) (UCK2)
MYCODEでの心疾患関連SNP
• p<0.05なrsIDは 35 / 374 (遺伝子数は33), 28 / 256
18
(ABO) (APOB) (ARHGAP31) (B3GNT2-TMEM17)
(BET1L) (C2CD4A-C2CD4B)
(C7orf10)
(CDKAL1) (CDKN2B-AS1) (CDKN2B;CDKN2B-AS1)
(DIO1) (DKKL1) (FTOP1-ZFP36L2)
(GC)
(GCKR) (GNL3;PBRM1;SNORD19)
(HLA-DPA1) (HLA-DQB1-MTCO3P1)
(IL2-IL21) (KLK3-KLK2) (MIR1204-MIR1205)
(MIR3925-LAP3P2)
(MRPS17P5-PTPRK)
(PDGFRA) (PHACTR1) (PLCE1) (PLXDC2-AMD1P1)
(PTCSC3-MBIP)
(REST) (RFX6) (SUSD2) (TOMM40) (UCK2)
項目名 検査遺伝子 (遺伝子名)
心筋梗塞 rs11748327 (IRX1 - ADAMTS16)
心房細動 rs2634073
心不全 rs10519210 (CA12 - USP3)
冠動脈性心疾患 rs671 (ALDH2) rs944797 (CDKN2B-AS1)
拡張型心筋症 rs2234962 (BAG3)
MYCODEでの心疾患関連SNP
• p<0.05なrsIDは 35 / 374 (遺伝子数は33), 28 / 256
19
(ABO) (APOB) (ARHGAP31) (B3GNT2-TMEM17)
(BET1L) (C2CD4A-C2CD4B)
(C7orf10)
(CDKAL1) (CDKN2B-AS1) (CDKN2B;CDKN2B-AS1)
(DIO1) (DKKL1) (FTOP1-ZFP36L2)
(GC)
(GCKR) (GNL3;PBRM1;SNORD19)
(HLA-DPA1) (HLA-DQB1-MTCO3P1)
(IL2-IL21) (KLK3-KLK2) (MIR1204-MIR1205)
(MIR3925-LAP3P2)
(MRPS17P5-PTPRK)
(PDGFRA) (PHACTR1) (PLCE1) (PLXDC2-AMD1P1)
(PTCSC3-MBIP)
(REST) (RFX6) (SUSD2) (TOMM40) (UCK2)
項目名 検査遺伝子 (遺伝子名)
心筋梗塞 rs11748327 (IRX1 - ADAMTS16)
心房細動 rs2634073
心不全 rs10519210 (CA12 - USP3)
冠動脈性心疾患 rs671 (ALDH2) rs944797 (CDKN2B-AS1)
拡張型心筋症 rs2234962 (BAG3)
PLCE1
• MYCODEでの項目
▫ さきほどのPLCE1はrs3765524だった
• 心筋梗塞とデング熱?
20
項目名 検査遺伝子 (遺伝子名)
胃がん rs3781264 (PLCE1)
胃がん(噴門部胃がん) rs2274223 (PLCE1)
デング熱 rs3132468 (MICB) rs3765524 (PLCE1)
PLCE1 x 心筋梗塞 x デング熱
• “心筋梗塞 デング熱”でググってみた なにか出てきた。(しかも最近)
21
http://medical.nikkeibp.co.jp/leaf/mem/pub/hotnews/etc/201506/542762.html
PLCE1 x ネフローゼ症候群
• PLCE1はOMIMによるとネフローゼの原因遺伝子
22
http://www.omim.org/entry/608414
PLCE1 x ネフローゼ症候群 x 胃癌?
• PLCE1はOMIMによるとネフローゼの原因遺伝子 (胃癌との関連についても別途項目がある)
23
http://www.omim.org/entry/608414
プリオン病耐性変異
• Kuru族にあるクロイツフェルト・ヤコブ病にならない遺伝子変異をマウスで確認した ▫ M129V (rs1799990) 病原性の変異
▫ E219K (rs1800014) 日本人で見つかっている耐性変異
▫ G127V (rs267606980) Kuru族の持っている耐性変異、129Mであることが条件
24
Asante et. al., Nature 522, 478–481 (2015)
プリオン病耐性変異 (dbSNP)
25
プリオン変異 in MYCODE
• Kuru族にあるクロイツフェルト・ヤコブ病にならない遺伝子変異をマウスで確認した ▫ M129V (rs1799990) 病原性の変異
▫ E219K (rs1800014) 日本人で見つかっている耐性変異
▫ G127V (rs267606980) Kuru族の持っている耐性変異、129Mであることが条件
• MYCODEでは別の場所に設定されていた
26
Asante et. al., Nature 522, 478–481 (2015)
項目名 検査遺伝子 (遺伝子名)
クロイツフェルト・ヤコブ病 rs6107516 (PRNP)
医療での遺伝子検査
• 一般消費者用の遺伝子検査では検査できないSNPがある 薬の副作用を調べる
遺伝性疾患の原因変異
▫ インフォームドコンセントを前提とし、遺伝カウンセリング等のサポート体制が必要
• 日本人類遺伝学会『遺伝学的検査に関するガイドライン』 http://jshg.jp/resources/index.html http://jshg.jp/resources/data/10academies.pdf
• 日本医学会「医療における遺伝学的検査・診断に関するガイドライン」の概要 http://jams.med.or.jp/guideline/genetics-diagnosis.html http://jams.med.or.jp/guideline/genetics-diagnosis.pdf
27
遺伝子変異の種類
• Variantには複数種類ある
▫ 生殖細胞系列変異 (germline mutation or SNP) 遺伝病、遺伝性腫瘍、etc.
▫ 体細胞変異 (somatic mutation or variant) 癌細胞 etc.
▫ アミノ酸変異が起こらない (“silent” or “synonymous” mutation)
▫ アミノ酸変異を起こす (“missense”, “nonsense” or “non-synonymous” mutation)
28
がん研究での遺伝子変異
• 癌細胞では通常では起こらない様々な遺伝子変異が起こりやすい
▫ SNV, short or long indel
▫ Amplification, Deletion
▫ Fusion
アレイまたはNGSのデータからこれらを検出し、計算を行う
29
Beerenwinkel et al.,Syst. Biol. 64(1):e1–e25, 2015
がんの遺伝子変異とクローナリティ
• 癌細胞での遺伝子変異は進化と見ることもできる ▫ 体細胞変異の多様性により薬剤耐性や浸潤・転移能を獲得していく現象が起こると考えられている
主にNGSのデータから解析を行う
30
Beerenwinkel et al.,Syst. Biol. 64(1):e1–e25, 2015
アミノ酸変化の影響予測
• PolyPhen-2 http://genetics.bwh.harvard.edu/pph2/
▫ アライメントスコアと、過去の知見からのNaïve bayes 分類を利用
Adzhubei et. al., Nature Methods 7(4): 248-249 (2010).
31
Random Forestを使用した癌種判定
• The Pan-Cancer Analysis Project (癌種横断的な解析) ▫ Data was retrieved from the Pan-Cancer Analysis repository (synapse accession: syn1710680)
▫ Functional somatic mutations unique to tumours were identified and represented as a samples x genes mutation matrix (mutated=1, non-mutated=0)
▫ Pairwise Random Forest models were built for the 5 cancer differentiation subtypes (Adenocarcinoma, Squamous, Urotherial, Brain, Haematological)
• Urotherial(尿路系腫瘍) vs. Haematological(造血器腫瘍)の判定精度は87.8%、他の組み合わせでも平均で85%
32
http://dx.doi.org/10.6084/m9.figshare.1084404
Russel et. al. (2014)
遺伝子変異の研究の今後
• 単純な遺伝子機能解析 ↓
多数の遺伝子変異が関係することを前提とした多ノイズのデータから疾患原因遺伝子(群)を見つけ出す解析
• 多層的オミックス解析 (Phenome x Genome x Transcriptome x Epigenom x Metabolom …?)
• Meta-analysis (Pool analysis)
• 「ビッグデータ」の解析手法が反映されていく?
33
以上
今回のデータをスプレッドシートで公開しています。 https://goo.gl/Z841On