Hiromi arai jsbi personalgenome

of 48 /48
1 パパパパパパパパパ パパパパパパパパ パパパパパパパパパパ 2014/10/3 パパパパパパパパパパパパ パパパパパパ パパパパパ パパパパパパパパパパパパパパパパパパパパパパパパパパパ パパパパパ @ IIBMP2014

Transcript of Hiromi arai jsbi personalgenome

Page 1: Hiromi arai jsbi personalgenome

1

パーソナルゲノムとプライバシー保護データマイニング技術

2014/10/3東京大学情報基盤センター

理化学研究所 荒井ひろみ

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014

Page 2: Hiromi arai jsbi personalgenome

Agenda

• パーソナルゲノムのプライバシ• パーソナルゲノム情報利用におけるプラ

イベート情報漏洩• プライバシ保護技術とゲノムプライバシ

保護の試み• プライバシ保護技術の普及,利用に向け

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 2

Page 3: Hiromi arai jsbi personalgenome

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 3

パーソナルゲノムのプライバシ

Page 4: Hiromi arai jsbi personalgenome

What is genomic privacy?

ゲノムには個人を識別する情報や個人のsensitive 情報がエンコードされている

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 4

Sensitive 情報遺伝病因子疾患リスク人種家系さまざまな形

(Quasi-)Identifiers社会的な情報と結びつく情報

目や髪の色等の形質

人種

ゲノム自身の多様性

個人linkablelinkable

Page 5: Hiromi arai jsbi personalgenome

ゲノムのプライバシ保護の難しさ

識別子と sensitive information と利用したい情報を同時に含む

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 5

潜在的なリスクが存在血縁者間で共有されている

Pattern of personal SNPs

Personal SNP DBとの照合 ゲノム検査

例: SNPs による疾患リスク評価 / 個人照合

Page 6: Hiromi arai jsbi personalgenome

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 6

パーソナルゲノム情報利用におけるプライベート情報漏洩

Page 7: Hiromi arai jsbi personalgenome

パーソナルゲノムの共有

For research, business, social networking, …

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 7

データの共同分析

データベース問い合わせ型情報開示データ共有とアクセスコントロール

解析結果

匿名化テーブル / 統計量等の開示

Page 8: Hiromi arai jsbi personalgenome

典型的なデータ共有• 個人データの共有

– 匿名化医療データの共有など• 統計データ等の2次情報の開示

– 研究論文や成果公表 DB• 複数のデータを入力とするデータ分析

– 病院と研究機関が連携したデータ解析– データベース問い合わせ (DB と質問者 )– ゲノム情報を用いた遺伝子診断 ( ゲノム情報

所有者と医師 )

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 8

Page 9: Hiromi arai jsbi personalgenome

情報開示 / 共有における漏洩

情報を得た人がプライベート情報を推定

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 9

成果公開genome DB

・・・・

問い合わせ

統計処理等

DB responses

元データの個人ゲノム情報を推定

Page 10: Hiromi arai jsbi personalgenome

例 : 研究論文からの推定

GWAS の成果からターゲット人物のゲノムが GWAS に用いられたかを推定 [Homer 06]

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 10

統計処理を行ったデータから個人情報が漏れないとは限らない!

GWAS study 成果公開

Case に含まれるか?

Page 11: Hiromi arai jsbi personalgenome

例 : 開示情報からの推定Jim Watson のゲノムを当時知られていた Alzheimer リスク因子APOE 部分を削除し公開

周辺の SNPs と APOE のリスクSNP の連鎖 (r2>0.6) が発見Alzheimer リスクを評価 [Nyholt 09]

公開データの周辺領域を削除

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 11

APOE

APOE

周辺領域と連鎖

APOE

周辺領域からAPOEを推定

APOE部分は非公開

Page 12: Hiromi arai jsbi personalgenome

例 : 類似検索からの推定類似検索クエリの複数問い合わせにおいて類似度の情報のみから元の配列が推定される可能性 [Goodrich 09]

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 12

Bob : quererQueries {Vi}

Alice : DBgenetic string Q V1, V2, …

Similarity scoresBetween Q and V1, V2, …

差分から Q を推定

Page 13: Hiromi arai jsbi personalgenome

例 : 外部情報を利用した攻撃

Surname inference from Y-chromosome  [Gymrek 2013]

Y 染色体は父から息子に必ず継承される    おおよそ姓と同じように継承➡

される

家系 -haplotype の関連データから, haplotype から祖先を推定する方法を構築

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 13

Page 14: Hiromi arai jsbi personalgenome

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 14

マーカーが合致する姓を検索

Dr,Yaniv Erlich の講演より

Page 15: Hiromi arai jsbi personalgenome

SNS 等による情報収集.公開• phenotype つきの家系図を

SNS ( Geni.com )と Y-STR などの情報から作成 (ASGH2013)

• OpenSNP  などの公開レポジトリ• Exogen などのデータ収集企業• 23andMe, Sophia genetics などのゲノム検

査サービス➡実名と結びついたゲノムや家系情報の収集が進行,今後利用されうる

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 15

Page 16: Hiromi arai jsbi personalgenome

一般人参加型ゲノムプロジェクト

Exogen:DNA の損傷度合いのデータを収集

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 16

Page 17: Hiromi arai jsbi personalgenome

その他のプライバシリスク• システム利用者による漏洩

– PGP の DB にユーザーが up した圧縮ファイルにうっかり identifier が入っていた(現在は警告済)

• DB の ID のランダム化に失敗– 公開マイクロデータに振られた疑似 ID が元

の DB の特徴を保持 [Kaufman 2011]• ゲノム以外の分子生物学的個人情報

– Expression から SNP を推定 [Shadt 2012]

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 17

Page 18: Hiromi arai jsbi personalgenome

攻撃の大まかな分類

プライバシ保護が不十分なデータを攻撃単純匿名化,統計値など

ゲノム情報の特徴を利用連鎖不均衡

外部情報の利用遺伝と家系図

高度な推定一見難解な問題を解くアルゴリズム

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 18

Page 19: Hiromi arai jsbi personalgenome

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 19

プライバシ保護技術とゲノム情報保護の試み

Page 20: Hiromi arai jsbi personalgenome

プライバシ保護データマイニング

Output Privacy

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 20

raw data mining process raw output sanitized output

Inference attack

ある基準以上の攻撃は不可能にしたい

raw datamining process output

data owners

MultiPartyComputation

Data を開示せずに目的の演算結果を得たい

Page 21: Hiromi arai jsbi personalgenome

プライバシを守るには?

ある能力の攻撃者を想定し,攻撃者に対しある基準で情報が守られると保証する

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 21

いくつかのケースでプライバシ保護を検討する

APOE

周辺との連鎖を知っている

ゲノムの知識は全くない...

Page 22: Hiromi arai jsbi personalgenome

匿名化は安全か?

単純匿名化氏名などの明示的識別情報 (identiier) の削除

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 22

raw data sanitized datadata owner

<private> <public>

Inference attack名前を消したから OK!!

Page 23: Hiromi arai jsbi personalgenome

単純匿名化は安全ではない

Link attack [Sweeny02]単純匿名医療デー

タと選挙の投票者名をつきあわせるとある個人の医療記録が一意に特定 

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 23

高梨さん心臓病だ..

Page 24: Hiromi arai jsbi personalgenome

Quasi-identifiers

複数の組み合わせでidentifier となる情報

SAFE HARBOR では,匿名化は,法によって決められている 18の個人認識項目(名前、住所、出生日などの(quasi-)identifier )の除去が欲求されている

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 24

quasi-identifier

Page 25: Hiromi arai jsbi personalgenome

高度匿名化

K 匿名化ー同じ quasi-identifier を持つレコードが k 個以上存在するようにレコードを一般化 / 削除

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 25quasi-identifier

削除 抽象化

3匿名

4匿名

3匿名

Page 26: Hiromi arai jsbi personalgenome

K 匿名化の限界背景知識を用いた攻撃 ゲノムの場合は LD 等Sensitive 情報への推測攻撃 対策は l 多様性など

レコードの情報が落ちてしまう

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 26

削除 抽象化

3匿名

4匿名

3匿名

女性は胃潰瘍になりにくいと知られているとする

と,2匿名に近い

結局 40代関東の人は糖尿業だとばれてしまう

Page 27: Hiromi arai jsbi personalgenome

二次情報のプライバシ

集約情報も外部情報や複数回のデータ開示によって情報が漏洩する可能性

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 27

顧客 Item A

Item B

Item C

A 1 0 1 …

B 0 1 1 …

20代の購入する商品は?

顧客 a b c

Group 20 42 3 89Group 20 w/o B 41 3 88

20代女性の購入する商品は?

20代男性は Bさんだけだから Bさんは aと cを買ったんだな...

統計量を開示

ある集団についての問い合わせ

Page 28: Hiromi arai jsbi personalgenome

二次情報のプライバシ保護 (1)

適当にノイズをのせる➡安全性を保証できない

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 28

差分プライバシ [Dwork 06] の導入レコードが 1 つ異なるあらゆる 2対のデータベースの応答がほとんど区別がつかないようなノイズをのせる

w/ Alice

w/oAlice

似たような応答

Page 29: Hiromi arai jsbi personalgenome

差分プライバシを実現するには

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 29

1レコード異なる 2 つの DB の出力 f(x) の最大の差をsensitivity Δf  とし,下記のノイズをのせると ε- 差分プライバシが達成される

(一般には exponential mechanism[Mcsherry 07] で実現 )

at most   times

f(x)=100 の 場合の DB出力の確率分布

f(x)=101  の場合

D (w/ Alice) D’ (w/o Alice)

ノイズの確率分布例、 Δf=1, ε=ln2の場合

Page 30: Hiromi arai jsbi personalgenome

二次情報のプライバシ保護 (2)

二次情報開示のリスク評価クエリ監査 [Nabar 08]

– クエリ応答(=ある出版タスク)の内容を監査,秘密情報を高い確率で推測できる応答をするクエリを評価,拒否

–拒否から情報が漏洩することも

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 30

Decide respond or refuse

queries

顧客 a b c

w/ Yoko 42 3 89

20代女性の購入する洗剤は?

さっき 20代の購入する洗剤を答えたから拒否

Page 31: Hiromi arai jsbi personalgenome

二次情報のプライバシ保護の課題

プライバシ保護とユーティリティーのトレードオフ

差分プライバシ等:データにノイズがのるクエリ監査:開示情報が限定される

データを再利用する度プライバシ保護が難しくなることに注意

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 31

Page 32: Hiromi arai jsbi personalgenome

Multi Party Computation (MPC)データを持つ複数の参加者が,自分のデータを秘匿したままそれらを入力とするある関数の値だけ得ることができるようなプロトコル

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 32

Alice Bob

MPC

xAxB

yAyB

xA,xB を入力としf(xA,xB)=(yA,yB) を出力とする MPC

何らかのデータ利用の際に共有する情報を減らせる!

Page 33: Hiromi arai jsbi personalgenome

MPC のアプローチ (1)

暗号プロトコル目的のデータ処理タスクに応じて暗号文の操作,やり取りのみで演算を達成するプロトコルの作成

ビルディングブロック :準同型性公開鍵暗号等

加法または乗法について準同型(暗号文のまま平文の加算や乗算が可能)

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 33

Page 34: Hiromi arai jsbi personalgenome

MPC のアプローチ (2)

秘密分散法秘密分散法のアプローチ:データを複数個

に分割し,それぞれを異なるパーティーに渡す(分散)ことで秘密にする

分散データを用いて基礎的な演算及びその組み合わせを可能にする

– (n,k)-閾値法  n 個のデータを分散,そのうち k 個以上集めると復元可能

– 実現可能な演算:足し算,掛け算など

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 34

Page 35: Hiromi arai jsbi personalgenome

例:プライバシ保護遺伝子検査

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 35

秘密鍵を持っていないので盗聴しても何もわからな

い...

秘密計算で遺伝子検査 暗号化

検査結果 検査結果

秘密鍵公開鍵

暗号化

復号

遺伝子検査アルゴリズム

ユーザー

暗号文のままの加算が可能 例 :  paillier暗号の場合

“5”の暗号文 “3”の暗号文*

→ “8”の暗号文

GenoDroid[De Cristofaro 2012]など

Page 36: Hiromi arai jsbi personalgenome

例:プライバシ保護化合物 DB 検索

検索者の問い合わせ内容および化合物 DB の中身を秘匿したマッチングを可能に

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 36

化合物の検索サーバー

研究者 クエリー

送信a80511deab252354c1f04cc1d1a194

・・・

b96c0546a202207f5c834d44de7ad1

暗号化状態の検索結果を受信後,復号化

暗号化

送信

暗号文の状態で類似検

詳しくは... 荒井ら 検索行動におけるプライバシ保護 第 26回人工知能学会全国大会 縫田ら 加法準同型暗号を用いた化合物データベースの秘匿検索プロトコル コンピュータセキュリティシンポジウム 2012 (CSS2012) など

Page 37: Hiromi arai jsbi personalgenome

例:秘匿 GWAS

秘密分散ベースのフレームワーク sharemindを用い GWAS タスクの一部を実現   [Kamm 2013] 等

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 37

ゲノム DB

秘密分散ゲノム DB(1)

秘密分散ゲノム DB( 5)

無情報な乱数に暗号化

秘密分散ゲノム DB(2)

秘密計算

分析アルゴリズムをリクエスト)

分析結果だけ返します

ゲノム DB複数の DBが参加できる

Page 38: Hiromi arai jsbi personalgenome

MPC の課題

計算コストが高くなりがち暗号化による計算時間やデータ量の増

大可能な演算が制限出力プライバシは保証していない

ゲノム情報の分析に使うには?➡ 暗号部分の演算を少なく /単純に

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 38

Page 39: Hiromi arai jsbi personalgenome

プライバシ保護の利点

プライバシ保護技術を使うと情報漏洩リスクが低下する同意, SAFE HARBOR などの協定のためには プライバシ保護が有利 / 必要

➡利用できる情報が増えると期待

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 39

Page 40: Hiromi arai jsbi personalgenome

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 40

プライバシ保護技術の普及、利用に向けて

Page 41: Hiromi arai jsbi personalgenome

ゲノム情報利用の難しさ

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 41

個人研究機関 /事業者

個人データ

二次情報分析

公共

公開

ゲノム情報医療情報健康情報

ゲノム検査結果等

匿名データ加工

研究者(事業者?)

守秘義務開示

利用申請

知りたくないかもしれない 医療に関する

遺伝情報遺伝情報に基づいた診断

医療機関

個人データの推定を防ぎたい(何を防ぎたい?)

推定攻撃を補助する外部知識:

SNS 等から収集した 個人情報

二次情報の開示にリスク

Page 42: Hiromi arai jsbi personalgenome

プライバシ保護における課題

総てのリスクをなくすことは不可能 (特にデータの相関を考えた場合 ) .データ利用とのトレードオフをどう取るか?そのためにユーザーに教育を行うのはどうか?(KDD2014 Panel “Does Social Good Justify Risking Personal Privacy?”)法律,倫理,技術等多様な分野の各国の研究者が話し合って行く必要がある(GenoPri2014 Panel)

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 42

Page 43: Hiromi arai jsbi personalgenome

ゲノム情報利用における課題

ゲノム情報利用におけるリスクの認識システム設計 / プライバシ保護 / 同意 に必

要日々強くなる攻撃者にどう対応する?

情報共有時のプライバシ保護方法の確立利用者の納得するユーティリティとプライ

バシ保護のトレードオフを達成できるか標準化などの制度整備

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 43

Page 44: Hiromi arai jsbi personalgenome

技術普及への取り組み欧米を中心とした研究活動

セキュリティ,生命情報,医療情報,倫理学術分野の盛り上がり

AAAS2014 にて匿名化,プライバシのセッションGenoPri2014 (workshop w/ PETS2014)KDD2015

system design の提案iDASH(UCSD)

いくつかの記事 / コンセプトペーパーデータの有用性を考えれば保護は不要? [Angrist 2013]何らかのプライバシ保護の工夫が必要 / 有用.秘密計算や  差分プライバシなどの活用の提言         [Greenbaum   2011,Erlich 2013]

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 44

Page 45: Hiromi arai jsbi personalgenome

おわりに

ゲノム情報の利用,共有にはプライバシ漏洩のリスクが存在する

プライバシ保護技術利用によりリスクを減らすことができる

ゲノムデータを用いた学術,ビジネスが競争力を持つためのアシストとなるよう期待

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 45

Page 46: Hiromi arai jsbi personalgenome

参考文献[Angrist2013] Misha Angrist. Genetic privacy needs a more nuanced approach. Nature, 494:7,2013.[De Cristofaro et al.2012] Emiliano De Cristofaro, Sky Faber, Paolo Gasti, and Gene Tsudik. Genodroid: are privacy-preserving genomic tests ready for prime time? In Proceedings of the 2012 ACM workshop on Privacy in the electronic society, pages 97–108. ACM, 2012.[Dwork et al.2006] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. Theory of Cryptography, pages 265–284, 2006.[Erlich and Narayanan2013] Yaniv Erlich and Arvind Narayanan. Routes for breaching and protecting genetic privacy. arXiv preprint arXiv:1310.3197, 2013.[Greenbaum et al.2011] Dov Greenbaum, Andrea Sboner, Xinmeng Jasmine Mu, and Mark Gerstein. Genomics and privacy: implications of the new reality of closed data for the field. PLoS computational biology, 7(12), 2011.

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 46

Page 47: Hiromi arai jsbi personalgenome

参考文献[Gymrek et al.2013] Melissa Gymrek, Amy L McGuire, David Golan, Eran Halperin, and Yaniv Erlich. Identifying personal genomes by surname inference. Science, 339(6117):321–324, 2013.[Homer et al.2008] Nils Homer, Szabolcs Szelinger, Margot Redman, David Duggan, Waibhav Tembe, Jill Muehling, John V Pearson, Dietrich A Stephan, Stanley F Nelson, and David W Craig. Resolving individuals contributing trace amounts of dna to highly complex mixtures using high-density snp genotyping microarrays. PLoS genetics, 4(8):e1000167, 2008.[Kamm et al.2013] Liina Kamm, Dan Bogdanov, Sven Laur, and Jaak Vilo. A new way to protect privacy in large-scale genome-wide association studies. Bioinformatics, 29(7):886–893, 2013.[Nabar et al.2008] S.U. Nabar, K. Kenthapadi, N. Mishra, and R. Motwani. A survey of query auditing techniques for data privacy. Privacy-Preserving Data Mining, pages 415–431, 2008.

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 47

Page 48: Hiromi arai jsbi personalgenome

参考文献[Goodlich 2009] Goodrich, M.T., The Mastermind Attack on Genomic Data, Security and Privacy, 2009 30th IEEE Symposium on , vol., no., pp.204,218, 17-20 May 2009[Nyholt et al.2009] DR Nyholt, CE Yu, and PM Visscher. On jim watson’s apoe status: genetic information is hard to hide. European journal of human genetics: EJHG, 17(2):147–149, 2009.[Schadt et al.2012] Eric E Schadt, Sangsoon Woo, and Ke Hao. Bayesian method to predict individual snp genotypes from gene expression data. Nature genetics, 44(5):603–608, 2012.[Sweeney2002] L. Sweeney. Achieving k-anonymity privacy protection using generalization and suppression. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 10(5):571–588, 2002.

パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ  @ IIBMP2014 48