1
パーソナルゲノムとプライバシー保護データマイニング技術
2014/10/3東京大学情報基盤センター
理化学研究所 荒井ひろみ
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014
Agenda
• パーソナルゲノムのプライバシ• パーソナルゲノム情報利用におけるプラ
イベート情報漏洩• プライバシ保護技術とゲノムプライバシ
保護の試み• プライバシ保護技術の普及,利用に向け
て
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 2
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 3
パーソナルゲノムのプライバシ
What is genomic privacy?
ゲノムには個人を識別する情報や個人のsensitive 情報がエンコードされている
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 4
Sensitive 情報遺伝病因子疾患リスク人種家系さまざまな形
質
(Quasi-)Identifiers社会的な情報と結びつく情報
目や髪の色等の形質
人種
ゲノム自身の多様性
個人linkablelinkable
ゲノムのプライバシ保護の難しさ
識別子と sensitive information と利用したい情報を同時に含む
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 5
潜在的なリスクが存在血縁者間で共有されている
Pattern of personal SNPs
Personal SNP DBとの照合 ゲノム検査
例: SNPs による疾患リスク評価 / 個人照合
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 6
パーソナルゲノム情報利用におけるプライベート情報漏洩
パーソナルゲノムの共有
For research, business, social networking, …
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 7
データの共同分析
データベース問い合わせ型情報開示データ共有とアクセスコントロール
解析結果
匿名化テーブル / 統計量等の開示
典型的なデータ共有• 個人データの共有
– 匿名化医療データの共有など• 統計データ等の2次情報の開示
– 研究論文や成果公表 DB• 複数のデータを入力とするデータ分析
– 病院と研究機関が連携したデータ解析– データベース問い合わせ (DB と質問者 )– ゲノム情報を用いた遺伝子診断 ( ゲノム情報
所有者と医師 )
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 8
情報開示 / 共有における漏洩
情報を得た人がプライベート情報を推定
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 9
成果公開genome DB
・・・・
問い合わせ
統計処理等
DB responses
元データの個人ゲノム情報を推定
例 : 研究論文からの推定
GWAS の成果からターゲット人物のゲノムが GWAS に用いられたかを推定 [Homer 06]
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 10
統計処理を行ったデータから個人情報が漏れないとは限らない!
GWAS study 成果公開
Case に含まれるか?
例 : 開示情報からの推定Jim Watson のゲノムを当時知られていた Alzheimer リスク因子APOE 部分を削除し公開
周辺の SNPs と APOE のリスクSNP の連鎖 (r2>0.6) が発見Alzheimer リスクを評価 [Nyholt 09]
公開データの周辺領域を削除
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 11
APOE
APOE
周辺領域と連鎖
APOE
周辺領域からAPOEを推定
APOE部分は非公開
例 : 類似検索からの推定類似検索クエリの複数問い合わせにおいて類似度の情報のみから元の配列が推定される可能性 [Goodrich 09]
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 12
Bob : quererQueries {Vi}
Alice : DBgenetic string Q V1, V2, …
Similarity scoresBetween Q and V1, V2, …
差分から Q を推定
例 : 外部情報を利用した攻撃
Surname inference from Y-chromosome [Gymrek 2013]
Y 染色体は父から息子に必ず継承される おおよそ姓と同じように継承➡
される
家系 -haplotype の関連データから, haplotype から祖先を推定する方法を構築
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 13
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 14
マーカーが合致する姓を検索
Dr,Yaniv Erlich の講演より
SNS 等による情報収集.公開• phenotype つきの家系図を
SNS ( Geni.com )と Y-STR などの情報から作成 (ASGH2013)
• OpenSNP などの公開レポジトリ• Exogen などのデータ収集企業• 23andMe, Sophia genetics などのゲノム検
査サービス➡実名と結びついたゲノムや家系情報の収集が進行,今後利用されうる
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 15
一般人参加型ゲノムプロジェクト
Exogen:DNA の損傷度合いのデータを収集
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 16
その他のプライバシリスク• システム利用者による漏洩
– PGP の DB にユーザーが up した圧縮ファイルにうっかり identifier が入っていた(現在は警告済)
• DB の ID のランダム化に失敗– 公開マイクロデータに振られた疑似 ID が元
の DB の特徴を保持 [Kaufman 2011]• ゲノム以外の分子生物学的個人情報
– Expression から SNP を推定 [Shadt 2012]
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 17
攻撃の大まかな分類
プライバシ保護が不十分なデータを攻撃単純匿名化,統計値など
ゲノム情報の特徴を利用連鎖不均衡
外部情報の利用遺伝と家系図
高度な推定一見難解な問題を解くアルゴリズム
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 18
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 19
プライバシ保護技術とゲノム情報保護の試み
プライバシ保護データマイニング
Output Privacy
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 20
raw data mining process raw output sanitized output
Inference attack
ある基準以上の攻撃は不可能にしたい
raw datamining process output
data owners
MultiPartyComputation
Data を開示せずに目的の演算結果を得たい
プライバシを守るには?
ある能力の攻撃者を想定し,攻撃者に対しある基準で情報が守られると保証する
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 21
いくつかのケースでプライバシ保護を検討する
APOE
周辺との連鎖を知っている
ゲノムの知識は全くない...
匿名化は安全か?
単純匿名化氏名などの明示的識別情報 (identiier) の削除
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 22
raw data sanitized datadata owner
<private> <public>
Inference attack名前を消したから OK!!
単純匿名化は安全ではない
Link attack [Sweeny02]単純匿名医療デー
タと選挙の投票者名をつきあわせるとある個人の医療記録が一意に特定
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 23
高梨さん心臓病だ..
Quasi-identifiers
複数の組み合わせでidentifier となる情報
SAFE HARBOR では,匿名化は,法によって決められている 18の個人認識項目(名前、住所、出生日などの(quasi-)identifier )の除去が欲求されている
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 24
quasi-identifier
高度匿名化
K 匿名化ー同じ quasi-identifier を持つレコードが k 個以上存在するようにレコードを一般化 / 削除
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 25quasi-identifier
削除 抽象化
3匿名
4匿名
3匿名
K 匿名化の限界背景知識を用いた攻撃 ゲノムの場合は LD 等Sensitive 情報への推測攻撃 対策は l 多様性など
レコードの情報が落ちてしまう
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 26
削除 抽象化
3匿名
4匿名
3匿名
女性は胃潰瘍になりにくいと知られているとする
と,2匿名に近い
結局 40代関東の人は糖尿業だとばれてしまう
二次情報のプライバシ
集約情報も外部情報や複数回のデータ開示によって情報が漏洩する可能性
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 27
顧客 Item A
Item B
Item C
…
A 1 0 1 …
B 0 1 1 …
…
20代の購入する商品は?
顧客 a b c
Group 20 42 3 89Group 20 w/o B 41 3 88
20代女性の購入する商品は?
20代男性は Bさんだけだから Bさんは aと cを買ったんだな...
統計量を開示
ある集団についての問い合わせ
二次情報のプライバシ保護 (1)
適当にノイズをのせる➡安全性を保証できない
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 28
差分プライバシ [Dwork 06] の導入レコードが 1 つ異なるあらゆる 2対のデータベースの応答がほとんど区別がつかないようなノイズをのせる
w/ Alice
w/oAlice
似たような応答
差分プライバシを実現するには
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 29
1レコード異なる 2 つの DB の出力 f(x) の最大の差をsensitivity Δf とし,下記のノイズをのせると ε- 差分プライバシが達成される
(一般には exponential mechanism[Mcsherry 07] で実現 )
at most times
f(x)=100 の 場合の DB出力の確率分布
f(x)=101 の場合
D (w/ Alice) D’ (w/o Alice)
ノイズの確率分布例、 Δf=1, ε=ln2の場合
二次情報のプライバシ保護 (2)
二次情報開示のリスク評価クエリ監査 [Nabar 08]
– クエリ応答(=ある出版タスク)の内容を監査,秘密情報を高い確率で推測できる応答をするクエリを評価,拒否
–拒否から情報が漏洩することも
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 30
Decide respond or refuse
queries
顧客 a b c
w/ Yoko 42 3 89
20代女性の購入する洗剤は?
さっき 20代の購入する洗剤を答えたから拒否
二次情報のプライバシ保護の課題
プライバシ保護とユーティリティーのトレードオフ
差分プライバシ等:データにノイズがのるクエリ監査:開示情報が限定される
データを再利用する度プライバシ保護が難しくなることに注意
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 31
Multi Party Computation (MPC)データを持つ複数の参加者が,自分のデータを秘匿したままそれらを入力とするある関数の値だけ得ることができるようなプロトコル
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 32
Alice Bob
MPC
xAxB
yAyB
xA,xB を入力としf(xA,xB)=(yA,yB) を出力とする MPC
何らかのデータ利用の際に共有する情報を減らせる!
MPC のアプローチ (1)
暗号プロトコル目的のデータ処理タスクに応じて暗号文の操作,やり取りのみで演算を達成するプロトコルの作成
ビルディングブロック :準同型性公開鍵暗号等
加法または乗法について準同型(暗号文のまま平文の加算や乗算が可能)
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 33
MPC のアプローチ (2)
秘密分散法秘密分散法のアプローチ:データを複数個
に分割し,それぞれを異なるパーティーに渡す(分散)ことで秘密にする
分散データを用いて基礎的な演算及びその組み合わせを可能にする
– (n,k)-閾値法 n 個のデータを分散,そのうち k 個以上集めると復元可能
– 実現可能な演算:足し算,掛け算など
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 34
例:プライバシ保護遺伝子検査
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 35
秘密鍵を持っていないので盗聴しても何もわからな
い...
秘密計算で遺伝子検査 暗号化
検査結果 検査結果
秘密鍵公開鍵
暗号化
復号
遺伝子検査アルゴリズム
ユーザー
暗号文のままの加算が可能 例 : paillier暗号の場合
“5”の暗号文 “3”の暗号文*
→ “8”の暗号文
GenoDroid[De Cristofaro 2012]など
例:プライバシ保護化合物 DB 検索
検索者の問い合わせ内容および化合物 DB の中身を秘匿したマッチングを可能に
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 36
化合物の検索サーバー
研究者 クエリー
送信a80511deab252354c1f04cc1d1a194
・・・
b96c0546a202207f5c834d44de7ad1
暗号化状態の検索結果を受信後,復号化
暗号化
送信
暗号文の状態で類似検
索
詳しくは... 荒井ら 検索行動におけるプライバシ保護 第 26回人工知能学会全国大会 縫田ら 加法準同型暗号を用いた化合物データベースの秘匿検索プロトコル コンピュータセキュリティシンポジウム 2012 (CSS2012) など
例:秘匿 GWAS
秘密分散ベースのフレームワーク sharemindを用い GWAS タスクの一部を実現 [Kamm 2013] 等
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 37
ゲノム DB
秘密分散ゲノム DB(1)
秘密分散ゲノム DB( 5)
無情報な乱数に暗号化
秘密分散ゲノム DB(2)
秘密計算
分析アルゴリズムをリクエスト)
分析結果だけ返します
ゲノム DB複数の DBが参加できる
MPC の課題
計算コストが高くなりがち暗号化による計算時間やデータ量の増
大可能な演算が制限出力プライバシは保証していない
ゲノム情報の分析に使うには?➡ 暗号部分の演算を少なく /単純に
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 38
プライバシ保護の利点
プライバシ保護技術を使うと情報漏洩リスクが低下する同意, SAFE HARBOR などの協定のためには プライバシ保護が有利 / 必要
➡利用できる情報が増えると期待
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 39
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 40
プライバシ保護技術の普及、利用に向けて
ゲノム情報利用の難しさ
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 41
個人研究機関 /事業者
個人データ
二次情報分析
公共
公開
ゲノム情報医療情報健康情報
ゲノム検査結果等
匿名データ加工
研究者(事業者?)
守秘義務開示
利用申請
知りたくないかもしれない 医療に関する
遺伝情報遺伝情報に基づいた診断
?
?
医療機関
個人データの推定を防ぎたい(何を防ぎたい?)
推定攻撃を補助する外部知識:
SNS 等から収集した 個人情報
二次情報の開示にリスク
プライバシ保護における課題
総てのリスクをなくすことは不可能 (特にデータの相関を考えた場合 ) .データ利用とのトレードオフをどう取るか?そのためにユーザーに教育を行うのはどうか?(KDD2014 Panel “Does Social Good Justify Risking Personal Privacy?”)法律,倫理,技術等多様な分野の各国の研究者が話し合って行く必要がある(GenoPri2014 Panel)
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 42
ゲノム情報利用における課題
ゲノム情報利用におけるリスクの認識システム設計 / プライバシ保護 / 同意 に必
要日々強くなる攻撃者にどう対応する?
情報共有時のプライバシ保護方法の確立利用者の納得するユーティリティとプライ
バシ保護のトレードオフを達成できるか標準化などの制度整備
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 43
技術普及への取り組み欧米を中心とした研究活動
セキュリティ,生命情報,医療情報,倫理学術分野の盛り上がり
AAAS2014 にて匿名化,プライバシのセッションGenoPri2014 (workshop w/ PETS2014)KDD2015
system design の提案iDASH(UCSD)
いくつかの記事 / コンセプトペーパーデータの有用性を考えれば保護は不要? [Angrist 2013]何らかのプライバシ保護の工夫が必要 / 有用.秘密計算や 差分プライバシなどの活用の提言 [Greenbaum 2011,Erlich 2013]
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 44
おわりに
ゲノム情報の利用,共有にはプライバシ漏洩のリスクが存在する
プライバシ保護技術利用によりリスクを減らすことができる
ゲノムデータを用いた学術,ビジネスが競争力を持つためのアシストとなるよう期待
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 45
参考文献[Angrist2013] Misha Angrist. Genetic privacy needs a more nuanced approach. Nature, 494:7,2013.[De Cristofaro et al.2012] Emiliano De Cristofaro, Sky Faber, Paolo Gasti, and Gene Tsudik. Genodroid: are privacy-preserving genomic tests ready for prime time? In Proceedings of the 2012 ACM workshop on Privacy in the electronic society, pages 97–108. ACM, 2012.[Dwork et al.2006] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. Theory of Cryptography, pages 265–284, 2006.[Erlich and Narayanan2013] Yaniv Erlich and Arvind Narayanan. Routes for breaching and protecting genetic privacy. arXiv preprint arXiv:1310.3197, 2013.[Greenbaum et al.2011] Dov Greenbaum, Andrea Sboner, Xinmeng Jasmine Mu, and Mark Gerstein. Genomics and privacy: implications of the new reality of closed data for the field. PLoS computational biology, 7(12), 2011.
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 46
参考文献[Gymrek et al.2013] Melissa Gymrek, Amy L McGuire, David Golan, Eran Halperin, and Yaniv Erlich. Identifying personal genomes by surname inference. Science, 339(6117):321–324, 2013.[Homer et al.2008] Nils Homer, Szabolcs Szelinger, Margot Redman, David Duggan, Waibhav Tembe, Jill Muehling, John V Pearson, Dietrich A Stephan, Stanley F Nelson, and David W Craig. Resolving individuals contributing trace amounts of dna to highly complex mixtures using high-density snp genotyping microarrays. PLoS genetics, 4(8):e1000167, 2008.[Kamm et al.2013] Liina Kamm, Dan Bogdanov, Sven Laur, and Jaak Vilo. A new way to protect privacy in large-scale genome-wide association studies. Bioinformatics, 29(7):886–893, 2013.[Nabar et al.2008] S.U. Nabar, K. Kenthapadi, N. Mishra, and R. Motwani. A survey of query auditing techniques for data privacy. Privacy-Preserving Data Mining, pages 415–431, 2008.
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 47
参考文献[Goodlich 2009] Goodrich, M.T., The Mastermind Attack on Genomic Data, Security and Privacy, 2009 30th IEEE Symposium on , vol., no., pp.204,218, 17-20 May 2009[Nyholt et al.2009] DR Nyholt, CE Yu, and PM Visscher. On jim watson’s apoe status: genetic information is hard to hide. European journal of human genetics: EJHG, 17(2):147–149, 2009.[Schadt et al.2012] Eric E Schadt, Sangsoon Woo, and Ke Hao. Bayesian method to predict individual snp genotypes from gene expression data. Nature genetics, 44(5):603–608, 2012.[Sweeney2002] L. Sweeney. Achieving k-anonymity privacy protection using generalization and suppression. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 10(5):571–588, 2002.
パーソナルゲノムとプライバシー保護データマイニング技術 荒井ひろみ @ IIBMP2014 48
Top Related