匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform...

22
© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所 高橋克巳 1 資料2-3

Transcript of 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform...

Page 1: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化技術の現状について

2013.9.27NTTセキュアプラットフォーム研究所

高橋克巳

1

資料2-3

Page 2: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

個⼈情報の定義と制限• 特定の個人を識別できるもの

– 「個人情報」とは、生存する個人に関する情報であって、当該情報に含まれる氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)をいう。

• 利用目的をできるだけ特定しなければならない。

• 本人の同意を得ない取り扱いや第三者提供はできない(例外規定あり)。

個人情報保護法 第2条、第15条、第16条、第23条

2

Page 3: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

パーソナルデータ• パーソナルデータ:個人に関する情報

– 個人識別性を有する「個人情報」に限定することなく、広く定義して保護の範囲を検討する。

• (参考)『実質的個人識別性』

– 個人識別性をプライバシー保護という基本理念を踏まえて実質的に判断することが必要。

– 取得等の際に特定の個人が識別されなかったとしても、他のパーソナルデータとあわせて分析されること等により、特定の個人が識別される可能性への配慮が必要

• 個人のPCやスマートフォン等の識別情報(端末ID等)

• 継続的に収集される購買・貸出履歴、視聴履歴、位置情報等

パーソナルデータの利用・流通に関する研究会報告書(総務省)より

3

Page 4: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化にまつわる議論• 合理的な匿名化の水準

– どの水準まで匿名化すれば、特定の個人を識別することができない情報となるか?

– 合理的な水準まで匿名化を施されたパーソナルデータについて、法的に通常の個人情報とは異なる取扱い(例:第三者提供に関する同意を不要とする一方、提供先事業者に対して法的な責任を課す等)とすることの可否について検討すべきではないか。

• 第1回 パーソナルデータに関する検討会 【資料3-2】パーソナルデータの取扱いルール整備に向けて検討すべき論点

• (仮名化と無名化)• (情報漏えいとプライバシー侵害)

4

Page 5: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

「匿名化」と個⼈情報の範囲

5

• パーソナルデータの状態と個人情報に該当するかの関係の正しい理解が必要

• 「匿名データ」は大きく3通りに分類できる

①実名データ

②匿名 データ ③統計データ

個人情報とされる範囲

※ 「実名データ」「匿名データ」「統計データ」等の名称は議論用のもので技術用語ではない

1.連結可能匿名データ

3.高度な匿名データ

2.いわゆる匿名データ

Page 6: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

氏名 生年月日 位置情報 行動

A木イチロー 1973.10.23 34.72, 135.36 野球

B浦カズヨシ 1967.02.27 35.90, 139.71 サッカー

①実名データ

①実名データ

②匿名データ

1.連結可能匿名データ

③統計データ

個人情報とされる範囲

2.いわゆる匿名データ

3.高度な匿名データ

①実名データ(=個⼈情報)

6

• 氏名等により直接個人を識別できる情報

Page 7: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

①実名データ

②-1 連結可能な匿名データ

①実名データ

②匿名データ

1.連結可能匿名データ

③統計データ

個人情報とされる範囲

2.いわゆる匿名データ

3.高度な匿名データ

②-1 連結可能匿名データ

7

• 氏名等を削除したもの

• 削除した元の情報と照合することにより特定の個人を識別することができる

• 「仮名」データと呼ばれる氏名 生年月日

x1234 A木イチロー 1973.10.23

x1235 B浦カズヨシ 1967.02.27

氏名 生年月日 位置情報 行動

A木イチロー 1973.10.23 34.72, 135.36 野球

B浦カズヨシ 1967.02.27 35.90, 139.71 サッカー

位置情報 行動

x1234 34.72, 135.36 野球

x1235 35.90, 139.71 サッカー

Page 8: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

①実名データ

②-1 連結可能な匿名データ

②-2 いわゆる匿名データ

①実名データ

②匿名データ

1.連結可能匿名データ

③統計データ

個人情報とされる範囲

2.いわゆる匿名データ

3.高度な匿名データ

②-2 いわゆる匿名データ

8

• 氏名等を削除し、元の情報と対応できないようにしたもの

• いわゆる匿名データであるが、個人情報ではないと一概にはいえない

• 「無名」データと呼ばれる

氏名 生年月日 位置情報 行動

A木イチロー 1973.10.23 34.72, 135.36 野球

B浦カズヨシ 1967.02.27 35.90, 139.71 サッカー

位置情報 行動

34.72, 135.36 野球

35.90, 139.71 サッカー

位置情報 行動

x1234 34.72, 135.36 野球

x1235 35.90, 139.71 サッカー

Page 9: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

①実名データ

②-1 連結可能な匿名データ

②-2 いわゆる匿名データ

②-3 高度な処理の匿名データ

①実名データ

②匿名データ

1.連結可能匿名データ

③統計データ

個人情報とされる範囲

2.いわゆる匿名データ

3.高度な匿名データ

②-3 ⾼度な匿名データ

9

• 特定の個人の識別が困難になるように匿名化したデータ

• 作成には専門知識/ソフトウェアが必要

• k‐匿名が代表的なもの

位置情報 趣味

兵庫県 球技

埼玉県 球技

氏名 生年月日 位置情報 行動

A木イチロー 1973.10.23 34.72, 135.36 野球

B浦カズヨシ 1967.02.27 35.90, 139.71 サッカー

位置情報 行動

34.72, 135.36 野球

35.90, 139.71 サッカー

位置情報 行動

x1234 34.72, 135.36 野球

x1235 35.90, 139.71 サッカー

Page 10: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

兵庫県 埼玉県

野球 33 8

サッカー 27 32

③統計データ

①実名データ

②匿名データ

1.連結可能匿名データ

③統計データ

個人情報とされる範囲

2.いわゆる匿名データ

3.高度な匿名データ

③統計データ

10

• 統計処理したデータ

• 作成には専門知識/ソフトウェアが必要

①実名データ

②-1 連結可能な匿名データ

②-2 いわゆる匿名データ

②-3 高度な処理の匿名データ

位置情報 趣味

兵庫県 球技

埼玉県 球技

氏名 生年月日 位置情報 行動

A木イチロー 1973.10.23 34.72, 135.36 野球

B浦カズヨシ 1967.02.27 35.90, 139.71 サッカー

位置情報 行動

34.72, 135.36 野球

35.90, 139.71 サッカー

位置情報 行動

x1234 34.72, 135.36 野球

x1235 35.90, 139.71 サッカー

Page 11: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

会員番号、生年月日、住所、年齢、購買品1、購買品2、購買品3、.....

会員番号、生年月日、住所、年齢、購買品1、購買品2、購買品3、.....

削除 加工(保護) そのまま(非保護)

そのまま用いていいのか、加工すれば大丈夫か、削除するのか

匿名化技術とは何をする技術なのか?

11

• 匿名化技術は、取り決めに従って属性に対して、削除、加工、無加工のどれかの操作を行うこと

• 活用の際、どの属性をどのように扱うのかを取り決めるのが、個人情報取り扱い責任者の責務

• 非保護の属性の選定には十分な注意が必要である

※ 本事例は例であって、加工して保護するのはは住所と年齢のみであればよいという意味ではない※ 識別子を削除、準識別子を加工し、センシティブ情報をそのまま用いるという従来の考え方はビッグデータでは問題があると考える必要がある

Page 12: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化技術の技法(1/3)• 属性の削除技法

– 属性削除 (Suppression)• 直接個人を識別可能な属性(氏名等)を削除すること。

– 仮名化 (Pseudonymization)• 直接個人を識別可能な属性またはその組み合わせ(氏名・生年

月日)を符号や番号等に置き換えること。例えば、ハッシュ関数。

• 属性の加工技法(一般化)– 一般化 (Generalization)

• 属性の値を上位の値や概念に置き換えること。例えば、10歳刻み、キュウリ→野菜。

• データ全体に一律に行うものを Global Recoding、局所的に行うことを許すものを Local Recoding と呼ぶ。

• 四捨五入や二捨三入などを丸め法 (Rounding) と呼ぶ。

– トップ(ボトム)コーディング• 特に大きい、もしくは小さい属性をまとめる。例えば、100歳以上

の人は「100歳以上」とする。

12

Page 13: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化技術の技法(2/3)• 属性の加工技法(かく乱/Perturbation)

– ミクロアグリゲーション

• 元データをグループ化した後、同じグループのレコードの各属性値を、グループの代表値に置き換えること。

– ノイズ(誤差)の付加• 数値属性に対して、確率的に乱数的なノイズを加えること。

– データスワップ(Data Swapping)• レコード間で属性の値を確率的に入れ替えること。

– 疑似データ作成 (Synthetic Microdata)• 元のデータと統計的に類似させる人工的な合成データを作成す

ること。

13

Page 14: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化技術の技法(3/3)• その他の技法

– レコード削除 (Suppression)• 特に大きい等、特殊な属性(値)を持つレコードを削除する。例えば、120歳以上のレコードは削除する。

– セル削除 (Suppression)• センシティブな属性等、分析に用いるべきでない属性を削除する。

– サンプリング (Sampling)• 元データ全体から一定の割合・個数でランダムに抽出すること。

• 高度な匿名化を行う技法– 通常の方法

• 属性の一般化やかく乱(および削除)を組み合わせて実施する。

– k‐匿名化• 同じ保護属性の組み合わせを持つレコードが、少なくともk個存在す

るように保証する属性の一般化やレコードの削除を行う方法。

– Pk‐匿名化• 個人のレコードがどのレコードなのか、1/k以上の確率で当てること

ができないことを保証するデータかく乱手法。

14

Page 15: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

3

3

4

k-匿名性(k=3)を満たした状態: )

: (: )

: )

会員番号 生年月日 住所 年齢 購買品

1001100210031004100510061007100810091010

1979.04.011986.12.101974.10.101991.05.052006.11.101990.02.062003.08.152000.09.301983.01.011994.07.07

東京都中央区A町神奈川県横浜市A町東京都渋谷区B町神奈川県鎌倉市B町埼玉県川越市A町神奈川県厚木市C町埼玉県浦和市B町埼玉県大宮市C町東京都練馬区C町埼玉県与野市D町

3426382217231993018

パン、ガム、新聞、…鉛筆、弁当、漫画、…ガム、アイス、チョコ、…書籍、新聞、電池、宝石、…化粧品、あめ、アイス、…時刻表、鉄道模型、カメラ、…ネジ、ビス、ハンマー、…肉まん、ガム、新聞、…コーラ、弁当、雑誌、…ガム、水、ドリンク剤、…

会員番号 生年月日 住所 年齢 購買品

100110031009

1979.04.011974.10.101983.01.01

東京都東京都東京都

30代30代30代

パン、ガム、新聞、…ガム、アイス、チョコ、…コーラ、弁当、雑誌、…

100210041006

1986.12.101991.05.051990.02.06

神奈川県神奈川県神奈川県

20代20代20代

鉛筆、弁当、漫画、…書籍、新聞、電池、宝石、…時刻表、鉄道模型、カメラ、…

1005100710081010

2006.11.102003.08.152000.09.301994.07.07

埼玉県埼玉県埼玉県埼玉県

未成年未成年未成年未成年

化粧品、あめ、アイス、…ネジ、ビス、ハンマー、…肉まん、ガム、新聞、…ガム、水、ドリンク剤、…

削除 加工(保護) そのまま(非保護)

15

k-匿名化

Page 16: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化技術(⼀覧)

16

評価なし 評価のある

匿名化の技法連結可能匿名化

いわゆる匿名化

高度な匿名化

削除属性削除 必須 必須 必須 必須

仮名化 必須

加工

一般化一般化 選択

トップコーディング 併用

レコード削除 併用

セル削除 併用

かく乱

ミクロアグリゲーション 選択

ノイズ付加 選択

データスワップ 選択

疑似データ 選択

k-匿名化 選択

Pk-匿名化 選択

その他 サンプリング 併用 併用

Page 17: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化データの評価指標• 安全性指標1: k−匿名性に基づく指標(k‐anonymity Based)

– k‐匿名性:k‐anonymity(個人識別)• 同じ保護属性の組み合わせを持つレコードが、少なくともk個存在し、保護属

性からの識別がk人未満に絞り込めない状態。

– l‐多様性:l‐diversity(属性推定)• 同じ保護属性の組み合わせを持つレコードが、少なくともk個存在し、かつ対

応する非保護の属性情報の値が少なくともl種の”良い”多様性を持つことで、属性推定が起こらない状態。

– t‐近似性:t‐closeness(属性推定の強化)• 同じ保護属性の組み合わせを持つレコードが、少なくともk個存在し、かつ対

応する非保護の属性情報の値の分布と、元のデータ集合の値の分布の差が小さいことで、偏った分布による属性推定が起こらない状態。

• 安全性指標2: 照合可能性に基づく指標(Record Linkage)– 匿名化する前のデータと後のデータとの間で、個々のレコードの対応

関係を推定し、正しいレコード間が照合できる可能性を表す指標

‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐• 有用性指標:データの変化に基づく指標(Data Utility)

– 匿名化する前のデータと後のデータとの間で、データがどれだけ変化したか、どれだけ活用できるかを表す指標

17

Page 18: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

匿名化データのリスク

• 属性残存リスク– 氏名等、識別属性の残存– センシティブで分析に用いるべきでないとされる属性の残存

• 再識別リスク– 他の情報との突き合わせによる再識別

• 母集団の情報がどれだけ明らかか?• 突き合わせが可能な一般に入手可能な情報の存在は?• 非保護属性(の組み合わせ)による識別可能性(例、長い履歴が識別子になる)

• 開示対象リスク– 相手と目的を限定 < 相手を限定 << 一般公開

• 属性推定リスク– 属性種類の単調さによる属性推定

• 情報漏洩– 実名データへの「変換表」の漏洩

• (参考)有用性– データの安全性と有用性はトレードオフの関係にある

18

技術的に「絶対的な匿名化」は困難であり、リスクの種類(以下に例示)の検討とリスクに対する対策(チェック方法)の確立が必要である

Page 19: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

出典)L.Sweeney, k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10(5), 2002 を基に作成

「再識別」とは•歴史的に有名な再識別の例:マサチューセッツ州が公開した匿名化処理した

医療データから州知事の情報を特定

– 医療データから氏名を削除して公開

– 既に公開(販売)されている投票者名簿とマッチングしたところ、知事と同じ生年月日のレコードが6人、うち3人が男で、郵便番号から1人に特定可能

19

Page 20: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

統計データが安全とされる理由• 統計データとは「何かの集まりについて、全体の様子を表

す数の集まり」であり、基本的に個の情報を表現しない– さらに該当人数が少ない集計結果には秘匿を行う– 匿名データは、個々の人に対する属性の集合である

• 統計は匿名データに比べて歴史を持ち、統計上の個人識別リスクに対する学術および一般レベルでの理解が進んでいる– 匿名化、特にビッグデータの匿名化と利用目的の社会的理解

はこれからである

• (参考)統計データと匿名データは、表現形式は異なるが、数理的には同様の性質を持っている– 現実的に統計は、低次元(少属性)で多数が該当する集まりの

みを対象としてる

– 一方、匿名データには、次元の制約はあまりなく(レコード単独でビッグデータ化できる)、集合的概念は元々ない(集合的概念を入れた例がk‐匿名)

20

Page 21: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

統計データ提供の例(モバイル空間統計)• 携帯電話ネットワークの仕組みを利用して人口統計情報を作成、提供を実施

• 自主的にガイドラインを作成、データの処理手順を公表して、透明性が保たれている

• 当該分野のデータ利用(含む個人識別性のないこと)に関して、TCA等の外部機関で検討がされている

21 ドコモモバイル空間統計の資料より

Page 22: 匿名化技術の現状について - 首相官邸ホームページ© 2013 NTT Secure Platform Laboratories 匿名化技術の現状について 2013.9.27 NTTセキュアプラットフォーム研究所

© 2013 NTT Secure Platform Laboratories

論点• 匿名データの個人識別性が事実上低いと考えられる

十分条件をボトムアップ的に集積していくことが具体的な目標ではないか– 検討すべき十分条件の例

• 評価のある匿名化アルゴリズム(k−匿名化等)の正しい利用• 匿名化結果に対するリスクチェック• 専門家を含む第三者によるデータ/処理手順の検証

• 対象データの性質の分野別理解の社会的醸成と、匿名化のベストプラクティスの集積– 個人情報を含む事例共有は困難なため、疑似データセッ

トを開発してその上での試行・考察が有効ではないか

• 参考– 匿名化せず個人情報のままでなければ解けない等のセ

ンシティブな分析を行うために、プライバシー保護データマイニング技術(秘密計算等)の研究開発も重要である

22