Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

時系列パーソナル・データの プライバシー

0 visualizaciones

Publicado el

個人の購買履歴や行動履歴のような時系列データのプライバシーの保護の方向性と技術について説明している。従来焦点を当ててきたK-匿名化は時系列データには不適切で、むしろ仮名化、仮名変更、データ分割、シャッフル、サンプリングなど多様は技術を考慮すべき。
また、データベースにおける自己データの存在否定可能性(Plausible Deniability)を視野に入れるべきであることを主張。

Publicado en: Tecnología
  • Sé el primero en comentar

時系列パーソナル・データの プライバシー

  1. 1. 時系列パーソナル・データの プライバシー 中川裕志 情報ネットワーク法学会第16回研究大会 発表資料 2016年10月13日 明治大学中野キャンパスにて
  2. 2. こういうテーマを考えた理由は • 個人情報保護法改正 – 匿名加工情報 – 非識別個人情報 • 容易照合性が焦点 – 正確な(=実装可能な)技術的定義が与えられて いない – 法律としては正確な技術的定義がなくてもいいの かもしれないが、業者さんたちは困らないか?
  3. 3. 医療、購買、行動、移動の履歴は 時系列な個人データ • このことの本質がともすれば見失われる 個人 識別子 疑似ID 対象データ (時刻=1) 対象データ (時刻=2) … 対象データ (時刻=T) どんどん増え る 仮名 なました 疑似ID 対象データ (時刻=1) 対象データ (時刻=2) … 対象データ (時刻=T) 仮名化 匿名化 対象データの変換 雑音加算、精度を粗く、間引き、シャッフル、分割
  4. 4. K-匿名化に関する誤解 • K-匿名化の本来の定義 – 同じ疑似IDのデータ主体がk人以上いるように疑 似IDの精度を粗くするような方法 • K-匿名化は、識別子、疑似IDよりはるかに長 大な対象データに適用するという誤解が蔓延 しているのではないか。。。
  5. 5. K-匿名化に関する誤解 • ちなみに個人情報保護法改正時の技術WG – Suicaの乗降履歴データにK-匿名化を適用すると – K=2でもデータ有用性は著しく低下すると報告 – このころから、妙なK-匿名化の誤解 • “対象データまで含めたK-匿名化の誤った拡張” – がはじまったのかもしれない。 – 技術側も • 仮名化 • 仮名を高い頻度で変更 • シャッフル • サンプリング – などの代替技術についてきちんと報告すべきであったのだ – 言い訳:関連する技術コンテストの PWSCUP は昨年開始だし。
  6. 6. K-匿名化から離れてみましょう • K-匿名化 を長大な対象データに直接適用す ることが、 – データ有用性を酷く低下させる – でも、依然として個人識別性が高い • という状況を踏まえ • K-匿名化・過剰適用を止めて、対象データの 匿名化に係わる技術の一端を紹介します
  7. 7. 対象データの分割毎に仮名変更
  8. 8. 仮名 なました 疑似ID 対象データ (時刻=1) 対象データ (時刻=2) … 対象データ (時刻=T) A aa A1 A2 AT B bb B1 B2 BT C cc C1 C2 CT D dd D1 D2 DT 仮名 なました 疑似ID 対象データ (時刻=1) 対象データ (時刻=2) … 対象データ (時刻=T) A aa A1 A2 AT B bb D1 D2 DT C cc C1 C2 CT D dd B1 B2 BT 仮名 なました 疑似ID 対象データ (時刻=1) 対象データ (時刻=2) … 対象データ (時刻=T) A aa A2 A1 AT B bb DT D1 D2 C cc C1 CT C2 D dd B1 BT B2 個人レコード の入れ替え (シャッフル) 対象データ の時間入れ 替え (シャッフル) シャッフル
  9. 9. 技術の現状 PWSCUP 2017から • 匿名化加工は – 仮名化 – 疑似IDのなまし – 個人レコードのシャッフル • などが主流。 • 有用性 – 元データとの個人の対象データ1個単位での絶対値 誤差の平均 – 個人単位での対象データの種類(購入物品)の集合 としての類似性: Jaccard係数
  10. 10. 再識別 • 再識別 – シャッフルされて、仮名との対応がなくなってし まった個人レコードを、元の仮名に連結する再識 別を行なう。 – 再識別側は、匿名化側がどういう処理をしている かを知らない状況 – 匿名化されたデータベースにおいて、 (もとの仮名に連結できた人数)/(全人数) =再識別率
  11. 11. 技術の現状 PWSCUP 2017から • 匿名化加工の結果有用性 – 絶対値誤差の平均(優勝チーム)  1%弱 – 集合の類似性:Jaccard係数(優勝チーム)  69% – 安全性 – 攻撃者は疑似IDと対象データは保持 • 最大知識攻撃者(J. Domingo-Ferre) – その上で、どれだけ個人レコードを再識別できるかを競った。 – 再識別率(優勝チーム)  22.5% – 30%程度が参加15チームの中央値 – ちなみに優勝チームは、私の研究室のM1を中心にしたチームでした。 • 有用性を保ちたければプロの通常の技術レベルで30%は再識別 される。
  12. 12. 30%再識別の意味 • 攻撃者が同じデータベースの個人レコード(擬似 IDと対象データ)を持っている場合 – 30%のデータ主体の個人レコードが再識別される。 • 個人識別子も持っていれば、30%の人の個人特定も可能。 • 1個人に限ってみれば、30%の確率で再識別される – 攻撃者が同じデータベースを持っていないが、同じ対 象データを部分的に持っている場合 – 個人特定が成功する確率の最大値が30%
  13. 13. 部分的な対象データからの再識別 • 時系列ではないが、順序に意味がある系列データ  ゲノム データでの実験 • 攻撃者は30個のSNP(個人差を表す遺伝子の座位の値)と、 一般公開されているSNP間の相関(連鎖不均衡データ)を持 つ。 – r2という相関値が0.7以上の場合を利用 • 標的の人の相関のあるSNP30個の値を推定しようとする。 • 比較的簡単な機械学習[1]で80%の精度で推定できた。 – 高山、荒井、中川:匿名ゲノムデータベースに対する連鎖不均衡 を用いた脱匿名化攻撃の提案と評価:CSS2016 – [1] T. Chen. and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” arXiv:1603.02754, 2016.
  14. 14. 容易照合性 • 通常の情報処理技術を持つ者(あるいは企業) • 通常の努力で、耐えられる時間内にできる – 計算機資源は?スパコン、GPGPU? – 高機能なソフトもWeb上を探せば入手可能 – ようするに、 from scratch で開発する能力がない技 術者でも、短期間でかなりの技能を発揮できる時代だ 前のスライドでも示したように 「容易」にできる処理のレベルがとても高く 30%の再識別、80%の対象データ値推定ができる。
  15. 15. K-匿名化に関する誤解 • Suicaの事件で、長大な乗降履歴データそのもののプラ イバシー的な安全性についてきちんと議論してきたで しょうか? • 匿名化と再識別の現状の技術レベルについてはお話しした通 り。 • 部分的にデータを隠すような方法ですら相当危ないのも、ゲノ ムの連鎖不均衡の実験結果で示した通り。 • ではそれ以外には検討すべき要因があるので しょうか?
  16. 16. 考慮不足が懸念される要因:1 • サンプリング – 統計計算では有力とされる手法 – サンプリングしたデータの匿名化能力については研究成果あり[Li][Chaudhuri] – 若干異なるデータベース対の区別のつきにくさがサンプル率が下がると上が る – この成果を匿名化でどう位置づけるかがほとんど聞こえてこない。 – オプト寺田さんのコメントでは、サンプリングはK-匿名化を使わずに一意再識 別を妨げる効果があるとのこと(第14分科会にて) • [Li,Qardaji,Su2012] Ninghui Li, Wahbeh Qardaji, Dong Su: On Sampling, Anonymization, and Differential Privacy: Or, k-Anonymization Meets Differential Privacy. Proceedings of the 7th ACM Symposium on Information, Computer and Communications Security(ASIACCS’12). Pages 32-33. 2012 • [Kamalika Chaudhuri, Nina Mishra : When Random Sampling Preserves Privacy. 26th Annual International Cryptology Conference Santa Barbara, California, USA, August 20-24, 2006. Proceedings. pp.198-213 .]
  17. 17. 考慮不足が懸念される要因:2 • 外部観察データ – 対象データが購買、移動履歴、場合によっては医 療でも、その行動が外部観察された場合 • 匿名化されていても、特定の対象データと外部観察さ れたデータが完全に一致することが分かると、個人を 再識別(特定)できてしまう。 – 観察は多くの場合、近親者によって行われてしま うことも要注意
  18. 18. 自己データの存在否定 • 匿名化は確率的に破られることが多い。 • そのとき、再識別されたデータが自分のデータではないという主張 – 自己データの存在否定の妥当性(Plausible Deniability) • ができる状態にしてデータ主体の不利益を解消、軽減するという方 向性  全く検討されていないのではないか?  サンプリングは Plausible Deniabilityを確立するのに適した方法 – 法律、規則、ガイドラインの方向性自体の議論に絡むから、当事者は 触れたくないであろうとは思うが、 – 数理モデルは明らかになってきている • J. Doming-Ferre(CSS2017招待講演など)
  19. 19. まとめ • K-匿名化が本来の目的から逸れて、時系列データに適用 されるという困った状況である • 時系列データの場合、仮名化、仮名変更、データ分割、 シャッフル、サンプリングなど多様は技術を考慮すべき。 • 当面は匿名加工情報をターゲットにした技術検討がされる が、データ主体のリスク低減を念頭におくなら  自己データ否認可能性Plausible Deniability)のような仕組 みを検討し、個人情報保護法のあり方自体を考え直す時 期が来る可能性が大きい。

×