SlideShare una empresa de Scribd logo
1 de 22
プライベート問合せにおける

   問合せ頻度を用いた制約緩和手法	
                    川本 淳平 (筑波大学)
Patricia L. Gillett (École Polytechnique de Montréal)
   佐久間 淳 (筑波大学, 科学技術振興機構さきがけ)
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   2	




問合せからの情報漏洩	
•  データベースに対する問合せとプライベート情報
   記事 x が読みたいが
 何を閲覧したかは秘密にしたい	

                                 ニュースサイト	


  •  閲覧記事から趣味や政治観,宗教観が推測されてしまうリスク
  •  薬剤データベースの場合,病名が推測されるリスク
  •  特許データベースでは事業計画が漏洩するリスク, etc.
2012年11月20日	
               プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
                            3	




     プライベート問合せ	
     •  問合せ内容を隠したまま目的のデータを取得する方法
        記事 x が読みたいが                                                    問合せ内容を知ること
      何を閲覧したかは秘密にしたい	
                                                  無く結果を計算	

                               問合せ	
                                                 結果	
      ニュースサイト	

                     特殊な符号化を利用
                     - 検索意図は分からない
                     - 目的の記事は取得できる	
     •  既存プロトコル
        •  cPIR†や IPP法†† などいくつかのプロトコルが提案されている
†Kushilevitz,E. and Ostrovsky, R.: Replication Is Not Needed: Single Database, Computationally-
Private Information Retrieval, Proc. of the 38th Annual Symposium on Foundations of Computer
Science, pp. 364-373, 1997.
††Kawamoto, J. and Yoshikawa, M.: Private Range Query by Perturbation and Matrix Based

Encryption, Proc. of the Sixth IEEE International Conference on Digital Information Management,
pp. 211-216, 2011.
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   4	




プライベート問合せにおける三概念	
•  我々は三つの概念でプライベート問合せの特徴を議論する
   •  検索意図: 何をサーバに問い合わせたのかそのもの
   •  問合せ: サーバに送信するプロトコルで定められたデータ
   •  走査集合: サーバが最低限調べる必要のあるアイテム集合

                                  問合せ処理のために調べた部
 記事 x が読みたい(検索意図)	
                分データベース(走査集合)	

                問合せ	
                          結果	

                                 ニュースサイト	
  •  サーバが効率的な索引を構築できれば走査集合は小さくなる
  •  しかし一般的にプライベート問合せでは索引の利用は困難である
2012年11月20日	
    プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
    5	




既存プロトコルの特徴	
•  既存プロトコルの多くは
   1.  問合せは処理可能だが解読できない符号化を問合せに施す
   2.  走査集合が常にデータベース全体となることを強制する
   という二つの制約で安全性を保証している
•  制約 2 によって検索意図をDB全体の中に隠している

                                  どのような問合せに対しても
                                  データベース全体を調べる	
       問合せ	


                   ニュースサイト	
     •  あらゆる検索意図 x に対して問合せ処理コストは O(n) (n: 総アイテム数)
     •  大規模DBにおいては現実的なコストではない
2012年11月20日	
            プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
      6	




制約緩和の可能性	
•  検索意図をDB全体から隠さなくても良いケース
   •  一部の記事の中から隠せれば趣味や政治観,宗教観が隠せる場合など




•  ランダムに選んだ記事群の中に隠すだけでは不十分
                                            問合せ頻度を攻撃者が知っているとする	

                    記事       記事      記事        記事
                     x	
      a	
     b	
       c	


                人気記事	
              あまり人気ではない記事	

  •  記事 x が検索意図だと推測可能
  •  問合せ頻度を考慮して隠す先を選ぶ必要がある
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
          7	




提案の制約緩和手法概要	
•  制約を緩和しない(完全なプロトコル)場合
   •  検索意図 x = 3 の時: DB全体から x を隠しても確率 3/9 で推定可能
   •  検索意図 x = 1 の時: DB全体から x を隠すと確率 1/9 で推定され得る



   制約緩和後に x が推定される確率が               問合せ発生回数と頻度	
    3/9 (完全なプロトコルの最大値)
        以下であれば良しとする	
                                                 頻度	
•  検索意図 x = 1 の時
   •  {1, 2} の中に x を隠すと
      確率 1/3 で推定され得る
   •  3/9 を超えないため良しとする
2012年11月20日	
     プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   8	




データベースモデルと問合せ頻度	
•  データベースのモデル
   •  データベースは n 個のアイテムからなる: D = {t1, t2, …, tn}
   •  利用者は x 番目のアイテム tx を取得する: 検索意図は x
•  走査集合 H(x)              一致検索	
   •  検索意図が x である問合せを処理するために調べるアイテム集合
   •  サーバが効率的な索引を構築している場合は H(x) ={x}
•  問合せ頻度(検索意図の頻度)
   •  検索意図 x が発生する頻度を Freq(x) とかく
   •  頻度は正規化されているとする:      Freq( x) = 1
                            ∑
                            x∈D      問合せ処理のために調べた
                                     部分データベース(走査集合)	
 tx を取得したい(検索意図)	
                                          DB	
                 問合せ	
                             結果	
         H(x)
2012年11月20日	
              プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
     9	




問合せリスク	
•  検索意図 x に対し走査集合が H(x) であった時のリスク
                                           Freq( x)
                      Risk ( x | H ( x)) =
                                           ∑ Freq( y)
                                        y∈H ( x )

  •  走査集合に含まれるアイテムの問合せ頻度を基にした確率
  •  検索意図 x が頻出であれば高リスク	
     例:                                                     頻度	
     Risk(3|{1,2,3,4,5}) = 3/9
     Risk(1|{1,2,3,4,5}) = 1/9
     Risk(1|{1,2}) = 1/3
2012年11月20日	
             プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
                   10	




保証する安全性の定義	
•  制約を緩和しない完全なプロトコルにおける最大リスク
                       max Risk ( x | H complete ( x))
                        x∈D
•  このリスクを越えなければ安全であると考える
   •  制約緩和を行わない場合のリスクは許容されている
   •  その最大リスクを越えなければ制約を緩和しても許容されると仮定する

           Risk ( x | H relaxed ( x)) ≤ max Risk ( y | H complete ( y ))
                                        y∈D

  •  上記式を満足する最小の走査集合 Hrelaxed(x) を求めればよい
2012年11月20日	
      プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   11	




サーバにおける問合せ処理コスト	
•  サーバにおける問合せ処理コスト
   •  走査集合の大きさで評価する
   •  検索意図 x に対する処理コストは Cost ( x) =| H ( x) |


  •  全検索意図 x に対する処理コストの期待値 C は	

                C = ∑ Freq( x) × Cost ( x)
                    x∈D
2012年11月20日	
       プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
         12	




求むべき走査集合の定式化	
•  与えられた検索意図 x に対して	
  1.    x ∈ H (x)
  2.  Risk(x | H (x)) ≤ max y∈D Risk(y | H complete (y))
  3.  Cost(x) を最小化する	
  4.  条件 3 の下で ∑ y∈H ( x ) Freq( y ) を最大化する = Risk最小化	
  という条件を満足し連続するアイテムからなる集合 H(x) の探索

•  この最適化問題を解くアルゴリズムは論文に掲載
•  ここまでは1次元データに対する一致検索を考えてきた
   •  1次元データに対する範囲検索
   •  2次元データに対する一致検索
   への拡張についても論文では議論している
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   13	




問合せプロトコル	
•  本手法は既存のプライベート問合せ技術と組み合わせて使う
•  問合せの頻度は公開情報であるとする


•  検索意図が x である利用者
   1.  Freq(x) と制約緩和アルゴリズムを用いて走査集合 H(x) を計算
   2.  H(x) 上で使用するプライベート問合せにて定義されている問合せを作成
   3.  問合せと走査集合 H(x) をサーバに送信
•  問合せと走査集合を受け取ったサーバ
   1.  走査集合に含まれるアイテムのみからなる部分データベースを作成
   2.  部分データベース上で受け取った問合せを評価
       (使用するプライベート問合せプロトコルに則る)
   3.  問合せ結果を利用者に返信
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   14	




評価実験	
•  実データを用いた実験
   •  提案手法による問合せリスクが完全なプロトコルの最大値を超えない
      ことを確認する
   •  制約緩和により問合せ処理コストが削減されることを確認する


•  人工データを用いた実験
   •  ガウス分布とZipf分布に従う二種類の問合せ頻度分布を仮定
   •  cPIR と組み合わせた場合の計算処理時間を計測
   •  制約緩和された走査集合の計算が低コストであることを確認する
   •  提案手法によりサーバ計算時間が短縮されることを確認する
2012年11月20日	
                           プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   15	




   評価実験 1	
   •  データセット
      •        問合せログ†のうちランダムに選んだ10万曲に対する問合せ
      •  約180万件の問合せからなる
      •  曲番号は問合せ頻度順に設定


     •  左図の縦軸は対数オーダー
     •  observed は
                                        ∑ Freq( y)
                                    y∈D , x∈H ( y )
       Freq observed ( x) =
                              ∑ Freq( y)× | H ( y) |
                              y∈D
        にて計算される緩和後の頻度

                                                       頻出	
                    稀	


†http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html
2012年11月20日	
       プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
                        16	




評価実験 1	
•  問合せリスクの変化
   •  緩和後のリスクは完全なプロトコルに比べ上昇
   •  完全なプロトコルにおける最大値 (x=0の場合) は超えていない	

                                                 min.	
      max.	
      avg.	
                                緩和前	
           5.6×10−7	
   3.9×10−3	
 1.0×10−5	
                                緩和後	
           3.4×10−3	
   3.9×10−3	
 3.5×10−3	


                                    relaxed (avg.) は
                                          ∑ Freq( x) × Risk ( x | H ( x))
                                          x∈D
                                    によって計算した問合せリスクの期待値	


頻出	
                          稀	
            ☆縦軸は対数オーダー
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
                 17	




評価実験 1	
•  問合せ処理コストの比較
   •  最頻出曲(x=0)に対する問合せ処理コストは完全なプロトコルに等しい	


                                       min.	
       max.	
     avg.	
                            緩和前	
       100000	
    100000	
   100000	
                            緩和後	
           145	
   100000	
   1146.6	


                            relaxed (avg.) は
                                      ∑ Freq( x)× | H ( x) |
                                      x∈D
                            によって計算した問合せ処理コストの期待値	



頻出	
                      稀
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
                 18	




評価実験 1	
•  問合せ処理コストの比較
   •  最頻出曲(x=0)に対する問合せ処理コストは完全なプロトコルに等しい
   •  その他の曲に対しては大幅な削減が可能(平均約 1/87 に削減)	

                                       min.	
       max.	
     avg.	
                            緩和前	
       100000	
    100000	
   100000	
                            緩和後	
           145	
   100000	
   1146.6	


                            relaxed (avg.) は
                                      ∑ Freq( x)× | H ( x) |
                                      x∈D
                            によって計算した問合せ処理コストの期待値	



頻出	
                      稀
2012年11月20日	
            プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
                     19	




    評価実験 2	
    •  データセット
       •  2500 タプルからなるデータベースを作成
       •  頻度がガウス分布及びZipf分布に従う二種類の問合せログを作成
    •  問合せ処理プロトコル
       •  実際に問合せを評価するプロトコルとして cPIR† を利用


    •  以下の時間を計測
       •  制約緩和された走査集合の計算時間
       •  サーバにおける問合せ処理時間	




†Kushilevitz, E. and Ostrovsky, R.: Replication Is Not Needed: Single Database,
Computationally-Private Information Retrieval, Proc. of the 38th Annual Symposium on
Foundations of Computer Science, pp. 364-373, 1997.
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   20	




評価実験 2	
•  制約緩和された走査集合の計算に要した時間
   •  なぜ乱高下しているのか分かっていない
   •  ガウス分布の場合もZipf分布の場合も中心の x で時間を要する
     •  中心に近づけば可能な走査集合の組合せが増えるため
  •  最大でも 0.8 秒未満で計算可
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   21	




評価実験 2	
•  サーバにおける問合せ処理時間
   •  complete: cPIR プロトコルのみ
   •  relaxed (gauss): 問合せ頻度がガウス分布に従うと仮定した場合
   •  relaxed (zipf): 問合せ頻度が Zipf 分布に従うと仮定した場合


  •  最頻出アイテム以外では
     緩和した方が短時間で処理可
  •  最頻出アイテムでは
     走査集合に関する処理が
     増えるため遅くなる

  •  多くの場合で時間短縮可能
2012年11月20日	
   プライベート問合せにおける問合せ頻度を用いた制約緩和手法	
   22	




まとめと今後の課題	
•  問合せの頻度情報を基にした制約緩和手法を提案
•  既存のプライベート問合せ
   •  サーバにデータベース全体を走査させることで安全性を保証
   •  サーバにおける問合せ処理コストが大きい
•  提案手法
   •  完全なプロトコルにおけるこの制約を緩和
   •  緩和後の問合せリスクは完全なプロトコルにおける最大のリスクは超えない


•  今後の課題
   •  走査集合の大きさを基に検索意図を推定する攻撃	
   •  問合せ頻度が高い = 走査集合は大きい
   •  走査集合をランダムに大きくするといった対策を考えている

Más contenido relacionado

Destacado

暗号化ベクトルデータベースのための索引構造
暗号化ベクトルデータベースのための索引構造暗号化ベクトルデータベースのための索引構造
暗号化ベクトルデータベースのための索引構造Junpei Kawamoto
 
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援Junpei Kawamoto
 
Private Range Query by Perturbation and Matrix Based Encryption
Private Range Query by Perturbation and Matrix Based EncryptionPrivate Range Query by Perturbation and Matrix Based Encryption
Private Range Query by Perturbation and Matrix Based EncryptionJunpei Kawamoto
 
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測Junpei Kawamoto
 
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシマルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシJunpei Kawamoto
 
VLDB09勉強会 Session27 Privacy2
VLDB09勉強会 Session27 Privacy2VLDB09勉強会 Session27 Privacy2
VLDB09勉強会 Session27 Privacy2Junpei Kawamoto
 
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...Junpei Kawamoto
 
位置情報解析のためのプライバシ保護手法
位置情報解析のためのプライバシ保護手法位置情報解析のためのプライバシ保護手法
位置情報解析のためのプライバシ保護手法Junpei Kawamoto
 
データ共有型WEBアプリケーションにおけるサーバ暗号化
データ共有型WEBアプリケーションにおけるサーバ暗号化データ共有型WEBアプリケーションにおけるサーバ暗号化
データ共有型WEBアプリケーションにおけるサーバ暗号化Junpei Kawamoto
 
Securing Social Information from Query Analysis in Outsourced Databases
Securing Social Information from Query Analysis in Outsourced DatabasesSecuring Social Information from Query Analysis in Outsourced Databases
Securing Social Information from Query Analysis in Outsourced DatabasesJunpei Kawamoto
 
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシマルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシJunpei Kawamoto
 
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法Junpei Kawamoto
 
初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀Junpei Kawamoto
 

Destacado (14)

暗号化ベクトルデータベースのための索引構造
暗号化ベクトルデータベースのための索引構造暗号化ベクトルデータベースのための索引構造
暗号化ベクトルデータベースのための索引構造
 
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
 
Private Range Query by Perturbation and Matrix Based Encryption
Private Range Query by Perturbation and Matrix Based EncryptionPrivate Range Query by Perturbation and Matrix Based Encryption
Private Range Query by Perturbation and Matrix Based Encryption
 
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
 
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシマルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
 
VLDB09勉強会 Session27 Privacy2
VLDB09勉強会 Session27 Privacy2VLDB09勉強会 Session27 Privacy2
VLDB09勉強会 Session27 Privacy2
 
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
 
位置情報解析のためのプライバシ保護手法
位置情報解析のためのプライバシ保護手法位置情報解析のためのプライバシ保護手法
位置情報解析のためのプライバシ保護手法
 
データ共有型WEBアプリケーションにおけるサーバ暗号化
データ共有型WEBアプリケーションにおけるサーバ暗号化データ共有型WEBアプリケーションにおけるサーバ暗号化
データ共有型WEBアプリケーションにおけるサーバ暗号化
 
Securing Social Information from Query Analysis in Outsourced Databases
Securing Social Information from Query Analysis in Outsourced DatabasesSecuring Social Information from Query Analysis in Outsourced Databases
Securing Social Information from Query Analysis in Outsourced Databases
 
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシマルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
 
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
 
初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀
 
HTML5, きちんと。
HTML5, きちんと。HTML5, きちんと。
HTML5, きちんと。
 

Último

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Último (8)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

プライベート問合せにおける問合せ頻度を用いた制約緩和手法

  • 1. プライベート問合せにおける
 問合せ頻度を用いた制約緩和手法 川本 淳平 (筑波大学) Patricia L. Gillett (École Polytechnique de Montréal) 佐久間 淳 (筑波大学, 科学技術振興機構さきがけ)
  • 2. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 2 問合せからの情報漏洩 •  データベースに対する問合せとプライベート情報 記事 x が読みたいが 何を閲覧したかは秘密にしたい ニュースサイト •  閲覧記事から趣味や政治観,宗教観が推測されてしまうリスク •  薬剤データベースの場合,病名が推測されるリスク •  特許データベースでは事業計画が漏洩するリスク, etc.
  • 3. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 3 プライベート問合せ •  問合せ内容を隠したまま目的のデータを取得する方法 記事 x が読みたいが 問合せ内容を知ること 何を閲覧したかは秘密にしたい 無く結果を計算 問合せ 結果 ニュースサイト 特殊な符号化を利用 - 検索意図は分からない - 目的の記事は取得できる •  既存プロトコル •  cPIR†や IPP法†† などいくつかのプロトコルが提案されている †Kushilevitz,E. and Ostrovsky, R.: Replication Is Not Needed: Single Database, Computationally- Private Information Retrieval, Proc. of the 38th Annual Symposium on Foundations of Computer Science, pp. 364-373, 1997. ††Kawamoto, J. and Yoshikawa, M.: Private Range Query by Perturbation and Matrix Based Encryption, Proc. of the Sixth IEEE International Conference on Digital Information Management, pp. 211-216, 2011.
  • 4. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 4 プライベート問合せにおける三概念 •  我々は三つの概念でプライベート問合せの特徴を議論する •  検索意図: 何をサーバに問い合わせたのかそのもの •  問合せ: サーバに送信するプロトコルで定められたデータ •  走査集合: サーバが最低限調べる必要のあるアイテム集合 問合せ処理のために調べた部 記事 x が読みたい(検索意図) 分データベース(走査集合) 問合せ 結果 ニュースサイト •  サーバが効率的な索引を構築できれば走査集合は小さくなる •  しかし一般的にプライベート問合せでは索引の利用は困難である
  • 5. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 5 既存プロトコルの特徴 •  既存プロトコルの多くは 1.  問合せは処理可能だが解読できない符号化を問合せに施す 2.  走査集合が常にデータベース全体となることを強制する という二つの制約で安全性を保証している •  制約 2 によって検索意図をDB全体の中に隠している どのような問合せに対しても データベース全体を調べる 問合せ ニュースサイト •  あらゆる検索意図 x に対して問合せ処理コストは O(n) (n: 総アイテム数) •  大規模DBにおいては現実的なコストではない
  • 6. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 6 制約緩和の可能性 •  検索意図をDB全体から隠さなくても良いケース •  一部の記事の中から隠せれば趣味や政治観,宗教観が隠せる場合など •  ランダムに選んだ記事群の中に隠すだけでは不十分 問合せ頻度を攻撃者が知っているとする 記事 記事 記事 記事 x a b c 人気記事 あまり人気ではない記事 •  記事 x が検索意図だと推測可能 •  問合せ頻度を考慮して隠す先を選ぶ必要がある
  • 7. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 7 提案の制約緩和手法概要 •  制約を緩和しない(完全なプロトコル)場合 •  検索意図 x = 3 の時: DB全体から x を隠しても確率 3/9 で推定可能 •  検索意図 x = 1 の時: DB全体から x を隠すと確率 1/9 で推定され得る 制約緩和後に x が推定される確率が 問合せ発生回数と頻度 3/9 (完全なプロトコルの最大値) 以下であれば良しとする 頻度 •  検索意図 x = 1 の時 •  {1, 2} の中に x を隠すと 確率 1/3 で推定され得る •  3/9 を超えないため良しとする
  • 8. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 8 データベースモデルと問合せ頻度 •  データベースのモデル •  データベースは n 個のアイテムからなる: D = {t1, t2, …, tn} •  利用者は x 番目のアイテム tx を取得する: 検索意図は x •  走査集合 H(x) 一致検索 •  検索意図が x である問合せを処理するために調べるアイテム集合 •  サーバが効率的な索引を構築している場合は H(x) ={x} •  問合せ頻度(検索意図の頻度) •  検索意図 x が発生する頻度を Freq(x) とかく •  頻度は正規化されているとする: Freq( x) = 1 ∑ x∈D 問合せ処理のために調べた 部分データベース(走査集合) tx を取得したい(検索意図) DB 問合せ 結果 H(x)
  • 9. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 9 問合せリスク •  検索意図 x に対し走査集合が H(x) であった時のリスク Freq( x) Risk ( x | H ( x)) = ∑ Freq( y) y∈H ( x ) •  走査集合に含まれるアイテムの問合せ頻度を基にした確率 •  検索意図 x が頻出であれば高リスク 例: 頻度 Risk(3|{1,2,3,4,5}) = 3/9 Risk(1|{1,2,3,4,5}) = 1/9 Risk(1|{1,2}) = 1/3
  • 10. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 10 保証する安全性の定義 •  制約を緩和しない完全なプロトコルにおける最大リスク max Risk ( x | H complete ( x)) x∈D •  このリスクを越えなければ安全であると考える •  制約緩和を行わない場合のリスクは許容されている •  その最大リスクを越えなければ制約を緩和しても許容されると仮定する Risk ( x | H relaxed ( x)) ≤ max Risk ( y | H complete ( y )) y∈D •  上記式を満足する最小の走査集合 Hrelaxed(x) を求めればよい
  • 11. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 11 サーバにおける問合せ処理コスト •  サーバにおける問合せ処理コスト •  走査集合の大きさで評価する •  検索意図 x に対する処理コストは Cost ( x) =| H ( x) | •  全検索意図 x に対する処理コストの期待値 C は C = ∑ Freq( x) × Cost ( x) x∈D
  • 12. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 12 求むべき走査集合の定式化 •  与えられた検索意図 x に対して 1.  x ∈ H (x) 2.  Risk(x | H (x)) ≤ max y∈D Risk(y | H complete (y)) 3.  Cost(x) を最小化する 4.  条件 3 の下で ∑ y∈H ( x ) Freq( y ) を最大化する = Risk最小化 という条件を満足し連続するアイテムからなる集合 H(x) の探索 •  この最適化問題を解くアルゴリズムは論文に掲載 •  ここまでは1次元データに対する一致検索を考えてきた •  1次元データに対する範囲検索 •  2次元データに対する一致検索 への拡張についても論文では議論している
  • 13. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 13 問合せプロトコル •  本手法は既存のプライベート問合せ技術と組み合わせて使う •  問合せの頻度は公開情報であるとする •  検索意図が x である利用者 1.  Freq(x) と制約緩和アルゴリズムを用いて走査集合 H(x) を計算 2.  H(x) 上で使用するプライベート問合せにて定義されている問合せを作成 3.  問合せと走査集合 H(x) をサーバに送信 •  問合せと走査集合を受け取ったサーバ 1.  走査集合に含まれるアイテムのみからなる部分データベースを作成 2.  部分データベース上で受け取った問合せを評価 (使用するプライベート問合せプロトコルに則る) 3.  問合せ結果を利用者に返信
  • 14. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 14 評価実験 •  実データを用いた実験 •  提案手法による問合せリスクが完全なプロトコルの最大値を超えない ことを確認する •  制約緩和により問合せ処理コストが削減されることを確認する •  人工データを用いた実験 •  ガウス分布とZipf分布に従う二種類の問合せ頻度分布を仮定 •  cPIR と組み合わせた場合の計算処理時間を計測 •  制約緩和された走査集合の計算が低コストであることを確認する •  提案手法によりサーバ計算時間が短縮されることを確認する
  • 15. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 15 評価実験 1 •  データセット •  問合せログ†のうちランダムに選んだ10万曲に対する問合せ •  約180万件の問合せからなる •  曲番号は問合せ頻度順に設定 •  左図の縦軸は対数オーダー •  observed は ∑ Freq( y) y∈D , x∈H ( y ) Freq observed ( x) = ∑ Freq( y)× | H ( y) | y∈D にて計算される緩和後の頻度 頻出 稀 †http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html
  • 16. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 16 評価実験 1 •  問合せリスクの変化 •  緩和後のリスクは完全なプロトコルに比べ上昇 •  完全なプロトコルにおける最大値 (x=0の場合) は超えていない min. max. avg. 緩和前 5.6×10−7 3.9×10−3 1.0×10−5 緩和後 3.4×10−3 3.9×10−3 3.5×10−3 relaxed (avg.) は ∑ Freq( x) × Risk ( x | H ( x)) x∈D によって計算した問合せリスクの期待値 頻出 稀 ☆縦軸は対数オーダー
  • 17. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 17 評価実験 1 •  問合せ処理コストの比較 •  最頻出曲(x=0)に対する問合せ処理コストは完全なプロトコルに等しい min. max. avg. 緩和前 100000 100000 100000 緩和後 145 100000 1146.6 relaxed (avg.) は ∑ Freq( x)× | H ( x) | x∈D によって計算した問合せ処理コストの期待値 頻出 稀
  • 18. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 18 評価実験 1 •  問合せ処理コストの比較 •  最頻出曲(x=0)に対する問合せ処理コストは完全なプロトコルに等しい •  その他の曲に対しては大幅な削減が可能(平均約 1/87 に削減) min. max. avg. 緩和前 100000 100000 100000 緩和後 145 100000 1146.6 relaxed (avg.) は ∑ Freq( x)× | H ( x) | x∈D によって計算した問合せ処理コストの期待値 頻出 稀
  • 19. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 19 評価実験 2 •  データセット •  2500 タプルからなるデータベースを作成 •  頻度がガウス分布及びZipf分布に従う二種類の問合せログを作成 •  問合せ処理プロトコル •  実際に問合せを評価するプロトコルとして cPIR† を利用 •  以下の時間を計測 •  制約緩和された走査集合の計算時間 •  サーバにおける問合せ処理時間 †Kushilevitz, E. and Ostrovsky, R.: Replication Is Not Needed: Single Database, Computationally-Private Information Retrieval, Proc. of the 38th Annual Symposium on Foundations of Computer Science, pp. 364-373, 1997.
  • 20. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 20 評価実験 2 •  制約緩和された走査集合の計算に要した時間 •  なぜ乱高下しているのか分かっていない •  ガウス分布の場合もZipf分布の場合も中心の x で時間を要する •  中心に近づけば可能な走査集合の組合せが増えるため •  最大でも 0.8 秒未満で計算可
  • 21. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 21 評価実験 2 •  サーバにおける問合せ処理時間 •  complete: cPIR プロトコルのみ •  relaxed (gauss): 問合せ頻度がガウス分布に従うと仮定した場合 •  relaxed (zipf): 問合せ頻度が Zipf 分布に従うと仮定した場合 •  最頻出アイテム以外では 緩和した方が短時間で処理可 •  最頻出アイテムでは 走査集合に関する処理が 増えるため遅くなる •  多くの場合で時間短縮可能
  • 22. 2012年11月20日 プライベート問合せにおける問合せ頻度を用いた制約緩和手法 22 まとめと今後の課題 •  問合せの頻度情報を基にした制約緩和手法を提案 •  既存のプライベート問合せ •  サーバにデータベース全体を走査させることで安全性を保証 •  サーバにおける問合せ処理コストが大きい •  提案手法 •  完全なプロトコルにおけるこの制約を緩和 •  緩和後の問合せリスクは完全なプロトコルにおける最大のリスクは超えない •  今後の課題 •  走査集合の大きさを基に検索意図を推定する攻撃 •  問合せ頻度が高い = 走査集合は大きい •  走査集合をランダムに大きくするといった対策を考えている