プライベート問合せにおける問合せ頻度を用いた制約緩和手法

プライベート問合せにおける 
問合せ頻度を用いた制約緩和手法
川本淳平 (筑波大学)
Patricia L. Gillett (École Polytechnique de Montréal)
佐久間淳 (筑波大学, 科学技術振興機構さきがけ)

2012年11月20日
プライベート問合せにおける問合せ頻度を用いた制約緩和手法
2

問合せからの情報漏洩
•  データベースに対する問合せとプライベート情報
記事 x が読みたいが
何を閲覧したかは秘密にしたい

ニュースサイト

•  閲覧記事から趣味や政治観，宗教観が推測されてしまうリスク
•  薬剤データベースの場合，病名が推測されるリスク
•  特許データベースでは事業計画が漏洩するリスク, etc.

2012年11月20日
3

プライベート問合せ
•  問合せ内容を隠したまま目的のデータを取得する方法
記事 x が読みたいが問合せ内容を知ること
何を閲覧したかは秘密にしたい
無く結果を計算

問合せ
結果

特殊な符号化を利用
- 検索意図は分からない
- 目的の記事は取得できる
•  既存プロトコル
•  cPIR†や IPP法†† などいくつかのプロトコルが提案されている
†Kushilevitz,E. and Ostrovsky, R.: Replication Is Not Needed: Single Database, Computationally-
Private Information Retrieval, Proc. of the 38th Annual Symposium on Foundations of Computer
Science, pp. 364-373, 1997.
††Kawamoto, J. and Yoshikawa, M.: Private Range Query by Perturbation and Matrix Based

Encryption, Proc. of the Sixth IEEE International Conference on Digital Information Management,
pp. 211-216, 2011.

2012年11月20日
4

プライベート問合せにおける三概念
•  我々は三つの概念でプライベート問合せの特徴を議論する
•  検索意図: 何をサーバに問い合わせたのかそのもの
•  問合せ: サーバに送信するプロトコルで定められたデータ
•  走査集合: サーバが最低限調べる必要のあるアイテム集合

問合せ処理のために調べた部
記事 x が読みたい（検索意図）
分データベース（走査集合）

問合せ
結果

•  サーバが効率的な索引を構築できれば走査集合は小さくなる
•  しかし一般的にプライベート問合せでは索引の利用は困難である

2012年11月20日
5

既存プロトコルの特徴
•  既存プロトコルの多くは
1.  問合せは処理可能だが解読できない符号化を問合せに施す
2.  走査集合が常にデータベース全体となることを強制する
という二つの制約で安全性を保証している
•  制約 2 によって検索意図をDB全体の中に隠している

どのような問合せに対しても
データベース全体を調べる
問合せ

•  あらゆる検索意図 x に対して問合せ処理コストは O(n) (n: 総アイテム数)
•  大規模DBにおいては現実的なコストではない

2012年11月20日
6

制約緩和の可能性
•  検索意図をDB全体から隠さなくても良いケース
•  一部の記事の中から隠せれば趣味や政治観，宗教観が隠せる場合など

•  ランダムに選んだ記事群の中に隠すだけでは不十分
問合せ頻度を攻撃者が知っているとする

記事記事記事記事
x
a
b
c

人気記事
あまり人気ではない記事

•  記事 x が検索意図だと推測可能
•  問合せ頻度を考慮して隠す先を選ぶ必要がある

2012年11月20日
7

提案の制約緩和手法概要
•  制約を緩和しない（完全なプロトコル）場合
•  検索意図 x = 3 の時: DB全体から x を隠しても確率 3/9 で推定可能
•  検索意図 x = 1 の時: DB全体から x を隠すと確率 1/9 で推定され得る

制約緩和後に x が推定される確率が問合せ発生回数と頻度
3/9 (完全なプロトコルの最大値)
以下であれば良しとする
頻度
•  検索意図 x = 1 の時
•  {1, 2} の中に x を隠すと
確率 1/3 で推定され得る
•  3/9 を超えないため良しとする

2012年11月20日
8

データベースモデルと問合せ頻度
•  データベースのモデル
•  データベースは n 個のアイテムからなる: D = {t1, t2, …, tn}
•  利用者は x 番目のアイテム tx を取得する: 検索意図は x
•  走査集合 H(x) 一致検索
•  検索意図が x である問合せを処理するために調べるアイテム集合
•  サーバが効率的な索引を構築している場合は H(x) ={x}
•  問合せ頻度（検索意図の頻度）
•  検索意図 x が発生する頻度を Freq(x) とかく
•  頻度は正規化されているとする: Freq( x) = 1
∑
x∈D 問合せ処理のために調べた
部分データベース（走査集合）
tx を取得したい（検索意図）
DB
問合せ
結果
H(x)

2012年11月20日
9

問合せリスク
•  検索意図 x に対し走査集合が H(x) であった時のリスク
Freq( x)
Risk ( x | H ( x)) =
∑ Freq( y)
y∈H ( x )

•  走査集合に含まれるアイテムの問合せ頻度を基にした確率
•  検索意図 x が頻出であれば高リスク
例：頻度
Risk(3|{1,2,3,4,5}) = 3/9
Risk(1|{1,2,3,4,5}) = 1/9
Risk(1|{1,2}) = 1/3

2012年11月20日
10

保証する安全性の定義
•  制約を緩和しない完全なプロトコルにおける最大リスク
max Risk ( x | H complete ( x))
x∈D
•  このリスクを越えなければ安全であると考える
•  制約緩和を行わない場合のリスクは許容されている
•  その最大リスクを越えなければ制約を緩和しても許容されると仮定する

Risk ( x | H relaxed ( x)) ≤ max Risk ( y | H complete ( y ))
y∈D

•  上記式を満足する最小の走査集合 Hrelaxed(x) を求めればよい

2012年11月20日
11

サーバにおける問合せ処理コスト
•  サーバにおける問合せ処理コスト
•  走査集合の大きさで評価する
•  検索意図 x に対する処理コストは Cost ( x) =| H ( x) |

•  全検索意図 x に対する処理コストの期待値 C は

C = ∑ Freq( x) × Cost ( x)
x∈D

2012年11月20日
12

求むべき走査集合の定式化
•  与えられた検索意図 x に対して
1.  x ∈ H (x)
2.  Risk(x | H (x)) ≤ max y∈D Risk(y | H complete (y))
3.  Cost(x) を最小化する
4.  条件 3 の下で ∑ y∈H ( x ) Freq( y ) を最大化する = Risk最小化
という条件を満足し連続するアイテムからなる集合 H(x) の探索

•  この最適化問題を解くアルゴリズムは論文に掲載
•  ここまでは１次元データに対する一致検索を考えてきた
•  １次元データに対する範囲検索
•  ２次元データに対する一致検索
への拡張についても論文では議論している

2012年11月20日
13

問合せプロトコル
•  本手法は既存のプライベート問合せ技術と組み合わせて使う
•  問合せの頻度は公開情報であるとする

•  検索意図が x である利用者
1.  Freq(x) と制約緩和アルゴリズムを用いて走査集合 H(x) を計算
2.  H(x) 上で使用するプライベート問合せにて定義されている問合せを作成
3.  問合せと走査集合 H(x) をサーバに送信
•  問合せと走査集合を受け取ったサーバ
1.  走査集合に含まれるアイテムのみからなる部分データベースを作成
2.  部分データベース上で受け取った問合せを評価
（使用するプライベート問合せプロトコルに則る）
3.  問合せ結果を利用者に返信

2012年11月20日
14

評価実験
•  実データを用いた実験
•  提案手法による問合せリスクが完全なプロトコルの最大値を超えない
ことを確認する
•  制約緩和により問合せ処理コストが削減されることを確認する

•  人工データを用いた実験
•  ガウス分布とZipf分布に従う二種類の問合せ頻度分布を仮定
•  cPIR と組み合わせた場合の計算処理時間を計測
•  制約緩和された走査集合の計算が低コストであることを確認する
•  提案手法によりサーバ計算時間が短縮されることを確認する

2012年11月20日
15

評価実験 1
•  データセット
•  問合せログ†のうちランダムに選んだ10万曲に対する問合せ
•  約180万件の問合せからなる
•  曲番号は問合せ頻度順に設定

•  左図の縦軸は対数オーダー
•  observed は
∑ Freq( y)
y∈D , x∈H ( y )
Freq observed ( x) =
∑ Freq( y)× | H ( y) |
y∈D
にて計算される緩和後の頻度

頻出
稀

†http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html

2012年11月20日
16

評価実験 1
•  問合せリスクの変化
•  緩和後のリスクは完全なプロトコルに比べ上昇
•  完全なプロトコルにおける最大値 (x=0の場合) は超えていない

min.
max.
avg.
緩和前
5.6×10−7
3.9×10−3
1.0×10−5
緩和後
3.4×10−3
3.9×10−3
3.5×10−3

relaxed (avg.) は
∑ Freq( x) × Risk ( x | H ( x))
x∈D
によって計算した問合せリスクの期待値

頻出
稀
☆縦軸は対数オーダー

2012年11月20日
17

評価実験 1
•  問合せ処理コストの比較
•  最頻出曲(x=0)に対する問合せ処理コストは完全なプロトコルに等しい

min.
max.
avg.
緩和前
100000
100000
100000
緩和後
145
100000
1146.6

relaxed (avg.) は
∑ Freq( x)× | H ( x) |
x∈D
によって計算した問合せ処理コストの期待値

頻出
稀

2012年11月20日
18

評価実験 1
•  問合せ処理コストの比較
•  最頻出曲(x=0)に対する問合せ処理コストは完全なプロトコルに等しい
•  その他の曲に対しては大幅な削減が可能（平均約 1/87 に削減）

min.
max.
avg.
緩和前
100000
100000
100000
緩和後
145
100000
1146.6

relaxed (avg.) は
∑ Freq( x)× | H ( x) |
x∈D
によって計算した問合せ処理コストの期待値

頻出
稀

2012年11月20日
19

評価実験 2
•  データセット
•  2500 タプルからなるデータベースを作成
•  頻度がガウス分布及びZipf分布に従う二種類の問合せログを作成
•  問合せ処理プロトコル
•  実際に問合せを評価するプロトコルとして cPIR† を利用

•  以下の時間を計測
•  制約緩和された走査集合の計算時間
•  サーバにおける問合せ処理時間

†Kushilevitz, E. and Ostrovsky, R.: Replication Is Not Needed: Single Database,
Computationally-Private Information Retrieval, Proc. of the 38th Annual Symposium on
Foundations of Computer Science, pp. 364-373, 1997.

2012年11月20日
20

評価実験 2
•  制約緩和された走査集合の計算に要した時間
•  なぜ乱高下しているのか分かっていない
•  ガウス分布の場合もZipf分布の場合も中心の x で時間を要する
•  中心に近づけば可能な走査集合の組合せが増えるため
•  最大でも 0.8 秒未満で計算可

2012年11月20日
21

評価実験 2
•  サーバにおける問合せ処理時間
•  complete: cPIR プロトコルのみ
•  relaxed (gauss): 問合せ頻度がガウス分布に従うと仮定した場合
•  relaxed (zipf): 問合せ頻度が Zipf 分布に従うと仮定した場合

•  最頻出アイテム以外では
緩和した方が短時間で処理可
•  最頻出アイテムでは
走査集合に関する処理が
増えるため遅くなる

•  多くの場合で時間短縮可能

2012年11月20日
22

まとめと今後の課題
•  問合せの頻度情報を基にした制約緩和手法を提案
•  既存のプライベート問合せ
•  サーバにデータベース全体を走査させることで安全性を保証
•  サーバにおける問合せ処理コストが大きい
•  提案手法
•  完全なプロトコルにおけるこの制約を緩和
•  緩和後の問合せリスクは完全なプロトコルにおける最大のリスクは超えない

•  今後の課題
•  走査集合の大きさを基に検索意図を推定する攻撃
•  問合せ頻度が高い = 走査集合は大きい
•  走査集合をランダムに大きくするといった対策を考えている

プライベート問合せにおける問合せ頻度を用いた制約緩和手法

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (14)

Último

Último (8)

プライベート問合せにおける問合せ頻度を用いた制約緩和手法