33. t-近接性
• l-多様性があっても、ある属性がaの確率99%,bの確率1%というように偏り
が激しいと、プライバシーは危険
• 2つのグループ(上記a属性のグループとb属性のグループ)は、機微情
報データの分布における距離と、全属性の分布における距離が t 以下で
あるとき、 t-近接性 があるという
• 上記の分布間の距離としては、属性を各次元とする。分布Pの各属性値
をどのくらい移動させれば分布Qになるかを測りたい。そこで下に示す
Earth Mover’s distance(EMD)を用いて評価する
– KL-divergenceだと、上記の「移動」のイメージが出てこない。
33
1
,1,10..
min,
andbewteenflow
:andbetweendistance,,..,,,,..,,
111 1
11
1 1
1 1
2121
m
i i
m
i i
m
i
m
j ij
i
m
j ji
m
j ijiij
ij
m
i
m
j ij
f
ij
m
i
m
j ijij
jiij
jiijmm
qpf
qffpmjmifts
fdQPEMD
EMDfdf
qpf
givenqpdqqqQpppP
ij
最適化したのがを変化させて
:
35. k-匿名性, l-多様性, t-近接性の参考文献
• [LDR 05]LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain k-
Anonymity. SIGMOD, 2005.
• [LDR06]LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k-Anonymity.
ICDE, 2006.
• [XWP+06] Xu, J., Wang, W., Pei, J., Wang, X., Shi, B., Fu, A., Utility-Based Anonymization Using
Local Recoding. SIGKDD, 2006.
• [MGK2007]MACHANAVAJJHALA,A. KIFER,D. GEHRKE,J. and VENKITASUBRAMANIAM, U. l-
Diversity: Privacy Beyond k-Anonymity. ACM Transactions on Knowledge Discovery from Data,
Vol. 1, No. 1, Article 3,2007
• [S01] Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE TKDE,
13(6):1010-1027, 2001.
• [S02a] Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal on
Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
• [S02b] Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using
Generalization and Suppresion. International Journal on Uncertainty, Fuzziness and
Knowledge-based Systems, 2002.
• Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity
and –Diversity”. ICDE2007, pp.106-115, 2007.
• [SMP] Sacharidis, D., Mouratidis, K., Papadias, D. k-Anonymity in the Presence of External
Databases(to be appeared)
35
49. 差分プライバシー の文献
• C. Dwork. Differential privacy. In ICALP, LNCS,
pp.1–12, 2006.
• C. Dwork. Dierential privacy: A survey of
results. In TAMC, pp. 1-19, 2008.
• Cynthia Dwork, Frank McSherry, Kunal Talwar.
“The Price of Privacy and the Limits of LP
Decoding”. STOC’07, pp.85-94, 2007
49
51. プライバシ保護データマイニングの目
的
• Alice は彼女のデータベースを Bob に開示したくない.
• Bob も彼のデータベースを Alice に開示したくない.
• ただし,結合されたデータ XA∪XB についてデータマイ
ニングや統計処理を実行し,その結果のみを知りたい.
• PPDMではAliceやBobを「パーティ」と呼ぶ。
51
XA XBAlice
Bob
XA ∪ XB
55. A knows x and m, B knows y and n
Both A and B knows public key : pk
A only knows secret key: sk
A B
Epk(x) , Epk(m)
B generates random z
Epk(y)z =Epk(yz), Epk(n)z =Epk(nz),
Epk(m)z =Epk(mz), Epk(x)z =Epk(xz),
Epk(yz)xEpk(xz)=Epk(z(x+y))
Epk(mz)xEpk(nz)= Epk(z(m+n))
Dsk( Epk(z(x+y))) /Dsk( Epk(z(m+n)) )
=z(x+y)/z(m+n)
= (x+y)/(m+n) (x+y)/(m+n)
Both A and B knows (x+y)/(m+n)
Note: A couldn’t know z nor y because couldn’t factor out z or y from z(x+y)
大きな数の因数分解の不可能性
準同型性公開鍵暗号による平均値の計算プロトコル
上
か
ら
下
に
進
み
ま
す
56. 内積をプライバシー保護しつつ計算し、結果を乱数と
してシェアを計算するプロトコル.
• ここで rB は,Bob しか知らない乱数です.
• 準同型性公開鍵暗号を用いれば,実現できます.
• シェアしているのは乱数だが、足せば内積が得
られる
56
Alice Bob
入力 xA yB
出力 (xA)T yB - rB rB
Alice BobAlice Bob
公開鍵 pk を生成.
ci = Encpk(xi) (i = 1,…,d)
Alice Bob
公開鍵 pk を生成.
ci = Encpk(xi) (i = 1,…,d)
wi = ci
yi (i = 1,…,d)
w = Πi=1
d wi
Alice Bob
公開鍵 pk を生成.
ci = Encpk(xi) (i = 1,…,d)
wi = ci
yi (i = 1,…,d)
w = Πi=1
d wi
乱数 rB を生成.
w’ = w * Encpk(-rB)
Alice Bob
公開鍵 pk を生成.
ci = Encpk(xi) (i = 1,…,d)
Decsk(w’ ) = (xA)T yB – rB
wi = ci
yi (i = 1,…,d)
w = Πi=1
d wi
=Enc((xA)T yB)
乱数 rB を生成.
w’ = w * Encpk(-rB)
乱数を使うのがミソ。
乱数によってBobは自
分のデータを守ります
57. 付録:1-out of-2 紛失通信:Oblivious Transfer protocol:OT
n- out of –N も同様
Alice will send Bob one of two messages. Bob will receive one, and Alice will not
know which.
Alice Bob
(m1, m2) m1を受け取ると決める
(pk1, sk1), (pk2, sk2) pk1, pk2 K:symmetric key,
Epk1(K)
Aliceはpk1,pk2のどちら
でencryptされたか分からない。
Dsk1( Epk1(K))=K, Dsk2(Epk1(K))=G
EK(m1), EG(m2) DK(EK(m1))= m1, DK(EG(m2))
1-out of-2 紛失通信を使うと、暗号化したままで比較演算ができる。計算量大
59. データ分割のモデル 垂直分割と水平分割
59
エンティティ 属性1 属性2 属性3
1 a A α
2 b B β
3 c C γ
4 d D δ
5 e E ε
6 f F ζ
7 g G η
エンティティ 属性1 属性2 属性3
1 a A α
2 b B β エン
ティティ
属性1
1 a
2 b
3 c
4 d
5 e
6 f
7 g
エン
ティティ
属性2
1 A
2 B
3 C
4 D
5 E
6 F
7 G
エン
ティティ
属性3
1 α
2 β
3 γ
4 δ
5 ε
6 ζ
7 η
エンティティ 属性1 属性2 属性3
3 c C γ
4 d D δ
エンティティ 属性1 属性2 属性3
5 e E ε
6 f F ζ
7 g G η
パーティ1
パーティ1 パーティ2
パーティ2
パーティ3
パーティ3
水平分割
垂直分割
62. Step 3
for all m (in パーティ1)
{ パーティ1は自分の(d1,m)番目のデータに対してクラスタ中心γk
が一番近いクラスタのJ次元ベクトルΓkJに(d1×m)番目のデータ を加
算し、カウントCkにも1を加算}
以上によって生成された ΓkJとCk はパーティ1がクラスkにもっとも
近いデータの属性の総和と、そのようなデータの個数
次は自分のデータを隠す乱数Rbの加算と暗号化をし、その結果を
パーティ2に送る
for j=1,J
Epk[Γkj+Rb] パーティ2に送る
end for
Epk[Ck+ Rb」パーティ2に送る
62
パーティ1は1番目であるが、
それが保持している情報はRb
によって保護される