Opaque: A Data Analytics Platform with Strong Security: Spark Summit East talk by Wenting Zheng

Opaque: A Secure
Distributed Data Analytics
Framework
Wenting Zheng, Ankur Dave, Jethro Beekman,
Raluca Ada Popa, Joseph Gonzalez, Ion Stoica

Complex analytics run on sensitive data
client cloud provider
sensitive data

Complex analytics run on sensitive data
client
Spark
SQL
MLLib GraphX
Spark
Streaming
cloud provider
sensitive data

Threat model
client cloud provider
sensitive data

Challenge:
protect data and preserve functionality

Spark SQL
Opaque*: secure data analytics
* Oblivious Platform for Analytic QUEries
SQL
Machine
Learning
Graph
Analytics

Spark SQL
Opaque
Opaque*: secure data analytics
* Oblivious Platform for Analytic QUEries
SQL
Machine
Learning
Graph
Analytics

Prior work
• Computation on encrypted data

Prior work
– A cryptographic approach using homomorphic encryption

Prior work
– Either impractically slow (FHE), or limited functionality (CryptDB)

Prior work
• Hardware-based systems

Prior work
– Use trusted hardware

Prior work
– Only single machine computation (Haven), or weaker security
guarantees (VC3)

Prior work
– Only single machine computation (Haven), or weaker security
guarantees (VC3)
Opaque utilizes trusted hardware

Hardware enclaves
• Hardware-protected containers in
presence of malicious OS

Hardware enclaves
Untrusted OS

Enclave
Hardware enclaves
Untrusted OS

Enclave
Hardware enclaves
• Shielded execution
Untrusted OS

Enclave
Hardware enclaves
Untrusted OS
Secret
data

Enclave
Hardware enclaves
Untrusted OS
Secret
data
Code

Enclave
Hardware enclaves
• Encrypted enclave memory
Untrusted OS
Secret
data
Code

Enclave
Hardware enclaves
• Software attestation
Untrusted OS
Secret
data
Code

Enclave
Hardware enclaves
• Software attestation
• Example: Intel SGX, AMD
memory encryption Untrusted OS
Secret
data
Code

System initialization
Database
Client Server

• Remote
attestation to
load Opaque
code
Database
Client Server

• Remote
attestation to
load Opaque
code
Opaque
SQL
operators
Database
Client Server

• Remote
attestation to
load Opaque
code
Opaque
SQL
operators
hash
Database
Client Server

• Remote
attestation to
load Opaque
code
• Key exchange
protocol
Database
Client Server

• Remote
attestation to
load Opaque
code
• Key exchange
protocol
• This is NOT on a
per-query basis Database
Client Server

Spark
Driver
Opaque
Catalyst
Query execution
Client Server
Database
Scheduler
1 2 3

Spark
Driver
Opaque
Catalyst
Query execution
Client Server
Database
Scheduler
1 2 3query = SELECT sum(*)
FROM table

Spark
Driver
Opaque
Catalyst
Query execution
Client Server
Database
Scheduler
1 2 3
Query
query = SELECT sum(*)
FROM table

Spark
Driver
Opaque
Catalyst
Query execution
Client Server
Database
Scheduler
1 2 3
FROM table

Spark
Driver
Opaque
Catalyst
Query execution
Client Server
Database
Scheduler
FROM table
10 13 4

Spark
Driver
Opaque
Catalyst
Query execution
Client Server
Database
Scheduler
FROM table
10
13
4

Spark
Driver
Opaque
Catalyst 27
Query execution
Client Server
Database
Scheduler
FROM table

Spark
Driver
Opaque
Catalyst
27
Query execution
Client Server
Database
Scheduler
FROM table

Problem: cloud can alter distributed computation

• Drop data

• Drop data
• Modify data

• Drop data
• Modify data
• Skip task

• Drop data
• Modify data
• Skip task
• Replay old state

Example: drop data
Spark
Driver
Opaque
Catalyst
Server
Database
Scheduler
1 2 3
Client
FROM table

Example: drop data
Spark
Driver
Opaque
Catalyst
Server
Database
Scheduler
10 13 4
Client
FROM table

Example: drop data
Spark
Driver
Opaque
Catalyst
Server
Database
Scheduler
10
13
Client
FROM table

Example: drop data
Spark
Driver
Opaque
Catalyst
Server
Database
Scheduler
23
Client
FROM table

Self-verifying computation
Invariant: if computation does not abort,
the execution completed so far is correct

Invariant: if computation does not abort,
the execution completed so far is correct
If the computation is complete, then the entire
query was executed correctly

Task 13
Task 14
Task 15
Task 20
FROM table

20
1413 15
Task 13
Task 14
Task 15
Task 20
FROM table

20
1413 15
10
13
4
Task 13
Task 14
Task 15
Task 20
FROM table

ID Name Age Disease
12809 Amanda D. Edwards 40 Diabetes
29489 Robert R. McGowan 56 Diabetes
13744 Kimberly R. Seay 51 Cancer
18740 Dennis G. Bates 32 Diabetes
98329 Ronald S. Ogden 53 Cancer
medical table:
Problem: access pattern leakage
32591 Donna R. Bridges 26 Diabetes

ID Name Age Disease
SELECT count(*) FROM medical  
GROUP BY disease
12809 Amanda D. Edwards 40 Diabetes
29489 Robert R. McGowan 56 Diabetes
13744 Kimberly R. Seay 51 Cancer
18740 Dennis G. Bates 32 Diabetes
98329 Ronald S. Ogden 53 Cancer
medical table:
32591 Donna R. Bridges 26 Diabetes

SELECT count(*) FROM medical  
GROUP BY disease
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Attack viable for both
memory and network
access patterns!

Oblivious mode
Oblivious
primitives

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators
project-
filter
low-cardinality
agg.
sort-
merge join
broadcast
join
…

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators
Oblivious
operators
project-
filter
low-cardinality
agg.
sort-
merge join
broadcast
join
…

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators
Oblivious
operators
project-
filter
low-cardinality
agg.
sort-
merge join
broadcast
join
…
Oblivious
Filter
Oblivious
Sort
Oblivious
Aggregation
Oblivious
Join

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators
Oblivious
operators
project-
filter
low-cardinality
agg.
sort-
merge join
broadcast
join
…
Oblivious
Filter
Oblivious
Sort
Oblivious
Aggregation
Oblivious
Join
Oblivious Query Plan

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators
Oblivious
operators
project-
filter
low-cardinality
agg.
sort-
merge join
broadcast
join
…
Oblivious
Filter
Oblivious
Sort
Oblivious
Aggregation
Oblivious
Join
{

Oblivious mode
intra-machine
o-sort
inter-machine
o-sort
random
permutation
Oblivious
primitives
Opaque
operators
Oblivious
operators
project-
filter
low-cardinality
agg.
sort-
merge join
broadcast
join
…
Oblivious
Filter
Oblivious
Sort
Oblivious
Aggregation
Oblivious
Join
{Query
optimization

Oblivious aggregation
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Oblivious
sort
SELECT count(*) FROM medical GROUP BY disease
Map Sort

Map Sort
Oblivious
sort
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes

Sort
Oblivious
sort
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan
Statistics
Statistics

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Statistics
Statistics

2; 1
2; 2
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing

2; 1
2; 2
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Result size

2; 1
2; 2
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Offset

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
2; 1
2; 2
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Scan

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Scan

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Scan
Cancer:2
Diabetes:3
Diabetes:1
DUMMY
Final
result

12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
12809 … Diabetes
29489 … Diabetes
13744 … Cancer
18740 … Diabetes
98329 … Cancer
32591 … Diabetes
Scan Boundary
processing
Scan
Final
result
Cancer:2
Diabetes:4

Opaque modes
• Encryption mode

Opaque modes
• Encryption mode
– Data encryption and
authentication

Opaque modes
• Encryption mode
authentication
– Computation is
integrity protected

Opaque modes
• Encryption mode
authentication
– Computation is
integrity protected
Snapshot attacker
e.g. external hacker

Opaque modes
• Encryption mode
authentication
– Computation is
integrity protected
• Oblivious mode
Snapshot attacker

Opaque modes
• Encryption mode
authentication
– Computation is
integrity protected
• Oblivious mode
– Additionally hide
access patterns
Snapshot attacker

Opaque modes
• Encryption mode
authentication
– Computation is
integrity protected
• Oblivious mode
access patterns
Snapshot attacker
Persistent attacker
e.g. insider

Opaque modes
• Encryption mode
authentication
– Computation is
integrity protected
• Oblivious mode
access patterns
Snapshot attacker
Persistent attacker
e.g. insider
Trade off: performance and security

Project-filter
Obliv. sort
Filter
Query optimization - oblivious
SELECT count(*)  
FROM medical 
WHERE age > 30  
GROUP BY disease
Low-card. obliv. agg.
Scan
Obliv. sort
Aggregate
medical

Project-filter
Filter
SELECT count(*)  
FROM medical 
WHERE age > 30  
GROUP BY disease
Scan
Obliv. sort
Aggregate
medical

Project-filter
Filter
SELECT count(*)  
FROM medical 
WHERE age > 30  
GROUP BY disease
Scan
Obliv. sort
Aggregate
medical
Reduced # of
oblivious sorts
by 1

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Disease (D_) Medication (M_)
Gene (G_)
Query optimization - mixed sensitivity

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)
SELECT p_name, d_name, med_cost
FROM patient, disease,
(SELECT d_id, min(cost) AS med_cost
FROM medication
GROUP BY d_id) AS med
WHERE disease.d_id = patient.d_id
AND disease.d_id = med.d_id

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)
FROM medication
|P| < |D| < |M|

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)
FROM medication
Patient Disease
⨝
Medication
⨝
ᵞ
|P| < |D| < |M|

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)
FROM medication
Patient Disease
⨝
Medication
⨝
ᵞ
SQL join order
|P| < |D| < |M|

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)
FROM medication
Patient Disease
⨝
Medication
⨝
ᵞ
Patient
Disease
⨝
Medication
⨝ ᵞ
SQL join order
|P| < |D| < |M|

D_ID
AGE
NAME
P_ID
END_DATE
START_DATE
PID
COMMENT
DOCTOR
T_ID
DOSAGE
END_TIME
START_TIME
M_ID
T_ID
COMMENT
DATE
TR_ID
G_ID
NAME
D_ID
COST
D_ID
NAME
M_ID
COMMENT
NAME
G_ID
Patient (P_)
Treatment Plan
(TP_)
Treatment
Record (TR_)
Gene (G_)
FROM medication
Patient Disease
⨝
Medication
⨝
ᵞ
Patient
Disease
⨝
Medication
⨝ ᵞ
SQL join order
Opaque join order
|P| < |D| < |M|

Evaluation setup
• Single machine experiments
– Intel Xeon E3-1280 v5, 4 cores, 64 GB RAM
– Intel SGX: 128 MB of enclave page cache (EPC)
– Hardware mode

Evaluation setup
• Single machine experiments
– Intel Xeon E3-1280 v5, 4 cores, 64 GB RAM
– Intel SGX: 128 MB of enclave page cache (EPC)
– Hardware mode
• Distributed experiments
– EC2: five r3.2xlarge instances, 8 cores, 61 GB RAM
– Simulation mode only

Evaluation
• How does Opaque compare to Spark SQL?

Evaluation
– Big Data Benchmark (BDB)

Evaluation
• Queries 1, 2, 3: filter, aggregation, join

Evaluation
• 1 million records

Evaluation
• How does Opaque compare to state-of-the-art oblivious
systems?

Evaluation
systems?
– GraphSC (graph analytics)

Evaluation
systems?
– GraphSC (graph analytics)
• PageRank

Big Data Benchmark
(encryption mode)
Single machine

Big Data Benchmark
(encryption mode)Runtime(s)
0.01
0.1
1
10
100
Query number
Query 1 Query 2 Query 3
Spark SQL Opaque
Single machine

Big Data Benchmark
0.01
0.1
1
10
100
Query number
Spark SQL Opaque
DistributedSingle machine

Big Data Benchmark
0.01
0.1
1
10
100
Query number
Spark SQL Opaque
Runtime(s)
0.01
0.1
1
10
100
Query number
Spark SQL Opaque
DistributedSingle machine

Big Data Benchmark
0.01
0.1
1
10
100
Query number
Spark SQL Opaque
Runtime(s)
0.01
0.1
1
10
100
Query number
Spark SQL Opaque
Distributed
With very little cost, you will have data
encryption, authentication and
computation protection!
Single machine

Single machine Distributed
Big Data Benchmark
(oblivious mode)

Big Data Benchmark
(oblivious mode)Runtime(s)
0.01
0.1
1
10
100
Query number
Spark SQL Opaque

Runtime(s)
0.01
0.1
1
10
100
Query number
Spark SQL Opaque
Big Data Benchmark
(oblivious mode)Runtime(s)
0.01
0.1
1
10
100
Query number
Spark SQL Opaque

PageRank: comparison with GraphSC

Open source release
• Available at github.com/ucbrise/opaque

Open source release
• Opaque is implemented as a Spark package

Open source release
• Features

Open source release
• Features
– Supports DataFrame select, filter, group by, join

Open source release
• Features
– Allows users to specify DataFrames in encryption/
oblivious modes

Open source release
• Features
– Allows users to specify DataFrames in encryption/
oblivious modes
• Automatic sensitivity propagation in mixed
sensitivity

Open source release
• Extension

Open source release
• Extension
– More functionality requires rewriting operators in C++

Open source release
• Extension
– No UDF support yet

Open source release
• Extension
– Possible solutions

Open source release
• Extension
• Automatically generate C++

Open source release
• Extension
• Run JVM in the enclave

Open source release
• Extension
• Deployment

Open source release
• Extension
• Deployment
– Master must be trusted

Open source release
• Extension
• Deployment
– SGX available now on Skylake processors

Open source release
• Extension
• Deployment
– SGX available now on Skylake processors
• Cloud providers have no support yet

Conclusion
Opaque is a secure distributed analytics platform
Opaque
SQL
Machine
Learning
Graph
Analytics
Try it out at github.com/ucbrise/opaque
Wenting Zheng - wzheng@eecs.berkeley.edu

Opaque: A Data Analytics Platform with Strong Security: Spark Summit East talk by Wenting Zheng

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Opaque: A Data Analytics Platform with Strong Security: Spark Summit East talk by Wenting Zheng

Similar a Opaque: A Data Analytics Platform with Strong Security: Spark Summit East talk by Wenting Zheng (20)

Más de Spark Summit

Más de Spark Summit (20)

Último

Último (20)

Opaque: A Data Analytics Platform with Strong Security: Spark Summit East talk by Wenting Zheng