SQream DB, GPU-accelerated data warehouse

DATA ANALYTICS
FOR MASSIVE
GPU DATA WAREHOUSE

개요
• SQream 소개
• BI 인프라 “Scalability” 문제
• SQream은 무엇인가
• SQream 비즈니스 가치
• 기술구조
• 사례
• Q/A

HQ in 7 WTC New York | R&D in Tel Aviv
CORPORATE PROFILE
2010년 창사
with Alibaba Cloud
Strategic Partnership
특허
10
임직원
70+

4
2008
<1-4TB
2010
<10TB
2016
TB-PB
지금 여러분의 데이터는
하지만…
Technology
CPU
Technology
GPU
엄청난 속도로 증가 중 입니다

1970s-1990s 1990-2010
MPP zone
2005-2010
In-Memory zone
2010…
Massive Data zoneClassic Relational zone
“많은 노력에도 불구하고 패타바이트 급
Massive Data의 처리 가능한 데이터베이스는 많지
않습니다”

“BUT YOUR DATABASE WASN’T
BUILT TO HANDLE THIS LEVEL OF DATA”
NoSQL & Hadoop GPU Database Relational DB
MPP In-Memory Massive Data
Hive-Hadoop
Kinetica
SAP HANA
Mongo DB SQREAM DBOmnisci
(MapD)
MemSQL
VoltDB
DB2 BLU
IBM
Netezza
IBM
Oracle
DB2
Teradata
Vertica Redshift
Exadata
Oracle
Server
SQL
Classic Relational
Snowflake BigQuery
Public Cloud Only

SQL 쿼리, 이에 따른 BI 분석
“ARE TAKING WAY
TOO LONG"

8
3-5 시간
기존의 CPU 시스템의 한계
“TAKE TOO LONG TO ACCESS DATA”
Data lake 레거시 MPP
1000 of CPUs
BI 유저Data sources
ETL/ 큐브/
집계/ 인덱싱
30 분 1-2 시간

평균수행시간
DATA PREPERATION에 소요하는
“Organizations report that they spend more than 60% of
their time on data preparation, leaving little time for actual analysis.”
- Gartner

이에 빠르게 증가하는 많은 데이터는
“미 분석 처리 – GOING UNANALYZED”

VALUABLE INSIGHTS
GO UNDISCOVERED -
분석대상에서 제외됨
BI Lost
90%Data Analyzed
<10%

“THE CHALLENGE”
MASSIVE DATA STORE 분석 범위
1. 어떻게 – “Rapidly Query Massive Data”
2. 분석 업무 진행 하기 까지 – ”Short time to Analysis”
3. 그리하여 – “분석범위의 최대화”

Data Analytics 분야의 새로운 “패러다임”
“GPU TO HARNESS MASSIVE DATA”

 INGESTION시 GPU 활용
 수천개의 프로세싱 CORE
 900 GB/s 메모리 Bandwidth
 데이터 압축
 메타데이터 수집
 대용량 데이터 스트림에 대한 반복 처리
강력한 데이터 INGEST

GPU – 새로운 패러다임
• GPU 기술은 빠른 속도로 성장 하고 있음 – 수천개의 CORE
• 놀라운 메모리 Throughput 성능 – 900GB/s
• GPU 당 약 33 Tflops. X86 Server는 약 3Tflops 지원함
• GPU는 “Throughput Oriented”
• 연산 처리 (Number Crunching)에 특화됨 – (압축알고리즘, SORTING 알고리즘, 집계처리 등)
Cache
ALU
Control
ALU
ALU
ALU
DRAM
CPU
DRAM
GPU

SQREAM BUSINESS VALUE
100xfaster
쿼리성능
10%of resources
비용절감
20xmore data
분석처리범위
과거에 실행 가능하지 않은 데이터 범위에 접근 가능해 짐 – 시계열 분석에 있어 시간 범위를
더욱 넓힐 수 있고 이에, 보다 깊은 인사이트를 제공 할 수 있게 됨

17
SQREAM DB는..
• Massively parallel engine
• Faster and smaller than CPUs
POWERED
BY GPUs
• 테라바이트  페타바이트
• 메모리 제약 사항 없음
• Ingests 3 TB/hr/GPU (평균)
• 컬럼기반의 데이터 저장
• 상시 압축
• ANSI SQL 표준
• 표준 커넥터 제공
• 2U 서버에 100TB 분석
• 높은 TCO
• Python, AI, Jupyter, etc.
• Built for data science
보유한 현재 DATA STORE의 분석 범위를 확장
MASSIVELY
SCALABLE
SQL
DATABASE
EXTENSIBLE
FOR ML/AI
MINIMAL
FOOTPRINT
LIGHTNING
FAST

18
개념 1
• 컬럼 기반의 데이터베이스는 검증된
BI 특화된 데이터베이스 기술 임
• 빅데이터 분석에 용이함 – 시계열
집계 처리 등
• 컬럼기반 아키텍처는 가장 효율적인
데이터 압축을 가능케 함
COLUMNAR

19
개념 2
• “Chunking” 아키텍처를 통한 다차원화 된 PARTIONTIONING 기술을 제공 함 – 이는 데이터
스캐닝 시 필요한 데이터만 찾는 Data Skipping을 가능케 함 – 다음 장 참조
• 데이터 Ingestion 중 자동으로 Chunking Process는 수행 됨
CHUNKING
Table
Chunks
Columns

20
개념 3
• Always on, calculated for every chunk
• 예:
SELECT * FROM t WHERE YEAR>2017
(all chunks with YEAR<=2017 can be skipped)
SMART METADATA / DATA SKIPPING
day month year val1 val2 val3
 10 2017   
 11 2017   
 12 2017   
 01 2018   
 02 2018   
 03 2018   
이 부분만
읽게 됨
이 부분은
“SKIPPING” 됨
데이터베이스 관리에 있어 인덱스 개념은 사라짐

21
FULL SCAN VS.
• 항상 전체 테이블을 읽어야 함 • 메타데이터를 통한 필요 데이터 범위만
스캔
SMART METADATA ACCESS
Smart Metadata Access
  
  
  
  
  
  
  
  
  
  
  
  
Q1 Q2 Q3

























Q2
Q1
Impact: I/O, CPU 및 메모리 최소Impact: I/O, CPU 및 메모리 오버헤드
Full Scan

22
개념 4
원시 데 이 터 VS 압축데이터
• Sqream은 항시 데이터 압축을 자동으로 진행하며 GPU를 활용 함
• 대부분의 데이터베이스는 데이터 로딩 이후 수동 작업을 통해 압축을 진행 함
• 자동적이고 유동적으로 (Automatic Adaptive Compression) 원시 데이터에 가장
최적화된 압축 알고리즘을 채택 하며 이는 쿼리 성능에도 최상의 결과를 도출함
• 평균 1:5 압축율을 기대 할 수 있으며 80% 스토리지 용량 개선 뿐만 아니라 80%
이상의 I/O 개선에도 기여 함
• 원시 데이터 100 TB -> (20 TB, + 수 GB 의 메타데이터) 의 SQream 데이터

23
기술구조
Automatic adaptive
compression
Data Data Data
GPU
Parallel chunk
processing
데이터 스키핑
Data Data Data
Chunking
Data Data Data
+ 메타데이터 태깅
컬럼기반
Data DataDataData
원시 데이터
Data Data Data
Data Data Data
Data Data Data
BI Visualization

FASTER, EXTENDED ANALYTICS
분석 업무 단수화 및 더 빠르게
집계처리,
인덱싱, 큐브 생성MPP 100 TB
수時 또는
수日 소요
복잡한 ETL
MPP 100 TB
수分 내 BI 결과
도출

SEAMLESS 인터페이스
AS-IS BI 환경과
Java | Python | SQL | R | C++
- Data Sources -
- ETL and others -
- SQream DB-
Cloud Infrastructure
- BI and Visualization -

GPU-POWERED ANALYTICS
• GPU서버의 탁월한 컴퓨팅 파워
• 강력한 Ingestion 성능 + 압축률 +
메타데이터 수집 – 동시 진행
• 조인 쿼리 성능 (Super-Fast)
준 실시간 수준의 원시 데이터 탐색 (DATA EXPLORATION)
(TPC-DS 기준 1500억 건 - 150억 건 타임시리즈
하루 기준 테이블 조인 및 연산 처리 쿼리 – 20초 내)

SQREAM DB
• Shared-Everything 구조
• Scale up or out
• Hybrid 클라우드 지원
• 서버피커를 통한 로드밸런싱 지원
프로세서와 스토리지의 DE-COUPLING

FINANCE
Fraud analysis
Risk consolidation
Customized services
RETAIL
Monitor Competitors
Customer Experience
Operational Decisions
TELECOM
Customer 360
Competitive Analysis
Network Optimization
HEALTHCARE
Care Management
IOT Devices
Genomic Research

4000만 고객 인사이트
통신사
HP DL380g9
with NVIDIA Tesla GPU
96 GB RAM + 6 TB storage
$200K
40 NODES
5 full racks
7600 CPU cores
$10,000,000
18M
10M
360M
120M
Ingest time
Reporting time
Ownership Cost

쿼리 및 보고서 처리 시간 단축
기존 레거시 MPP 를 GPU-POWERED SQream으로 교체
AIS는 더 많은 데이터 DRILL 범위를 갖게 됨
예: OOKLA를 통해 4G Speed Test 결과 원시
데이터 분석을 진행 함 (3개의 통신사 대상). 이에
대한 한주간 비교분석을 AIS를 대상으로 진행
데이터 적재 이후, AIS는 그 어떤 지연 없이
다각의 디멘션을 분석 할 수 있게 됨 (예: latency,
download speed, ppload speed)
통신사

LOCATION-BASED DATA
학생들 대상 캠페인
3 테이블 조인 - 33억 건 ⋈ 4000만 건 ⋈ 30만 건
• 학생들의 밀집 구간을 3G/4G 데이터 사용률을
통해 대시보드 제공
• 큰 도형은 데이터 사용률이 높은 지역을 표시함
• 색감은 하루기준으로 시간을 표시함 – 밤
시간대는 진한 색감으로 표현
• 그 어떤 중간 집계 처리 프로세스 없이
대시보드에서 직접 구현

문제점
• 급증하는 데이터 분석력 한계 도달, 이에
많은 데이터를 통한 인사이트 손실이 있다
고 판단 함
• 하루 평균 4만개 이상의 쿼리 수행이
가능하고 수천만 건의 데이터 Ingestion이
가능한 분석 플랫폼 도입을 고려
인도의 MULTI-CHANNEL MESSAGING 통신사
요구사항
• 통신사 고객별 자가생성 (셀프-
서비스) 행동패턴 보고서 서비스
개시
• 고객대면 서비스 품질 및 충성도
제고

통신사
Data Sources
ODBCETL
Customer insight
통신사 고객 셀프서비스
Legacy MPP
성능 수준이 맞지 않거나
AD_HOC 쿼리 처리 불가능
현 MPP로 불가능
• 월 평균 수백억 건 이상의 메시지
(200+여 국가 대상) 전송
• 현 MPP 시스템의 인프라 단축을 진행
하는 동시에 주 단위의 분석 업무 진행
• 현 레거시 MPP시스템은 1주간 데이터
분석 결과 UI 표현에 있어 수분간 지연
기존 대비 11배의 데이터 분석, 20배 이상의 성능 제고
분석 타임프레임 확장
셀프 서비스 행동패턴분석

통신사
• SQream DB를 통하여 분석처리 업무를
단순화 하는 동시에 분석 범위를 7일에서
3개월로 확장 함
• 고객 AD-HOC쿼리는 (3개월 기준) 10초
내 수행 가능 - 기존 대비 11배의 데이터
분석, 20배 이상의 성능 제고
ODBCDirect load
Customer insight
UI front-end 셀프서비스
가능해 짐
Data Sources
기존 대비 11배의 데이터 분석, 20배 이상의 성능 제고
분석 타임프레임 확장
셀프 서비스 행동패턴분석

매출 성장에 기여
애드테크
Tesla GPUs
Acquisition
Sources
일 평균 85 TB 광고노출 데이터는 Real-Time-Bidding 히스토그램 생성에 사용
Data
2x NVIDIA
Queries take
5 hours
Extract
Data Ingest Queries take
5 minutes

Tesla GPUs
Acquisition
Sources
Data
8x NVIDIA
Extract
Not feasible
X
전체 소요 시간
5 분
매출 성장에 기여
애드테크
SQream을 통해 일 평균 360 TB에 달하는 광고노출 데이터 활용 가능해 짐
Data Ingest

새로운 비즈니스 인사이트 발견
유통
$30 Billion Company - Supply Chain Use Case
분석 시스템의 성능제고를 통한
ORACLE EXADATA 기반의 30분 이상의 쿼리 성능을 30초 내로 제고
Vast insights
untapped data
uncovered from

분석 성능 수준 유지
유통
TCO 감축
Netezza
압축률
평균쿼리성능
(초)33.70
4.0
31.70
4.7
TCO
서버개수
(S-Blade / GPUs)
8 full 42U racks,
56 S-Blades 7 TB RAM
56
$12,000,000
Dell C4130 with
4x NVIDIA Tesla GPUs
512 GB RAM + iSCSI JBOD (20TB)
4
$500,000
ACV 계산 - 24 TB 데이터, 3000억 건, 8 개 테이블 NESTED-JOIN

OUR PARTNERS
Cloud Infrastructure
Storage and Network Solution
Visualization

SQream and Orange demonstrate 100x cost
performance, removing limits of databases.”
“
Pascal Déchamboux | Director of Software
SQream helps us keep pace with rapidly
increasing data for real customer benefits.”
“
Suppachai Panichayunon, Head Solution Architect
WHAT OUR
CUSTOMERS SAY
SQream is helping us to cut years of cancer
research on large genomic datasets.”
“
Prof. Gideon Rechavi, Head of Cancer Research
We saw a cost effective opportunity to obtain
analytic capabilities we couldn’t have before.“
“
RF Group Leader

PROOF OF VALUE
NDA
제품소개 POC 계획 및 업무
분석
 유스케이스분석
 KPI 정의
 쿼리 리뷰
 데이터샘플 리뷰
킥오프
 최상 인프라 제안
 ETL 프로세스 설계
내부리뷰
 유스케이스 검증
 데이터로드 및 테스트
 쿼리 옵티마이저

BUSINESS VALUE IDENTIFICATION
• 분석업무 유스케이스는 무엇 입니까?
• 데이터 시각화 툴은 무엇을 쓰고 계십니까?
• Terabyte 기준으로 분석에 쓰이는 데이터 용량은 어떻게 됩니까? 1-3년 내 얼마나 더
데이터 범위를 확장 할 것 같습니까?
• 현재 Data Lake 용량과 성장률은 어떻게 됩니까?
• 현재 쿼리 성능은 어떠 합니까? 얼만큼 더 제고 해야 한다고 생각 하십니까?
• 원시 데이터 소스는 어디 입니까? 충분히 분석 다각화가 (Dimension) 되어 있다고 생각
하십니까?
• 분석 업무 전체 유저수는 어떻게 됩니까? 동신 유저 수는 무엇 입니까?

FAST AND SIMPLE
빅데이터 탐색
 원시데이터 직접 쿼리
 AD-HOC에 대한 신속 처리
 더 많은 분석 범위 및 더 넓은 기간 분석
 더 깊은 분석 이사이트, 정확도 제고
 전반 Business Intelligence 고도화
Multiple
JOINs on
any field
Time
Series
Regular
Expressions
ANSI-92
Compatible
Window
Analysis
ODBC, JDBC
Python
Connectivity

FEEL FREE TO
ADDRESS
Headquarters, 7 WTC
250 Greenwich Street
New York, New York
박찬호
한국기술총괄
jamesp@sqream.com | sqream.com
WE ARE SOCIAL
CONTACT

SQREAM DB INTERNAL ARCHITECTURE
Statement Compiler
SQL Parser
Desugar & Optimize
Relational Algebra
Desugar & Optimize
Low-level stages
Execution Engine
StatementTree Interpreter
Task Runners
I/O CPU GPU
Storage Layer
Metadata Database
+ Low-level transactions
server or in-process
Bulk Data Layer
Extent Extent Extent …
Storage Reorganizer
Tasks
Queue & Thread
Manager
Profiling Support
Memory Managers
Building
blocks
Building
blocks
Building
blocks
Connection &
Session
Manager
Concurrency
& Admission
Control
Desugar & Optimize
Small
Memory
Managers
Chunk
Memory
Managers
Spool
Memory
Managers
Linux FS
Cache
Prodder

DATABASE COMPONENTS
SQream DB Cluster
Network storage
Host1
Node1
Instance
(5001)
Instance
(5000+N)
Instance
(5000)
HostM
NodeM
Instance
(5001)
Instance
(5000+N)
Instance
(5000)
ClusterManagerHost
Load balancer (3108)
Cluster Manager
 


SQream DB, GPU-accelerated data warehouse

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SQream DB, GPU-accelerated data warehouse

Similar to SQream DB, GPU-accelerated data warehouse (20)

More from NAVER Engineering

More from NAVER Engineering (20)

SQream DB, GPU-accelerated data warehouse