Más contenido relacionado
La actualidad más candente (20)
Similar a Amazon.com 사례와 함께하는 유통 차세대 DW 구축을 위한 Data Lake 전략::구태훈::AWS Summit Seoul 2018 (20)
Más de Amazon Web Services Korea (20)
Amazon.com 사례와 함께하는 유통 차세대 DW 구축을 위한 Data Lake 전략::구태훈::AWS Summit Seoul 2018
- 1. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
구 태 훈
Database & Big Data Analytics Business Development, AWS
Amazon.com 사례와함께하는
유통차세대DW구축을위한DataLake전략
- 2. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
목차
I. 데이터 분석의 진화
II. Amazon.com의 데이터 분석
III. Data Lake 구축 방안
- 3. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
I. 데이터 분석의 진화
분석 플랫폼 및 아키텍처의 진화
- 4. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
왜 차세대 분석 플랫폼이 필요?
- 5. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Source : IDC
왜 차세대 분석 플랫폼이 필요?
- 6. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
왜 차세대 분석 플랫폼이 필요?
기존 Data Warehouse 및 Hadoop 는 각각 분리되어 있는 데이터 흐름을
보유하고 있고, 실시간 데이터 처리에 한계를 가지고 있음
Hadoop
Cluster
SQL
Database
Data
Warehouse
Appliance
- 7. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분석 플랫폼의 진화 - 1단계 데이터웨어하우스
기존 데이터베이스에서 처리하는 운영 관점의 트랜잭션 데이터에 대한
통합 분석 서비스 제공
Databases
Transactions
Data
Warehouse
Extract, transform and load (ETL)
- 8. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분석 플랫폼의 진화 - 1단계 데이터웨어하우스
- 9. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분석 플랫폼의 진화 - 2단계 확장된 데이터웨어하우스
로그 형태의 반정형(Semi-Structure) 데이터를 기존 DW에서 추출 통합
Databases
Transactions
Data
Warehouse
Extract, transform and load (ETL)
Files
Logs
ETL
- 10. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분석 플랫폼의 진화 - 3단계 복잡한 빅데이터 처리 ?
실시간 형태 Streams 빅데이터와 Hadoop이 필요한 규모의 대규모의
비정형 데이터 처리 요구
Databases
Transactions
Data
Warehouse
Extract, transform and load (ETL)
Files
Logs
ETL
Streams
Logs
Events
? Hadoop
?
- 11. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
The Battle for the Future
VS.
- 12. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
The Battle for the Future
Growth in Data
(mostly Unstructured)
& Analytics
Average Growth in
Traditional DW
Data
Average IT Budget
- 13. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분석 플랫폼의 진화 - 3단계 Data Lake
실시간 형태 Streams 빅데이터와 Hadoop이 필요한 규모의 대규모의
비정형 데이터 처리 요구
Databases
Files
Streams
Transactions
Logs
Events
Data
warehouseData Lake
Data Science
Sandbox
Smart App
- 14. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
AWS는 데이터 분석을 위한 다양한 서비스를 제공하고
새로운 진화된 서비스를 제공
- 15. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
AWS 서비스의 진화
가상머신
(DIY)
관리형 서비스
(Managed)
서버리스
(Serverless)
- 16. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
AWS 분석 서비스의 진화
배치형 처리
(retrospective)
실시간 처리
(real-time)
분석/예측
(ML/DL/AI)
- 17. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
AWS Data Lake Solution
Amazon Redshift
+ Redshift Spectrum
Amazon
QuickSight
Amazon EMR
Hadoop, Spark, Presto, Pig,
Hive…19 total
Amazon
Athena
Amazon
Kinesis
Amazon
Elasticsearch Service
AWS Glue
S3 DATA LAKE
Objects in your S3 data lake
- 18. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
II. Amazon.com의 데이터 분석
DW로 부터 차세대 Data Lake로 진화
- 19. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Amazon의 핵심 가치
• Our vision is to be earth’s most customer-centric
company; to build a place where people can come to
find and discover anything they might want to buy
online.
• 우리의 비전은 지구상에서 가장 고객 중심적인
회사가되는 것이고, 사람들이 온라인에서 사고 싶은 어떤
물건이라도 발견 할 수있는 장소를 만드는 것.
- 20. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
- 21. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Amazon Data Warehouse
- 22. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Amazon DW
• 핵심 비즈니스 운영을 지원
정리되고 정리 된 비즈니스 데이터의 가장 포괄적 인 세트
많은 Downstream 시스템 및 프로세스를 제공
일괄 처리, 보고 및 특별 지원
매일 500k + 데이터로드 / 변환
매일 200k + 쿼리 / 추출
20k + 활성 테이블
매일로드되는 10B ++ 행
- 23. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Amazon DW
• 대규모 데이터는 운영
핵심 데이터 세트는 압축 데이터의 5+PB
(주로 레거시 기술로 제한됨)
총 저장 용량 (다중 시스템) : 35+ PB 압축
Legacy DW Vendor다른 고객 보다 1000x 이상이 큼
• 1000개의 Redshift와 EMR 운영
개별 기여 및 프로젝트 기반으로 구축
Amazon 내에서 수십억 달러 규모의 비즈니스 운영
- 24. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Amazon DW
• DW의 고객팀
Pricing, B2B, Seller Support, Lending …
• DW 운영 비즈니스 규모
235MM 월간 CPU 사용 시간 (레거시 ODW)
2K 업스트림 테이블
170 개 팀 지원
3000 명 이상의 BI 사용자
600+ "대시 보드“, 매월 100,000 회의 쿼리
- 25. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
차세대 Amazon Data Lake 목적
• Amazon 비즈니스를 확장 할 수있는 분석 생태계 제공
AWS 기술을 활용하고 모든 Amazon 고객을 대상으로 이러한
기술을 향상
• 새로운 기술 선택의 옵션을 제공
1) 기계 학습 및 프로그래밍 방식 데이터 분석 중점
2) Bring Your Own Cluster & Bring your Own Query
- 26. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
차세대 Amazon Data Lake 구축 방안
VS.
- 27. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
차세대 Amazon Data Lake 구축 방안
- 28. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
차세대 Amazon Data Lake = ANDES
- 29. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
차세대 Amazon Data Lake = ANDES
- 30. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
차세대 Amazon Data Lake = ANDES
vs.
AND
- 31. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
- 32. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
• 소스 데이터 세트를 Data Lake에 한 번만 통합
• 온 보딩 프로세스 간소화하고 일회성 통합 기능 제공
• 다양한 소스 시스템에서 구입 :
관계형 데이터베이스 - 예 : Amazon Aurora / RDS Postgres
비 관계형 데이터베이스 (예 : Amazon DynamoDB)
스트림 - 예 : Amazon Kinesis
플랫 파일 - 예 : Amazon S3의 파일
- 33. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
• 안전하고 확장 가능한 Data Lake
높은 내구성을 가진 S3 기반 스토리지
AWS 기술을 기반으로하므로 확장 성이 뛰어남
권한은 엄격히 적용됩니다.
• 데이터 품질
데이터 품질 검사 인증
스키마 유효성 검사
- 34. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
• 전사적 데이터 검색 인덱스
소비자는 원하는 것을 빨리 찾을 수 있음
데이터 세트에 대한 유용한 정보가 표시됨
• 명확한 의사 소통
데이터 품질 및 SLA에 대한 기대치를 전달함
소비자는 생산자와 협업
- 35. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
• 데이터를 쉽게 구독 할 수있는 프로세스
관심있는 데이터 집합 찾기
"구독"을 클릭
대상 컴퓨팅 플랫폼 선택
• 데이터 마트를 신속하게 채움
예. AWS CloudFormation을 사용하여 Redshift 클러스터 제공
구독을 사용하여 클러스터에 데이터 집합 로드
- 36. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
• 구독 메커니즘 :
데이터를 분석 할 수있는 플랫폼에 데이터 지원
데이터 업데이트와 동기화 상태로 유지
사용자는 구독 정보의 동기화 상태를 모니터함
• 동기화
전체 데이터 복사
메타 데이터 전용 동기화
- 37. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 데이터 가치 사슬
COLLECT STORE DELIVER ANALYZESUBSCRIBEDISCOVER
• 팀은 작업에 적합한 도구를 사용
양방향 분석 또는 일괄 예약 작업을위한 Amazon Redshift
기계 학습 및 데이터 과학을위한 Amazon EMR
QuickSight for Business 분석 및 시각화
• 계산 자원은 Data Lake와 독립적으로 확장
더 많거나 더 빠른 작업 처리로 비용 최적화
높은 피크 워크로드를 충족시키는 스케일
- 38. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
ANDES의 현재 !
• 데이터 증가
ANDES에 유지 관리되는 20k+ 테이블
모든 활성 테이블이 DW에 제공
많은 팀이 새로운 데이터 세트를 추가
구독으로 900+ Redshift 및 EMR 시스템 탑재
동기화되는 20,000 개 이상의 테이블
• 데이터 활용 증가
2014-2016년 3년에 동안 일간 100k로 데이터 작업 증가
그러나 2017 년에는 일간 100k에서 300k로 데이터 작업 증가
- 39. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
III. Data Lake 구축 방안
어떻게 시작할 수 있을까?
- 40. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
데이터 전략 도출로 시작 !
왜?
어떻게 접근하죠?
어떤 툴을 사용하면 되죠?
참조할 수 있는 아키텍처가 있나요?
- 41. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
데이터 전략 워크샵
데이터를 저장, 처리, 분석, 활용을 기반으로 기대하는 비즈니스 결과를
조사하고, 필요 데이터와 서비스 대안을 도출해서 AWS 검증 방안 정의
Data Lake Workshop PoC
POC 수행 및
결과 검증
데이터
비느니스
기회 도출
DL1.0
활용 사례 및
워크로드 도출
DL2.0
AWS 대안 도출
DL3.0
POC 계획 수립
DL4.0
현황 진단 계획
- 42. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
데이터 전략 워크샵
Speed (Real-time)
Ingest ServingData
sources
Scale (Batch)
Data analysts
Data scientists
Business users
Engagement
platforms
Automation / events
- 43. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Speed (Real-time)
Ingest ServingData
sources
Scale (Batch)
Transactions
Web logs /
cookies
ERP
AWS Database
Migration
AWS Direct
Connect
Internet
Interfaces Amazon S3
Raw Data
Amazon S3
Staged Data
(Data Lake)
Amazon EMR
ETL
Data analysts
Data scientists
Business users
Engagement
platforms
Amazon
Kinesis
Connected
devices
Social media
Advanced
Analytics
MLlib
Event Capture
Amazon Kinesis
Stream Analysis
Amazon EMR Event Scoring
Amazon AI
Event Handler
AWS Lambda Response Handler
AWS Lambda
Automation / events
Data Warehouse
Amazon Redshift
Legacy Apps
Amazon RDS
Schemaless
Amazon ElasticSearch
Direct Query
Amazon Athena
Near-Zero Latency
Amazon DynamoDB
Semi/Unstructured
Amazon EMR
데이터 전략 워크샵
- 44. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
비즈니스 모델
- 45. © 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
AWS Summit 모바일 앱과 QR코드를
통해 강연 평가 및 설문 조사에 참여해
주시기 바랍니다.
내년 Summit을 만들 여러분의 소중한
의견 부탁 드립니다.
#AWSSummit 해시태그로 소셜 미디어에 여러분의 행사
소감을 올려주세요.
발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜 채널로
공유될 예정입니다.
여러분의 피드백을 기다립니다!