57. 비트코인에서 하루에 처리되는 평균 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions?timespan=all
2019년 하루 약 50만건
2013년 하루 약 5만건
58. 비트코인에서 하루에 처리되는 평균 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions?timespan=all
2013년 하루 약 5만건
2019년 하루 약 50만건
Transaction 10배 이상 증가
60. 지금까지 누적된 비트코인 Blockchain Size (MB)
https://www.blockchain.com/ko/charts/blocks-size?timespan=all
2013년 25GB
2019년 225GB
Blockchain Size 10배 이상 증가
61. 지금까지 누적된 총 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions-total?timespan=all
2013년 2천만건
2019년 4억 5천만건
62. 지금까지 누적된 총 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions-total?timespan=all
2013년 2천만건
2019년 4억 5천만건
Transaction Count 20배 이상 증가
69. 대용량 데이터 분석을 위한 4단계
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
분석 데이터 제공
[3단계]
데이터 분석
[4단계]
70. 대용량 데이터 분석을 위한 4단계
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
분석 데이터 제공
[3단계]
데이터 분석
[4단계]
71. 대용량 데이터 분석을 위한 4단계
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
분석 데이터 제공
[3단계]
데이터 분석
[4단계]
데이터 분석 과정 (20%)
데이터 정제 과정 (80%)
72. 다양한 데이터 종류 수집
- File, REST API, Socket, etc
대량의 데이터 수집
- 데이터 종류에 따라 초당 수백, 수천의 처리가 필요
실시간 데이터 수집
- 실시간으로 유입되는 데이터의 경우 수집 실패시 데이터 유실 가능성
비정형 데이터 수집
- 다양한 형태의 비정형 데이터를 일관되게 수집하는 것이 필요
[1단계] Raw Data 수집
73. 비정형 데이터를 구조적 형태로 변환
- 시계열 기준 형식
- 코드 기준 형식
데이터 노이즈 제거
- PK, FK 생성
- 필수데이터 생성
- 데이터 Validation
데이터 저장
- 대량의 데이터 핸들링이 가능해야 함
- 기존 데이터와 통합
- 필요에 따른 데이터 수정 및 삭제 가능
[2단계] Raw Data 정제 및 저장
74. 데이터 집계
- 정제된 Raw Data를 다양한 형태로 가공
- Unique, Sum, Count, etc
제공 데이터 Interval 조절
- 일간, 월간, 년간 데이터 조회시 데이터 핸들링
- 집계를 통한 대량의 데이터 처리 노하우 필요
[3단계] 분석 데이터 제공
75. 모든 데이터를 API 형태로 제공받아서 처리
사전 약속된 파라메터에 따라 데이터의 Interval 처리
- Raw 데이터 조회
- 일간 데이터 조회
- 월간 데이터 조회
데이터 분석에 필요한 도구는 마음대로 선택 가능
- Python
- R
- Kibana
- Zepplin
[4단계] 데이터 분석
80. ElasticStack
Beats
- 다양한 형태의 데이터를 수집할 수 있는 경량 데이터 수집기
Logstash
- 동적 데이터 수집 파이프라인
Elasticsearch
- 실시간 데이터 저장 및 집계가 가능한 대용량 데이터 저장소
Kibana
- 다양한 형태의 비정형 데이터를 시각화 할 수 있는 UI도구
85. Logstash [2단계] Raw Data 정제 및 저장
별도의 개발없이
간단한 설정만으로도
수집된 Raw Data 정제 및 저장 가능
86. Logstash [2단계] Raw Data 정제 및 저장
Input 영역에서 정제할 데이터
스트림을 전달 받는다.
Filter 영역에서 수집된 Raw Data를
다양한 형태로 정제한다.
Output 영역에서 정제가 완료된
데이터를 Elastsicsearch로 저장한다.