Elasticsearch와 Python을 이용하여 맨땅에서 데이터 분석하기

Elasticsearch와 Python을 이용하여
맨땅에서 데이터 분석하기
김흥래 NAVER Business Platform

김흥래
NAVER Business Platform
자바카페 (JavaCafe) 커뮤니티 운영진
엘라스틱서치 실무 가이드 저자
발표자 소개

최근 5년간 비트코인 가격 분석
대용량 데이터 분석을 위한 4단계
엘라스틱서치와 데이터 분석 플랫폼
Overview

최근 5년간 비트코인 가격 변화
2017년 12월 (US)
2018년 01월 (KR)

2017년 중반부터 본격적으로 상승
2018년 1월 최고가를 갱신하며 대폭락
2019년초 바닥을 다지고 반등하며 현재 다시 상승 중

최근 5년간 비트코인 가격을 분석해보자.

제공되는 주요 경제 지표
미국 증권 지수 동북아 증권 지수 환율 비트코인
다우 KOSPI (한국) 달러 / 원화 Bithumb (원화)
나스닥 SSEC (중국) 달러 / 위안화 Bittrex (달러)
S&P500 NIKKEI (일본) 달러 / 엔화

[미국 증권 지수] 5년간 다우 지수
2016년 11월
트럼프 대통령 당선
2018년 11월
FAANG 주가 급락

[미국 증권 지수] 5년간 나스닥 지수

[미국 증권 지수] 5년간 S&P500 지수

[동북아 증권 지수] 5년간 KOSPI (한국) 지수
2017년 05월
문재인 대통령 당선
2018년 06월
북미 정삼회담

[동북아 증권 지수] 5년간 SSEC (중국) 지수
2015년 05월
중국 경제위기

[동북아 증권 지수] 5년간 NIKKEI (일본) 지수
2016년 02월
마이너스 금리 시작

[환율] 5년간 원달러 환율

[환율] 5년간 위안화 환율

[환율] 5년간 엔화 환율

먼저 주어진 데이터를 탐색해보자.

주가 상승률 (미국)
5년간 약 50% 상승

주가 상승률 비교 (미국 vs 한국)

주가 상승률 비교 (미국 vs 한국)
5년간 미국 주가가 약 50% 상승한 것에 비해
국내 주가는 재자리 걸음
1차 북미정상회담
2차 북미정상회담

주가 상승률 비교 (미국 vs 중국)

주가 상승률 비교 (미국 vs 중국)
5년간 미국 주가가 약 50% 상승하는 동안
중국 상해 주가는 마이너스 성장
미/중 무역분쟁

주가 상승률 비교 (미국 vs 일본)

주가 상승률 비교 (미국 vs 일본)
일본 니케이 지수는 미국과
비슷한 패턴으로 움직이는 경향이 있다.

주가 상승률 비교 (미국 vs 동북아시아)

주가 상승률 비교 (미국 vs 동북아시아)
최근 5년간 전세계 주가를 비교해보면
미국과 일본 증시가 비슷하게 움직이고
한국과 중국 증시가 비슷하게 움직이고 있다.

주가 대비 비트코인 상승률

주가 대비 비트코인 상승률 비트코인은 지난 5년간
최대 3000%의 상승률을 기록했다.
최근 5년간 전세계 주가는
10%내외의 미미한 상승률을 가지고 있다.

비트코인 가격대별 미국 주가 패턴

비트코인 가격대별 미국 주가 패턴
미국 주가 패턴은 비트코인 가격 패턴과
무관하게 움직이는 것으로 보인다.

비트코인 가격대별 한국, 중국 주가 패턴

비트코인 가격대별 한국, 중국 주가 패턴
한국, 중국 주가 패턴은
비트코인 가격이 하락하는 시점부터
동반 하락하는 패턴을 보여준다.
비트코인 하락시점의 주가는
한국 증가보다 중국 주가의 하락폭이
더 심해 보인다.

비트코인 가격대별 주요 주가 등락폭

비트코인 시장 형성 단계에서
비트코인 가격 상승시
주가 동반상승

비트코인 시장 활성화 단계에
비트코인 폭락시
주가 동반폭락 비트코인 시장 활성화 단계에
비트코인 폭락시
주가 동반폭락

증시 패턴과 반대로 움직임
미/중 무역분쟁으로 인해
갈곳없는 자금들이 검증된 비트코인
시장으로 유입되는 것으로 추정

비트코인 가격대별 동북아시아 환율 비교

비트코인 가격대별 동북아시아 환율 비교
비트코인 가격이 최고치 였던 구간에서
비트코인 가격과
환율이 반대로 움직임

데이터를 다양하게 탐색해 보았으니
지금부터는 본격적으로 데이터를 분석해보자.

Scatter Matrix (비트코인 / 주가 / 환율)

상관관계 분석 (비트코인 / 주가 / 환율)

클러스터링 (비트코인 / 주가 / 환율)

비트코인 가격 비교 (달러 vs 원)

비트코인 가격은 일반적으로
미국거래소 가격(달러)가
한국거래소 가격(원)보다 비싸다.
이는 전체 거래량의 차이로 해석할 수 있다.

비트코인 가격이 최대치 일 때
일부 역전 현상이 발생

김치프리미엄 (2017년 12월 ~ 2018년 2월)

김치프리미엄과 원달러 환율

김치프리미엄이 최고치 일때 (비트코인 / 주가 / 환율)

데이터를 기반으로 여러가지 가설을 세웠으니
본격적으로 머신러닝의 단계로 들어가보면 되겠죠?

아쉽지만 비트코인에 대한 이야기는 여기까지입니다.

역시 데이터 분석은 흥미로운 분야입니다.
이쯤에서 드는 의문이 하나 있습니다.

우리가 분석을 위해 사용했던
예쁘게 정제된 데이터는 과연 어디에서 왔을까요?

비트코인에서 하루에 처리되는 평균 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions?timespan=all
2019년 하루 약 50만건

비트코인에서 하루에 처리되는 평균 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions?timespan=all
Transaction 10배 이상 증가

지금까지 누적된 비트코인 Blockchain Size (MB)
https://www.blockchain.com/ko/charts/blocks-size?timespan=all
2013년 25GB
2019년 225GB

지금까지 누적된 비트코인 Blockchain Size (MB)
https://www.blockchain.com/ko/charts/blocks-size?timespan=all
2013년 25GB
2019년 225GB
Blockchain Size 10배 이상 증가

지금까지 누적된 총 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions-total?timespan=all
2013년 2천만건
2019년 4억 5천만건

지금까지 누적된 총 Transaction 수
https://www.blockchain.com/ko/charts/n-transactions-total?timespan=all
2013년 2천만건
2019년 4억 5천만건
Transaction Count 20배 이상 증가

양적(Data Size)으로도 수적(Data Count)으로도
어마어마한 크기의 Raw Data

이러한 증가 추세라면 Raw Data 처리가 쉽지않다.
1달 후에는?
1년 후에는?
10년 후에는?

데이터 분석의 현실
데이터 정제(80%) + 데이터 분석(20%)

https://www.shellypalmer.com/data-science

https://www.shellypalmer.com/data-science
실제 우리가 가장 많은
시간을 투입 하는 곳

대용량 데이터를 처리하기 위해서는
어떠한 과정을 거처야 하는 것일까?

대용량 데이터 분석을 위한 4단계
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
분석 데이터 제공
[3단계]
데이터 분석
[4단계]

대용량 데이터 분석을 위한 4단계
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
[3단계]
데이터 분석
[4단계]
데이터 분석 과정 (20%)
데이터 정제 과정 (80%)

다양한 데이터 종류 수집
- File, REST API, Socket, etc
대량의 데이터 수집
- 데이터 종류에 따라 초당 수백, 수천의 처리가 필요
실시간 데이터 수집
- 실시간으로 유입되는 데이터의 경우 수집 실패시 데이터 유실 가능성
비정형 데이터 수집
- 다양한 형태의 비정형 데이터를 일관되게 수집하는 것이 필요
[1단계] Raw Data 수집

비정형 데이터를 구조적 형태로 변환
- 시계열 기준 형식
- 코드 기준 형식
데이터 노이즈 제거
- PK, FK 생성
- 필수데이터 생성
- 데이터 Validation
데이터 저장
- 대량의 데이터 핸들링이 가능해야 함
- 기존 데이터와 통합
- 필요에 따른 데이터 수정 및 삭제 가능
[2단계] Raw Data 정제 및 저장

데이터 집계
- 정제된 Raw Data를 다양한 형태로 가공
- Unique, Sum, Count, etc
제공 데이터 Interval 조절
- 일간, 월간, 년간 데이터 조회시 데이터 핸들링
- 집계를 통한 대량의 데이터 처리 노하우 필요
[3단계] 분석 데이터 제공

모든 데이터를 API 형태로 제공받아서 처리
사전 약속된 파라메터에 따라 데이터의 Interval 처리
- Raw 데이터 조회
- 일간 데이터 조회
- 월간 데이터 조회
데이터 분석에 필요한 도구는 마음대로 선택 가능
- Python
- R
- Kibana
- Zepplin
[4단계] 데이터 분석

난 잘 모르겠고 ~~
그냥 분석 할 데이터나
빨리 내놔!!!

결국은 각각의 단계별로 적절한 플랫폼을
직접 구현해야 한다.

만약 정제 과정(1단계, 2단계, 3단계)을
손쉽게 구축할 수 있게 제공하는 플랫폼이 있다면?

Resource Provider로써의 ElasticStack
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
[3단계]
데이터 분석
[4단계]

ElasticStack
Beats
- 다양한 형태의 데이터를 수집할 수 있는 경량 데이터 수집기
Logstash
- 동적 데이터 수집 파이프라인
Elasticsearch
- 실시간 데이터 저장 및 집계가 가능한 대용량 데이터 저장소
Kibana
- 다양한 형태의 비정형 데이터를 시각화 할 수 있는 UI도구

ElasticStack
Raw Data 수집
[1단계]
Raw Data
정제 및 저장
[2단계]
[3단계]
데이터 분석
[4단계]
REST API
데이터 분석
[4단계]
REST API

Beats [1단계] Raw Data 수집

Beats [1단계] Raw Data 수집
별도의 개발없이 10여줄의 설정만으로도
Raw Data 수집
다양한 Architecture 구성을 통하여
대량의 데이터 수집이 가능하다.

Logstash [2단계] Raw Data 정제 및 저장

별도의 개발없이
간단한 설정만으로도
수집된 Raw Data 정제 및 저장 가능

Input 영역에서 정제할 데이터
스트림을 전달 받는다.
Filter 영역에서 수집된 Raw Data를
다양한 형태로 정제한다.
Output 영역에서 정제가 완료된
데이터를 Elastsicsearch로 저장한다.

Elasticsearch [3단계] 분석 데이터 제공

Elasticsearch [3단계] 분석 데이터 제공
Java Python

ElasticStack은 훌륭한 데이터 분석 플랫폼이다.
결론

코딩없이 “비트코인 김치 프리미엄 차트”를 그려보자
DEMO

DEMO
https://api.bithumb.com/public/ticker/BTC

DEMO
https://api.bittrex.com/api/v1.1/public/getmarketsummary?market=USDT-BTC

Elasticsearch와 Python을 이용하여 맨땅에서 데이터 분석하기

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Más de 흥래 김

Más de 흥래 김 (20)

Último

Último (6)

Elasticsearch와 Python을 이용하여 맨땅에서 데이터 분석하기