SlideShare una empresa de Scribd logo
1 de 22
© 2013 Gruter. All rights reserved.
GRUTER & BigData
2013.08.28
김형준 수석 연구원
© 2013 Gruter. All rights reserved.
오늘의 주제
• GRUTER가 바라보는 BigData 소개
• 하둡 기반 다양한 데이터 처리 플랫폼 구축 사례
• Tajo: Hadoop on SQL
• But, 어떤 업무에 적용했고 어떤 분석 기법을 사
용했는지에 대해서는 다루지 않습니다.
2
BigData
3V?
Volume
Variety
Velocity
이걸로는 너무 약하지 않는가?
BigData
Data에 대한 모든 변화
태도
기술
프로세스
조직
대상
활용
© 2013 Gruter. All rights reserved.
Data로 무엇을 할 수 있을까?
• 데이터 그 차체로 서비스
– NHN, Google 등
• 서비스의 가치, 품질 향상
– e-Commerce 추천, 게임 등
• 의사결정지원
– BI/DW
• Audit
– 보안, 침입탐지 등
• 원래 데이터가 큰 분야
– Bio Informatics
5
© 2013 Gruter. All rights reserved.
데이터만 분석하면 BigData?
• 해운대구 트위터 분석 사례
– SNS, 블로그 등 3만 8000건, 2012년 데이터
6
• 통화량 분석을 통한 서울시 심야버스 노선
– 지난 3개월, 30억건
Big/Small, 정형/비정형 어떤 용어를 사용하든
데이터를 통해 가치만 얻으면 되는 것
다만, 마케팅적으로 너무 “빅” 이라는 단어에 집중하고 있어
시장 참여자(고객, 사용자, 의사결정권자 등)의 혼란을 가져오고 있는 상황
필요도 없는 플랫폼 구축을 하고 있지 않은지?
© 2013 Gruter. All rights reserved.
어떤 데이터가 빅데이터?
• 데이터를 생성하는 소스가 수천만 이상
– 사용자, 단말, 장비 등
• 이들 소스가 발생시키거나 관계된 데이터 종류도
수십 ~ 수백만 이상
– 판매 제품, 장비 로그 등
• 이 정도가 아니어도
– Velocity, Value에 대한 꾸준한 개선은 필요
(해운대구 사례)
7
© 2013 Gruter. All rights reserved.
빅데이터 고민
• 빅데이터 도입 시 어려움은
– 다루어야 할 데이터 종류도 많고 크기도 크다.
– 데이터는 지속적으로 변화되고 새로운 종류의 데이터가
계속 발생한다.
– 처리 결과가 가치가 있는지를 미리 알기 어렵다.
– 기술력도 부족하다.
• 프로젝트 추진 시 가장 고민은?
– 어떤 데이터로?
– 무엇을 분석하지?
– BI/DW와 뭐가 다르지?
– 그냥 벤더 제품 도입하면 안되나?
• 벤더가 무엇을 가지고 들어 오는가?
• DW 솔루션? Hadoop?
8
© 2013 Gruter. All rights reserved.
빅데이터 프로세스
9
시스템 기획
(분석 대상, 데이터, 알고리즘)
시스템 비용 및 ROI 산정
업체 선정
개발
운영
시스템 기획
(분석 도메인만 결정,
마케팅, 생산성 향상, ... )
관련 데이터 수집
(기업 내부, 외부)
3 ~ 6개월 이상 소요
데이터 가지고 놀기
가치 발굴
시스템에 반영
지속적인 활동
© 2013 Gruter. All rights reserved.
빅데이터 기술
10
Google File System
Google MapReduce
BigTable
Chubby
Swazall
Tenzing
Pregel
Dremel
Hadoop File System
Hadopo MapReduce
HBase
ZooKeeper
Pig
Hive
Giraph
Tajo
© 2013 Gruter. All rights reserved.
GRUTER BigData 전략
• ROI
• 플랫폼
• 내재화
11
그렇다면 분석은...
© 2013 Gruter. All rights reserved.
BigData = ROI의 문제
12
ERP
SCM
Billing
Web
Log
게시판
글
SNS
?
© 2013 Gruter. All rights reserved.
오픈 소스 중심
13
Data Store
File System
(HadoopFS)
NoSQL
(Cloudata, HBase, Cassandra)
Batch Analysis
Data Analysis Platform(Hadoop, Giraph)
Management
Cluster
Management
(ZooKeeper)
Real-time Analysis
Aggregator
Job Workflow Engine(oozie, cascade)
Collector
(flume, scribe)
Script Language(Hive, Pig)
CEP Engine
(Esper)
Real-time Analysis
Platform(Storm)
Analysis Job
Search
(ElasticSearch)
Interative Analysis(Tajo,
Imapa)
Analysis Job
Mining Lib
(Mahout)
Monitoring
(cloumon)
Statistics Lib
(R)
© 2013 Gruter. All rights reserved.
데이터 플랫폼
• 데이터가 다양하고 계속 변화
– 서비스 종류도 많고, 서비스의 데이터/API도 계속 변
화
• 무엇을 분석해야 할 지 모르는 경우가 많다.
– 데이터를 자주 만져 봐야 알 수 있다.
• 시스템, 데이터 모두 알아야 한다.
– 이런 전문가는 많지 않고 비싸다.
• 비용 대비 성능
– 엔터프라이즈급 솔루션 도입?
14
© 2013 Gruter. All rights reserved.
(Big)Data플랫폼이란?
• 데이터의 전체 라이프 사이클을 관리하는 시스템
– 수집, 저장, 분석, 폐기
• 데이터 유형 변화에도 시스템의 변경 없이 적용, 운영 가
능
• 다양한 분석 알고리즘 또는 분석 플랫폼이 적용 가능
– Map/Reduce, MPI, Graph 등
• 비즈니스 요구사항에 부합되는 적절한 분석 Latency 지
원
– 실시간, 준-실시간, 배치
• 데이터의 용량 증가에도 즉시 대응 가능
• 데이터 Needs 가 있는 사용자가 쉽게 사용
– 데이터의 접근성, 프로그램 모델, SQL 지원 등
15
© 2013 Gruter. All rights reserved.
Qoobah: Gruter’s Bigdata Platform
16
* 아키텍처는 고객의 세부요구사항에 따라 변경될 수 있음
데이터 소스/수집기
(각종 로그 데이터)
Data Source
(Web Server)
Flume
Agent
Thrift
Source
Thrift
Sink
Temporary
데이터 수집기/실시간 분석
Thrift
Source
Sink
(Hadoop,
Hive 등)
Real-time
Analysis
(질의 기반)
원본 저장소
Hadoop
File System
Cluster
coordinator
검색엔진 (Search)
ElasticSearch
Origin File
Index
분석 결과 저장소
NoSQL Semi-
Structured Cluster
Management
데이터 소스
(Agent 미 설치 장비)
Data Source
(IDS, IPS, Firewall등)
Oracle/MySQL RDB
Cloumon
Data Management
Data Type Management
Zookeeper
ElasticSearch
Hadoop plugin
그루터 솔루션오픈 소스
Analysis Management
프로젝트 개발
메타정보
(RDB)
데이터 제공
분석 결과
API 서비스
실시간 분석 플랫폼
(프로그램 기반)
R-Bamboo분석 모듈
데이터 소스
(DB/Storage 데이터)
프로젝트
개발
Sqoop
기본
플랫폼
배치분석
Hadoop
Mapeduce
Hive
분석
모듈
R
© 2013 Gruter. All rights reserved.
Cloumon
17
© 2013 Gruter. All rights reserved.
Delivery
• 오픈 소스 + 그루터 솔루션 공급 + 아키텍처 컨설팅 + 구축
• 주요 Delivery 내용
– 고객의 요구사항에 적합한 시스템 아키텍처 수립
• 사용자 요구사항에 부합되는 아키텍처 및 솔루션 선정
• 하드웨어 스펙 및 필요 대수 산정
• 솔루션은 대부분 오픈 소스 중심으로 구성
– 플랫폼 구축
• 선정된 솔루션 설치 및 실행 환경 구성
• 커스터마이징
• 일부 컴포넌트 개발
– 분석 모듈 개발
• 고객과 협의된 업무 및 데이터를 설치된 플랫폼에 적용
• 분석 프로그램 개발
– 주요 산출물
• 요구사항 정의서, 아키텍처 정의서, 오픈 소스 솔루션 선정 사유
• 플랫폼 설치 내역 상세, 설치 솔루션 별 운영 매뉴얼
• 추가 개발된 모듈 설계서, 분석 프로그램 설계서
18
© 2013 Gruter. All rights reserved.
Delivery Process
19
프로젝트
팀구성
(고객 + 그루터)
1차 교육
(이론 및 테스트
환경 내 실습)
장비 발주
요구 사항 정의 아키텍처 정의
아키텍처 구성
솔루션 검증
장비 입고
플랫폼 설치
및 구성
분석 대상
데이터 정의
(수집 대상 등)
데이터 적재
2차 교육
(실제 환경)
분석 모듈
설계/개발
분석 모듈
튜닝
운영 교육
플랫폼 구성
모듈 개발
운영
시스템 통합
계약 전
요구사항 파악
기존 분석
솔루션 사용
가이드
© 2013 Gruter. All rights reserved.
기술 내재화 및 유지보수 지원
• 현장 적용 가능한 수준의 교육
– 참여 개발자의 수준에 맞는 교육 진행
– 단계별 교육 진행
• 1차 교육: 프로젝트 초기, 기본 개념 및 이론 중심 교육
• 2차 교육: 프로젝트 중반, 실습 중심 교육
– Pair 프로그램을 통한 프로그래밍 기술 지원
• 개발 대상 프로그램 중 일부를 고객 개발자와 그루터 개발자가 페어 프로그램으로 개발
• 고객 개발자 개인 개발 장비에 각종 오픈 소스 설치 및 디버깅 환경 구축 지원
– 프로젝트 기간 내 기술 지원 채널 제공
• 개발자, 운영자 상시 기술 지원
• 운영 가능한 수준의 기술 내재화 지원
– 플랫폼 설치 지원
• 실제 운영할 서버를 이용하여 수행
• 단계별 실습
 1단계: 그루터가 모든 플랫폼 설치, 개발/테스트에 활용
 2단계: 플랫폼 활용 및 개념 숙지 후 실제 운영자가 직접 설치
– 운영 지원
• 상황 별 운영 방안 제시
 솔루션 별 서버 추가 및 제거
 솔루션 별 업그레이드
 솔루션 별 장애 대응: HA 구성 및 HA 적용 테스트
• 프로젝트 일정 내 시범 서비스 운영
 시범 서비스 동안 발생한 다양한 문제를 운영자와 공동 해결
• 유지 보수 방안
– 그루터 제공 솔루션 및 프로젝트 내 개발된 모듈에 대해서는 유지보수 계약으로 지원
– 오픈 소스 코어에 대한 지원은 각 솔루션의 오픈 소스 커뮤니티 배포판 또는 패치를 이용한 지원
• 오픈 소스 코어에 대한 솔루션 품질에 대한 책임은 없음
• 고객 요청 시 별도 계약으로 지원 가능
20
© 2013 Gruter. All rights reserved.
GRUTER는 어떤 회사?
• 오픈 소스 기반 빅데이터 플랫폼 전문 기업
• 2006년 ~
• 14명 + OO명
• 국내 최초(?) 상용 Hadoop 클러스터 운영
– 2007.04 ~, 블로그 데이터 수집 및 분석
Yahoo Korea에 제공
• 자체 서비스
– www.seenal.com (SNS 데이터 분석 서비스)
• 오픈 소스
– TAJO: Apache Incubation
– Cloudata, Cloumon-oozie, Drone
• http://github.com/gruter
21
GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839

Más contenido relacionado

La actualidad más candente

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례Gruter
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big dataH K Yoon
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료Wooseung Kim
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...Gruter
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2Seong-Bok Lee
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Gruter
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesJongwook Woo
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWSGruter
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK TelecomGruter
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 

La actualidad más candente (20)

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 

Similar a GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개

데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
Pivotal Big Data Suite 소개자료
Pivotal Big Data Suite 소개자료Pivotal Big Data Suite 소개자료
Pivotal Big Data Suite 소개자료seungdon Choi
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례ABRC_DATA
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개I Goo Lee
 
좌충우돌 Data Engineering 학습기
좌충우돌 Data Engineering 학습기좌충우돌 Data Engineering 학습기
좌충우돌 Data Engineering 학습기DONGMIN LEE
 
Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리BYOUNG GON KIM
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining SuHyun Jeon
 
Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료환태 김
 
E-commerce BigData Scale AI Journey
E-commerce BigData Scale AI JourneyE-commerce BigData Scale AI Journey
E-commerce BigData Scale AI Journeyhoondong kim
 

Similar a GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개 (20)

데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Pivotal Big Data Suite 소개자료
Pivotal Big Data Suite 소개자료Pivotal Big Data Suite 소개자료
Pivotal Big Data Suite 소개자료
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
Intro to r & hadoop
Intro to r & hadoopIntro to r & hadoop
Intro to r & hadoop
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
 
좌충우돌 Data Engineering 학습기
좌충우돌 Data Engineering 학습기좌충우돌 Data Engineering 학습기
좌충우돌 Data Engineering 학습기
 
Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료
 
E-commerce BigData Scale AI Journey
E-commerce BigData Scale AI JourneyE-commerce BigData Scale AI Journey
E-commerce BigData Scale AI Journey
 

Más de Gruter

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기Gruter
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseGruter
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataGruter
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache TajoGruter
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondGruter
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoGruter
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSGruter
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with TajoGruter
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Gruter
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Gruter
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014Gruter
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Gruter
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopGruter
 
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Gruter
 

Más de Gruter (20)

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data Warehouse
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big Data
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its Beyond
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
 
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
 

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개

  • 1. © 2013 Gruter. All rights reserved. GRUTER & BigData 2013.08.28 김형준 수석 연구원
  • 2. © 2013 Gruter. All rights reserved. 오늘의 주제 • GRUTER가 바라보는 BigData 소개 • 하둡 기반 다양한 데이터 처리 플랫폼 구축 사례 • Tajo: Hadoop on SQL • But, 어떤 업무에 적용했고 어떤 분석 기법을 사 용했는지에 대해서는 다루지 않습니다. 2
  • 4. BigData Data에 대한 모든 변화 태도 기술 프로세스 조직 대상 활용
  • 5. © 2013 Gruter. All rights reserved. Data로 무엇을 할 수 있을까? • 데이터 그 차체로 서비스 – NHN, Google 등 • 서비스의 가치, 품질 향상 – e-Commerce 추천, 게임 등 • 의사결정지원 – BI/DW • Audit – 보안, 침입탐지 등 • 원래 데이터가 큰 분야 – Bio Informatics 5
  • 6. © 2013 Gruter. All rights reserved. 데이터만 분석하면 BigData? • 해운대구 트위터 분석 사례 – SNS, 블로그 등 3만 8000건, 2012년 데이터 6 • 통화량 분석을 통한 서울시 심야버스 노선 – 지난 3개월, 30억건 Big/Small, 정형/비정형 어떤 용어를 사용하든 데이터를 통해 가치만 얻으면 되는 것 다만, 마케팅적으로 너무 “빅” 이라는 단어에 집중하고 있어 시장 참여자(고객, 사용자, 의사결정권자 등)의 혼란을 가져오고 있는 상황 필요도 없는 플랫폼 구축을 하고 있지 않은지?
  • 7. © 2013 Gruter. All rights reserved. 어떤 데이터가 빅데이터? • 데이터를 생성하는 소스가 수천만 이상 – 사용자, 단말, 장비 등 • 이들 소스가 발생시키거나 관계된 데이터 종류도 수십 ~ 수백만 이상 – 판매 제품, 장비 로그 등 • 이 정도가 아니어도 – Velocity, Value에 대한 꾸준한 개선은 필요 (해운대구 사례) 7
  • 8. © 2013 Gruter. All rights reserved. 빅데이터 고민 • 빅데이터 도입 시 어려움은 – 다루어야 할 데이터 종류도 많고 크기도 크다. – 데이터는 지속적으로 변화되고 새로운 종류의 데이터가 계속 발생한다. – 처리 결과가 가치가 있는지를 미리 알기 어렵다. – 기술력도 부족하다. • 프로젝트 추진 시 가장 고민은? – 어떤 데이터로? – 무엇을 분석하지? – BI/DW와 뭐가 다르지? – 그냥 벤더 제품 도입하면 안되나? • 벤더가 무엇을 가지고 들어 오는가? • DW 솔루션? Hadoop? 8
  • 9. © 2013 Gruter. All rights reserved. 빅데이터 프로세스 9 시스템 기획 (분석 대상, 데이터, 알고리즘) 시스템 비용 및 ROI 산정 업체 선정 개발 운영 시스템 기획 (분석 도메인만 결정, 마케팅, 생산성 향상, ... ) 관련 데이터 수집 (기업 내부, 외부) 3 ~ 6개월 이상 소요 데이터 가지고 놀기 가치 발굴 시스템에 반영 지속적인 활동
  • 10. © 2013 Gruter. All rights reserved. 빅데이터 기술 10 Google File System Google MapReduce BigTable Chubby Swazall Tenzing Pregel Dremel Hadoop File System Hadopo MapReduce HBase ZooKeeper Pig Hive Giraph Tajo
  • 11. © 2013 Gruter. All rights reserved. GRUTER BigData 전략 • ROI • 플랫폼 • 내재화 11 그렇다면 분석은...
  • 12. © 2013 Gruter. All rights reserved. BigData = ROI의 문제 12 ERP SCM Billing Web Log 게시판 글 SNS ?
  • 13. © 2013 Gruter. All rights reserved. 오픈 소스 중심 13 Data Store File System (HadoopFS) NoSQL (Cloudata, HBase, Cassandra) Batch Analysis Data Analysis Platform(Hadoop, Giraph) Management Cluster Management (ZooKeeper) Real-time Analysis Aggregator Job Workflow Engine(oozie, cascade) Collector (flume, scribe) Script Language(Hive, Pig) CEP Engine (Esper) Real-time Analysis Platform(Storm) Analysis Job Search (ElasticSearch) Interative Analysis(Tajo, Imapa) Analysis Job Mining Lib (Mahout) Monitoring (cloumon) Statistics Lib (R)
  • 14. © 2013 Gruter. All rights reserved. 데이터 플랫폼 • 데이터가 다양하고 계속 변화 – 서비스 종류도 많고, 서비스의 데이터/API도 계속 변 화 • 무엇을 분석해야 할 지 모르는 경우가 많다. – 데이터를 자주 만져 봐야 알 수 있다. • 시스템, 데이터 모두 알아야 한다. – 이런 전문가는 많지 않고 비싸다. • 비용 대비 성능 – 엔터프라이즈급 솔루션 도입? 14
  • 15. © 2013 Gruter. All rights reserved. (Big)Data플랫폼이란? • 데이터의 전체 라이프 사이클을 관리하는 시스템 – 수집, 저장, 분석, 폐기 • 데이터 유형 변화에도 시스템의 변경 없이 적용, 운영 가 능 • 다양한 분석 알고리즘 또는 분석 플랫폼이 적용 가능 – Map/Reduce, MPI, Graph 등 • 비즈니스 요구사항에 부합되는 적절한 분석 Latency 지 원 – 실시간, 준-실시간, 배치 • 데이터의 용량 증가에도 즉시 대응 가능 • 데이터 Needs 가 있는 사용자가 쉽게 사용 – 데이터의 접근성, 프로그램 모델, SQL 지원 등 15
  • 16. © 2013 Gruter. All rights reserved. Qoobah: Gruter’s Bigdata Platform 16 * 아키텍처는 고객의 세부요구사항에 따라 변경될 수 있음 데이터 소스/수집기 (각종 로그 데이터) Data Source (Web Server) Flume Agent Thrift Source Thrift Sink Temporary 데이터 수집기/실시간 분석 Thrift Source Sink (Hadoop, Hive 등) Real-time Analysis (질의 기반) 원본 저장소 Hadoop File System Cluster coordinator 검색엔진 (Search) ElasticSearch Origin File Index 분석 결과 저장소 NoSQL Semi- Structured Cluster Management 데이터 소스 (Agent 미 설치 장비) Data Source (IDS, IPS, Firewall등) Oracle/MySQL RDB Cloumon Data Management Data Type Management Zookeeper ElasticSearch Hadoop plugin 그루터 솔루션오픈 소스 Analysis Management 프로젝트 개발 메타정보 (RDB) 데이터 제공 분석 결과 API 서비스 실시간 분석 플랫폼 (프로그램 기반) R-Bamboo분석 모듈 데이터 소스 (DB/Storage 데이터) 프로젝트 개발 Sqoop 기본 플랫폼 배치분석 Hadoop Mapeduce Hive 분석 모듈 R
  • 17. © 2013 Gruter. All rights reserved. Cloumon 17
  • 18. © 2013 Gruter. All rights reserved. Delivery • 오픈 소스 + 그루터 솔루션 공급 + 아키텍처 컨설팅 + 구축 • 주요 Delivery 내용 – 고객의 요구사항에 적합한 시스템 아키텍처 수립 • 사용자 요구사항에 부합되는 아키텍처 및 솔루션 선정 • 하드웨어 스펙 및 필요 대수 산정 • 솔루션은 대부분 오픈 소스 중심으로 구성 – 플랫폼 구축 • 선정된 솔루션 설치 및 실행 환경 구성 • 커스터마이징 • 일부 컴포넌트 개발 – 분석 모듈 개발 • 고객과 협의된 업무 및 데이터를 설치된 플랫폼에 적용 • 분석 프로그램 개발 – 주요 산출물 • 요구사항 정의서, 아키텍처 정의서, 오픈 소스 솔루션 선정 사유 • 플랫폼 설치 내역 상세, 설치 솔루션 별 운영 매뉴얼 • 추가 개발된 모듈 설계서, 분석 프로그램 설계서 18
  • 19. © 2013 Gruter. All rights reserved. Delivery Process 19 프로젝트 팀구성 (고객 + 그루터) 1차 교육 (이론 및 테스트 환경 내 실습) 장비 발주 요구 사항 정의 아키텍처 정의 아키텍처 구성 솔루션 검증 장비 입고 플랫폼 설치 및 구성 분석 대상 데이터 정의 (수집 대상 등) 데이터 적재 2차 교육 (실제 환경) 분석 모듈 설계/개발 분석 모듈 튜닝 운영 교육 플랫폼 구성 모듈 개발 운영 시스템 통합 계약 전 요구사항 파악 기존 분석 솔루션 사용 가이드
  • 20. © 2013 Gruter. All rights reserved. 기술 내재화 및 유지보수 지원 • 현장 적용 가능한 수준의 교육 – 참여 개발자의 수준에 맞는 교육 진행 – 단계별 교육 진행 • 1차 교육: 프로젝트 초기, 기본 개념 및 이론 중심 교육 • 2차 교육: 프로젝트 중반, 실습 중심 교육 – Pair 프로그램을 통한 프로그래밍 기술 지원 • 개발 대상 프로그램 중 일부를 고객 개발자와 그루터 개발자가 페어 프로그램으로 개발 • 고객 개발자 개인 개발 장비에 각종 오픈 소스 설치 및 디버깅 환경 구축 지원 – 프로젝트 기간 내 기술 지원 채널 제공 • 개발자, 운영자 상시 기술 지원 • 운영 가능한 수준의 기술 내재화 지원 – 플랫폼 설치 지원 • 실제 운영할 서버를 이용하여 수행 • 단계별 실습  1단계: 그루터가 모든 플랫폼 설치, 개발/테스트에 활용  2단계: 플랫폼 활용 및 개념 숙지 후 실제 운영자가 직접 설치 – 운영 지원 • 상황 별 운영 방안 제시  솔루션 별 서버 추가 및 제거  솔루션 별 업그레이드  솔루션 별 장애 대응: HA 구성 및 HA 적용 테스트 • 프로젝트 일정 내 시범 서비스 운영  시범 서비스 동안 발생한 다양한 문제를 운영자와 공동 해결 • 유지 보수 방안 – 그루터 제공 솔루션 및 프로젝트 내 개발된 모듈에 대해서는 유지보수 계약으로 지원 – 오픈 소스 코어에 대한 지원은 각 솔루션의 오픈 소스 커뮤니티 배포판 또는 패치를 이용한 지원 • 오픈 소스 코어에 대한 솔루션 품질에 대한 책임은 없음 • 고객 요청 시 별도 계약으로 지원 가능 20
  • 21. © 2013 Gruter. All rights reserved. GRUTER는 어떤 회사? • 오픈 소스 기반 빅데이터 플랫폼 전문 기업 • 2006년 ~ • 14명 + OO명 • 국내 최초(?) 상용 Hadoop 클러스터 운영 – 2007.04 ~, 블로그 데이터 수집 및 분석 Yahoo Korea에 제공 • 자체 서비스 – www.seenal.com (SNS 데이터 분석 서비스) • 오픈 소스 – TAJO: Apache Incubation – Cloudata, Cloumon-oozie, Drone • http://github.com/gruter 21
  • 22. GRUTER: YOUR PARTNER IN THE BIG DATA REVOLUTION Phone +82-70-8129-2950 Fax +82-70-8129-2952 E-mail contact@gruter.com Web www.gruter.com © 2013 Gruter. All rights reserved. Gruter, Inc. 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839