SlideShare una empresa de Scribd logo
1 de 14
© 2013 Gruter. All rights reserved.
온라인 컨텐츠 서비스를
위한 빅데이터 구축 사례
2013.08.29
정재화 책임 연구원
© 2013 Gruter. All rights reserved.
목차
• 추진 동기
• 전체 시스템 아키텍처
• Hive
• 분석 룰 관리 시스템
• 추진 과정
• 도입 효과
• 향후 계획
© 2013 Gruter. All rights reserved.
추진 동기
• 장시간 소요되는 분석 및 배치 프로세스
• 일정 규모 이상의 데이터는 적재 불가
• 버려지는 데이터의 증가
 더 많은 데이터를 분석할 수 있는 방법은?
© 2013 Gruter. All rights reserved.
전체 시스템 구성
Active Cluster
HBase
Table Table Table
StandBy Cluster
HBase
Table Table Table
배치분석
MRv1
Map
Reduce
Hive
HDFS
JournalNode
Active
NameNode
DataNode
StandBy
NameNode
DataNode DataNode
DBMS sqoop
DW sqoop
WAS Flume
분석 룰 관리 시스템
API 서버
데이터 관리자
엔드 유저
RealTime
Batch Processing
분석 결과 저장소
• HDFS: hadoop-2.0.0-cdh4.3.0
• MRv1: hadoop-2.0.0-mr1-cdh.4.2.0
• HBase: hbase-0.94.6-cdh4.3.0
• Hive: hive-0.10.0-cdh4.3.0
© 2013 Gruter. All rights reserved.
Hive
• MR에 익숙치 않은 개발자 접근 용이
• Sqoop으로 이관된 데이터 가공 적합
• 분석 기간 단축
© 2013 Gruter. All rights reserved.
분석 룰 관리 시스템
• 너무 많은 구현 대상 Hive 질의
 그 많은 질의를 다 만들 것인가?
• 질의 내 반복되는 패턴 분석
– 상속 관계가 형성되는 질의
– 파라미터만 변경되는 질의
 질의를 쉽게 만들고, 재사용할 수 있는 방법은?
© 2013 Gruter. All rights reserved.
분석 룰 관리 시스템
분석 대상
오브젝트 등록
Hive 테이블
메타 정보
오브젝트
메타 정보
시스템 담당자
분석 룰 디자인
시스템 담당자 기획자
오브젝트
메타 정보
분석 룰 관리
/실행
자동/배치
시스템 담당자
Ad-hoc
질의 실행
실행 결과
결과 제공
API
기획자
룰 생성
결과 조회
파라미터 튜닝
새로운 분석 대상
데이터 추가
파라미터 튜닝
© 2013 Gruter. All rights reserved.
추진 과정
• Stage1
– DW 학습에 의한 기대 심리
– 빅데이터 특성을 고려하지 않은 요구사항
– Agile 방식으로 분석 수행
– 개발팀/운영팀 교육 및 실습
• Stage2
– 빅데이터 특성을 고려한 요구사항
– 데이터 분석 기간에 대한 현업의 이해
– Stage1 결과 공유에 따른 현업 관심 증가
– 개발팀 + 그루터 분석 수행
– Cloumon 적용
© 2013 Gruter. All rights reserved.
추진 과정
• Stage3
– 엔드유저용 라이브 서비스 오픈
– 빅데이터를 이용한 서비스 기획 요건 급증
– 개발팀/운영팀 기술 성숙도 증가
© 2013 Gruter. All rights reserved.
추진 과정
http://si.wsj.net/public/resources/images/OB-UA904_0805bo_G_20120805170407.jpg
http://runtokorea.com/wp-content/uploads/2013/02/1218_boston-marathon-2.jpg
© 2013 Gruter. All rights reserved.
도입 효과
• 기획의 패러다임 변화
• 프로세스 변화
– 기획자와 개발자 모두가 서비스 발굴
– 데이터를 가지고 놀 수 있는 체계 마련
• 수집 데이터 소스 확대
• 오픈 소스 기술 내재화
© 2013 Gruter. All rights reserved.
향후 계획
• MR 기반의 Hive 구조
– 쿼리 및 파라미터 튜닝의 한계
– 지속적인 서버 추가의 어려움
 SQL-On Hadoop
© 2013 Gruter. All rights reserved.
결론
• 기획자의 지속적인 참여만이 성공 보장
– 기획이 결여된 결과물은 참고용 자료로 전락
– 기획자가 볼 수 없었던 데이터 제공
– 라이브 서비스용 분석 모델 발굴
– Collaboration: 기획자 + 개발자 + 그루터
GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839

Más contenido relacionado

La actualidad más candente

2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
Wooseung Kim
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
Saltlux Inc.
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
Steve Min
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
치완 박
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
Wooseung Kim
 

La actualidad más candente (20)

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
[경북] I'mcloud opensight
[경북] I'mcloud opensight[경북] I'mcloud opensight
[경북] I'mcloud opensight
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
 

Destacado

Hadoop설명
Hadoop설명Hadoop설명
Hadoop설명
Ji Hoon Lee
 
How to make Successful Open APIs for Startups (2012)
How to make Successful Open APIs for Startups (2012)How to make Successful Open APIs for Startups (2012)
How to make Successful Open APIs for Startups (2012)
Channy Yun
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Myungjin Lee
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
Kangwook Lee
 
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
Channy Yun
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Channy Yun
 

Destacado (16)

실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략
 
농촌관광 개선방안 문화관광연구원 개원 20주년 발제 레스트코리아 김도희
농촌관광 개선방안   문화관광연구원 개원 20주년 발제   레스트코리아 김도희농촌관광 개선방안   문화관광연구원 개원 20주년 발제   레스트코리아 김도희
농촌관광 개선방안 문화관광연구원 개원 20주년 발제 레스트코리아 김도희
 
Mapreduce introduction
Mapreduce introductionMapreduce introduction
Mapreduce introduction
 
Hadoop설명
Hadoop설명Hadoop설명
Hadoop설명
 
Tableau : Leader of Agile BI
Tableau : Leader of Agile BITableau : Leader of Agile BI
Tableau : Leader of Agile BI
 
How to make Successful Open APIs for Startups (2012)
How to make Successful Open APIs for Startups (2012)How to make Successful Open APIs for Startups (2012)
How to make Successful Open APIs for Startups (2012)
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Open API 발표자료 - 김연수
Open API 발표자료 - 김연수Open API 발표자료 - 김연수
Open API 발표자료 - 김연수
 
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
공공 데이터 활용 방법론 - 오픈 API 기술 및 동향 (KRNET 2014)
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼
 
IoT Introduction and Security
IoT Introduction and SecurityIoT Introduction and Security
IoT Introduction and Security
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 

Similar a GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례

빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
동학 노
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
ssuserde0b2d
 
[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?
[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?
[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?
Nts Nuli
 

Similar a GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례 (20)

빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
좌충우돌 Data Engineering 학습기
좌충우돌 Data Engineering 학습기좌충우돌 Data Engineering 학습기
좌충우돌 Data Engineering 학습기
 
Cloumon sw제품설명회 발표자료
Cloumon sw제품설명회 발표자료Cloumon sw제품설명회 발표자료
Cloumon sw제품설명회 발표자료
 
Thing+ 소개자료(daliworks)
Thing+ 소개자료(daliworks)Thing+ 소개자료(daliworks)
Thing+ 소개자료(daliworks)
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
장애 분석 절차 (서영일)
장애 분석 절차 (서영일)장애 분석 절차 (서영일)
장애 분석 절차 (서영일)
 
LOD 구축 공정 가이드라인
LOD 구축 공정 가이드라인LOD 구축 공정 가이드라인
LOD 구축 공정 가이드라인
 
Flamingo project v4
Flamingo project v4Flamingo project v4
Flamingo project v4
 
OpenSource Big Data Platform : Flamingo Project
OpenSource Big Data Platform : Flamingo ProjectOpenSource Big Data Platform : Flamingo Project
OpenSource Big Data Platform : Flamingo Project
 
OpenSource Big Data Platform - Flamingo v7
OpenSource Big Data Platform - Flamingo v7OpenSource Big Data Platform - Flamingo v7
OpenSource Big Data Platform - Flamingo v7
 
OpenSource Big Data Platform - Flamingo 소개와 활용
OpenSource Big Data Platform - Flamingo 소개와 활용OpenSource Big Data Platform - Flamingo 소개와 활용
OpenSource Big Data Platform - Flamingo 소개와 활용
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종
 
Giip bp-giip connectivity1703
Giip bp-giip connectivity1703Giip bp-giip connectivity1703
Giip bp-giip connectivity1703
 
Plm analytics 2017
Plm analytics 2017Plm analytics 2017
Plm analytics 2017
 
Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리
 
Event storming based msa training commerce example add_handson_v3
Event storming based msa training commerce example add_handson_v3Event storming based msa training commerce example add_handson_v3
Event storming based msa training commerce example add_handson_v3
 
[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?
[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?
[2012널리세미나] 오빠~ 네이버 왜 이렇게 늦게 떠?
 

Más de Gruter

Más de Gruter (20)

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data Warehouse
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big Data
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its Beyond
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
 

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례

  • 1. © 2013 Gruter. All rights reserved. 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례 2013.08.29 정재화 책임 연구원
  • 2. © 2013 Gruter. All rights reserved. 목차 • 추진 동기 • 전체 시스템 아키텍처 • Hive • 분석 룰 관리 시스템 • 추진 과정 • 도입 효과 • 향후 계획
  • 3. © 2013 Gruter. All rights reserved. 추진 동기 • 장시간 소요되는 분석 및 배치 프로세스 • 일정 규모 이상의 데이터는 적재 불가 • 버려지는 데이터의 증가  더 많은 데이터를 분석할 수 있는 방법은?
  • 4. © 2013 Gruter. All rights reserved. 전체 시스템 구성 Active Cluster HBase Table Table Table StandBy Cluster HBase Table Table Table 배치분석 MRv1 Map Reduce Hive HDFS JournalNode Active NameNode DataNode StandBy NameNode DataNode DataNode DBMS sqoop DW sqoop WAS Flume 분석 룰 관리 시스템 API 서버 데이터 관리자 엔드 유저 RealTime Batch Processing 분석 결과 저장소 • HDFS: hadoop-2.0.0-cdh4.3.0 • MRv1: hadoop-2.0.0-mr1-cdh.4.2.0 • HBase: hbase-0.94.6-cdh4.3.0 • Hive: hive-0.10.0-cdh4.3.0
  • 5. © 2013 Gruter. All rights reserved. Hive • MR에 익숙치 않은 개발자 접근 용이 • Sqoop으로 이관된 데이터 가공 적합 • 분석 기간 단축
  • 6. © 2013 Gruter. All rights reserved. 분석 룰 관리 시스템 • 너무 많은 구현 대상 Hive 질의  그 많은 질의를 다 만들 것인가? • 질의 내 반복되는 패턴 분석 – 상속 관계가 형성되는 질의 – 파라미터만 변경되는 질의  질의를 쉽게 만들고, 재사용할 수 있는 방법은?
  • 7. © 2013 Gruter. All rights reserved. 분석 룰 관리 시스템 분석 대상 오브젝트 등록 Hive 테이블 메타 정보 오브젝트 메타 정보 시스템 담당자 분석 룰 디자인 시스템 담당자 기획자 오브젝트 메타 정보 분석 룰 관리 /실행 자동/배치 시스템 담당자 Ad-hoc 질의 실행 실행 결과 결과 제공 API 기획자 룰 생성 결과 조회 파라미터 튜닝 새로운 분석 대상 데이터 추가 파라미터 튜닝
  • 8. © 2013 Gruter. All rights reserved. 추진 과정 • Stage1 – DW 학습에 의한 기대 심리 – 빅데이터 특성을 고려하지 않은 요구사항 – Agile 방식으로 분석 수행 – 개발팀/운영팀 교육 및 실습 • Stage2 – 빅데이터 특성을 고려한 요구사항 – 데이터 분석 기간에 대한 현업의 이해 – Stage1 결과 공유에 따른 현업 관심 증가 – 개발팀 + 그루터 분석 수행 – Cloumon 적용
  • 9. © 2013 Gruter. All rights reserved. 추진 과정 • Stage3 – 엔드유저용 라이브 서비스 오픈 – 빅데이터를 이용한 서비스 기획 요건 급증 – 개발팀/운영팀 기술 성숙도 증가
  • 10. © 2013 Gruter. All rights reserved. 추진 과정 http://si.wsj.net/public/resources/images/OB-UA904_0805bo_G_20120805170407.jpg http://runtokorea.com/wp-content/uploads/2013/02/1218_boston-marathon-2.jpg
  • 11. © 2013 Gruter. All rights reserved. 도입 효과 • 기획의 패러다임 변화 • 프로세스 변화 – 기획자와 개발자 모두가 서비스 발굴 – 데이터를 가지고 놀 수 있는 체계 마련 • 수집 데이터 소스 확대 • 오픈 소스 기술 내재화
  • 12. © 2013 Gruter. All rights reserved. 향후 계획 • MR 기반의 Hive 구조 – 쿼리 및 파라미터 튜닝의 한계 – 지속적인 서버 추가의 어려움  SQL-On Hadoop
  • 13. © 2013 Gruter. All rights reserved. 결론 • 기획자의 지속적인 참여만이 성공 보장 – 기획이 결여된 결과물은 참고용 자료로 전락 – 기획자가 볼 수 없었던 데이터 제공 – 라이브 서비스용 분석 모델 발굴 – Collaboration: 기획자 + 개발자 + 그루터
  • 14. GRUTER: YOUR PARTNER IN THE BIG DATA REVOLUTION Phone +82-70-8129-2950 Fax +82-70-8129-2952 E-mail contact@gruter.com Web www.gruter.com © 2013 Gruter. All rights reserved. Gruter, Inc. 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839