5. Big Data에 대한 기업의 인식
다양한 빅데이터의 정의
기관 빅데이터 정의 시사점
McKinsey 일반적인 데이터베이스 소프트웨어가 저장,관리,
데이터 규모에 초점(정량적 측면 강조)
(2011) 분석할 수 있는 범위를 초과하는 규모의 데이터
다양한 종류의 대규모 데이터로부터 저렴한 비용
IDC 데이터 규모가 아닌 업무 수행에 초점, 특징으
(2011) 으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 로 3V(Variety,Velocity,Volume)또는 4V(3V+Value)
분석을 지원하도록 고안된 차세대 기술 및 아키텍처
기존 데이터베이스 관리도구의 데이터 수집ㆍ저장
ㆍ관리ㆍ분석의 역량을 넘어서는 대량의 정형 또는 데이터 규모 및 업무 수행의 관점에서 통합된
Wikipedia
비정형 데이터 세트 및 이러한 데이터로부터 가치를 정의
추출하고 결과를 분석하는 기술
구조화되지 않은 데이터, 데이터 저장방식 차
기존 3V(Velocity, Volume, Variety)에 복잡성(Complexity)
Gartner 이, 중복성 문제 등 데이터 관리 및 처리 복잡성
추가
심화로 복잡성을 특성으로 추가
기존 3V(Velocity, Volume, Variety)에 데이터의 진실성(Ve 진실성이 확보된 데이터를 바탕으로 분석해야
IBM
racity)추가 한다는 데이터 품질 측면의 특성 추가
수많은 정형 데이터 혹은 비정형 데이터를 수집하면,
매출 증가, 비용 절감, 고객만족 증대라는 비즈
최근 동향 분명한 패턴이 나오게 되며, 이를 통해 수집된 데이
니스 가치를 창출할 수 있는 패턴 발견에 집중
터를 기반으로 한 예측 분석
Source: NIPA, ‘빅 데이터의 핵심 플랫폼, 기업용 하둡 동향’, 2013.2
5
6. Big Data에 대한 기업의 인식
벤더들의 움직임
Source: http://kimws.wordpress.com/, 2012.6
6
7. Big Data에 대한 기업의 인식
빅데이터 업체의 난립
- 39개 조사 대상 업체 중, 분석∙처리 SW 기업이 90%
Source: NIPA, 빅데이터 분류 체계, 2012.12
7
8. Big Data 접근 방식
1초 동안 인터넷에 무슨 일이 벌어지나?
Source: Intel, What Happens In An Internet Minute?
8
9. Big Data 접근 방식
데이터의 폭발(Data Flooding): 분석에 활용될 수 있는 다양한 형태의 데이터 증가
New Data Sources & Categories
•통화 기록 (Call Data Records) •소셜 미디어 (Social Media)
•웹클릭 (Web Clickstreams) •비디오/오디오 (Video/Audio)
•네트워크 로그 (Network Logs) •XML 문서 (XML Documents)
•위성 수신 (Satellite Feeds) •이메일 (email)
•GPS 정보 (GPS Data) •이벤트 정보 (Event Data)
•센서 정보 (Sensor Readings) •판매 정보 (Sales Data)
•Others……
9
10. Big Data 접근 방식
기업의 대응: 대용량 데이터 수용을 위한 기업 인프라의 지속적 변화
대용량 데이터
Next Generation 활용 목적은 동일
Big Data Infra
(Petabytes)
Data Warehouse
(Terabytes)
RDBMS
(Gigabytes)
Next Generation
Big Data Platform
(Hadoop Based)
10
11. Big Data 접근 방식
빅데이터 적용의 최우선 순위는 인프라의 변화부터….
Complex & Social Data
(Blogs, Social Media, Products)
모든 데이터의 수용 통한 빅데이터에 대한 가시성 확보
Revenue ↑/ Cost ↓/Productivity ↑ / Competitive Advantage ↑
11
12. Big Data 접근 방식
빅데이터 접근 방향
연관분석 기반
통합 비즈니스 인사이트
상시 모니터링 대응체계
(Biz. Insight Factory)
(Infra Data Monitoring)
웹로그
분석계
GPS
확장성
정보계
데이터의
기간계 활용
비용절감
CDR
Social
Click
Streams
12
13. Big Data 접근 방식
빅데이터 접근 방향
정형 데이터 반정형 데이터 비정형 데이터
• 기간계 • 관리계 • 웹/보안/센서 • 텍스트/이미지
• 정보계 • 분석계 • Any Machine /문서/소셜
• 기타 업무시스템 • 그 외 다양한 데이터
차세대
빅데이터 플랫폼 차세대 빅데이터 플랫폼
13
14. Big Data 접근 방식
빅데이터 접근 방향: Operational Intelligence
기존에 버려지거나 활용되지 못하던 대량의 데이터를 비용 효율적으로 처리·분석함으로써
능동적인 대응 체계 및 가시성을 확보하여 통합 IT 환경 개선
14
15. Big Data 접근 방식
빅데이터 접근 방향: Business Intelligence
기존 DW와 비용 효율적인 빅데이터 기술을 결합하여 고화된 BI 실현 및 비정형 데이터를
추가 수용한 통합 데이터 기반의 고급 분석 플랫폼을 통해 새로운 통찰력 확보
15
16. Big Data Use Case
Operational Intelligence(OI)
Operational Intelligence 필요 이유
• 모든 인프라 정보, 비정형 데이터를 활용하여
고도화된 새로운 인사이트 도출
• 각각의 데이터 소스와 이벤트들간의 상관관계를
통해 패턴 분석 및 의미 있는 분석결과 도출
• 전수 데이터 분석으로 이상 징후 탐지 시간 단축
• 현재 데이터의 실시간 모니터링과 과거 데이터
분석을 연계한 효과적인 대응체계 확보
16
17. Big Data Use Case
OI Use Case #1: 생산 설비 데이터 기반 품질 고도화
생산 설비 대용량 센서데이터(측정 데이터)의 폭발적 증가 Data 모니터링으로 불량 원인 탐지및 생산성, 품질, 수율, 오류 등
• MES 서버의성능병목현상이발생함에따라raw data의전처리, 정형 능동적공정관리
화처리불가 • 비용효율적scale-out 병렬처리구조로데이터증가에유연한대응
• 지속적으로증가하는머신데이터의장기보관이불가 • 공정처리False alarm에대한빠른대응/데이터처리프로세스효율화
• 공정처리에서의문제점인식은사후분석에서만가능 • MES 시스템부담최소화로병목현상개선및성능향상
• 기존RDBMS로는즉각적원인파악이어려운한계점 • 중장기관점의대량데이터처리에대한선제적대응기반확보
모니터링 (Pre-Analysis)
연계분석 (Post-Analysis)
17
18. Big Data Use Case
OI Use Case #2: 중앙 집중 통합 보안 데이터 관리
기존에 여러 시스템에 흩어져 있던 보안 혹은시스템 로그들에 모니터링 Factor에 대한 추이 분석 기반 서비스 선재 대응 및
대한중압 집중 관리 기존시스템과의 연동으로 End-To-End 모니터링
• Silo로존재하는다수의보안/네트워크/서버관리 솔루션의현황및 • 다수의관리솔루션데이터의통합및연계분석으로직관적이고
문제점파악한계 정확한이슈대응체계확보
• 각각의관리솔루션에사용되는RDBMS의라이선스비용증가와용량, • 장기트랜드및패턴분석으로관리기준치를지속적으로보정하여
성능, 확장성한계
모니터링개선효과및서비스수요예측/장애예방등선제적대응
데이터 수집 데이터 처리 / 저장 데이터 분석 / 시각화
통합 모니터링
18
19. Big Data Use Case
OI Use Case #3: 통합 웹 로그 데이터 관리
기존에 활용되지 않은 대량의 시스템 웹로그 저장/처리를 통한 비용효율적 방식의 대량의 로그데이터 저장/처리/분석으로 다양한
새로운 통찰력 확보 및 운영 효율성의 극대화 빅데이터 분석 인프라 확보
• 기존RDBMS에서수용불가능한대량의웹로그데이터의수용 • 지속적으로관리되어야하는로그데이터들에대한효율적인인프라제공
• 웹서버분석통한시간대별장애분석통한장애예측 à 채널의선호도/ 시간대별장애/ 고객아이디별장비오류/
• 다양한Smart Devices 에서발생하는로그데이터 History를기존시스 고객선호서비스
템과의연계분석으로제품/서비스중심의새로운통찰력확보
데이터 수집 데이터 처리 / 저장 데이터 분석 / 시각화
19
20. Big Data Use Case
OI Use Case #4: 컴플라이언스 대응 시스템
컴플라이언스 혹은 감사 업무에서 즉각적인 정보 조회및 비용효율적 인프라 도입으로 컴플라이언스 혹은 감사
관련 업무들에 대한 즉각적 응대
역추적통한 응대
• 기존에 분산 관리된 정보들을 통합 저장소에 저장, 처리함으로
• Silo 시스템에서비정형정보는존재하고있으나, 감사혹은컴플라이 써 업무의 효율성 극대화
언스관련업무시정보에대한즉각적인역추적/검색불가 • 비효율적이고 시간이 오래 소요되는 기존의 작업 대비 즉각적
인 자료 검색으로 업무 생산성 증대 및 빠른 업무처리 가능
데이터 수집 데이터 처리 / 저장 데이터 분석 / 시각화
컴플라이언스 통합 저장소
KMS ECM
Email Security
Groupware
Messenger
20
21. Big Data Use Case
OI Use Case #5: 실시간 모니터링 시스템과의 연계
지속적데이터 증가로 인한 라이선스 비용 증가 부족한요소들에 대한 상호보완
• 데이터량증가에따른라이선스비용과다증가 • 요건에따라필터링한데이터전달통한라이선스비용절감, 성능저하
• 최근데이터만유지목적으로인한 추이분석, 변경관리불가 방지
• ILM 관점에서의비용효율적장기데이터보관/관리필요 • 데이터원본장기보관통한상세분석수행
• 실시간모니터링과장기로그데이터분석기반Top-down View
• 기존통계분석, 마이닝툴, OLAP 툴과의연동
3rd Party 연계통한 효율성 증대
21
22. Big Data Use Case
대표 사례: 차량 제어데이터 분석 프로젝트(현대자동차/Volvo)
- 자동차 제어용 센터 데이터의 NDAP 저장 및 제어 데이터 분석 환경 구축
22
23. Big Data Use Case
Business Intelligence(BI)
Business Intelligence
필요 이유
• 데이터 처리량 급증
• 기존 High-end 시스템 + RDBMS 기반
비용 대비 성능의 비효율에 따른 문제 발생
• 시스템 증설 비용 및 유지보수 비용 과다 발생
• 다양한 소스 데이터 수용 이슈
• 비정형 데이터 수용에 적합하지 않은 RDBMS
환경
• 가치있는 데이터의 손실 발생,
비정형 데이터 분석 요건 발생
23
24. Big Data Use Case
BI Use Case #1: 기존 DW 시스템 효율성 극대화 위한 Hybrid DW
기존 DW 시스템 효율성 극대화 통한 빅데이터 실현의 필요성 기존DW 효율성 확보 및 빅데이터 실현위한 Dual Infra 접근
• 데이터급증에따른기존RDBMS 기반DW로의수용한계 • 분산수집및처리를통한기존DW 시스템효율성/성능극대화
• 기존하이엔드시스템+ RDBMS 기반비용대비성능 비효율성문제 • 인프라증설/ 유지보수구조개선을통한TCO 절감
발생 • 다양한형태의비정형데이터를추가수용통한연계분석기반
• 다양한대량의데이터의추가수용새로운비즈니스가치확보 새로운비즈니스가치창출
데이터 수집 데이터 처리 / 저장 데이터 분석 / 시각화
24
25. Big Data Use Case
BI Use Case #2: 통합 빅데이터 분석 플랫폼
대용량데이터 분석에 대한 요구사항은 증가하고 있으나 고비용 다양한데이터로부터 새로운 가치 창출/빅데이터 처리 기술 기반 확보
구조인DW 구축에 대한 부담 • 대량의비정형/반정형데이터기반고객행동분석
• 기존샘플데이터분석을벗어난전수데이터분석으로보다신뢰성높은정확
• 비정형/반정형데이터중심의분석요구사항증가
한비즈니스통찰력도출
• 인프라제약으로장기간저장하지못하고버려지는데이터이슈 • 데이터장기보관에따른추이분석및변경관리가능
데이터 수집 데이터 처리 / 저장 데이터 분석 / 시각화
25
26. Big Data Use Case
BI Use Case #3: 데이터 품질 관리
전행정보품질 관리 체계 프로세스 및시스템으로 데이터 데이터 품질관리를 전행 데이터의 통합
품질개선 (전행적 정보관리 시스템 부재) • 계정계 DB와 정보계 DB의 통합적 데이터 품질관리
• 개별적/ 임의적 정보 품질관리 및이슈 • 시스템간 데이터 흐름에 대한 모니터링 및 역 추적
• 개별업무 관점 시스템 확장으로 인한 통합관리 부재 • 시스템별 Big Query로 발생되는 과부하 해결
• 고비용DW환경에서 TCO와 성능 문제 • 연계 분석으로 새로운 비즈니스 가치 확보
데이터 수집 데이터 처리 / 저장 데이터 분석 / 시각화
전행 Data의 통합
계정계 DB
데이터웨어하우스
정보계 DB
26
27. Big Data Use Case
BI Use Case #4: 통합 소셜 데이터 저장소 / 바이오인포메틱스
통합 소셜 데이터 저장소
다양한 소셜 미디어에서 발생하는 대량의 비정형 데이
터를 통합 관리하여 데이터에 대한 보다 빠른 대응을
할 수 있으며, 장단기적인 분석이 가능하여 특정 이벤트
/제품평판 등에 대한 추이 파악 가능
바이오인포메틱스
기존 고비용 IT 인프라로의 접근은 기하급수적으로 증
가하는 데이터를 수용하기에는 부적합함에 따라 저비
용, 고효율 분석을 현실화 할 수 있는 대용량 데이터 인
프라 제공
27
28. Big Data Use Case
대표 사례: MF/DW와 연계(Sears Holdings)
- Approach
Source: 2012 HADOOP Summit
28
29. Big Data Use Case
대표 사례: MF/DW와 연계(Sears Holdings)
- Architecture(Scale-out 아키텍처)
Source: 2012 HADOOP Summit
29
30. Big Data Use Case
대표 사례: MF/DW와의 연계(Sears Holdings)
- The Learning
Source: 2012 HADOOP Summit
30
32. 펜타의 제안
• 빅데이터 도입 시 체크리스트
이해
점검 사항 설명
당사자
명확한 도입 목적 활용전략, ROI/TCO, Roadmap 마련
접근 사고의 전환 비즈니스 이슈 확인 후, 빅데이터 보유 여부 확인
사례 의 선별 분석 기존 DW, 검색, 분석 솔루션, CRM 등 사례의 둔갑
고객
SI 프로젝트로 접근하면 필패, 경험 및 기술 자산화를 위한
접근 방식의 Mind 전환
인적 자원 확보 필요
기존 데이터 시스템 활용 방안 레거시 시스템의 활용, 마이그레이션,(SQL, 스키마 등) 이슈
오픈 소스, 에코시스템에 대한 이해, 빅 벤더의 패키지 제
솔루션에 대한 현실적 이해
품이라 생각하면 곤란
빅데이터 관련 핵심 기술 역량 빅데이터 특성 반영한 아키텍처 설계 및 구현 능력
솔루션 다양한 산업군에서 PoC 경험, 실제 구현 사례 보유, 기술
구축 사례 및 기술 이관
업체 전수 능력
고객 요구 대응 속도 현장에서의 요구의 즉각적인 응대와 솔루션에 반영 능력
공통 수평적 파트너십 갑 ∙을의 관계가 아닌 공동체라는 협력 관계
32/6
33. 펜타의 제안
빅데이터 플랫폼 구현 조건
기업 환경에 맞는 다양한 빅데이터 기술 검토 및 Skill Set 필요
기존 DW/BI
RDBMS 고비용 구조
확장 / 성능 개선
기존 DW/BI 시스템에서 대용량 분석통한
대용량 데이터 수용 심도 있는 통찰력 확보
혼재된 데이터들에 대한 비즈니스 프로세스
심도 있는 고급 분석 모니터링 강화
DW Appliance 대비
기존 BI Tool 활용 도입/운영 비용 절감
도입/
새로운 정형/비정형
정형/ 비즈니스 프로세스
데이터 수용 모니터링 강화
대용량 데이터 데이터 증가에 따른
수집/처리 수행 성능
수집/ 확장성 / 성능 확보
33
34. 펜타의 제안
빅데이터 실현 단계: 단계적 접근 필요
•3 단계: 고급분석 (대용량 데이터와 연계분석)
. 대용량 데이터 확보를 통해 새로운 패턴 혹은 비즈니스 가치 발
Advanced
견 시 기존 DW 고급분석 영역과 연계, 새로운 패턴 확보 가능
Analytics
•2 단계: 기존 BI Tool/Biz Application과 연계
OLAP / Report . 기존 시스템과의 연계하여 장기적인 관점에서 추이분석을 통한
Visualization / 특정 패턴에 대한 모니터링 통한 업무의 효율성 극대화
Biz. Application
•1 단계: 기업 내∙외부 대용량 데이터 통합
. 분산 혹은 시스템 별 관리되지 않은 데이터 통합 통해 대량의
Big Data 정보에 대한 빠른 Access 및 Search을 가능하게 활용도 높임
Infrastructure
34
36. 펜타의 제안
• Hybrid DW 아키텍처 구성 요소
구분 역할 및 기능 비고
ECTL, CDC, EII, Reporting 분석, 통계 분
①⑨ 실시간 분석을 지원하기 위한 실시간 툴 및 통계
석툴
Big Data분석을 위한 정보원천의 확대, 정보포맷 유형별 수집 도
②③⑬ 구, 텍스트 마이닝을 통한 Key Word분석 등
사외정보와 사내정보간의 연계Bridge 역할을 할 수 있는 주요
④ Key Values/연계식별자, Key Words
⑤ 사내.외 정보 연계를 통한 정보취합/활용지원
Case/Scenario기반의 의사결정 및 예측을 지원할 수 있도록 구성
⑥ 된 DB영역
테스트베드의 성격 포함
장기간의 Historical정보, 성능 및 비용이 저렴한 HW활용, 단, 대량
⑦⑧ 의 정보를 분석하여야 하므로 이에 특화된 분석도구 필요
응답속도에 민감하지 않은 분석
시뮬레이션 가능 모듈, Social Target Marketing 수행 기능, 경영성
⑩⑪⑫ 과 및 KPI 등 관리
36
37. 맺음말
• Big Data is Big Traffic이 되지 않게...
– 기업의 활용 기반의 빅 데이터 도입 → Yes
– 빅 데이터 도입에 따른 신규 서비스 도출 → No
• 가장 현실적이고 현명한 도구의 선택은 하둡
• 믿고 같이 일할 수 있는 파트너로의 선택이 정말 중요
Big Data의 접근 은
이론적 접근 보다는 Pilot을 통해
직접 느끼고
펜타와 함께 고민하십시오!!!
37