빅데이터 처리시스템의 정의는 무엇이라고 할 수 있을까요?
간단히 정의하면 빅데이터 처리시스템은 “대량의 데이터를 분산 병렬 처리하고 관리하는 시스템” 이라고 할 수 있습니다.
여기서 중요한 것이 분산 병렬처리와 프레임워크 라는 말입니다.
먼저 프레임워크라는 말의 정의를 살펴보겠습니다.
빅데이터를 위한 프레임워크는 단일 소프트웨어가 아니라 복잡한 문제를 해결하는 소프트웨어 구조의 개념입니다.
이 프레임워크 안에는 각각의 단일 기능을 수행하는 별도의 소프트웨어들이 존재하며 이 소프트웨어들은 유기적으로 데이터를 수집하고 저장하고 관리합니다.
빅데이터는 3V라는 특징이 있다는 것에 대해서 설명해 드렸습니다.
3V는 – Volume, Variety, Velocity 라고 말씀드렸던것 기억하실겁니다.
이러한 특징을 가진 데이터를 처리하는 시스템을 빅데이터처리시스템이라고 합니다. 그렇다면 이런 시스템은 어떤 특징이 있을까요?
대량의 데이터를 처리할 수 있는 것은 당연한 조건이죠. 그러기 위해서 사용하는 시스템이 분산파일시스템입니다.
3. 빅데이터 처리시스템의 이해
대용량의 데이터를 분산 병렬 처리하고 관리하는 시스템
• 데이터의 유형에 따라 실시간(Real-Time) 처리나 배치(Batch)
처리를 가능하도록 하는 프레임워크
• 대량 데이터의 수집, 관리, 유통, 분석을 처리하는 일련의 분산
병렬 처리 프레임워크
빅데이터 처리시스템이란
01
4. 빅데이터 처리시스템의 이해
프레임워크(Framework)의 정의
• 컴퓨터 프로그래밍에서, 소프트웨어 프레임워크(software framework)는
복잡한 문제를 해결하거나 서술하는 데 사용되는 기본 개념 구조를 의미
ko.wikipedia.org
01
6. 빅데이터 처리시스템의 이해
구분 기존의 데이터처리 방식 빅데이터 처리방식
데이터 트래픽 테라바이트 수준
• 페타바이트 수준(최소 100 테라바이트 이상)
• 장기 간의 정보수집 및 분석
• 방대한 데이터 처리량
데이터 유형 정형 데이터 중심
• 비정형 데이터의 비중이 높음(SNS 데이터, 로그파일, 클릭
스트림 데이터, 콜센터 로그, 통신 로그 등)
• 처리의 복잡성 증대
프로세스 및 기술
• 단순한 프로세스 및 기술
• 정형화된 처리/분석 과정
• 원인/결과 규명 중심
• 다양한 데이터 소스 및 복잡한 로직 처리
• 데이터 처리 복잡도가 높아 분산처리기술 필요
• 새롭고 다양한 처리방법 개발 필요(정의된 데이터 모델/ 상
관관계/절차 등이 없음)
• 상관관계 규명 중심
• Hadoop, R, NoSQL 등 개방형 소프트웨어
정보통신정책연구원, 빅데이터 동향 및 정책 시사점
01
7. 빅데이터 처리시스템의 설계 원칙
대량의 데이터 처리 실시간 데이터 처리
저비용 고효율 시스템 결함 허용 시스템
빅데이터
처리시스템
빅데이터 3V 특성에 맞는 새로운 형태의 빅데이터 처리 프레임워크 필요
02
8. 빅데이터 처리시스템의 설계 원칙
대량의 데이터를 처리하기 위한 분산 데이터 저장 기술
네트워크를 기반으로 대규모 클러스터 시스템을 구축하여 대용량의 저장 공간과 빠른 데이터 처리를 지원
분산 파일 시스템의 특징
• 서버의 고장을 염두해 두고 이러한 상태에서도 시스템이
정상적으로 수행할 수 있어야 한다.
• 파일에 대한 쓰기 연산은 주로 순차적으로 데이터를 추가
하는 것이며 파일에 대한 갱신은 드물게 이뤄진다.
• 응답 지연시간 보다 높은 처리율이 더 중요하다.
02
9. 빅데이터 처리시스템의 설계 원칙
결함 허용 시스템
시스템의 결함 발생 가능성을 인정하고 장애 발생시 안정적으로 시스
템을 운영할 수 있는 시스템 구축
빅데이터 처리시스템은 많은 노드의 네트워크로 구성되어 있기 때문
에 일부 노드의 장애가 전체 시스템에 영향을 미치지 않도록 시스템을
구성해야 함
고장 대응체계, 대체 시스템 등 필요
02
10. 빅데이터 처리시스템의 설계 원칙
하둡(Hadoop)의 결함허용 전략
클러스터 내의 노드가 수행 중에 장애로 서비스가 중단되거나 정상적인 수행이 실패하는 경우 대응 전략
자동으로 작업을 재수행(Restart)함
다른 노드에 작업(Job)을 할당
02
11. 빅데이터 처리시스템의 설계 원칙
실시간 데이터 분석 사용자 패턴 파악 의사결정 반영
실시간 데이터 처리
대용량 데이터를 실시간으로 처리하면서 통합 분석할 수 있도록 하는 기술
02
13. 빅데이터 처리시스템의 설계 원칙
기존에 구축되고 운영 중인 시스템과 연계
빅데이터 시스템은 기존에 구축된 시스템과의 연계를 통해 데이터의 수집 및 처리 할 수 있도록 해야함
소설네트워크, 시스템 로그,
텍스트, 동영상, 음성, 사진,
텍스트, 각종 센서 로그 등
다양한 종류의 데이터를
저장하고 처리하는 기술
기존에 구축된 시스템과
연계 필요
02