빅 데이터, 새로운 통찰력

TTA, 빅데이터 교육
2012. 10. 17
김 현 곤 khk@nia.or.kr
한국정보화진흥원 빅데이터 전략연구센터장

음성통화 문자서비스 인터넷정보
교통카드
정보
신용카드
정보
……
정보
의료보험
정보
고용보험
정보
교육관련
정보
주민DB 부동산DB
……
DB

주요
특성
Calculating Database Online Ubiquitous
가치
ICT 발전
Intelligence

빅데이터의
발생 • 페이스북, 트위터 등 SNS 이용
확산과 커뮤니케이션 방식의 변화는
데이터 변혁을 야기한 가장 핵심 요인
• 데이터 저장 및 처리 비용의 하락
• 대용량 · 초고속 유무선 네트워크 보편화
• IT의 발전과 사회·경제적 가치창출 확대
• 기술의 발달로 빅데이터 분석 기술 등장
• 위치정보, 검색패턴, 접속기록 등
그림자 정보의 증가
• 사물 센서 및 임베디드 시스템
(embedded system) 증가

․미디어 태블릿과 그 이후
․모바일 중심 애플리케이션과 인터페이스
․상황 및 소셜 사용자 경험
․사물 인터넷
․앱스토어와 마켓플레이스
․차세대 분석기술
․클라우드 컴퓨팅
․빅 데이터
․인메모리 컴퓨팅
․초절전(저전력) 서버
․비주얼리제이션
․올모스트 엔터프라이즈 애플리케이션
․사이버 정보
․혁명가로서의 CIO
․ERP의 부활
․실분석 (Real Analytics)
․소셜컴퓨팅
․사용자 참여
․어플라이드 모빌리티
․역량 클라우드
․킬러 애플리케이션의 핵심은 ‘간편함’
․모바일 우선(Mobile First)전략
․디지털 비즈니스 모델
․빅 데이터 전문가‘데이터 과학자’수요 증가
․기업 IT, 외부 IT 서비스 업체와 경쟁
․클라우드 기술의 부각
․IT 보안의 변화, 新보안 기업 등장
․전문화된 IT 서비스 기업이 각광
․비용은 줄고, 소비는 증가
․빅 데이터와 분석학

<전세계 정보량 증가 추이>
• 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트)
※ 1.8제타바이트 = 1.8조 기가바이트
* Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta
1ZB(제타바이트) = 1021 Byte = 1조 GB
• 2020년에 관리해야 할 정보의 양은 50배에 이상 증가
(IDC & EMC, ‘Digital Universe Study 2011’)
PC 시대
디지털 정보량
증가 추이
인터넷/
모바일 시대
메인프레임
컴퓨터
데이터 규모
데이터 유형
데이터 특성
1인 1PC
www
EB(Exa Byte)
(90년대 말=100EB)
증강현실
모바일혁명
SNS
Web2.0
브로드밴드
빅데이터
시대 도래
ZB(Zetta Byte) 진입
(2011년=1.8ZB)
인공지능
사물정보통신
IT
everywhere
ZB 본격화 시대
(‘20년=‘11년대비 50배 증가 )
정형 데이터
(데이터베이스, 사무정보)
비정형 데이터
(이메일, 멀티미디어, SNS)
사물정보, 인지정보
(RFID, Sensor, 사물통신 )
구조화 다양성, 복합성, 소셜 현실성, 실시간성
(정지선, 빅 데이터의 새로운 가능성과 대응전략, 2012. 3)

‘빅데이터(Big Data)'란 기존의 관리 및 분석 체계로는 감당할 수
없을 정도의 거대한 데이터의 집합을 지칭
Volume Variety Velocity
Complexity Value

인재·조직
데이터+분석처리기술+분석전문가
(데이터 사이언티스트 등)
빅데이터로부터 의미있는
정보를 도출하기 위한
인재나 조직
데이터 처리·축적·
분석 기술
(Hadoop, NoSQL, R 등)
대량의 데이터를 효율적으로
처리, 분석하기 위한 기술
데이터
광의의 빅데이터
비정형 데이터
(텍스트, 동영상,
음성, 센서, GPS 등)
구조화 데이터
(고객데이터,
거래데이터 등)
※ 협의의 빅데이터는 3V 특성을 갖는다
출처 : 노무라연구소(2012), ‘빅데이터 시대 도래’, IT 프론티어 3월호

자원
빅데이터
3대 요소
기술 인력
빅데이터
플랫폼
(Big Data Platform)
• 데이터 저장, 관리
기술(NoSQL, ETL..)
• 대용량 데이터
처리(Hadoop,
MapReduce..)
• 빅데이터 분석(자연어
처리, 의미분석,
데이터마이닝..)
• 시각화(Visualization)
빅데이터(Big Data)
• 데이터 자원 확보
• 데이터 품질 관리
데이터
사이언티스트
(Data Scientist)
• 수학, 공학(IT기술과
엔지니어링) 능력
• 경제학, 통계학, 심리학 등
다문학적 이해
• 비판적 시각과
커뮤니케이션 능력
• 스토리텔링 등 시각화 능력

내부
(자산
데이터)
외부
데이터
외부
데이터
외부
데이터
외부
데이터
외부
데이터
외부
데이터
연계
공유
협력
검색
웹, 소셜 데이터
Silos
Sharing
Aggregating
Co-creating
오픈 플랫폼
참여
오픈
창조
오픈 데이터 생태계

공공정보 민간개방 및 활용 촉진
우리나라 미국
• 공유자원 포털(www.data.go.kr)
• 공공정보 개방과 민간 활용이
활성화 지원
• 공공정보 개방 및 대표적 모범사례,
美 정부의 'Data.gov‘
• 총 65만여개의 데이터세트를 다양한
형태로 제공
• Data.gov를 이루는 핵심 메커니즘과
코드 등을 인터넷에 전격 공개
EU 호주
• ‘데이터 개방 전략(ODS: Open Data
Strategy)’ 발표(‘11. 12)
• 모든 공공정보를 단일 온라인 창구를
통해 누구에게나 무료로 제공
• EU 회원국과 2013년까지 ‘pan-
European 데이터 포털’ 구축 예정
• 호주 정보관리청은 정부 2.0을 통한
정보 개방(data.gov.au)
• 방대한 양의 정보를 검색하고 분석
및 재사용할 수 있도록 자동화된
툴을 활용하여 시간과 자원을 절감

소셜 정보 분석 서비스
※ 출처 : 강학주(2011), ‘Social Big Data & Collective Intelligence'
※ 출처 : 소셜매트릭스
※ 출처 : 트루스토리 ※ 출처 : 사이람

※ 출처 : 문혜정(2012), ‘Big Data 구축기술과 사례를 중심으로’ 재구성

하둡(Hadoop)은 대용량 데이터 처리 분석을 위한 대규모 분산
컴퓨팅 지원 프레임워크
하둡 플랫폼에는 기본요소인 하둡 분산 파일 시스템(HDFS),
분산 처리를 위한 프레임워크 맵리듀스(MapReduce)가 핵심

※ 출처 : KT경제경영연구소

수학
(Mathematics,
Statistics..)
공학
(Engineering,
Computer Sciences,
Natural Sciences,
Social Sciences)
비즈니스
비판적 시각과 환경의 이해
탐구력
커뮤니케이션
능력
호기심과
개인의 행복
출처 : Forbes, 'Amazon's John Rauser on "What Is a Data Scientist?"'(2011.10.7),
이지영, ‘데이터 과학자가 되려면...’, 블로터닷넷(2012. 3. 18) 재인용
데이터 사이언티스트의 자질
※ 존 라우저 아마존 수석
엔지니어가
제시한 데이터
과학자의 자질 6가지를
토대로 일부 재구성

빅데이터에 대한 이론적 지식
통찰력 있는 분석
· 창의적 사고
· 호기심
· 논리적 비판
빅데이터 분석 기술의 숙련
설득력
있는 전달
· 스토리텔링
· 비주얼라이
제이션
다분야간
협력
· 커뮤니케이션
데이터
사이언티스트
: HARD Skill : SOFT Skill
출처 : 권정은, 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과 가능성, IT & Future Strategy, 한국정보화진흥원, 2012. 8.

Data Scientist
‘Network World’는 데이터 사이언티스트의
채용 공고를 낸 주요 IT기업의 구인 요건을 분석
공통적으로 이공계 석·박사 학위, 충분한
현장 경험, 다양한 분석툴 활용을 바탕으로
문제 해결의 강한 열정, 신기술의 학습 의욕,
리더십 등을 필요 요건으로 제시
데이터와 관련한 고난이도의 질문에 답을 찾고
경험적 연구에 열정적으로 도전할 사람
다른 사람에게 기술을 가르치고
새로운 기술을 습득하는 것을 즐기는 사람
데이터 마이닝, 기계 학습, 통계 분석, 응용수학 박사 학위
또는 이와 동급의 자격 소지자

데이터 분석활용능력
이해
처리
가치
시각화
전달
- 구글 Chief Economist, Hal R. Varian -

“빅데이터는 규모가 정말 큰 데이터를 말한다.”
“빅데이터는 처리의 난이도가 정말 큰 데이터를 말한다”
“더 큰 데이터에서 더 큰 인사이트를 얻을 수 있다”
“여전히 의미 있는 데이터를 잘 선택하는 것이 더 중요하다”
“빅데이터 분석은 소셜 데이터 분석을 말한다”
“소셜 데이터는 빅데이터 소스 중 일부일 뿐이다”
“빅데이터 분석의 핵심은 미래 예측에 있다”
“현 상황의 올바른 이해와 최적화가 핵심이다”
출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스, 2012.6

“성공적 빅데이터 분석은 신기술 이해와 적용에서 시작된다”
“명확한 목표 설정과 사람 중심의 기계와 협업이 성공을 좌우한다”
“빅데이터 처리는 하둡(Hadoop)의 사용이 필수적이다”
“하둡은 필요 시 사용되는 도구가 될 것이다”
“빅데이터 기술은 거대 IT 시장을 만들어 줄 것이다”
“빅데이터 가치를 서비스로 연결한 소수만 승리할 것이다”
“빅데이터 사업은 기존 BI 사업이 확장, 발전된 것이다”
“BI는 응용 중 하나, 스트림, 그래프, 비정형 빅데이터 분석 등,
새로운 가치를 추구한다”
“빅데이터 분석은 분석 전문가와 경영자를 위한 것이다”
“빅데이터 가치 평가와 최종 수혜자는 일반인이다”
출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스, 2012.6 재구성

?

데이터의 과거-현재-미래
저장 검색 관리 공유 분석 ` 추론
DB ▶ 검색엔진 ▶ KMS ▶ Web2.0 ▶ 빅데이터 ▶ 상황인식
축적 활용 확산 및 공유 가치창출
< 사람 이긴 컴퓨터 '왓슨'의 힘은 '분석능력‘ >
2011년 2월 퀴즈쇼 ‘제퍼디
(Jeopardy!)' 최종전에서 IBM이 제작한
슈퍼컴퓨터 '왓슨(Watson)'은 압도적인
결과 차이로 승리
인공지능 수퍼컴퓨터 ‘왓슨’, 의료계와
금융계에 적용

빅데이터의 특성과 효과
• 현실 정보, 실시간 정보의
축적이 급증
• 개인의 경험, 인식, 선호 등
인지적인 정보 유통 증가
• 현실세계 데이터를 기반으로 한
정교한 패턴분석 가능
• 전혀 새로운 패턴의 정보를
찾아낼 수 있는 확률 증가
대규모
(Huge
Scale)
현실성
(Reality)
시계열성
(Trend)
결합성
(Combination)
• 이종 데이터간의 결합으로
새로운 의미의 정보 발견
• 타분야 데이터 결합을 통한
안전성 검증, 시뮬레이션 가능
• 과거 데이터의 유지로
시계열적인 연속성을 갖는
데이터의 구성
• 과거, 현재, 미래 등 시간
흐름상의 추세 분석 가능
빅데이터는 새로운 기회를 창출하고, 위험을 해결하는
사회 발전의 엔진 역할을 수행

구분 기관명 주요 내용
산업
경제성
Economist
(2010)
˯ 데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적
투입 자본, 비즈니스의 새로운 원자재 역할
Gartner
(2011)
˯ 데이터는 21세기 원유, 데이터가 미래 경쟁 우위를 좌우
˯ 기업은 다가올 ‘데이터 경제 시대’를 이해하고 정보
고립(Information Silo)을 경계해야 성공 가능
McKinsey
(2011)
˯ 빅 데이터는 혁신, 경쟁력, 생산성의 핵심 요소
˯ 의료, 공공행정 등 5대 분야에서 6천억불 이상 가치 창출
국가
경쟁력
美 대통령
과학기술자문위
˯ 미국 정부기관들이 데이터를 지식으로, 지식을 행동으로
변환하는 전략에 집중해야 함을 주장
싱가포르
˯ 데이터를 기반으로 싱가포르를 위협하는 리스크에 대한
평가와 환경변화를 탐지

미래 사회 특징
불확실성
리스크
스마트
융 합
통찰력
빅데이터의 역할과 가치
• 현실세계 데이터 기반의 패턴분석, 미래 전망
• 다양한 가능성 시나리오, 시뮬레이션 제공
• 다각적인 상황이 고려 된 통찰력과 유연성 확보
대응력
• 환경, 소셜 데이터 분석을 통한 이상 징후 감지
• 이슈의 빠른 분석을 통한 실시간 의사결정 지원
• 국가, 기업 경영 투명성 제고 및 비용 절감
경쟁력
• 상황인지, 인공지능 기반의 신규 서비스 창출
• 개인화, 지능화 기반 차세대 사업 모델 발굴
• 평판, 트렌드 분석을 통한 기업 경쟁력 확보
창조력
• 타분야간의 결합을 통한 새로운 지식의 발견
• 상관관계 이해를 통한 시행착오 최소화
• 방대한 데이터 활용을 통한 新융합 시장 창출

출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스, 2012.6.

서비스
데이터기반
서비스
IT기반
서비스
비즈니스
데이터분석기반의
더 나은 서비스
더 나은 비즈니스

하루 검색량
50만건 돌파
google.com
출범
하루 검색량 1억건 돌파
7,000만 달러 매출
검색업계 1위
이미지 검색
뉴스 그룹 서비스
애드워즈(검색광고)
애드센스(배너광고)
서버 25,000대 운영
20억달러 매출
서버 100,000대 운영
블로그
4억 4천만 달러 매출
구글 뉴스
구글어스
구글번역
구글비디오
툴바
마이서치 히스토리
시가 총액 845억 달러
Gmail
도서검색
오커트(SNS)
구글 북스
구글 맵스
구글독스
유튜브인수
Google.org
(에너지, 질병…)
안드로이드 OS
크롬 브라우저
크롬 OS
스트리트뷰
G1
구글 헬스
음성검색
안드로이드 마켓
지식공유플랫폼
(Knol)
236억 달러 매출
영상검색
구글 에너지 설립
애드몹 인수
구글보이스
구글플러스
넥서스S
모토로라
모빌리티 인수
380억 달러 매출
하루 검색량 30억건
넥서스원
무인자동차
구글TV
갤럭시 넥서스
구글 플레이

정보검색
정보서비스
가치창출
문제해결
검색엔진
검색광고
번역서비스
…
구글어스
유튜브
메일
일정관리
…
빅쿼리서비스
구글폰
스마트TV
무인자동차
…
독감예측
구글헬스
재난재해
환경
미래예측
…
Google의 성공요인
보유 역량(데이터, 네트워크 등)의 적극적 활용
끊임없는 도전과 혁신

Data Strategy Board
英 비즈니스 혁신 및 기술부(BIS, 2012. 3)
- 대학과학부 장관 및 내각사무처 장관이 공동책임
- 공공데이터그룹과 협력, 데이터 공개 및 접근 개선 노력
‘Open Data Strategy’
- 부처별 빅데이터, 개인정보데이터 등 활용현황 파악
- 데이터 접근성 강화 및 개방지침, 향후 개방·공개 데이터 목록 등을 제안

‘빅데이터의 이·활용을 통한 사회·경제 성장’
- 빅데이터 활용에 따라 10조엔 규모의 부가가치 창출 및 12~15조엔
규모의 사회적 비용절감 효과 기대
- 빅데이터 활용에 관한 Ad Hoc Group 설치 검토 중
‘知識情報社会の実現に向けた情報通信政策の在り方 : Active Japan ICT 戦略’, 자료 39-3-2

민간의 빅데이터 활용을 촉진을 통해 사회 현안 해결과 스마트 라이프 구현
시범 서비스 추진
7대 과제
방송통신, 교육, 교통, 의료 등 여러 분야에서 혁신적인 시범서비스를
공모하여 신규 서비스 발굴·확산
기술 및 플랫폼
경쟁력 강화
빅데이터 분석과정에서 필요한 클라우드 기술, 분산컴퓨팅 기술, 지능
화 기술 등 핵심 요소기술을 개발하고, 오픈소스 기반의 플랫폼을 개발
전문인력 양성
석박사급 고급인력개발 프로그램을 마련하는 것과 함께, 국내 SW전문
기업과 글로벌 기업과 제휴하여 실무인력을 양성
빅데이터
지원센터 구축
시범서비스, R&D 및 인력양성을 지원하고 정보공유체계 구축
빅데이터 산업 및
활용실태 조사
빅데이터 산업의 생태계 조성을 위한 기초자료로 활용
개인정보보호
관련 법제도 정비
빅데이터 환경에서의 프라이버시 침해 가능성 등의 부작용을 최소화하
기 위해서 익명성을 보장해 줄 수 있는 제도적‧기술적 장치 마련
서비스 및 산업
진흥 법제도 검토
빅데이터의 연구․활용, 기술개발 및 표준화, 인력 양성, 정보활용 문화
확산 등을 위한 법제도 개선 사항을 발굴하고 종합적인 정책방안 도출

미국
의료비 절감 :
연 $3,300억
소매업 이윤 : 60%향상
출처 : Mckinsey(2011)
일본
부가가치 창출 : ￥10조
사회적 비용 절감 :
￥12~15조
출처 : 총무성(2012)
대한민국
경제적 효과 :
10조 7천억원
출처 : 전략위(2011)
공공영역 경제적 효과 :
연 €2,500억
출처 : McKinsey(2011)
영국
EU
예산 절감 :
연 ₤160억~330억
(예산의 2.5~4.5%)
출처 : Policy
Exchange(2012)

이성춘, ‘Big data, 미래를 여는 비밀 열쇠’

지경부 외, ‘IT 성과와 향후과제’, 국가경쟁력강화위원회 보고자료 (2012.4.23)

저출산
고령화
다문화 저성장

끝없는
기술의 발전
생산성 제고 효율성 향상 서비스 다양화 네트워킹

주요
특성
Q: 가치창출의 원천은 어디에서 오는가?
A: 기술, 사람, 데이터 B: 개방, 혁신, 협력, 창조
Calculating Database Online Ubiquitous
가치
ICT 발전
Intelligence

2012년 IT트렌드 IT 정책방향 국가현안해결
모바일 애플리케이션
소셜비즈니스
클라우드서비스
스마트워크
소셜네트워크서비스
스마트 디바이스
정보보호 및 보안
위치기반서비스
오픈 플랫폼
빅 데이터
데이터
분석기반

청년일자리
고령화
부패
격차
불신
불확실성
갈등
행복
공존
신뢰
희망
기회
복지
투명성
성장

인려
교육/복지
산업/서비스
주거/문화
경제/금융
가족구조/
실생활
정치/
행정
IT발전
중심적인
접근
사회발전
중심적인
접근

온라인 민원정보분석시스템 : 국민권익위원회

(권대석, 빅 데이터와 예방적 서비스 & 예측, Gov3.0 오픈 포럼, 2012. 6)

8년간 범죄 데이터 분석을 통한 범죄발생 예측시스템 운영(71% 정확도)
범죄 기록의 시각화 : 혁신적 범죄 대응 & 범죄감소

참여자의 스마트폰 마이크로부터 얻은 소음 정보를 종합해 소음지도 제작
스마트폰 마이크 정보 + GPS 정보

데이터분석기반 창조적 IT활용전략!

조선·자동차 등
타산업
경제/금융
교육/복지
가족구조
/실생활
사회/문화
정치/행정서비스

1. 교통, 안전, 복지,지역경제 등 풀고 싶은 질문 리스트업
2. 질문-> 해답 vs 질문->데이터분석->해답
3. 예: 현행 시스템에 축적된 데이터의 분석활용 잠재력
4. 공공보유데이터+민간기업데이터+소셜데이터+……
5. 데이터 개방을 통한 대한민국 국민의 창조 잠재력 활용

1. 교통, 안전, 복지, 경제 등 업무관련 보유 데이터 리스트업
2. 예: 통계자료, 로그 데이터, 공간정보, 소셜정보, ……
3. 데이터분석, 관련분야 데이터와의 연계&융합 등을 시도
4. 새로운 아이디어, 새로운 서비스, 새로운 통찰력의 발견
5. 데이터: 파내지 않은 새로운 금맥; 혁신과 경쟁력의 원천

우수 사례의
발굴 · 확산

출처 : ‘지식정보 개방과 협력으로 스마트 정부 구현’, 국가정보화전략위원회(2011. 11. 7)를 기초로 일부 수정

빅데이터 분석 전문인력은 지식기반 스마트사회의
새로운 일자리 창출을 위한 핵심영역!
수학
(Mathematics,
Statistics..)
공학
(Engineering,
Computer Sciences,
Natural Sciences,
Social Sciences)
비즈니스
비판적 시각과 환경의 이해
탐구력
커뮤니케이션
능력
호기심과
개인의 행복
데이터 사이언티스트의 자질
출처 : Forbes, 'Amazon's John Rauser on "What Is a Data Scientist?"'(2011.10.7),
이지영, ‘데이터 과학자가 되려면...’, 블로터닷넷(2012. 3. 18) 재인용

김 현 곤 khk@nia.or.kr
한국정보화진흥원 빅데이터 전략연구센터장

0
0/88
ETRI Proprietary Electronics And Telecommunication Research Institute

1/88
목 차
빅데이터 개요
빅데이터 분석 기술 개요
소셜 빅데이터 마이닝 기술
• 소셜미디어 수집 및 의미분석 기술
• 오피니언 마이닝 기술
• 이슈 탐지-모니터링 기술
• 이슈 예측분석 기술
맺음말

2/88
빅 데이터란?
빅데이터: 빅 트랜잭션 데이터, 빅 인터랙션 데이터, 빅 데이터 처리의 융합
<Source: Informatica>
Data Mining
Text Mining
Log Mining
Bio/Medical Mining
Stream Mining

3/88
빅데이터 메가트렌드
 21세기 산업혁명: 데이터 분석 기술이 국가 및 기업의 미래 경쟁력 좌우
 동인
 데이터 폭증: ‘2011, 1.8ZB → ‘2020, 35ZB (44배 증가, 1ZB = 1조GB)
 중요성
 데이터는 21세기의 원유(Gartner, 2011)
 창출되는 데이터의 5%만 구조화됨 → 정보 구조화와 분석에서 기회 발생
 전망: Economist, Gartner, IDC, McKinsey, Nature 등
 데이터를 분석하여 지식으로 변환 할 수 있는 기업이‘Next Google’
Gartner
(2011.03)
•데이터는 21세기의 원유이며
데이터가 미래 경쟁 우위를 좌우
•기업들은 다가온 데이터 경제시대를
이해하고 정보 공유를 늘려
Information silo를 극복해야함
Mckinsey
(2011.05)
Big data: The next frontier
Tor innovation, competition,
and productivity
•빅데이터의 활용에 따라 기업/공공
분야의 경쟁력 확보와 생산성 개선,
사업혁신/신규사업 발굴
•특히 의료, 공공행정 등 5대분야에서
6천억불 이상의 가치 창출 예상
Economist
(2010.05)
•SNS와 M2M 센서등을 통해
도처에 존재하는 데이터의
효과적 분석으로 전세계가 직면한
환경, 에너지, 식량, 의료문제에
대한 해결책을 제시

4/88
빅 데이터 생산자 분류
 빅데이터 생산자  빅데이터로부터 가치 생성
1. Business application data (e.g., records, transactions)
2. Human-generated content (e.g., social media)  휴먼센서
 매스미디어  소셜미디어로의 정보유통 채널 변경
 시간, 장소, 관계, 세상을 담은 데이터
<Source: 스마트폰과 SNS가 가져온 미디어 빅뱅 (2012)>
3. Machine data (e.g., RFID, Log Files etc.)  사물센서

5/88
빅데이터 가치 사슬
 빅데이터 분석기술에 초점

6/88
빅데이터로부터 가치 창출이 핵심
 데이터는 21세기의 원유(Gartner)
 빅데이터 바다에서 위기탐지 및 기회포착을 위한 분석기술 개발 필요
 위기탐지: Risk Assessment Horizon Scanning
 기회포착: Evidence-driven decision support
Value
(개인/기업/공공)
<Source: TDWI Research (2011)>
Horizon Scanning Advanced Analytics Decision Support

7/88
빅데이터로부터의 가치창출이란?
 5개 유망분야: 의료(US), 공공행정(EU), LBS 데이터, 소매, 제조
 출처: Mckinsey, 2011

8/88
빅데이터로부터의 가치창출이란?
<출처: Big Data Analytics, TDWI, 2011>

9/88
미래사회 빅데이터 활용 시나리오
<출처: 新가치창출 엔진, 빅데이터의 새로운 가능성과 대응 전략, 한국정보화진흥원, 2011.12.> <Horizon Scanning>

10/88
빅데이터 분석 증거기반 의사결정
 소셜미디어를 통한 포퓰리즘, 사회적 갈등 위험 증가
→ 선진국은 데이터 분석을 통한 선제적 정책과 미래전략 수립에 적극적 활용
 데이터 기반 미래전략지원은 “탐색-분석-준비와 대응” 체계
 탐색 : 사회변화의 동인 수집, 분류
 분석 : 데이터 분석을 통한 선제적 위험 탐지
 준비와 대응 : 미래 정책 의제 제시 등 미래 대응 방안 마련
<선진국의 데이터 기반 국가미래전략 추진현황과 시사점, 출처: 한국정보화진흥원, 2012.4.>

11/88
국내외 관련기술 개발 현황 (요약)
자연어 이해 기반 비정형 데이터로
부터 정보를 추출하여 구조화 정보
생성
소셜웹 콘텐츠를 분석하여 이슈의
징후를 탐지하고, 지속적으로 전개
과정을 모니터링
기존 데이터를 계량적 방법, 질적
접근 방법, 기계학습 방법 등을 통
해 향후 이슈의 전개과정에 대한 예
측모형 모델링 및 예측분석
• (국내) 키워드 기반 검색 → 키워드 빈도 및 긍/부정 감성분석 기반 소셜웹 트렌드 분석
• (국외) 패턴/사전 기반 정보추출 → 세부감성분석, 자연어 처리 기반 정보추출
• (국외) 소셜미디어 분석 기반 예측분석 기술은 연구초기 단계임

12/88
목 차
빅데이터 개요
맺음말

13/88
빅데이터 분석 기술
 실시간으로 생성되는 대량의 다양한 데이터들의 상관관계를 분석하여,
미래 의사결정에 필요한 분석정보를 실시간으로 제공하는 기술
 시각화 기술
 분석 기술
 분산/병렬처리 기술
 빅데이터 수집/저장/필터링 기술
레드오션
블루오션?

14/88
빅데이터 분석 기술
 빅데이터 분석기술 분류
 Data Mining, Predictive Analytics
 Text Mining, Question Answering
 Opinion Mining, Social Media Analytics, Social Network Analytics, Predictive Analytics
 Log Data Mining
 Modelling & Simulation

15/88
(1) Data Mining
 대용량의 데이터로부터 그 안에 숨겨져 있는 의미 있는 지식을 찾
아내는 분석 기술
 연관분석 (Association rule mining)
 Market basket analysis
 분류 (Classification)
 예: 제조공정 품질예측, Buying decision, churn rate, consumption rate
 예측 (Regression)
 중고차 가격예측, 와인품질 등급 예측, 주택가격 예측
 군집 분석 (Cluster analysis)
Segmenting customers into similar groups for targeted marketing
 이상치 발견 (Novelty Detection)
Fault detection, Fraud detection
 Red Ocean: SAP, IBM, SAS, Oracle, Microsoft

16/88
(2) 예측분석  분류 vs. 예측
 범주형 데이터: 숫자로 표시할 수 없는 데이터
예) 증가/감소, 매수/매도, 호감/비호감 등 예측 시점의 범주 선택
 연속형 데이터: 데이터 자체를 숫자로 표현
예) 판매량, 증가율, 수요량 등 예측 시점의 정확한 숫자 선택

17/88
예측분석: 분류 (Classification)
 사전에 소속 그룹(Class)을 알고 있는 관측치들을 이용하여,
미래에 소속 그룹(Class)이 알려지지 않은 관측치가
어떤 그룹에 분류될 것인가를 예측하는 분석 방법
 품종분류, 품질예측, 고객 이탈방지 예측

18/88
예측분석: 예측 (Regression)
 기존 데이터의 종속변수와 독립변수를 이용하여 모델을 만들고,
미래의 관측치의 독립변수 값이 주어졌을 경우 종속변수의 값을
예측
X
Y
X
Y
37
33
??

19/88
Google Prediction API
 Google’s cloud-based machine learning tools can help
analyze your data to add the following features:
 Ford’s Smart Car System

20/88
Predicting the Present with Google Trends
 Can Google queries help predict economic activity?
 Google Trends provides an index of the volume of Google queries by
geographic location and category.
 Google classifiers search queries into 27 categories at the top level and
241 categories at the second level.
 GNU R 언어 사용

21/88
Google 자동차 판매량 예측분석
 오바마 정부가 경기부양책의 일환으로 “노후 차량 보상 프로그램으로
10억 달러 배정” (2009)
 정부는 경기불향으로 인해 예산이 빨리 소진되지 않을 것으로 전망하였으나,
조기 소진되어 20억 달러의 추가 예산 편성
 구글은 웹 검색빈도수로 예산의 조기 소진을 예측함

22/88
Google 독감 트렌드 예측분석
 작동원리
 특정 검색어가 독감 유행 수준을 파악하기 위한 지표로 사용
 집계된 Google 검색 데이터를 사용하여 현재 전 세계 독감 유행
수준을 거의 실시간으로 예측
 대부분의 보건 기구는 일주일에 한 번만 예상 수치를 업데이트
 Google 독감 트렌드는 18개 국가를 대상으로 매일 업데이트되므로
기존의 시스템을 보완

23/88
[참고] GNU R Programming Language
 R is an open source programming
language and software environment
for statistical computing and graphics.
 데이터에 대한 효율적인 조작과 저장 방법
을 제공
 배열 및 행렬에 대한 연산 기능 제공
 데이터 분석을 위한 다양한 도구들을 제공
 데이터 분석과 표현을 위한 다양한 그래픽
도구들을 제공
 프로그램 개발 및 조작을 위한 프로그래밍
언어로서 S를 지원
<Source: http://r4stats.com/articles/popularity/>

24/88
(3) Text Mining
 Goal: to turn text into data for analysis via application of natural
language processing (NLP) and analytical methods.
 Text analysis involves information retrieval, lexical analysis to study word
frequency distributions, pattern recognition, tagging/annotation,
information extraction, data mining techniques including link and
association analysis, visualization, and predictive analytics.
 빅 지식베이스 구축을 위한 정보추출 기술 개발 필요
 장소, 시간, 의견, 관계, 이벤트 등
“데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력,
가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력이야 말로
앞으로 10년간 엄청나게 중요한 능력이 될것이다”
<구글 수석경제학자, 할 베리언>

25/88
[참고] Apache UIMA
 UIMA Architecture
 Frameworks:
 support configuring and running
pipelines of Annotator
components
 Components (i.e., Annotators):
 do the actual work of analyzing
the unstructured information
 Infrastructure:
 include a simple server that can
receive requests and return
annotation results, for use by
other web services.

26/88
(4) Opinion Mining
 Opinion Mining or Sentiment Analysis
 텍스트에 나타난 글쓴이의 감정이나 의견을 파악하고 추출하는 기술
 현재 소셜미디어 분석에서 가장 활발히 연구되고 있는 주제

27/88
Opinion Mining
 오피니언 마이닝 요소

28/88
Opinion Mining
 감성 분석 난이도
 감성 분석 방법론
<출처: Sentiment analysis and opinion mining, Furu Wei, Microsoft>

29/88
Opinion Mining
 감성 분석 로드맵
 Application of Sentiment Analysis
 Business Intelligence system
 Purchase planning
 Public opinion management
 Web advertising

30/88
Aspect-based Opinion Mining
 Aspect Identification
 Aspect Expression Extraction
 Aspect Expression Clustering
 Aspect Hierarchy Generation
 Value Expression Extraction
 {Aspect, Value} Relation Extraction
 Implicit Aspect Identification
 {Aspect, Value} Polarity Assignment
30
Terminology
Aspect
스마트폰: { 배터리, 크기, 해상도, 디자인, … }
Aspect Expression
스마트폰.배터리: { 배터리, 밧데리, … }
Value Expression (혹은 value)
스마트폰.배터리: { 길다, 오래간다, 수명이 짧다, … }

31/88
Aspect Hierarchy Generation
 optimization approach
31
Domain-Assisted Product Aspect Hierarchy Generation: Towards Hierarchical Organization of Unstructured Consumer Reviews [2011 EMNLP]

32/88
(5) Question Answering
 사용자의 자연어 질문의 의미를 파악하여 정답을 제시하는 기술
 빅데이터 기반 정보검색은 정보과부하 문제 심화
 자연어 이해: 사용자의 검색의도를 명확하게 자연어로 표현
 질의응답: 검색결과 리스트가 아닌 정답후보 제시
“ 검 색 엔 진 의 한 계 를 뛰 어 넘 는 엔 서 엔 진
(Answer Engine)을 만든 기업이 미래IT산업
의 패권을 차지할 것 이다”
<애플 공동창업자, 스티브 위즈니악>
Life is about questions & answers.
-> Decision making

33/88
IBM Watson QA
 Watson의 경쟁력은 ①고성능 컴퓨팅, ②빅데이터 분석,
③Deep QA-인공지능을 기반으로 (퀴즈분야) 인간 수준의
심층 질의응답을 실현한 SW 인텔리전스 기술의 총화
 고성능 컴퓨팅 -> 속도
 질의응답 3초 이내 (평균 2~6초)
 싱글코어(2.6GHz)에서 2시간 소요
 빅데이터 분석 -> 지식
 1천만권(200억 페이지 이상)의 콘텐츠를
자연어 이해 기반 수백개의 빅데이터 분석기술로
빅 지식베이스를 구축
 Apache Hadoop
 Apache Lucene
 Apache UIMA(Unstructured Information Management Architecture)
 Deep QA -> 지능
 하나의 질문에 대해 100개 이상의 알고리즘을 동시에 수행하여 최적의 해답을 구하는
방식
33

SW (2억불)
• 자연어 이해, 기계학습
• 지식표현 및 추론
• Big data deep analytics
• Deep QA
HW (1억불)
• IBM Power750 서버 90대(2,880 프로세서 코어)
• Deep blue보다 100배 성능 우위
• 2010년도 슈퍼컴퓨터 Top 94위 (80TFs)
34/88
IBM’s Grand Challenges
 Chess -> Human Language
SW
• 명확한 수학 규칙
• 제한된 검색 공간
HW
• Deep Blue
<Deep Blue (chess computer), 1997> <Waston (Jeopardy!), 2011>

35/88
Jeopardy! Questions
<Game Board Category: Word> Simple Question
< Game Board Category: US Cities> Hard Question

36/88
Waston QA 기술 수준
 현재는 비용문제가 큰 장벽: 3초 vs. 0.4초
 해결해야할 기술적 장애
 Watson can never be sure of anything
 정답유형에 대한 힌트가 주어진 상황
 Question Difficulty
 정답 추론의 복잡도
 Usability
 정답의 활용성(단답형, 서술형,나열형 등)
 Content Language Difficulty
 정답을 찾기 위한 컨텐츠 문서의 언어 난이도
 Confidence
 정답의 신뢰성
 Accuracy
 정답의 정확도
 Speed
 질의응답 속도
 Broad Domain
 다양한 도메인 지원 여부
 Query Language Difficulty
 질문 복잡도

37/88
Waston for Business Intelligence
 속도, 지식, 지능, Insight

38/88
IBM 왓슨은 지능을 가졌는지?
 Do they accomplish human-like language processing?
 Paraphrase an input text
 Translate the text into another language
 Answer questions about the contents of the text
 Draw inferences from the text
 Truing test proposed by Alan Turing (1950)
 Waston has not met Turing’s standard or true AI.
 It does not have the intelligence to understand the questions & the
answers.
 However, Waston is cerainly intelligence argument (IA) that extends
human brains.
 출처: IBM

39/88
Wolfram Alpha
 Wolfram Alpha supports Apple's Siri for factual question
answering
 Siri now accounts for 25 percent of all searches made
on Wolfram Alpha (NY Times, 2012.2.7)

40/88
Google Knowledge Graph
 Google’s next frontier for search
<The Knowledge Graph> <다빈치 검색결과>

41/88
(6) Log Data Mining: Personal Location Data
 Personal Location Data Mining

42/88
Log Data Mining: Web Log Data
 Google Insights (검색통계)
 “Big data” 검색 통계

43/88
(7) Social Network Analysis
 소셜 네트워크 구조 분석
 소셜 네트워크 진화 분석
 소셜 네트워크 정보흐름 분석
 영향력자 분석
 도메인 또는 키워드 별 영향력자 분석 기술 필요

44/88
(8) 소셜미디어 기반 예측분석
1. Predict – Risk
2. Predict – Market
3. Predict – Popularity
4. Predict – Mood
5. Predict – Social Dynamics

45/88
Predict – Risk
 소셜미디어 상에서 위기 상황들을 감지, 모니터링, 예측
 Natural Risk(Storms, files, traffic jams, riots, earthquakes etc.)
 (249회) Earthquake Shakes Twitter User:Analyzing Tweets for Real-Time Ev
ent Detection, IW3C2, 2010
 (88회) Microblogging during two natural hazards events: what twitter may con
tribute to situational awareness, CHI, 2010
 Financial Risk
 (27회) Predicting risk from financial reports with regression, NAACL, 2009
 (2회) Hunting for the black swan: risk mining from text, ACL, 2010

46/88
Predict – Market
 소셜미디어의 주식, 선거, 영화 등에 대한 대화를 분석하여 미래
의 결과를 예측하기 위한 연구
 집단지성(Wisdom of crowds) 방식 적용
 Social Media, News 등을 이용한 PM 적용 분야
 영화
 (9회) Predicting Movie Success and Academy Awards Through Sentiment
and Social Network Analysis, 2008, ECIS
 (124회) Predicting the future with social media, 2010
 (5회) Using Social Media to Predict Future Events with Agent-Based Markets,
2010, IEEE
 주식
 (130회) Twitter mood predicts the stock market, 2010, journal of CS
 Predicting Financial Markets: Comparing Survey,News, Twitter and Search
Engine Data, 2011
 선거
 (16회) Reading the Markets: Forecasting Public Opinion of Political
Candidates by News Analysis, 2008, Coling
 (106회) Predicting Elections with Twitter:What 140 Characters Reveal about
Political Sentiment, AAAI, 2010

47/88
Predict – Popularity
 온라인 콘텐츠의 social connection, link structure, user behavior
pattern 등의 정보를 바탕으로 선호도를 예측하는 것
 인기도 예측 (이슈성과 비슷함)
 Digg, Youtube
 (22회) Digging Digg : Comment Mining, Popularity Prediction, and Social Network
Analysis, IEEE, 2009
 Dig사이트 댓글의 추이(초기 댓글수, 긍정, 부정 포함)로 digg-score 를 계산해서 인
기도 예측
 (111회) Predicting the Popularity of Online Content, ACM, 2010
 콘텐츠가 제출된 후 초기 측정값(Digg: 1시간 후 투표수, Youtube: 7일 후 조회수)과
30일 이후 측정값의 로그 변환으로 선형관계 모델 제안
 Forum.myspace.com, Forum.dpreview.com
 (9회) An Approach to Model and Predict the Popularity of Online Contents with
Explanatory Factors
 France News sites
 (2회) Predicting the popularity of online articles based on user comments, ACM,
2011
 Twitter
 (23회) Trends in Social Media - Persistence and Decay, AAAI, 2011
 국내- 아고라, 서프라이즈
 온라인 게시글의 조회수 분석을 통한 인기도 예측, 한국 콘텐츠 학회 논문지, 2012

48/88
Predict – Mood
 소셜미디어 상에서 특정 사건들을 중심으로 Sentiment 양상이 어
떤 식으로 표현되는 지 모니터링하고, 모델링 및 예측하는 것
 Global mood phenomena: 특정 사건(특히 정치적 사건)이 일어나고 난 뒤의
사회적 정서를 감지하는 것을 뜻함
Public mood 라는 표현으로도 쓰임
 Mood modeling
 (80회) Capturing Global Mood Levels using Blog Posts, 2006, AAAI
 (66회) Modeling Public Mood and Emotion-twitter sentiment and socio-economic
phenomena, 2009, AAAI
 (1회) Effects of the recession on public mood in the UK, 2012, WWW MSDN
worshop

49/88
Predict – Social Dynamics
 Unemployment through the Lens of Social Media
 목적: 소셜데이터 분석을 통한 취업 관련 주제, 분위기 등을 조사하고
공식적인 실업통계와 비교 (2009.6.~2011.6)
 대상: 미국, 아일랜드
 기관: Un 글로벌펄스, SAS
 결과
 실직자의 감성정보를 계량화하여 실업통계가 제공하지 못하는 중요한 정보 보완
 40개 이상의 교차 상관관계를 분석한 결과 미국은 5개 지표, 아일랜드는
6개 지표가 90%이상 신뢰수준으로 의미있는 상관관계를 나타냄

50/88
Recorded Future: Temporal Analytics Engine
• 구글과 CIA로부터 투자를 받아 주목받고 있는 예측분석 전문기업으로 2008년에 설립
• (현황) 뉴스 및 블로그 정보에서 이벤트나 엔티티(인물, 단체 등)와 관련된 정보를 간단한 긍정/부 정 분
석 결과와 함께 시간대 별로 제공
• (한계) 기정의된 단순한 종류의 이벤트(예: 여행, 인용 등)만 탐지함.
• (한계) 이슈의 진행방향이나 결과에 관한 예측 기능은 없으며, 인용구를 제시함
기 정의된Event Entity Time

51/88
우샤히디 (Ushahidi)
 Ushahidi: 스와힐리어, 증언/목격
 2007, 케냐, 오리 오콜로 시작
 a tool to easily crowdsource information
using multiple channels, including SMS,
email, Twitter and the web.
 선거 기간 중 일어날 충돌, 폭력 증언
의 메일, 블로그로 시작
 이후 우샤히디 서비스 개설
 웹사이트+문자+위치정보 등
 하버드 대학, 방법 효용성 극찬
 이후 세계적인 사이트로 성장
 칠레, 아이티 지진 후 부상자 위치 확
인 용도로 사용
51
<아이티 부상자 발견 위치>

52/88
(9) Modelling & Simulation
싱가포르 RAHS 시스템
빈번히 발생하는 테러 및 전염병으로 인한 불확
실한 미래 대비
- RAHS(Risk Assessment & Horizon Scanning)
- 국가적 위험 수집, 분석  선제적 위험 관리
- ’11년부터 국제 데이터 분석을 위한 RAHS 2.0
미국 국토안보
9.11 테러 이후 미국은 국토안보부를
중심으로 테러 ·범죄 방지를 위한
범정부적 빅데이터 수집, 분석 및
예측체계를 도입
<2002 발리 폭탄테러> <글로벌 지하드 네트워크>

53/88
목 차
빅데이터 개요
맺음말

54/88
소셜웹 이슈 탐지-모니터링/예측분석 기술 개요
 소셜웹 이슈 탐지-모니터링 및 예측분석이란?
 대용량 소셜미디어를 언어분석 기반 정보추출을 통해 이슈를 탐지하고,
 시간의 경과에 따라 유통되는 이슈의 전개과정을 모니터링하고
향후 추이를 분석하는 기술
 전문가의 데이터 기반 의사결정을 가능하게 하는 기술
 빅데이터
수집, 정제, 분석,
탐지, 모니터링
• 웹 페이지, 소셜미디어, 검색 통계, 웹사이트 방문기록 등 테라바이트(1012바이트) 이상의 거대한 데이터 집합(SERI, 2010)
• 일정한 형식이 정해지지 않은 비정형 데이터인 텍스트가 주된 분석대상임  소셜 빅데이터

55/88
기술 개념
 소셜웹 이슈 탐지-모니터링 및 예측분석 기술이란?
 소셜웹 콘텐츠로부터 이슈를 탐지/모니터링하여, 이슈의 향후 전개과정에 대한
예측 모형을 제시하는 기술 → 전문가 의사결정 지원을 위한 ‘Insight’ 제공
 소셜웹: 뉴스, 블로그, 트위터, 게시판, 카페 등
 이슈: 시간/지역별 특성을 반영한 중요한 주제 또는 사건
(기업) 겔럭시S2의
향후 판매추이는?
(공공) 셧다운제에
대한 여론의 향후
추이는?
이슈 탐지 기반 예측분석 시스템
이슈 탐지
및 모니터링
이슈
예측분석
이슈
질의응답
(회귀분석+시계열분석+패턴기반
+기계학습기반 예측분석 모델)

56/88
연구개발 목표
최종
목표
웹 폭증 데이터 분석형 리스닝 플랫폼을 위한
소셜웹 콘텐츠 고정밀 의미분석 기반
이슈 탐지-모니터링, 이슈 예측분석, 이슈 질의응답 기술개발
소셜웹 콘텐츠 의미분석
실시간 이슈 탐지-모니터링 이슈 예측분석
이슈 질의응답
소셜웹 이슈탐지-모니터링/예측분석시스템
(리스닝 플랫폼)
웹 마이닝 업체
소셜웹 이슈 분석 서비스
리서치 업체
온라인 리서치 플랫폼
제조업체
상품/브랜드/서비스
리스닝 플랫폼
공공기관
온라인 정책
분석 및 예측 서비스
웹 콘텐츠 소셜 미디어

57/88
소셜웹 고정밀 의미분석 기술 개요
 소셜웹 콘텐츠를 수집하고 필터링하여, 자연어 처리 기반 의미관계분석
및 감성분석를 통한 구조화 정보 생성
실시간
콘텐츠
수집
중복
필터링
스팸
필터링
허위평판
필터링
일본 대지진 뉴스 기사
전처리(띄어쓰기, 맞춤법교정, 문장분리)
일본 어민들이 도쿄전력과 정부를 비난하고 나섰다(문장분리) 일본 전국어업협동조합연합회는 6일 도쿄전력
을 항의방문하였다.
형태소 분석
일본/nc 어민/nc+들/xsn+이/jc 도쿄/nc+전력/nc+과/jj 정부/nc+를/jc 비난/nc+gk/Xsv+고/ec 나서/pv+
었/ep+다/ef ./s
개체명 인식
<LCP_COUNTRY:일본/nc> <CV_OCCUPATION:어민/nc>+들/xsn+이/jc<OGG_BUSINESS:도쿄/nc+전
력/nc>+과/jj <OGG_POLITTICS:정부/nc>+를/jc 비난/nc+gk/Xsv+고/ec 나서/pv+ 었/ep+다/ef ./s
일본 어민들이 도쿄전력과 정부를 비난하고 나섰다
<Subj> <Subj> <Subj>
Verb(비난하다):Arg1(일본 어민들), Arg2(도쿄전력과 정부)
의존구문분석
감성분석 / 의미관계분석
<일본 어민들:Entity>이 <도쿄전력과 정부:Object>를 <비난:Value>하고 나섰다
Entity: 일본 어민들
Object: 도쿄전력, 정부
Value: 비난하다
감성: 부정(-9.5) 일본대지진

58/88
소셜웹 복합이슈 탐지-모니터링 기술 개요
 소셜웹에서 유통되는 이슈 간 상호 연계성을 분석하고,
지속적 모니터링을 통해 이슈 간 Insight를 파악하는 기술
 연계된 이슈 간 양/음의 상관관계 분석을 통한 마이크로트렌드 도출
 이슈 간 상관관계 분류: 연관관계, 경쟁관계, 인과관계
1. 연관관계 • 런던올림픽  치킨
2. 경쟁관계 • 애플 특허 소송  삼성
3. 인과관계 • 청소년 게임 중독  게임 셧다운제

59/88
소셜웹 이슈 예측분석 기술 개요
 소셜웹 데이터 분석을 통해 통계 데이터로는 파악하기 어려운
사회변화의 동인을 분석하고, 교차상관관계를 모델링 하는 연구
 소셜 빅데이터 분석의 증거를 토대(Evidence-driven)로 한 의사결정지원
 이슈에 대한 소셜미디어 변동요인 지표 도출 및 상관관계 모델링
 선행지표: 이슈 변동에 선행해서 변동하는 지표
 동행지표: 이슈와 거의 일치해서 변동하는 지표
 후행지표: 이슈보다 늦게 변동하는 지표
<UN의 소셜미디어 활용 실업률 분석(2011)>

60/88
시스템 구성도
 Insight
Delivery
 Issue
Predictive
Analytics
 Knowledge
Analysis
 Information
Analysis
 Data
Sensing
 소셜웹 이슈 질의응답  인사이트 시각화/리포팅
 소셜웹 이슈 예측분석
리스크 예측분석 영향력자 예측분석
예측분석기반
광고효과 분석
소셜 스트레스
지수 예측분석
 소셜웹 복합이슈 탐지 및 모니터링
단일이슈
탐지
단일이슈
모니터링
복합이슈
모델링
복합이슈
탐지
복합이슈
연계
복합이슈
모니터링
 소셜웹 고정밀 의미분석
세부분류
감성분석
개체속성별
감성분석
형태소/
구문분석
개체명/
관계추출
키워드
검색
이슈
시각화
질문의도
이슈 유형
분석
정답 추출
/순위화
이슈-정답
통합
이슈
지식베이스
구축
다각적
요약
심층분석
정보
리포팅
 소셜웹 컨텐츠 수집 클라우드
실시간/대용량 고속분산 컨텐츠 수집/저장 중복/스펨 콘텐츠 필터링 허위 평판 필터링
SNS 뉴스 블로그 통계데이터
통찰전달
예측분석
복합이슈
분석
수집
전처리/
문장분리
오피니언
서머리
템플릿
정보추출

61/88
소셜웹 콘텐츠 수집 및 저장
구분 1차년도 수집건수
2차년도 수집건수
(12년/9월 기준)
뉴스 98만건 187만건
블로그 3천9백만건 6천7백만건
트윗 3억9천만건 9억2천만건
합계 4억3천만건 9억9천만건
 목표
 클라우드/스트림 컴퓨팅 기반 소셜웹
콘텐츠 수집/저장/언어분석 플랫폼
 연구내용
 소셜웹 콘텐츠 스트림 지속적 추적 및
업데이트 지원
 Hadoop 기반 대용량 언어 분석 및
HBase 기반 문서 저장 플랫폼 구축
 수집건수
수집서버(Crawling API, Streaming API)

62/88
콘텐츠 필터링: 잡음데이터 제거
 목적
 의미 있는 정보를 추출하기 어렵거나, 여론을 왜곡시키는 중복, 스팸, 허위
평판 콘텐츠 필터링
 분석시간 단축
 연구내용
연구내용 특징
소셜웹 대상 정보성
분석 기술
• Follower, Mention, Retweet 정보 통합 및 네트워크
특성을 반영한 정보성 분석 프레임워크 구축
• PageRank 알고리즘 기반 사용자 간 영향력, 트위터 영향력
상호 반복 계산
대용량 중복/스팸 콘텐츠
고속 필터링 기술
• 문서의 일부만 중복되더라도 필터링 가능한 부분 탐지 기술
• 기계학습(SVM)기반 스팸 필터링
허위평판 필터링 기술
• 여론 왜곡을 의도로 작성된 허위 평판 뉴스 댓글 필터링
• 허위평판 사용자 집단 인식 기반 필터링 알고리즘 적용

Depth Retwee
63/88
정보성 분석 기반 소셜웹 오피니언 스팸 필터링
 목표
 트위터 정보전달 과정에서
왜곡을 의도로 작성된 트윗 필터링
 연구내용
 리트윗 그래프의 전파형태,
전파속도, 전파 지속시간 등을 분석
 의도가 개입된 리트윗 여부 판단
 정보성 있는 멘션 여부 판단
 차별성
비정보성 콘텐츠(B제품)
연구내용 기술 특징
오피니언 스팸
필터링 기술
• 중복/광고/성인 콘텐츠 필터링
• 여론 왜곡을 의도로 작성된 허위 평판
뉴스 댓글 필터링
• 허위평판 사용자 집단 인식 기반 필터링
알고리즘 적용
t
전파
속도
내용(긍/부정)
• 사회적 영향력이 큰 트위터 대상 허위
평판 필터링
• 트위터 상에서 리트윗 양상을 그래프로
표현하고, 그래프 모양, 전파 속도 등의
정보를 추가로 분석
Nested
network
지속성
Depth Retweet
전파
속도
내용(긍/부정)
Nested
network
지속성
정보성 콘텐츠(A제품)

64/88
소셜웹 콘텐츠 고정밀 의미분석
 목표
 소셜웹 콘텐츠 고정밀 언어분석/의미관계추출 통합 프레임워크 설계
구어체
전처리
(트위터)
 주요 연구내용
형태소
분석
개체명
인식
구문
분석
의미관계
추출
감성
분석
구분 개발현황
형태소 분석 - 트위터 고빈도 미등록어 사전 구축
개체명 인식 - 뉴스/블로그/트위터의 매체 별 언어특성을 반영한 인식모델 설계 및 구현
구문분석 - 학습코퍼스(세종코퍼스) 의존관계 일관화 작업 기반 학습모듈 설계 및 구현
감성분석
- 개체 속성별 세부분류 감성분석 기술 설계 및 구현
- 정책/제품/인물/조직 대상 긍정/부정의 원인 분석 기술 설계 및 구현
의미관계 추출 - 엔티티/관계/이벤트/시간/장소 정보추출 기술 설계

65/88
소셜웹 실생활 구어체 전처리
 연구 내용
 소셜웹 대상 띄어쓰기/맞춤법 오류 수정 기술
 소셜웹 대상 문장 분리 기술
 우수성
 소셜웹 콘텐츠(블로그, SNS 문서)에 강건한
비문 처리 기술(기계학습 기반 고속처리)
 소셜웹 콘텐츠의 문장 끝에 사용된 모든 음절
대상 학습
 언어 독립적 비교사 학습 기반 문장 분리 기술
(2) 콘텐츠 의미분석

66/88
소셜웹 콘텐츠 한국어/영어 언어분석
 연구내용
 우수성
한국어 영어
소셜 웹 텍스트 어휘 특성
반영
기업/공공 분야 개체 특성
반영
대용량/고속 구문분석
형태소 분석기
개체명 인식기
구문분석기
형태소 분석기
개체명 인식기
구문분석기
연구내용 특징
한국어/영어
형태소 분석
한국어/영어
개체명 인식
한국어/영어
의존구문 분석
• 소셜 웹 콘텐츠 특성을 반영한 한국어 형태소 분석 모듈 개발
• 소셜 웹 고빈도 어휘 사전 구축, 소셜 웹 관용적 어휘 기분석 사전 구축
• 세계최다 180여 개의 세부분류 개체명 인식 모듈(한국어)
• 4개 분류 개체명 인식 모듈(영어)
• Structural SVM기반의 도메인 이식 기술 개발
• Transition-based parsing 및 hash kernel을 사용, 분석 속도 개선
(기존 O(n^3)에서 O(n): 기존 대비 약 8배 속도 향상)
• Deterministic parser의 단점을 해결하기 위해 beam search 개발

무상급식은 의무교육의 연장선이라 할 수 있다 .
67/88
템플릿 추출을 위한 의미관계 분석
 연구내용
 소셜웹 텍스트에서 명사-명사/개체, 개체-개체, 개체-문장 사이의 의미
관계 분석
 우수성
삼성전자
XX기업
무상급식
제품출시
유죄선고
찬성이유
갤럭시S2
주가조작
 의미관계의 특징 별로 차별화된 관계 추출 기술 개발
연구내용 특징
통계/패턴 기반 관계분석
SRL 기반 관계 분석
서술형 관계 분석
• 도메인 특화된 관계 분석에 강점
• 도메인에 필요한 관계 유형에 맞는 학습 데이타, 패턴 구축 필요
• 문장의 구문/의미분석 기반 관계 분석
* SRL: Semantic Role Labeling
• 정책 찬/반 이유, 제품 장단점 등 문장 형태의 관계 분석 가능

68/88
개체 속성별 고정밀 감성분석 기술
 목표
 글쓴이의 주관성이 반영된 의견에 대한 개체 속성 기반
세부분류 감성분석 기술 개발
 소셜미디어 상에서의 방대한 의견들을 수집해서
[누가/언제/무엇에 대해서/어떤점이(속성)/왜(원인분석)/어떠하다] 분석
Holder
누구의
감성
감성
분석
Target
대상
Aspect
속성
Sentiment
Time
시간
감성값
Trigger: <배터리, 닳다>
Anchor: 화나다
• 배터리가 금새 닳아서 화났음
• 밧데리가 확 닳으니까 화가나네
• 베터리가 금방 닳아서 열받는다
• 배터리가 쭉 닳아 어이없었음
• 배터리가 금방 닳아 화가난다

69/88
[참고] Theory of emotion
공자 중용 노자
喜(희)
喜(희)
樂(락)
喜(희)
怒(노) 怒(노) 怒(노)
哀(애) 哀(애) 悲(비)
懼(구) 憂(우)
愛(애) 好(호)
惡(오) 憎(증)
慾(욕) 慾(욕)
[[동양에서의 인간 기본 감성] Plutchik's wheel of emotions: eight primary emotions]

70/88
 연구내용
 세계 최다 17개 세부분류 감성분류 체계 정립
두려움
화남
슬픔 실망 반대 부러움
◀ NEGATIVE NEUTRAL POSITIVE ▶
싫어함 걱정 미안함
 정책/제품/인물/조직 대상 긍정/부정의 원인 분석 설계 및 구현
 앞뒤의 문장 관계 및 관용어/반어법을 고려한 세부분류 감성분석
 Trigger 학습모델을 확장한 속성 기반 감성분석 기술 설계
 감성의 존재 유무에서 감성의 강도 분석 기술
 감성 표현의 의미를 바꾸는 Sentiment Shifter(의문문, 명령문 등) 예외 처리를
통한 성능 개선
인정 설렘 기쁨 자신감
선의 만족 좋아함 감동

71/88
 차별성
 앞뒤의 문장 관계 및 관용어/반어법을 고려한 세부분류 감성 분석 성능 고
도화
 감성 표현의 의미를 바꾸는 Sentiment Shifter(의문문, 명령문 등) 예외 처
리를 통한 성능 개선

72/88
 차별성
 엔티티의 속성 기반 감성분석 기술 설계

73/88
 속성기반 감성분석을 위한 속성 온톨로지 예

74/88
감성 사전 확장
감성
분석
세분화된 감성 정보
흐름
확장
감성 근거 탐색
감성 근거 그룹핑
감성 근거 어휘
감성 표현 어휘
(Seed)
감성 표현 어휘
감성 표현 랭킹
감성 표현 탐색
신규?
신규?
• 배터리가 금새 닳아서 화났음
• 배터리가 확 닳으니까 화가나네
• 배터리가 금방 닳아서 열받는다
• 배터리가 쭉 닳아 어이없었음
• 배터리가 금방 닳아 화가난다
•감성… 근거: <배터리, 닳다>
감성 표현: 화나다
감성사전 자동확장 기술
 감성 사전 자동 구축
 감성이 명시적으로 표현된
텍스트를 대상으로 함 (트윗,
뉴스 댓글 등)
 감성 ‘근거’ 어휘 추출을 통한
감성 ‘표현’ 어휘 자동 구축
 감성 ‘근거’ 어휘를 통한 속성
별 감성 분석

3월 4월 5월 6월 7월 8월
4.11 총선
김용민 막말
“쫄리면 죽으시든가”
노무현 3주기
문재인 당원들에게 보내는 글
세종시 출범 신아람 멈춰버린 1초
안철수 에세이 출판 임박
박근혜 대선출마 선언
국정원 홈페이지 ‘5.16 군사혁명’ 표기
한일협정 일본 재무장 승인 대통령 비방한 육군 대위 구형선고
비율
나꼼수 패널 검찰 출석 응원
제주 구럼비 발파
올림픽 한일전 승리
자신감
감동
설렘
호감
기쁨
만족
인정
선의
반대
부러움
미안함
실망
슬픔
반감
걱정
화남
두려움
임윤택 근황 공개
새누리당 당선인 대회
트위터 세부분류 감성분석 결과
• 기간: 2012년 1월-8월
• 대상: 트윗 314,648,676개
• 감성트윗: 26,438,236개(8.4%)
전체 트윗 중 긍정/부정 비율
• 올림픽 기간 가장 긍정이 높았던 이슈는 한일전 승리(8/11)로, 감동 감성이 크게 증가. 반면 가장 부정이 높았던 이슈는 신아람 오심 판결(7/31)로,
화남과 걱정 감성이 크게 증가
• 총선과 관련 부정이 가장 높은 이슈는 김용민 막말 사건(4/5)과 4.11총선(4/11). 총선 당일 야당패배로 화남 감성 크게 증가
• 노무현 전임대통령 3주기(5/24)에 슬픔 감성이 크게 증가
날짜
긍정
부정

76/88
 감성의 긍정/부정 원인분석 마이닝
 정책/제품/인물/조직 대상 긍정/부정의 원인 분석을 통한
Competitive Intelligence 제공
<무상급식정책에 대한 긍정/부정 원인분석 과정>

77/88
[참고] 개체 속성별 고정밀 감성분석 기술
<아이폰 고객 충성도 조사(2012.9.10)> <ETRI: 아이폰4 장점/단점 원인분석 결과>

78/88
소셜웹 복합이슈 탐지-모니터링 기술 개요
 소셜웹에서 유통되는 이슈 간 상호 연계성을 분석하고,
지속적 모니터링을 통해 Insight를 파악하는 기술
 연계된 이슈 간 양/음의 상관관계 분석을 통한 마이크로트렌드 도출
 이슈 간 상관관계 분류: 연관관계, 경쟁관계, 인과관계
1.2000
1.0000
0.8000
0.6000
0.4000
0.2000
0.0000
인과관계:
런던올림픽
(치킨/라면 상승)
상 중 하 상 중 하 상 중 하 상 중 하 상 중 하 상 중 하 상 중 하 상 중 하
1월 2월 3월 4월 5월 6월 7월 8월
담배
치킨
라면
커피
11
유사 패턴
치킨, 라면
빈도 : 46,768
<ETRI 생활상품 분야 분석 결과(2012.01~2012.08)>

79/88
소셜웹 이슈 탐지 모델
 이슈 탐지 모델
 이슈 중요도 자질 분석 및 이슈 측정 모델링
 Novelty(h1): 얼마나 새로운가?  discrepancy score 계산을 통한 신규성 검토
 Importance(h2): 얼마나 중요한가?  이슈를 구성하는 term들의 중요도 계산
 Strength(h3): 얼마나 파급력이 있나?  유입량/안정성/변동성 등 파급력 계산
 Confidence(h4): 얼마나 믿을만 한가?  이슈의 source에 따른 신뢰도 반영
 Interestedness(h5): 얼마나 관심이 있나?  감성도, 댓글, RT 수 등
 단순 빈도가 아닌 이슈 측정 모델링 기반 이슈 탐지
 감성 정보를 활용한 극감성 유발 이슈 탐지

80/88
[참고] 소셜웹 이슈 탐지 사례
‘A사’ 키워드에 대한 빈도 기반 분석 vs 이슈 중요도 기반 분석 비교
11/23: 홍게살 이벤트성 트윗 급상승
12/22: A사 식품류 가격 인상 철회
12/30: A사 데일리 이벤트 홍보 트윗 급상승
[A사 소셜웹 분석]
[ETRI-WISDOM]

81/88
소셜웹 이슈 예측분석 기술 개요
 소셜웹 데이터 분석을 통해 통계 데이터로는 파악이 어려운 사회
변화의 동인을 분석하고, 교차상관관계를 모델링 연구
 소셜 빅데이터 분석의 증거를 토대(Evidence-driven)로 한 의사결정지원
 이슈에 대한 소셜웹 변동요인 지표 도출 및 상관관계 모델링
 선행지표: 이슈 변동에 선행해서 변동하는 지표
 동행지표: 이슈와 거의 일치해서 변동하는 지표
 후행지표: 이슈보다 늦게 변동하는 지표
 이머징 이슈(리스크)에 대한 사전 탐지 및 예측분석 모델링

82/88
소셜웹-실업률 상관관계 예측분석
 목표
 소셜웹 분석 정보를 이용한 실업률 상승/하락의 선행지표/후행지표 분석
소셜웹
 연구내용
-감성: 우울함/적대감 상승
-대화: 대출/버스 대화 증가
후행지표 예
-감성: 불확실성 상승
-대화: 대출/압류 대화 증가
실업률 상승시점
※ ARIMA: Autoregressive Integrated Moving Average
※ ECM: Error Correction Model
소셜 실업률
예측 모델
소셜 네트워크
(ARIMA, ECM 모형)
분석 자질
소셜웹 콘텐츠
분석 자질
(키워드, 감성
등) 경제지표 DB
선행지표 예
(실업률, 소비자 물가지수 등)
 경제지표 통계자료 및 소셜웹 분석 결과를 결합한 예측모델 설계
 기존의 시계열 자료와 SNS 자료를 결합한 통계모형 개발
 소셜웹의 감성분석 결과를 결합하여 예측 모형의 성능 향상
 소셜웹 변동요인 지표 도출 및 상관관계 모델링 도출

83/88
소셜웹 리스크 예측분석 (1/6)
 목표
 소셜웹에서 발생한 다양한 이슈 중에서 잠재적으로 위험을 내포하고 있는
리스크를 사전 탐지하여 분석하는 기술
<소셜웹 리스크 예측분석 시나리오>

84/88
소셜웹 리스크 예측분석
 일반적 이슈 탐지 vs. 리스크 이슈 예측분석
구분 일반 이슈 탐지 리스크 이슈 예측분석
탐지 시점
• 매체를 통해서 확산된 시점
• 여론 형성이 이뤄지기 전에 조기 탐지
(이머징 이슈)
대상 이벤트 • 추이를 알고 싶은 이벤트
• 기업/공공 기관 등에 잠재적 위험을
내포하고 있는 이벤트
• 부정적 여론이 형성 될 가능성이 있는
이벤트(악성루머, 비리, 사고 등)
활용/목적성
• 이슈의 전체적 확산 정도
• 이슈에 대한 여론 수집 및
동향 모니터링
• 특정타겟에 대한 이머징 이슈 조기 발견
• 일반적이지 않은 버즈량/움직임에 대한
변화 감지 및 위험성 알람
• 리스크 이슈 발생에 대비한 사전대응
모델 및 대응방안 수립

85/88
목 차
빅데이터 개요
맺음말

86/88
86
향후 전망
자연어 처리 기반 소셜 빅데이터 분석, 이슈 탐지-모니터링 및 예측 기술
→ SNS 실시간 데이터 수집, 데이터 필터링, 자연어 처리, 시간/공간 Reasoning,
위기 감지 및 모니터링, 예측분석의 원천기술로 활용
자동화된 소셜 빅데이터 분석 기술은 기존 전문가 집단에 의한 고비용, 저효율 수작
업 분석작업을 대체하는 지식경제 산업의 기반 구축
→ 비정형 데이터 분석 SW산업이 전체 SW산업 성장률의 2배 이상인 연 10%
이상 성장 전망(SERI, 2010)
소셜 빅데이터 분석 기반 위험의 전조 탐지 및 추적을 통한 의사결정 지원
→ Data-driven ‘Insight’ 제공을 통한 기업/공공의 신속 정확한 위기 관리,
전략 수립, 온라인 여론 동향을 반영한 정치·경제·사회 전반의 혁신을 지원

87/88
[참고] 5 Big Data Questions For CEOs
1. How is big data going to help my business?
2. How much will it cost?
3. How risky is it?
4. How will we measure the return?
5. How long will it take to see results?
 출처: http://www.forbes.com/sites/ciocentral/2012/06/26/5-big-data-questions-for-ceos/

Big Data 처리기술
Hadoop의 이해
Edward KIM
fharenheit@gmail.com

소개
 한국자바개발자협의회(JCO) 6대 회장(현재 고문)
 JBoss User Group 대표
 한국스마트개발자협회 부회장
 지식경제부 소프트웨어 마에스트로 멘토
 대용량 분산 컴퓨팅 Architect
 오프라인 Hadoop 교육 및 온라인 Java EE 교육
 오픈 소스 Open Flamingo 설립(http://www.openflamingo.org)
 Java Application Performance Tuning 전문가
 IT전문가협회 정회원
 다수 책 집필 및 번역
 JBoss Application Server5, EJB 2/3
 Oreilly RESTful Java 번역 중
2

대용량 데이터의 세계
3

갑자기 웬 데이터?
4
 데이터에서 가치를 찾자는 것이 빅 데이터
 작은 데이터에서는 안보이던 것이 큰 데이터에서는 보인
다는 논리
 그래서 생긴 다양한 용어들
 Insight, Context, Data Scientist
 데이터는 Early Adaptor와 Collector 같다.

빅 데이터는 얼마나 큰가?
5
10G? 50G? 100G?
1T? 10T? 50T? 100T?
1P 이상?
자동차에 센서를 붙여서 10초에 한번씩 위치를 수집하는 경우
100 Byte * 6(1분) * 60(1시간)* 24(1일) * 600만대
= 864,000 * 6,000,000 = 5,184,000,000,000 Bytes
= 494,3847M = 4,827G (1일치 데이터)

Big Data의 특징
6
기술+학문+서비스+운영기술의 결합
데이터 분석의 대중화
H/W + S/W의 결합
서로 다른 도메인과 기술의 결합
DevOps
작은 것에서 큰 것으로
시간과의 싸움

Big Data 기술은 누가 주도하는가?
7

Big Data의 중심이 되는 두 개의 키워드
8
Platform
Service

Big Data 시장은 OpenSource가 주도
9
Big Data 시장은 오픈소스가 주도
대부분의 구현사례는 오픈소스 기반
상대적으로 저렴한 소프트웨어 비용
글로벌 개발자 커뮤니티

도대체 뭐가 이리도 대한민국을 광풍으로 이끄는가?
10
기반기술 부족으로 인한 글로벌 벤더의 장난질
돈은 벤더가 제공하고 끊임없이 떡밥을 뿌리는 상황
특별히 기사화할 IT 이슈가 없는 현재 상황
특정 기술에 대한 쏠림 현상
그저 버즈워드에 발 하나 올리려는 공짜 근성

기업은 어떤 마음 가짐이어야 하는가?
11
데이터를 다루는 일은 특별한 업종이 아님을 알아야 할 것
데이터를 다루는 것과 다루지 못하는 것은 앞으로 중요한
회사의 생존 능력이 될 것
기업의 모든 구성원이 다양한 경험과 능력을 쌓아야 할 것
기술에 대한 두려움을 없애야 할 것

Apache Hadoop 기초
 File System : HDFS(Hadoop Distributed File System)
 파일을 64M 단위로 나누어 장비에 나누어서 저장하는 방식
 사용자는 하나의 파일로 보이나 실제로는 나누어져 있음
 2003년 Google이 논문으로 Google File System을 발표
 프로그래밍 모델(MapReduce) (2004년 Google이 논문 발표)
 HDFS의 파일을 이용하여 처리하는 방법을 제공
 Parallelization, Distribution, Fault-Tolerance …
12

Hadoop의 패러다임의 전환과 적응
13
로직이 데이터에 접근하지 말고
데이터가 있는 곳에 로직을 옮겨라!
이것을 이해하는데 상당한 시간이 소요
예) MapReduce Sorting시 분산 Sorting이 아닌
Local Sorting하여 Out Of Memory 발생

Apache Hadoop Architecture
14
Manning – Hadoop In Practices

왜 대용량에 Apache Hadoop이 적합한가?
 애플리케이션/트랜잭션 로그 정보는 매우 크다.
 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공한다.
 I/O 집중적이면서 CPU도 많이 사용한다.
 멀티 노드로 부하를 분산시켜 처리한다.
 데이터베이스는 하드웨어 추가 시 성능 향상이 linear하지 않다.
 장비를 증가시킬 수록 성능이 linear에 가깝게 향상된다.
 데이터베이스는 소프트웨어와 하드웨어가 비싸다.
 Apache Hadoop은 무료이다.
 Intel Core 머신과 리눅스는 싸다.
15

데이터 처리에 있어서 Hadoop, RDMBS의 위치
16
Big Data에서 너무 비정형을 강조하는 경향이 있음
현장은 정형 데이터 처리가 대부분.

데이터베이스와 Hadoop 비교
17

Hadoop의 다양한 응용 분야
 ETL(Extract, Transform, Load)
 Data Warehouse
 Storage for Log Aggregator
 Distributed Data Storage (예; CDN)
 Spam Filtering
 Bioinformatics
 Online Content Optimization
 Parallel Image, Movie Clip Processing
 Machine Learning
 Science
 Search Engine
18

Apache Hadoop 적용 사례
19

20

21

22

Hadoop Cluster를 구성하는 노드의 시스템 스펙
 2 CPU(4 Core Per CPU) Xeons 2.5GHz
 4x1TB SATA
 16G RAM
 1G 이더넷
 10G 스위치
 랙당 20대의 노드
 Ubuntu Linux Server 10.04 64bit
 Sun Java SDK 1.6.0_23
 Apache Hadoop 0.20.2
23
3~4년 전 개발 시
사용했던 장비 스펙
주로 발생하는 장애
- HDD Crash
- Kernel Crash
- LAN Fail

Big Data Appliance Hardware
18 Sun X4270 M2 Servers
 48 GB memory per node = 864 GB memory
 12 Intel cores per node = 216 cores
 36 TB storage per node = 648 TB storage
40 Gb p/sec InfiniBand
10 Gb p/sec Ethernet
24
Processors 2 Six-Core Intel® Xeon® X5675 Processors (3.06 GHz)
Memory 48GB (6 * 8GB) expandable to 96 GB or 144
Disks 12 x 3 TB 7.2K RPM High Capacity SAS (hot-swap)
Disk Controller Disk Controller HBA with 512MB Battery Backed Cache
Network
2 InfiniBand 4X QDR (40Gb/s) Ports (1 Dual-port PCIe 2.0 HCA)
4 Embedded Gigabit Ethernet Ports

Hadoop 배포판
26
설치의 용이함과
최신 패치 적용되
어 개발 시 사용
조직 및 환경에 따라서 배포판 선택도 중요!!
Hadoop의 성능 및 이중화
문제를 해결한 새로운 상용
배포판. Google Compute
Engine에 적용된 배포판
오픈 소스의 유지보수가
문제가 된다면 다양한 패
치가 적용된 검증된 버전
을 운영 시 적용

Hadoop 프로젝트의 일반적인 유형
27
Project Issue Focus
애플리케이션 및 시스템 아키텍처의 혁신적인 변화
기존 시스템 및 서비스 유연한 통합
Database
Hadoop
기존에 투자한 시스템의 유지보수 비용
기 시스템에서 운영하고 있는 서비스의
성능 보장 또는 향상
Analytics
Hadoop
새로운 서비스를 제공하기 위해서 필요한 데이터 부재
시스템 구현에 대한 경험 부재
New
Service
&
Platform
Architecture
Integration
Performance
Cost
Development
Data
Analytics
Practices

SK Telecom Hadoop 도입 사례
28
 AS-IS
 Oracle RAC Database 기반 Big Data (100 Tera Bytes)
 3개의 Layer(Sub System)
– Service Adaptation Layer(SAL)
• KD와 CL에 처리한 데이터를 온라인 서비스로 서비스하는 플랫폼
• Open API 형식이 아닌 XML 기반 웹 서비스
• 사용자가 시스템에 로그인하면 서비스 목록이 나타나고 원하는 서비스를 신청하면 즉시 서비스를
받을 수 있는 서비스 플랫폼
– Collection Layer(CL)
• ETL, 각종 수집 프로그램
– Knowledge Discovery(KD)
• 마이닝 알고리즘(예; K-Means)
• Big Data 개념으로 치면 Analytics, Data Scientist
 문제점
– 급격하게 늘어나는 데이터량 대비 스토리비 부족 및 비용 증가
– 데이터 마이닝 프로세스 및 통계, 추정 프로세스의 성능 저하
 TO-BE
 Apache Hadoop 기반 플랫폼 개발
 KD, CL에서 수행하는 작업을 Hadoop 기반으로 Migration
– 데이터 수집방법, 마이닝 알고리즘, 통계 및 추정 프로세스, 데이터 이관 등등

29
 Big Data Platform
 Apache Hadoop, Pig, Hive
 Workflow Engine & Designer, HDFS Browser
 MapReduce based Mining Algorith, ETL
– AR, CF, K-Means, …
 Service Platform
 Melon :: Association Rule
 T store, AppMercer :: CF, Cold Start, Association Rule
 Hoppin :: Real-Time Mining, CF, Cold Start
 NATE
 Vingo
 Ad Platform
 개인의 성향 분석에 따른 100가지 이상의 segmentation
 ….

30

31

32
 유/무료 판매량 Best, 평점 Best와 같은 일부 인기 앱에 집중된 구매
현상
 앱 장터의 크기가 커져 갈 수록 보다 심화
 T store의 구매수 상위 20개의 앱, 즉 0.05% 밖에 안 되는 앱이 전체
구매의 14%를 차지
 Apple의 App Store에서도 판매 수 기준 1000위 밖의 앱을 구매한 고객
이 전체 고객의 1.76%
 Android Market의 Top 50 앱의 점유율이 60%
 새로운 좋은 앱들을 발견할 기회를 잃게 하지만 개발자 입장에서도 개
발된 앱이 고객에게 노출될 기회를 가지지 못하게 하며, 앱 장터 사업
자 입장에서도 고객 활성도가 떨어짐으로써 앱 장터의 매출이 감소하
는 효과
 상위 Top 10만 늘 노출되는 문제(Cold Start)

 T store 앱 추천 서비스
 Collaborative Filtering
 Association Rule
 Cold Start
 AS-IS 대비
 AS-IS에는 추천 시스템 없음
 도입한 솔루션들의 마이닝 알고리
즘 성능 문제로 적용이 어려웠음
 TO-BE
 Hadoop을 이용하여 마이닝 알고
리즘을 구현함으로써 훌륭한 성능
의 알고리즘 확보
33

 앱머써의 앱 추천 서비스
34

35
 Melon의 연관곡 추천

Melon 연관곡 추천 워크플로우
36

37
구분 Oracle 기반 머신 Hadoop 기반 머신
CPU 100% 70%
Core 80 Core Intel 8 Core * 20
= 160 Core
처리 시간 1시간 34분
기간 1개월 1개월
상품수 120,000,000
사용자수(T) 1,300,000
장비 비용 6억 이상
고가 High End Server
300만원 * 20
= 6,000만원
라이선스 비용 예) Core 당 700만원
* 80 = 56,000만원
0

 Hoppin – N 스크린 서비스
38

 Hoppin
 Real-Time 추천 엔진
– 고객의 Action을 실시간으로 수집하여 추천 알고리즘에 반영
• 예) 미리보기, 구매 등과 같은 액션에 따라서 선호 점수가 다름
– 고객의 선호 점수가 일정한 수준을 넘어서게 되면 리스트를
실시간으로 변경
 Collaborative Filtering, Cold Start
– 음악, 동영상, 뮤직비디오와 같은 컨텐츠에 적용
 Text Mining
– 뉴스 기사에 적용 (연관기사)
39

40
개인의 선호도를 파악하기 가장 용이한 별점 이외에도 각 사용자의 액티비티와 컨텐츠를 중심으로
사용사 선호점수 테이블을 구성하고 실시간으로 사용자의 액티비티를 반영하여 점수를 업데이트
User Preference
 사용자별 선호점수표
 선호도는 장르로 구분
- 장르별 선호도 유지
- 임계치 초과시 추천에 반영
Implementation
 Streaming
- 사용자의 액티비티 및
선호도 계산
Data Grid
- 사용자별 선호도 보관
사용자 선호도 레퍼런스
A
B
C
D
E
Rock R&B K-POP J-POP Soul …
5 6 4 1 6 0
4 2 1 4 2 1
5 6 3 2 1 1
1 5 6 2 3 0
User Preference

Real Time Big Data 서비스 요건
 쇼핑몰 사이트의 사용자 클릭 스트림을 통해 실시간 개인화
 대용량 이메일 서버의 스팸 탐지 및 필터링
 위치 정보 기반 광고 서비스
 사용자 및 시스템 이벤트를 이용한 실시간 보안 감시
 시스템 정보 수집을 통한 장비 고장 예측
41

Facebook Real Time Analytics System
44

최근 수 개월 동안 느낀 현장의 분위기
46
 최근 국내 Big Data 프로젝트 4개 중 3개가 Realtime Big Data
요건을 포함
 수행사 Realtime & Big Data 기술 이해 없음
 여전히 SI 중심 프로젝트
 다양한 산업군으로 확산되고 있는 중
 교통, 통신, 금융, 기상
 새로운 개념의 솔루션 출현
 특정 산업군의 현장 최고 업무 전문가와 데이터 분석의 결합
 Big Data 용어 사용을 거부하는 조직 출현중
 그냥 구현 기술의 일부
 기본 운영자들의 거부감 발생
 Big Data 용어를 싫어하는 관리자
 무리하게 Big Data로 포장하려는 프로젝트 발생

국가의 오픈소스 활성화 정책
47
 추진 경과
 1차 (2004.04~) :: 산업기반 조성 중심
– 공개SW 적용사례 창출
– 전자정부사업 공개SW 도입 권고안
– NEIS 본사업에 Linux 사용
– 공개SW 유지보수 가이드 마련
 2차 (2009.04~) :: 산업 자생력 강화
– 공개SW 역량프라자 개소
– 공개SW 개방형 교육센터 개소
– 에산안작성 세부지침 개정
– 공재SW 유지보수 가이드라인 개정
 3차 (2012.10~) :: 공개SW 기술경쟁력 확보 및 글로벌화
– 모바일, 클라우드, 빅데이터 등 신사업 분야 공개SW 기술력 확보
– 커뮤니티와 개발자에 대한 지원 강화를 통한 고급 인재 양성

국가의 오픈소스 활성화 정책
48
 비전 및 추진 전략
 기술경쟁력 강화
– 글로벌 SW 개발 프로젝트 참여 확대
– 공개SW 기반 최신 SW기술 개발
– 우수 공개SW 개발자 양성
 시장 확대 및 전문기업 성장 촉진
– 공공기관 공개SW 도입 확대 지원
– 공개SW 신뢰성 제고
– 공개SW 전문기업 창업/성장 촉진
 활용 기반 조성
– 공개SW 라이센스 관리 체계 확산
– 정부 SW R&D 과제 공개SW 활용/기여 확대
– 신규 공개SW 전환대상 발굴

NIPA 공학센터 :: Architecture Reference Model
49
 목적
 중소기업이 해당 분야 기술을 도입하고 활용시 기술력 확보 및 경
험부족을 해소하기 위한 아키텍처 참조 모델을 개발
 분야
 의료, 클라우드, 빅 데이터, 모바일
 빅 데이터 분과
 OpenSource 기반 빅 데이터 기술 도입시 어려운 문제 해결을 목표
– 오픈소스 선택 방법, 설치 및 운영 방법, 소프트웨어 설계 방법
– 하드웨어 구성 방법, 개발 프로젝트 템플릿
– AS-IS, TO-BE Architecture
– 시스템 구축시 고려해야할 사항 및 주의사항
– 성공사례 및 구축 사례 중심
– 대상 오픈소스 : Hadoop, Pig, Hive, MongoDB, Slurper, Oozie,
Sqoop, Storm, Flume, Ganglia, RHQ
 Big Data 관련 오픈소스 개발
– Slurper 라는 파일을 분산 파일 시스템에 업로드하는 Collector

Hadoop Project의 일반적인 어려운 점
50
No
Experience
HW & SW
tightly
coupling
Installation
&
Configuration
Performance
Tuning
Provisioning
Integration
Trade Off

Apache Hadoop HDFS Architecture
51
Manning – Hadoop In Practices

MapReduce Logical Architecture
52

WordCount
 Hadoop의 MapReduce Framework 동작을 이해하는 핵심 예제
 각각의 ROW에 하나의 Word가 있을 때 Word의 개수를 알아내
는 예제
53
입력 파일(Mapper의 Input) 출력 파일(Reduce Output)
hadoop
apache 1
apache
cloud 1
page
cluster 1
hive
copywrite 1
hbase
hadoop 2
cluster
hbase 1
hadoop
hive 1
page
page 2
cloud
copywrite

Apache Pig
 대용량 데이터를 고차원적인 방법으로 접근하는 스크립트 언어
 스크립트 언어 = Pig Latin
 사용자가 작성한 스크립트 언어는 MapReduce로 동작
 Pig Latin  MapReduce 과정이 성능에 관건
 다양한 파일들을 한번에 처리하고자 하는 경우 매우 유용
 MapReduce의 경우 모두 코드를 작성해야 함
 다양한 데이터 유형을 제공
 Bag, Tuple, …
55

Pig Latin 예제
56
-- max_temp.pig: Finds the maximum temperature by year
records = LOAD 'input/ncdc/micro-tab/sample.txt'
AS (year:chararray, temperature:int, quality:int);
filtered_records = FILTER records BY temperature != 9999 AND
(quality == 0 OR quality == 1 OR
quality == 4 OR quality == 5 OR quality == 9);
grouped_records = GROUP filtered_records BY year;
(1949,{(1949,111,1),(1949,78,1)})
(1950,{(1950,0,1),(1950,22,1),(1950,-11,1)})
max_temp = FOREACH grouped_records GENERATE group,
MAX(filtered_records.temperature);
DUMP max_temp;
(1950,0,1)
(1950,22,1)
(1950,-11,1)
(1949,111,1)
(1949,111)
(1950,22)

Apache Hive
 Data Warehouse Infrastructure
 Data Summarization
 Ad hoc Query on Hadoop
– MapReduce for Execution
– HDFS for Storage
 MetaStore
 Table/Partition
 Thrift API
 Metadata stored in any SQL backend
 Hive Query Language
 Basic SQL : Select, From, Join, Group BY
 Equi-Join, Multi-Table Insert, Multi-Group-By
 Batch Query
 https://cwiki.apache.org/Hive/languagemanual.html
57

Hive QL
 SQL 기반 DDL Operation
 HDFS에서 테이블로 파일 로딩
58
hive> CREATE TABLE rating (userid STRING, movieid STRING, rating INT) ROW
FORMAT DELIMITED FIELDS TERMINATED BY ‘^' STORED AS TEXTFILE;
hive> LOAD DATA INPATH '/movielens/ratings.dat' OVERWRITE INTO TABLE
https://cwiki.apache.org/Hive/languagemanual-ddl.html
ratings;

Hive QL
59
hive> INSERT OVERWRITE DIRECTORY '/movielens/ratings.dat'
SELECT r.* FROM ratings r WHERE a.movieid=‘1212';
hive> SELECT t1.bar, t1.foo, t2.foo
FROM movies m
JOIN ratings r ON (m.movieid = r.movieid)
hive> INSERT OVERWRITE TABLE events
SELECT a.bar, count(*)
FROM invites a
WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out'
SELECT a.* FROM invites a
WHERE a.ds='2008-08-15';

개발의 생산성 및 기간 산정
 Big Data 개발환경은 네트워크가 폐쇄된 공간에서 진행하는 경
우가 있음
 데이터 보안적인 측면
 Hadoop의 동작 측면
 개발 기간 산정이 쉽지 않은 Hadoop Project
 데이터가 크면 처리하는데 오랜 시간이 소요
– 예) 하나의 MapReduce가 완료하는데 몇 십분~몇 시간~몇 일
 오래 걸리는 시간만큼 검증도 오랜 시간이 소요
 개발과 검증을 동시에 구사하는 전략 필요
 데이터가 크다는 것은 그만큼의 개발 시간 및 검증 시간이 필요하
다는 것을 의미  비용 증가
 Hadoop의 오픈소스를 사용한다고 해서 개발기간이 단축되고 비
용을 획기적으로 감소시킨다는 오류에서 벗어나야 함
60

업무 프로세스를 분석하고 리팩토링하라
 기존 프로젝트를 Hadoop 프로젝트로 전환하는 경우
 업무 분석가와 개발자(또는 아키텍트)가 기존 업무 프로세스를 단
순화 하는 작업 필요
– 데이터 처리 프로세스의 단계를 줄여라!
– Hadoop, Pig, Hive가 처리하기 쉬운 상태로 변경하라!
– 데이터 구조를 단순화 시켜라!
– 필요하면 데이터를 통합하고 수집 단계부터 다시 생각하라!
61

기술 내재화가 살 길
62
도메인간, 기술분야간 융합이 트랜드
학문이 중요해지고 구현이 중요
관련 없는 분야가 아닌 관련 있는 분야로
만들 수 있는 역량 확보가 중요하고
기술 내재화가 중요

현장에서 느끼는 어려움
63
시스템 엔지니어링의 강한 결합
데이터 핸들링의 주체 변화
매우 다양한 오픈소스
철저한 보안
데이터의 크기에 따라 재개발
강한 SI 성향
고객 데이터는 고객의 사이트에

글로벌 벤더 기준 Big Data Market Forecast
64

글로벌 벤더 기준 Big Data Revenue
65

글로벌 벤더 기준 Big Data Market Share
66

글로벌 벤더 기준 Big Data Revenue By Type
67

Hadoop 기반 문서 검색
박치완
Software Maestro 3rd Mentee
chiwanpark91@gmail.com
September 17, 2012
박치완 (SW Maestro) Hadoop 기반 문서 검색 September 17, 2012 1 / 47

Section 1
검색 시스템 소개

목표
1 방대한 양의 데이터를 수집하고, HDFS에 저장하는 작업을 통해 HDFS에
대해서 익힌다.
2 오픈소스 검색엔진 Lucene에서 사용하고 있는 TF-IDF(Term
Frequency-Inverse Document Frequency) 알고리즘을 분산 환경에 맞게
설계하여, MapReduce로 구현해본다.

시스템 구조
전체 시스템은 크게 3가지 구성요소로 이루어져 있다.
1 수집 - 웹에서 문서를 수집해 단순한 가공만 거친 후, 분산 파일
시스템(HDFS)에 업로드한다.
2 색인 - 수집 된 문서를 Hadoop을 통해 Full-Text 색인 과정(TF-IDF)을
거친다.
3 검색 - 사용자의 질의어가 들어오면, 이를 미리 색인된 데이터와 비교하여
연관성이 높은 순서대로 보여준다.

Section 2
수집

수집기(Crawler) 요구사항
1 웹에서 문서를 수집해 HDFS에 업로드 할 수 있어야 한다.
2 수집한 문서를 기초적인 가공(제목과 본문 분리 등)을 할 수 있어야 한다.
3 특정 URL 규칙을 만족하는 문서만 수집할 수 있어야 한다.
4 문서 수집은 robots.txt등 수집기가 지켜야 할 사항들을 준수한다.
5 수집 대상은 기본적으로 IT 관련 블로그 포스트를 우선적으로 하나,
Hadoop을 이용하는 만큼 많은 데이터를 확보할 수 있도록 추후 확장한다.
6 수집 과정 중 중단이 일어나더라도 이어서 수집할 수 있어야 한다.

수집기 구조
수집기는 크게 두 부분, Manager와 Worker로 구성된다.
Manager
수집 과정을 사용자에게 보여주는 프로세스다.
수집 중단, 재개, 새로운 규칙 추가 등을 할 수 있다.
Worker
실제 수집을 진행하는 프로세스다.
Raw Data를 가공하여 HDFS에 올리는 역할도 수행한다.
매 수집 과정마다 Manager 프로세스에게 보고하여야 한다.
수집 중단, 재개 등 Manager의 요청을 처리 할 수 있어야 한다.

Section 3
색인

TF-IDF 소개
특정 단어와 문서 사이의 연관성을 구하는 알고리즘이다.
문서에서 등장하는 단어 빈도 TF(Term Frequency)와 전체 문서 집합에서
단어 빈도의 역수 IDF(Inverse Document Frequency)를 기본으로
계산한다.
단순한 TF-IDF 보다는 변형을 가한 TF-IDF가 정확도가 높다.
어떤 문서에 특정 단어가 자주 출현한다면, 해당 단어는 그 문서와
연관성이 높다고 말할 수 있다.
É 건강과 관련된 문서는 건강이라는 단어를 다수 포함할 수 밖에 없다.
하지만, 무조건적으로 출현 빈도에 의존하면 전체적인 정확도가 떨어진다.
É 어느 문서에나 빈번하게 등장하는 단어는 연관성 측정에서 제외해야 한다.

TF-IDF Algorithm
내용 소개에 앞서, 앞으로 사용되는 공통되는 표현을 먼저 소개한다.
표기 의미
t 임의의 단어 (일반적으로 문서 내부에서 단어를 추출)
D 임의의 문서 집합
nt,d 단어 t가 문서 d에 나타나는 횟수
jDj 해당 문서 집합에 포함된 문서의 수

TF-IDF Algorithm
Term Frequency는 문서에서 빈도가 높으면 높을 수록 큰 값을 가져야
하므로 아래와 같이 써볼 수 있다.
t ft,d = nt,d
Inverse Document Frequency는 문서 집합에서 단어의 빈도가 낮을 수록
커져야 하므로 아래와 같이 쓸 수 있다.
id ft,d =
1
jfd : t 2 d 2 Dgj+1
위의 계산을 통해 TF와 IDF를 구했다면, 우리는 특정 단어 t와 특정 문서
집합 D, 그리고 집합에 속한 문서 d에 대해서 TF-IDF 가중치를 다음
식으로 구할 수 있다.
t f id ft,d,D = t ft,d id ft,d (t 2 d 2 D)

Enhanced TF-IDF
앞서 알아본 TF-IDF 알고리즘는 몇 가지 부족한 점이 있다.
1 길이가 긴 문서는 빈도 수가 클 확률이 높고, 길이가 짧은 문서는 빈도 수가
작을 확률이 높다. 자연히 위의 경우에는 길이가 짧은 문서가 TF값이 높아
위에 나올 확률이 높아진다.
2 단어 1000개로 이루어진 문서 안에서 1번 나온 단어 A에 비해 2번 나온
단어 B는 연관도가 두 배라고 할 수 있을까?

Enhanced TF-IDF
이와 같은 문제들을 해결하기 위해 TF-IDF 알고리즘에 로그 함수를
도입하였다.
t ft,d =
8

:
1+ln(nt,d ) if nt,d 0
0 if nt,d = 0
id ft,d = ln(
jDj
jfd : t 2 d 2 Dgj+1)

Example
임의의 단어 t를 ‘health’로 지정하고 아래 예제를 계산해 보자.
id ft,d = ln( 4
2 ) = 0.6931
문서 문서 내용
P
ni,d nt,d t ft,d t f id f
d1 Health is a necessary condi-tion
for happiness.
7 1 0.134 0.093
d2 It is the business of the po-lice
to protect the commu-nity.
11 0 0 0

빅 데이터, 새로운 통찰력

빅 데이터, 새로운 통찰력

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 빅 데이터, 새로운 통찰력

Similar to 빅 데이터, 새로운 통찰력 (20)

빅 데이터, 새로운 통찰력