19. Twitter 로그 속 성향 분석
쌍용차 해고자,
대한문, 빆소
공지영, 대한문
조국,4대강,
로봇물고기,
붕어빵 틀
20. Twitter 로그 속 성향 분석
보수 중도 진보
정치 성향
보수 중도 진보
Follower
성향
관찰자 전달자 연설자
Twitter
성향
민간인 사찰 대상자
21. 데이터 분석가
빅 데이터 R, Hive, pig
Data Scientist
데이터 분석가가 미래에 많이 필요할 것이다.
데이터는 많은데 이를 제대로 해석하지
못한다면 가치가 떨어 질 것이다. -Gartner
Data Analysis
통계전문가
Data Analysts
오픈 Source Hadoop
22. 로그 속에 있는 사용자 발자국 들여다 보기
로그 속에 있는 사용자 발자국 들여다 보기
Episode#1
로그 속 사용자 발자국 찾기
Episode#2
사용자가 말해주는 서비스 라이프 타임
Episode#3
통계의 짂실 혹은 거짓
23. Episode#1 로그 속 사용자 발자국 찾기
Episode #1 로그 속 사용자 발자국 찾기
로그 속 사용자 발자국 찾기 위해
손 분석 얶제까지 할 꺼야~
24. Episode#1 로그 속 사용자 발자국 찾기
DAISY (Data Intelligence System)
Data를 수집/정제/분석을 위한 인프라 및
서비스 분석 플랫폼
데이지 꽃말 희망, 평화
25. Episode#1 로그 속 사용자 발자국 찾기
서비스 분석 첫걸음 By DAISY
서비스 분석 Process
서비스
서비스
로그 정제/적재 분석
제공
수집
26. Episode#1 로그 속 사용자 발자국 찾기
DAISY 플랫폼 기술 스택
Batch CEP
실시간 이벤트 처리
Esper
Visualization
R/ Chart Mahout
Log /정제
수집 Kafka 분석/추천
Collector Cluster
데이터 통합
Sqoop Hive/pig
Map Reduce
DBMS 적재
HDFS
Data Source(서비스 로그, 데이터)
27. Episode#1 로그 속 사용자 발자국 찾기
DAISY (Data Intelligence System) 플랫폼 구성 기술 설명
분야 사용기술 설명
Data Agent, Data Collector 구성
데이터 수집 Kafka Cluster
앆정적인 로그 수집을 위한 로그데이터 Queue 유연한 허브 역할
Hive 기반 (SQL-like) 데이터 조회, 분석
데이터 분석/ HIVE, Pig, R Pig script를 이용한 데이터 조회
추천 Mahout R을 통한 데이터 분석
Mahout 을 이용한 데이터 마이닝 및 사용자 추천
분석결과를 RDBMS로 저장
데이터 통합
Sqoop RDBMS의 데이터를 실시갂으로 HDFS 및 HIVE로 이젂할 수 있음
반대의 경우도 가능
Visualization Chart, R 분석 Data를 차트와 그래프 형태로 시각화
분산파일시스템 Hadoop 원본 로그 데이터를 저장하고 분석을 위한
Map reduce기반의 병렬 처리 플랫폼 제공
실시갂 이벤트 처리 Esper Real-Time Event process 처리
(CEP) EPL(Event Processing Language)제공
28. Episode#1 로그 속 사용자 발자국 찾기
DAISY 플랫폼 로그 수집 현황
사용자 성향
추천 결과 개선 사항 영향도 분석
분류
서비스 제공
DAISY 플랫폼
로그 수집
29. Episode#1 로그 속 사용자 발자국 찾기
로그 속 사용자 발자국 찾기 위한
시스템 적인 관점에서의 데이터 분석을 위한
플랫폼인 DAISY를 살펴 보았습니다.
30. 로그 속 사용자 발자국 분석
로그 속 사용자 발자국 분석은
서비스 속 사용자 스타일 파악
서비스 사용자 스타일 그룹화
31. Episode #2 사용자가 말해주는 서비스 라이프 타임
Episode #2 사용자가 말해주는 서비스 라이프 타임
서비스 라이프 시갂 아는 것은 기본이지!
기본이어서 놓치고 있던 사용자 시갂!
실제 서비스 분석 사례를 통한 에피소드 방출
32. Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 서비스 소개
생활 정보 형 APP ‚114젂국젂화‛
생활에 유용한 정보 제공
병원(굿닥제휴)
배달음식 정보(중국집, 치킨)
먹거리
근처 은행
영화관
위치기반으로 검색결과를 제공한다.
사용자 맞춤 테마를 제공하고 싶다!
33. Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 서비스 라이프 타임
Peak => 18시
Peak => 12시
사용자 라이프 타임 그룹화 조건
Peak시갂 분류, 평일, 주말, 시즌 구분
34. Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 시갂 그룹화
시간 쪼개고 그룹화 하여 사용자 맞춤 조건 코드 생성
DAY D F W
TIME P1 P2 S1 S2 S3 S4
SEASON SP SU FA WI
35. Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 데이터 마이닝 Process
HIVE State DBMS
BatchJob#1 Table
(Condition Keywords State)
114 젂국젂화
Data
Mining
BatchJob#2
(Condition Keywords State) Process
BatchJob#3 Result
(Condition Keywords State)
File Sqoop
HIVE log 분석 결과 DB로 sync
Table
114전국전화 수집 로그
조건 코드 별 데이터 마이닝 결과를
114전국전화 서비스에 제공
36. Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 라이프 타임 서비스 적용
AS-IS
4개 타임으로 구성된 메뉴
기획자가 그때 그때 ~적용한 메뉴
TO-BE(맞춤메뉴 적용)
11월 적용 예정
시갂그룹 18개 타임 구성
분석결과 기준으로 맞춤테마 제공
37. Episode #2 사용자가 말해주는 서비스 라이프 타임
114 젂국젂화 라이프 타임 서비스 적용
사용자 생활 패턴에 맞춰 테마제공 편리하고~
기획자는 테마를 어떻게 설정할까?
고민을 덜어주고~
38. Episode #2 사용자가 말해주는 서비스 라이프 타임
글로벌 사짂 기반 SNS ‚Pudding.to‛
글로벌 사짂 기반 SNS 라이프타임은?
39. Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투 - 인기사짂
인기사진에 선정이 되면
다른 사용자들의 관심이 한꺼번에 ~
인기사진에 선정이 되면
Like 증가 99% ~
Follower 증가 76%~
궁금해~?
24%는 왜 Follower증가가 없었을까?
40. Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투 – 라이프 타임 그래프
24% Follower 미 증가 구간
새벽 2시~8시
41. Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투 – 인기사짂 선정 배치타임
인기사진 선정
푸딩.투 배치서버 시간 사용자 대부분 잠자는 시간
42. Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투 – 인기사짂 선정 배치타임
Follower 증가가 없었던 이유는 단순
배치시간, 사용자 시간, 지리적 시간 차이
인기사진 선정 시 배치시간 고려
인기사진 선정
UTC ASIA/Seoul LA New York GMT
00 09 17 20 00
03 12 20 23 03
푸딩.투 배치서버 시간
06 15 23 사용자 대부분 잠자는 시간
02 06
09 18 02 05 09
12 21 05 08 12
15 00 08 11 15
18 03 11 14 18
21 06 14 17 21
43. Episode #2 사용자가 말해주는 서비스 라이프 타임
푸딩.투 – 동티모르 에피소드
아직은 가난한 나라
동티모르 사짂 업로드 빆도수
가 높은 까닭은?
우리나라와 같은 타임존
(UTC + 9)
사진 업로드 Device가 모두
앆드로이드 임에 주목!
범인은 LG 옵OOO~!
44. Episode #2 사용자가 말해주는 서비스 라이프 타임
서비스 분석을 통해 살펴본
에피소드는 여기까지 입니다.
45. Episode #3 통계 속 진실 혹은 거짓
Episode #3 통계 속 진실 혹은 거짓
이번 서비스 업데이트 기능은
‘감’이 확 온다구요~!
‘감’은 그냥 드시고!
사용자 데이터 ‘분석’ 통한 진실을 찾으세요~!
46. Episode #3 통계 속 진실 혹은 거짓
멍~지효 말고~!
맞아서, 부딪혀서 ‘멍’이 들었을때
바르는 유유제약 연고 이야기
47. Episode #3 통계 속 진실 혹은 거짓
멍에 바르는 연고의 경쟁 제품은?
VS 현대 ‘물 파스’
유유제약 ‘멍 연고’
정확히 틀렸습니다. ~
유한양행 ‘앆티푸라민’
48. Episode #3 통계 속 진실 혹은 거짓
멍 연고의 실제 경쟁제품?
VS
유유제약 ‘멍 연고’
민갂요법 ‘달걀’, 소고기, 찜질
26억 건 데이터 분석을 통해 알게 된
짂짜 경쟁대상
49. Episode #3 통계 속 진실 혹은 거짓
그래서 유유제약은?
젂통적 영업방식 대싞
어떻게? 빅데이터 분석 결과 활용
고객분석, 경쟁 분석, 커뮤니케이션 기획 등 분석결과 활용
진짜 사용자를 찾고, 민간요법의 부작용 홍보
51. Episode #3 통계 속 진실 혹은 거짓
응답하라 1997 4화 페어플레이 에피소드
역쉬~ ^^ 축구 볼 때는 통닭
옆집 통닭 먹기
잘못 배달 해온 호돌이 치킨
축구 완전 집중
52. Episode #3 통계 속 진실 혹은 거짓
114 젂국젂화 서비스에도 대한민국 축구응원 열기 발견
7월 26일
대한민국 VS 멕시코
7월 14일 8월 5일
대한민국 VS 뉴질랜드 대한민국 VS 영국
7월 20일
대한민국 VS 세네갈
열대야 영향 분석 앆에서 찾은
축구경기와의 114젂국젂화 관계
53. Episode #3 통계 속 진실 혹은 거짓
축구 경기가 있었던 날은 ‚치킨‛ 검색어 상승
‘치킨’ 검색어 비율 평일 대비 25%이상 증가 (평일 8%)
축구 보실 때 치킨은
‘114 젂국젂화’ 이용
54. Episode #3 통계 속 진실 혹은 거짓
데이터 분석 앆에서 찾은 또 다른
에피소드는 여기까지 입니다.
55. 느낀 점
데이터 분석을 통해서 얻을 수 있는
가장 큰 것은 ‘새로운 기회’라고 생각합니다.