SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
Social Analytics 소개
   - SDEC 오프라인 세미나 -




2012. 02. 07 | NHN 텍스트분류기술팀 배영규
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
SNS 급성장과 분석의 필요성



• 과거
  – 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등

  – 주로 기업내부에 축적된 데이터를 활용한 분석

  – 사용자를 알기 위한 방법? 주로 간접적인 파악

   • 웹로그 클릭 분석

   • 상품구매이력

   • 이메일을 통한 반응분석

   • 온/오프라인 설문조사 등



• 현재
  – "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대

  – 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장

  – 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌.

  – 정보의 파급 효과 및 속도(1:9:90 법칙)

  – 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악




                                                                        4
Social Analytics란?



 • 트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있
   는 정보(Insight)를 추출하는 기술
    – Analytics is "the science of analysis.“

    – 빅데이터(Big data)

    – 비정형 데이터(Unstructured data)

    – 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining)



 • 데이터의 성격
    – 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터.

    – 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터

    – 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터



 • 활용 분야
    – 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석

    – 선거예측, 주가예측, 영화흥행예측 등

    – 소셜 추천(맛집, 영화 등)

    – 영향력(Influential Users) 평가 서비스 등


                                                                               5
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
분석 기술



• 분석 인프라 측면
  – 빅데이터 저장 및 처리 기술

  – 분석 엔진

  – 데이터 시각화 기술



• 분석 기법 측면
  – 데이터 마이닝: Classification, Clustering

  – 텍스트 마이닝: 자연어 처리(NLP)

  – 소셜 네트워크 분석(Social Network Analysis)

  – 오피니언 마이닝(Opinion Mining)

  – 센티멘트 분석(Sentiment Analysis)




                                          7
분석 기술


 분석 인프라 측면

• 빅 데이터(Big Data) 저장 및 처리 기술
  – 분산저장 파일 시스템: Hadoop HDFS

  – NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등

  – 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등
    • GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스

• 데이터 시각화(Data Visualization) 기술
  – 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등

  – 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등

  – 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등




                                                                                                     8
분석 기술


 분석 인프라 측면

• 분석 엔진
  – Hadoop MapReduce

  – R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능
    • Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop

    • RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를
      매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto
      Revolutionanalytics에서 근무중이라고 함.

    • SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …)

  – Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering,
    Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공




                                                          출처: Poll Results-Top Languages for Data Mining/Analytics
                                                          (http://www.kdnuggets.com/2011/08/poll-languages-for-
                                                          data-mining-analytics.html )


                                                                                                                     9
분석 기술


 분석 기법 측면: 비정형 데이터를 처리하기 위한 기술 위주

• 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행
  – Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등

• 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추
 출하기 위한 기술
  – 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등

  – 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등

• 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선
 (edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술
  – Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계)

  – 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을
    발굴(Community Detection)하는 데 주로 이용함.

  – 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성
    (eigenvector centrality), 군집 정도(clustering coefficient)

  – 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등

• 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis)



                                                                                                                   10
소셜 네트워크 분석


 HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter




                                                                       11
소셜 네트워크 분석


 페이스북에서 Social Graph App을 이용한 Community Clustering한 例




                                                        12
오피니언 마이닝과 센티멘트 분석



• 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis)
  – 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추
    출하기 위한 분야

  – 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술

  – 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성
    (Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술



• 센티멘트 분석 주요 기법
  – SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의
    견을 분류하는 방식

  – Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포
    함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나
    POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를
    잘 만드는 것이 관건임.

  – Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식
    과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함.




                                                                                        13
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
활용 분야



• 소셜 미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상
 품평 분석, 고객 반응 및 동향 등
  – 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등

• 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측

• 추천 서비스: 소셜 추천(맛집, 영화 등)
  – 서비스: 버즈니 등

• 영향력 평가 서비스: 영향력 있는 사용자 발굴
  – 서비스: Klout, Edelman, PeerIndex, Twitalizer 등




                                                                            15
국내외 서비스 사례



• SOCIALmetrics(이전 TrendSeek)
  미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스
  제공




                                                                     16
국내외 서비스 사례


• Klout
  트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공




• Edelman
  트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공




                                                                     17
2011년 서울시장 보궐선거 관련 분석 서비스 사례


 SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/)




                                                            18
2011년 서울시장 보궐선거 관련 분석 서비스 사례


 그루터 (출처: http://www.seenal.com/seoul2011)




                                             19
2011년 서울시장 보궐선거 관련 분석 서비스 사례


 트윗믹스 (출처: http://tweetmix.net/vs/1026)




                                          20
2011년 서울시장 보궐선거 관련 분석 서비스 사례



• 트위터에서의 영향력 평가는 어떻게 하는게 좋을까?
  – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}?

  – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간}

  – 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.)




                                                                      21
Thank you!


 louie09@nhn.com

Más contenido relacionado

La actualidad más candente

온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)
온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)
온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)SCOTOSS
 
Smm(social media marketing) 성과측정 기준과 실제 ver2.0
Smm(social media marketing) 성과측정 기준과 실제 ver2.0Smm(social media marketing) 성과측정 기준과 실제 ver2.0
Smm(social media marketing) 성과측정 기준과 실제 ver2.0kang Anthony
 
muzalive 회사소개서
muzalive 회사소개서muzalive 회사소개서
muzalive 회사소개서Muz Alive
 
Social Commerce 2014-11
Social Commerce 2014-11Social Commerce 2014-11
Social Commerce 2014-11Donghan Kim
 
20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정Webometrics Class
 
[비즈스프링] 웹로그분석 보고서 Example
[비즈스프링] 웹로그분석 보고서 Example[비즈스프링] 웹로그분석 보고서 Example
[비즈스프링] 웹로그분석 보고서 ExampleBizSpring Inc.
 
Pinterest marketing 의 이해 및 활용전략
Pinterest marketing 의 이해 및 활용전략Pinterest marketing 의 이해 및 활용전략
Pinterest marketing 의 이해 및 활용전략Digital Initiative Group
 

La actualidad más candente (9)

Sa246 발표
Sa246 발표Sa246 발표
Sa246 발표
 
온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)
온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)
온라인(소셜미디어) 커뮤니케이션 측정 모델 탐색 (1)
 
Rankwave_SuperstarM
Rankwave_SuperstarMRankwave_SuperstarM
Rankwave_SuperstarM
 
Smm(social media marketing) 성과측정 기준과 실제 ver2.0
Smm(social media marketing) 성과측정 기준과 실제 ver2.0Smm(social media marketing) 성과측정 기준과 실제 ver2.0
Smm(social media marketing) 성과측정 기준과 실제 ver2.0
 
muzalive 회사소개서
muzalive 회사소개서muzalive 회사소개서
muzalive 회사소개서
 
Social Commerce 2014-11
Social Commerce 2014-11Social Commerce 2014-11
Social Commerce 2014-11
 
20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정
 
[비즈스프링] 웹로그분석 보고서 Example
[비즈스프링] 웹로그분석 보고서 Example[비즈스프링] 웹로그분석 보고서 Example
[비즈스프링] 웹로그분석 보고서 Example
 
Pinterest marketing 의 이해 및 활용전략
Pinterest marketing 의 이해 및 활용전략Pinterest marketing 의 이해 및 활용전략
Pinterest marketing 의 이해 및 활용전략
 

Destacado

DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료Hyun Namgoong
 
1216243 하지원 색채학 연구결과보고서
1216243 하지원 색채학 연구결과보고서1216243 하지원 색채학 연구결과보고서
1216243 하지원 색채학 연구결과보고서ha jannie
 
ALS WS에 대한 이해 자료
ALS WS에 대한 이해 자료ALS WS에 대한 이해 자료
ALS WS에 대한 이해 자료beom kyun choi
 
1512013 이혜연 색채학 최종
1512013 이혜연 색채학 최종1512013 이혜연 색채학 최종
1512013 이혜연 색채학 최종혜연 이
 
Scott 김효동 네트워크분석 박한우 영남대 슬라이드
Scott 김효동 네트워크분석 박한우 영남대 슬라이드Scott 김효동 네트워크분석 박한우 영남대 슬라이드
Scott 김효동 네트워크분석 박한우 영남대 슬라이드Han Woo PARK
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요Kwang Woo NAM
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLPEunjeong (Lucy) Park
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”Jaimie Kwon (권재명)
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text MiningMichel Bruley
 
Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of newsDaemin Park
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리Shane (Seungwhan) Moon
 
AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약Jooyoul Lee
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 

Destacado (15)

DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료DAUM DevOn 2012 발표자료
DAUM DevOn 2012 발표자료
 
1216243 하지원 색채학 연구결과보고서
1216243 하지원 색채학 연구결과보고서1216243 하지원 색채학 연구결과보고서
1216243 하지원 색채학 연구결과보고서
 
ALS WS에 대한 이해 자료
ALS WS에 대한 이해 자료ALS WS에 대한 이해 자료
ALS WS에 대한 이해 자료
 
1512013 이혜연 색채학 최종
1512013 이혜연 색채학 최종1512013 이혜연 색채학 최종
1512013 이혜연 색채학 최종
 
BigData, Hadoop과 Node.js
BigData, Hadoop과 Node.jsBigData, Hadoop과 Node.js
BigData, Hadoop과 Node.js
 
Scott 김효동 네트워크분석 박한우 영남대 슬라이드
Scott 김효동 네트워크분석 박한우 영남대 슬라이드Scott 김효동 네트워크분석 박한우 영남대 슬라이드
Scott 김효동 네트워크분석 박한우 영남대 슬라이드
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of news
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리
 
AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
sungmin slide
sungmin slidesungmin slide
sungmin slide
 

Similar a Social Analytics 소개 (SDEC 오프모임 세미나)

Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409Sungwha Shim
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullTaejoon Yoo
 
[Survey] STS 2011
[Survey] STS 2011[Survey] STS 2011
[Survey] STS 2011Jinseok Ro
 
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !한국디자인진흥원 공공서비스디자인PD
 
소셜미디어를 활용한 도서관 서비스
소셜미디어를 활용한 도서관 서비스소셜미디어를 활용한 도서관 서비스
소셜미디어를 활용한 도서관 서비스jupitermovement
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료Park Sungpil
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019Sangkyu Kim
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Eunyoung Kim
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)Yan So
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문JM code group
 
S 기업의 E 신활용방식(20110818)
S 기업의  E 신활용방식(20110818)S 기업의  E 신활용방식(20110818)
S 기업의 E 신활용방식(20110818)June Kim
 
Seri 기업의 sns 신활용방식(20110818)
Seri 기업의 sns 신활용방식(20110818)Seri 기업의 sns 신활용방식(20110818)
Seri 기업의 sns 신활용방식(20110818)June Kim
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 

Similar a Social Analytics 소개 (SDEC 오프모임 세미나) (20)

Week1 ot
Week1 otWeek1 ot
Week1 ot
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_full
 
[Survey] STS 2011
[Survey] STS 2011[Survey] STS 2011
[Survey] STS 2011
 
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
2016 국민디자인단 - ‘통계’ 하면 통계청 ‘KOSIS!’, 내가 필요한 정보는 꼭 집어주네 !
 
소셜미디어를 활용한 도서관 서비스
소셜미디어를 활용한 도서관 서비스소셜미디어를 활용한 도서관 서비스
소셜미디어를 활용한 도서관 서비스
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
 
S 기업의 E 신활용방식(20110818)
S 기업의  E 신활용방식(20110818)S 기업의  E 신활용방식(20110818)
S 기업의 E 신활용방식(20110818)
 
Seri 기업의 sns 신활용방식(20110818)
Seri 기업의 sns 신활용방식(20110818)Seri 기업의 sns 신활용방식(20110818)
Seri 기업의 sns 신활용방식(20110818)
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 

Más de NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&ANAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep LearningNAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applicationsNAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingNAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual SearchNAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?NAVER D2
 

Más de NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 

Social Analytics 소개 (SDEC 오프모임 세미나)

  • 1. Social Analytics 소개 - SDEC 오프라인 세미나 - 2012. 02. 07 | NHN 텍스트분류기술팀 배영규
  • 2. Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 3. Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 4. SNS 급성장과 분석의 필요성 • 과거 – 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등 – 주로 기업내부에 축적된 데이터를 활용한 분석 – 사용자를 알기 위한 방법? 주로 간접적인 파악 • 웹로그 클릭 분석 • 상품구매이력 • 이메일을 통한 반응분석 • 온/오프라인 설문조사 등 • 현재 – "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대 – 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장 – 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌. – 정보의 파급 효과 및 속도(1:9:90 법칙) – 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악 4
  • 5. Social Analytics란? • 트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있 는 정보(Insight)를 추출하는 기술 – Analytics is "the science of analysis.“ – 빅데이터(Big data) – 비정형 데이터(Unstructured data) – 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining) • 데이터의 성격 – 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터. – 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터 – 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터 • 활용 분야 – 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석 – 선거예측, 주가예측, 영화흥행예측 등 – 소셜 추천(맛집, 영화 등) – 영향력(Influential Users) 평가 서비스 등 5
  • 6. Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 7. 분석 기술 • 분석 인프라 측면 – 빅데이터 저장 및 처리 기술 – 분석 엔진 – 데이터 시각화 기술 • 분석 기법 측면 – 데이터 마이닝: Classification, Clustering – 텍스트 마이닝: 자연어 처리(NLP) – 소셜 네트워크 분석(Social Network Analysis) – 오피니언 마이닝(Opinion Mining) – 센티멘트 분석(Sentiment Analysis) 7
  • 8. 분석 기술 분석 인프라 측면 • 빅 데이터(Big Data) 저장 및 처리 기술 – 분산저장 파일 시스템: Hadoop HDFS – NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등 – 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등 • GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스 • 데이터 시각화(Data Visualization) 기술 – 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등 – 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등 – 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등 8
  • 9. 분석 기술 분석 인프라 측면 • 분석 엔진 – Hadoop MapReduce – R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능 • Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop • RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를 매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto Revolutionanalytics에서 근무중이라고 함. • SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …) – Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering, Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공 출처: Poll Results-Top Languages for Data Mining/Analytics (http://www.kdnuggets.com/2011/08/poll-languages-for- data-mining-analytics.html ) 9
  • 10. 분석 기술 분석 기법 측면: 비정형 데이터를 처리하기 위한 기술 위주 • 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행 – Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등 • 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추 출하기 위한 기술 – 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등 – 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등 • 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선 (edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술 – Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계) – 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을 발굴(Community Detection)하는 데 주로 이용함. – 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성 (eigenvector centrality), 군집 정도(clustering coefficient) – 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등 • 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis) 10
  • 11. 소셜 네트워크 분석 HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter 11
  • 12. 소셜 네트워크 분석 페이스북에서 Social Graph App을 이용한 Community Clustering한 例 12
  • 13. 오피니언 마이닝과 센티멘트 분석 • 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis) – 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추 출하기 위한 분야 – 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술 – 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성 (Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술 • 센티멘트 분석 주요 기법 – SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의 견을 분류하는 방식 – Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포 함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나 POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를 잘 만드는 것이 관건임. – Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식 과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함. 13
  • 14. Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 15. 활용 분야 • 소셜 미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상 품평 분석, 고객 반응 및 동향 등 – 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등 • 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측 • 추천 서비스: 소셜 추천(맛집, 영화 등) – 서비스: 버즈니 등 • 영향력 평가 서비스: 영향력 있는 사용자 발굴 – 서비스: Klout, Edelman, PeerIndex, Twitalizer 등 15
  • 16. 국내외 서비스 사례 • SOCIALmetrics(이전 TrendSeek) 미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스 제공 16
  • 17. 국내외 서비스 사례 • Klout 트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공 • Edelman 트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공 17
  • 18. 2011년 서울시장 보궐선거 관련 분석 서비스 사례 SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/) 18
  • 19. 2011년 서울시장 보궐선거 관련 분석 서비스 사례 그루터 (출처: http://www.seenal.com/seoul2011) 19
  • 20. 2011년 서울시장 보궐선거 관련 분석 서비스 사례 트윗믹스 (출처: http://tweetmix.net/vs/1026) 20
  • 21. 2011년 서울시장 보궐선거 관련 분석 서비스 사례 • 트위터에서의 영향력 평가는 어떻게 하는게 좋을까? – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}? – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간} – 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.) 21