Social Analytics 소개 (SDEC 오프모임 세미나)

Social Analytics 소개
- SDEC 오프라인 세미나 -

2012. 02. 07 | NHN 텍스트분류기술팀 배영규

Table of Contents

1. SNS의 급성장과 분석의 필요성

2. 분석 기술

3. 활용 분야 및 국내외 서비스 사례

SNS 급성장과 분석의 필요성

• 과거
– 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등

– 주로 기업내부에 축적된 데이터를 활용한 분석

– 사용자를 알기 위한 방법? 주로 간접적인 파악

• 웹로그 클릭 분석

• 상품구매이력

• 이메일을 통한 반응분석

• 온/오프라인 설문조사 등

• 현재
– "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대

– 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장

– 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌.

– 정보의 파급 효과 및 속도(1:9:90 법칙)

– 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악

4

Social Analytics란?

• 트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있
는 정보(Insight)를 추출하는 기술
– Analytics is "the science of analysis.“

– 빅데이터(Big data)

– 비정형 데이터(Unstructured data)

– 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining)

• 데이터의 성격
– 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터.

– 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터

– 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터

• 활용 분야
– 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석

– 선거예측, 주가예측, 영화흥행예측 등

– 소셜 추천(맛집, 영화 등)

– 영향력(Influential Users) 평가 서비스 등

5

분석 기술

• 분석 인프라 측면
– 빅데이터 저장 및 처리 기술

– 분석 엔진

– 데이터 시각화 기술

• 분석 기법 측면
– 데이터 마이닝: Classification, Clustering

– 텍스트 마이닝: 자연어 처리(NLP)

– 소셜 네트워크 분석(Social Network Analysis)

– 오피니언 마이닝(Opinion Mining)

– 센티멘트 분석(Sentiment Analysis)

7

분석 기술

분석 인프라 측면

• 빅 데이터(Big Data) 저장 및 처리 기술
– 분산저장 파일 시스템: Hadoop HDFS

– NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등

– 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등
• GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스

• 데이터 시각화(Data Visualization) 기술
– 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등

– 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등

– 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등

8

분석 기술

분석 인프라 측면

• 분석 엔진
– Hadoop MapReduce

– R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능
• Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop

• RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를
매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto
Revolutionanalytics에서 근무중이라고 함.

• SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …)

– Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering,
Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공

출처: Poll Results-Top Languages for Data Mining/Analytics
(http://www.kdnuggets.com/2011/08/poll-languages-for-
data-mining-analytics.html )

9

분석 기술

분석 기법 측면: 비정형 데이터를 처리하기 위한 기술 위주

• 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행
– Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등

• 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추
출하기 위한 기술
– 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등

– 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등

• 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선
(edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술
– Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계)

– 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을
발굴(Community Detection)하는 데 주로 이용함.

– 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성
(eigenvector centrality), 군집 정도(clustering coefficient)

– 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등

• 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis)

10

소셜 네트워크 분석

HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter

11

소셜 네트워크 분석

페이스북에서 Social Graph App을 이용한 Community Clustering한 例

12

오피니언 마이닝과 센티멘트 분석

• 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis)
– 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추
출하기 위한 분야

– 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술

– 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성
(Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술

• 센티멘트 분석 주요 기법
– SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의
견을 분류하는 방식

– Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포
함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나
POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를
잘 만드는 것이 관건임.

– Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식
과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함.

13

활용 분야

• 소셜 미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상
품평 분석, 고객 반응 및 동향 등
– 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등

• 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측

• 추천 서비스: 소셜 추천(맛집, 영화 등)
– 서비스: 버즈니 등

• 영향력 평가 서비스: 영향력 있는 사용자 발굴
– 서비스: Klout, Edelman, PeerIndex, Twitalizer 등

15

국내외 서비스 사례

• SOCIALmetrics(이전 TrendSeek)
미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스
제공

16

국내외 서비스 사례

• Klout
트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공

• Edelman
트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공

17

2011년 서울시장 보궐선거 관련 분석 서비스 사례

SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/)

18


그루터 (출처: http://www.seenal.com/seoul2011)

19


트윗믹스 (출처: http://tweetmix.net/vs/1026)

20


• 트위터에서의 영향력 평가는 어떻게 하는게 좋을까?
– 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}?

– 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간}

– 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.)

21

Social Analytics 소개 (SDEC 오프모임 세미나)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (9)

Destacado

Destacado (15)

Similar a Social Analytics 소개 (SDEC 오프모임 세미나)

Similar a Social Analytics 소개 (SDEC 오프모임 세미나) (20)

Más de NAVER D2

Más de NAVER D2 (20)

Social Analytics 소개 (SDEC 오프모임 세미나)