2. Table of Contents
1. SNS의 급성장과 분석의 필요성
2. 분석 기술
3. 활용 분야 및 국내외 서비스 사례
3. Table of Contents
1. SNS의 급성장과 분석의 필요성
2. 분석 기술
3. 활용 분야 및 국내외 서비스 사례
4. SNS 급성장과 분석의 필요성
• 과거
– 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등
– 주로 기업내부에 축적된 데이터를 활용한 분석
– 사용자를 알기 위한 방법? 주로 간접적인 파악
• 웹로그 클릭 분석
• 상품구매이력
• 이메일을 통한 반응분석
• 온/오프라인 설문조사 등
• 현재
– "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대
– 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장
– 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌.
– 정보의 파급 효과 및 속도(1:9:90 법칙)
– 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악
4
5. Social Analytics란?
• 트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있
는 정보(Insight)를 추출하는 기술
– Analytics is "the science of analysis.“
– 빅데이터(Big data)
– 비정형 데이터(Unstructured data)
– 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining)
• 데이터의 성격
– 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터.
– 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터
– 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터
• 활용 분야
– 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석
– 선거예측, 주가예측, 영화흥행예측 등
– 소셜 추천(맛집, 영화 등)
– 영향력(Influential Users) 평가 서비스 등
5
6. Table of Contents
1. SNS의 급성장과 분석의 필요성
2. 분석 기술
3. 활용 분야 및 국내외 서비스 사례
7. 분석 기술
• 분석 인프라 측면
– 빅데이터 저장 및 처리 기술
– 분석 엔진
– 데이터 시각화 기술
• 분석 기법 측면
– 데이터 마이닝: Classification, Clustering
– 텍스트 마이닝: 자연어 처리(NLP)
– 소셜 네트워크 분석(Social Network Analysis)
– 오피니언 마이닝(Opinion Mining)
– 센티멘트 분석(Sentiment Analysis)
7
8. 분석 기술
분석 인프라 측면
• 빅 데이터(Big Data) 저장 및 처리 기술
– 분산저장 파일 시스템: Hadoop HDFS
– NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등
– 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등
• GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스
• 데이터 시각화(Data Visualization) 기술
– 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등
– 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등
– 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등
8
9. 분석 기술
분석 인프라 측면
• 분석 엔진
– Hadoop MapReduce
– R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능
• Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop
• RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를
매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto
Revolutionanalytics에서 근무중이라고 함.
• SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …)
– Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering,
Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공
출처: Poll Results-Top Languages for Data Mining/Analytics
(http://www.kdnuggets.com/2011/08/poll-languages-for-
data-mining-analytics.html )
9
10. 분석 기술
분석 기법 측면: 비정형 데이터를 처리하기 위한 기술 위주
• 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행
– Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등
• 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추
출하기 위한 기술
– 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등
– 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등
• 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선
(edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술
– Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계)
– 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을
발굴(Community Detection)하는 데 주로 이용함.
– 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성
(eigenvector centrality), 군집 정도(clustering coefficient)
– 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등
• 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis)
10
11. 소셜 네트워크 분석
HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter
11
12. 소셜 네트워크 분석
페이스북에서 Social Graph App을 이용한 Community Clustering한 例
12
13. 오피니언 마이닝과 센티멘트 분석
• 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis)
– 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추
출하기 위한 분야
– 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술
– 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성
(Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술
• 센티멘트 분석 주요 기법
– SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의
견을 분류하는 방식
– Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포
함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나
POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를
잘 만드는 것이 관건임.
– Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식
과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함.
13
14. Table of Contents
1. SNS의 급성장과 분석의 필요성
2. 분석 기술
3. 활용 분야 및 국내외 서비스 사례
15. 활용 분야
• 소셜 미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상
품평 분석, 고객 반응 및 동향 등
– 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등
• 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측
• 추천 서비스: 소셜 추천(맛집, 영화 등)
– 서비스: 버즈니 등
• 영향력 평가 서비스: 영향력 있는 사용자 발굴
– 서비스: Klout, Edelman, PeerIndex, Twitalizer 등
15
16. 국내외 서비스 사례
• SOCIALmetrics(이전 TrendSeek)
미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스
제공
16
17. 국내외 서비스 사례
• Klout
트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공
• Edelman
트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공
17
18. 2011년 서울시장 보궐선거 관련 분석 서비스 사례
SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/)
18
19. 2011년 서울시장 보궐선거 관련 분석 서비스 사례
그루터 (출처: http://www.seenal.com/seoul2011)
19
20. 2011년 서울시장 보궐선거 관련 분석 서비스 사례
트윗믹스 (출처: http://tweetmix.net/vs/1026)
20
21. 2011년 서울시장 보궐선거 관련 분석 서비스 사례
• 트위터에서의 영향력 평가는 어떻게 하는게 좋을까?
– 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}?
– 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간}
– 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.)
21