SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
Information Studies




Sentiment strength detection
for the social web:
From YouTube arguments to
Twitter praise
Mike Thelwall
University of Wolverhampton, UK
Sentiment Strength Detection
with SentiStrength
1. Detect positive and negative sentiment
   strength in short informal text
     1.     Develop workarounds for lack of standard
            grammar and spelling
     2.     Harness emotion expression forms unique to
            MySpace or CMC (e.g., :-) or haaappppyyy!!!)
     3.     Classify simultaneously as positive 1-5 AND
            negative 1-5 sentiment
2. Apply to MySpace comments and social
       issues
             Thelwall, M., Buckley, K., Paltoglou, G., Cai, D., & Kappas, A. (2010).
                     Sentiment strength detection in short informal text.
Journal of the American Society for Information Science and Technology, 61(12), 2544-2558.
SentiStrength 1 Algorithm - Core
  List of 890 positive and negative
  sentiment terms and strengths (1 to 5),
  e.g.
     ache = -2, dislike = -3, hate=-4,
      excruciating -5
     encourage = 2, coolest = 3, lover = 4
   Sentiment strength is highest in
  sentence; or highest sentence if multiple
  sentences
Examples                    positive, negative
            -2
                                     1, -2
 My legs ache.
                 3
                                     3, -1
 You are the coolest.

 I hate Paul but encourage him.     2, -4

   -4                   2
Term Strength Optimisation
  Term strengths (e.g., ache = -2)
  initially fixed by a human coder
  Term strengths optimised on training
  set with 10-fold cross-validation
     Adjust term strengths to give best training
      set results then evaluate on test set
     E.g., training set: “My legs ache”: coder
      sentiment = 1,-3 => adjust sentiment of
      “ache” from -2 to -3.
Summary of sentiment
methods
  sentiment word strength list             terrify=-4
     “miss” = +2, -2
  spelling corrected                   nicce -> nice
  booster words alter strength          very happy
  negating words flip emotions             not nice
  repeated letters boost sentiment/+ve        niiiice
  emoticon list                              :) =+2
  exclamation marks count as +2 unless –ve       hi!
  repeated punctuation boosts sentiment     good!!!
  negative emotion ignored in questions u h8 me?
Experiments
  Development data = 2600 MySpace
  comments coded by 1 coder
  Test data = 1041 MySpace comments
  coded by 3 independent coders
  Comparison against a range of standard
  machine learning algorithms
Test data: Inter-coder agreement
                                   Comparison +ve    -ve
                                     for 1041 agree- agree-
Krippendorff’s inter-coder           MySpace ment ment
                                     texts
weighted alpha = 0.5743
for positive and 0.5634            Coder 1 vs. 2   51.0% 67.3%
for negative sentiment

Only moderate agreement            Coder 1 vs. 3   55.7% 76.3%

between coders
but it is a hard 5-category task   Coder 2 vs. 3   61.4% 68.2%
SentiStrength vs. 693 other algorithms/variations

Results:+ve sentiment strength
Algorithm                    Optimal     Accuracy   Accuracy   Correlation
                             #features              +/- 1
                                                    class
SentiStrength                -           60.6%      96.9%      .599
Simple logistic regression 700           58.5%      96.1%      .557
SVM (SMO)                    800         57.6%      95.4%      .538
J48 classification tree      700         55.2%      95.9%      .548
JRip rule-based classifier   700         54.3%      96.4%      .476
SVM regression (SMO)         100         54.1%      97.3%      .469
AdaBoost                     100         53.3%      97.5%      .464
Decision table               200         53.3%      96.7%      .431
Multilayer Perceptron        100         50.0%      94.1%      .422
Naïve Bayes                  100         49.1%      91.4%      .567
Baseline                     -           47.3%      94.0%      -
Random                       -           19.8%      56.9%      .016
SentiStrength vs. 693 other algorithms/variations


Results:-ve sentiment strength
Algorithm                    Optimal Accuracy   Accuracy   Correlation
                             #features          +/- 1
                                                class
SVM (SMO)                    100     73.5%      92.7%      .421
SVM regression (SMO)         300     73.2%      91.9%      .363
Simple logistic regression 800       72.9%      92.2%      .364
SentiStrength                -       72.8%      95.1%      .564
Decision table               100     72.7%      92.1%      .346
JRip rule-based classifier   500     72.2%      91.5%      .309
J48 classification tree      400     71.1%      91.6%      .235
Multilayer Perceptron        100     70.1%      92.5%      .346
AdaBoost                     100     69.9%      90.6%      -
Baseline                     -       69.9%      90.6%      -
Naïve Bayes                  200     68.0%      89.8%      .311
Random                       -       20.5%      46.0%      .010
Example differences/errors
  THINK 4 THE ADD
     Computer (1,-1), Human (2,-1)


  0MG 0MG 0MG 0MG 0MG 0MG 0MG
  0MG!!!!!!!!!!!!!!!!!!!!N33N3R!!!!!!!!!!!!!!!!
     Computer (2,-1), Human (5,-1)
Application - Evidence of emotion
homophily in MySpace
  Automatic analysis of sentiment in 2
  million comments exchanged between
  MySpace friends
  Correlation of 0.227 for +ve emotion
  strength and 0.254 for –ve
  People tend to use similar but not
  identical levels of emotion to their
  friends in messages
SentiStrength 2
  Sentiment analysis programs are typically
  domain-dependant
  SentiStrength is designed to be quite generic
    Does not pick up domain-specific non-
     sentiment terms, e.g., G3
  SentiStrength 2.0 has extended negative
  sentiment dictionary
    In response to weakness for negative

     sentiment
             Thelwall, M., Buckley, K., Paltoglou, G. (submitted).
      High Face Validity Sentiment Strength Detection for the Social Web
6 Social web data sets




                   To test on a wide range
                 of different Social Web text
SentiStrength 2
(unsupervised) tests
          Social web sentiment analysis is
      Tested against human coder results
       less domain dependant than reviews
                       Positive    Negative
       Data set        Correlation Correlation
       YouTube               0.589        0.521
       MySpace               0.647        0.599
       Twitter               0.541        0.499
       Sports forum          0.567        0.541
       Digg.com news         0.352        0.552
       BBC forums            0.296        0.591
       All 6                 0.556        0.565
Why the bad results for BBC?
  Long texts, mainly negative, expressive
  language used, e.g.,
     David Cameron must be very happy that I
      have lost my job.
     It is really interesting that David Cameron
      and most of his ministers are millionaires.
     Your argument is a joke.
SentiStrength vs. Machine
learning for Social Web texts

 • Machine learning performs a bit better
   overall (7 out of 12 data sets/+ve or
   negative)
   • Logistic Regression with trigrams, including
     punctuation and emoticons; 200 features
 • But has “domain transfer” and “face
   validity” problems for some tasks
SentiStrength software
  Versions: Windows, Java, live online
  (sentistrength.wlv.ac.uk)
  German version (Hannes Pirker)
  Variants: Binary (positive/negative),
  trinary (positive/neutral/negative) and
  scale (-4 to +4)
  Sold commercially - & purchasers
  converting to French, Spanish,
  Portuguese, & ?
Sentistrength




                                                       Collective Emotions
                                                       in Cyberspace



CYBEREMOTIONS = data gathering + complex systems methods + ICT outputs
Application – sentiment in Twitter
events
      Analysis of a corpus of 1 month of English
      Twitter posts
      Automatic detection of spikes (events)
      Sentiment strength classification of all posts
      Assessment of whether sentiment strength
      increases during important events



      Thelwall, M., Buckley, K., & Paltoglou, G. (2011). Sentiment in Twitter events.
Journal of the American Society for Information Science and Technology, 62(2), 406-418.
Automatically-identified Twitter
      spikes


                        Proportion of tweets
                        mentioning keyword




                                               9 Mar 2010
9 Feb 2010
Proportion of tweets
                            Chile
matching posts


                                                                   mentioning Chile




    9 Feb 2010                                   Date and time                   9 Mar 2010

                                                                     Av. +ve sentiment
Subj. Sentiment strength




                                                                          Just subj.
                           Increase in –ve sentiment strength        Av. -ve sentiment
                                                                          Just subj.




    9 Feb 2010                                 Date and time                     9 Mar 2010
#oscars
% matching posts
                                                                  Proportion of tweets
                                                                 mentioning the Oscars




     9 Feb 2010                                  Date and time                           9 Mar 2010

                                                                                 Av. +ve sentime
                                                                                      Just subj.
Subj. Sentiment strength




                           Increase in –ve sentiment strength                    Av. -ve sentime
                                                                                      Just subj.




     9 Feb 2010                                Date and time                             9 Mar 2010
Sentiment and spikes
  Analysis of top 30 spiking events
     Strong evidence (p=0.001) that higher
      volume hours have stronger negative
      sentiment than lower volume hours
     Insufficient evidence (p=0.014) that higher
      volume hours have different positive
      sentiment strength than lower volume
      hours
=> Spikes are typified by increases in
negativity
Proportion of tweets
             Bieber
          mentioning Bieber




9 Feb 2010                       Date and time                9 Mar 2010

                                                             Av. +ve sen
                                                                  Just su
                         But there is plenty of positivity   Av. -ve sen
                         if you know where to look!               Just su




                                                               9 Mar 2010
9 Feb 2010                         Date and time
YouTube Video comments
               Short text messages left for a video by
               viewers
               Up to 1000 per video accessible via the
               YouTube API
               A good source of social web text data




         Mike Thelwall Pardeep Sud Farida Vis (submitted)
Commenting on YouTube Videos: From Guatemalan Rock to El Big Bang
Sentiment in YouTube
comments




 Predominantly positive comments
Trends in YouTube comment
sentiment
  +ve and –ve sentiment strengths negatively
  correlated for videos (Spearman’s rho -0.213)
  # comments on a video correlates with –ve
  sentiment strength (Spearman’s rho 0.242,
  p=0.000) and negatively correlates with +ve
  sentiment strength (Spearman’s rho -0.113) –
  negativity drives commenting even though
  it is rare!
  Qualitative: Big debates over religion
     No discussion about aging rock stars!
Conclusion
  Automatic classification of sentiment
  strength is possible for the social web –
  even unsupervised!
     …not good for longer, political messages?
  Hard to get accuracy much over 60%?
  Can identify trends through automatic
  analysis of sentiment in millions of
  social web messages
Bibliography
  Thelwall, M., Buckley, K., Paltoglou, G., Cai, D., &
  Kappas, A. (2010). Sentiment strength detection in
  short informal text. Journal of the American Society
  for Information Science and Technology, 61(12),
  2544–2558.
  Thelwall, M., Buckley, K., & Paltoglou, G. (2011).
  Sentiment in Twitter events. Journal of the American
  Society for Information Science and Technology,
  61(12), 2544–2558.

Más contenido relacionado

Similar a Michael Thelwall "Sentiment strength detection for the social web: From YouTube arguments to Twitter praise"

Computational Biology, Part 4 Protein Coding Regions
Computational Biology, Part 4 Protein Coding RegionsComputational Biology, Part 4 Protein Coding Regions
Computational Biology, Part 4 Protein Coding Regions
butest
 
TextMiningTwitters
TextMiningTwittersTextMiningTwitters
TextMiningTwitters
Liu Chang
 
Cs221 lecture5-fall11
Cs221 lecture5-fall11Cs221 lecture5-fall11
Cs221 lecture5-fall11
darwinrlo
 
Ashford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docx
Ashford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docxAshford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docx
Ashford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docx
fredharris32
 

Similar a Michael Thelwall "Sentiment strength detection for the social web: From YouTube arguments to Twitter praise" (20)

Improving Data Quality with Active Learning for Emotion Analysis
Improving Data Quality with Active Learning for Emotion AnalysisImproving Data Quality with Active Learning for Emotion Analysis
Improving Data Quality with Active Learning for Emotion Analysis
 
Alleviating Data Sparsity for Twitter Sentiment Analysis
Alleviating Data Sparsity for Twitter Sentiment AnalysisAlleviating Data Sparsity for Twitter Sentiment Analysis
Alleviating Data Sparsity for Twitter Sentiment Analysis
 
Media 330057 smxx
Media 330057 smxxMedia 330057 smxx
Media 330057 smxx
 
Computational Biology, Part 4 Protein Coding Regions
Computational Biology, Part 4 Protein Coding RegionsComputational Biology, Part 4 Protein Coding Regions
Computational Biology, Part 4 Protein Coding Regions
 
TextMiningTwitters
TextMiningTwittersTextMiningTwitters
TextMiningTwitters
 
Overfitting and-tbl
Overfitting and-tblOverfitting and-tbl
Overfitting and-tbl
 
GradTrack: Getting Started with Statistics September 20, 2018
GradTrack: Getting Started with Statistics September 20, 2018GradTrack: Getting Started with Statistics September 20, 2018
GradTrack: Getting Started with Statistics September 20, 2018
 
GradTrack: Getting Started with Statistics September 20, 2018
GradTrack: Getting Started with Statistics September 20, 2018GradTrack: Getting Started with Statistics September 20, 2018
GradTrack: Getting Started with Statistics September 20, 2018
 
Sentiment analysis: Incremental learning to build domain-models
Sentiment analysis: Incremental learning to build domain-modelsSentiment analysis: Incremental learning to build domain-models
Sentiment analysis: Incremental learning to build domain-models
 
Cs221 lecture5-fall11
Cs221 lecture5-fall11Cs221 lecture5-fall11
Cs221 lecture5-fall11
 
Analyse de sentiment et classification par approche neuronale en Python et Weka
Analyse de sentiment et classification par approche neuronale en Python et WekaAnalyse de sentiment et classification par approche neuronale en Python et Weka
Analyse de sentiment et classification par approche neuronale en Python et Weka
 
Machine Learning in a Flash (Extended Edition): An Introduction to Natural La...
Machine Learning in a Flash (Extended Edition): An Introduction to Natural La...Machine Learning in a Flash (Extended Edition): An Introduction to Natural La...
Machine Learning in a Flash (Extended Edition): An Introduction to Natural La...
 
April 10th of 2018 budapest presentation
April 10th of 2018 budapest presentationApril 10th of 2018 budapest presentation
April 10th of 2018 budapest presentation
 
Ashford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docx
Ashford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docxAshford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docx
Ashford 2 - Week 1 - Instructor GuidanceWeek OverviewThe f.docx
 
Who will RT this?: Automatically Identifying and Engaging Strangers on Twitte...
Who will RT this?: Automatically Identifying and Engaging Strangers on Twitte...Who will RT this?: Automatically Identifying and Engaging Strangers on Twitte...
Who will RT this?: Automatically Identifying and Engaging Strangers on Twitte...
 
Grammarly Meetup: Paraphrase Detection in NLP (PART 2) - Andriy Gryshchuk
Grammarly Meetup: Paraphrase Detection in NLP (PART 2) - Andriy GryshchukGrammarly Meetup: Paraphrase Detection in NLP (PART 2) - Andriy Gryshchuk
Grammarly Meetup: Paraphrase Detection in NLP (PART 2) - Andriy Gryshchuk
 
DL.pptx
DL.pptxDL.pptx
DL.pptx
 
Emotion Classification In Software Engineering Texts: A Comparative Analysis ...
Emotion Classification In Software Engineering Texts: A Comparative Analysis ...Emotion Classification In Software Engineering Texts: A Comparative Analysis ...
Emotion Classification In Software Engineering Texts: A Comparative Analysis ...
 
RCOMM 2011 - Sentiment Classification
RCOMM 2011 - Sentiment ClassificationRCOMM 2011 - Sentiment Classification
RCOMM 2011 - Sentiment Classification
 
RCOMM 2011 - Sentiment Classification with RapidMiner
RCOMM 2011 - Sentiment Classification with RapidMinerRCOMM 2011 - Sentiment Classification with RapidMiner
RCOMM 2011 - Sentiment Classification with RapidMiner
 

Más de Yandex

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Yandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Yandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Yandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Yandex
 

Más de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

Último

EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
Earley Information Science
 

Último (20)

Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivity
 
🐬 The future of MySQL is Postgres 🐘
🐬  The future of MySQL is Postgres   🐘🐬  The future of MySQL is Postgres   🐘
🐬 The future of MySQL is Postgres 🐘
 
Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
 
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot TakeoffStrategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
 
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt Robison
 
GenAI Risks & Security Meetup 01052024.pdf
GenAI Risks & Security Meetup 01052024.pdfGenAI Risks & Security Meetup 01052024.pdf
GenAI Risks & Security Meetup 01052024.pdf
 
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
 
The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day Presentation
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
 
Workshop - Best of Both Worlds_ Combine KG and Vector search for enhanced R...
Workshop - Best of Both Worlds_ Combine  KG and Vector search for  enhanced R...Workshop - Best of Both Worlds_ Combine  KG and Vector search for  enhanced R...
Workshop - Best of Both Worlds_ Combine KG and Vector search for enhanced R...
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...
 
08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men
 
Strategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a FresherStrategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a Fresher
 

Michael Thelwall "Sentiment strength detection for the social web: From YouTube arguments to Twitter praise"

  • 1. Information Studies Sentiment strength detection for the social web: From YouTube arguments to Twitter praise Mike Thelwall University of Wolverhampton, UK
  • 2. Sentiment Strength Detection with SentiStrength 1. Detect positive and negative sentiment strength in short informal text 1. Develop workarounds for lack of standard grammar and spelling 2. Harness emotion expression forms unique to MySpace or CMC (e.g., :-) or haaappppyyy!!!) 3. Classify simultaneously as positive 1-5 AND negative 1-5 sentiment 2. Apply to MySpace comments and social issues Thelwall, M., Buckley, K., Paltoglou, G., Cai, D., & Kappas, A. (2010). Sentiment strength detection in short informal text. Journal of the American Society for Information Science and Technology, 61(12), 2544-2558.
  • 3. SentiStrength 1 Algorithm - Core List of 890 positive and negative sentiment terms and strengths (1 to 5), e.g.  ache = -2, dislike = -3, hate=-4, excruciating -5  encourage = 2, coolest = 3, lover = 4 Sentiment strength is highest in sentence; or highest sentence if multiple sentences
  • 4. Examples positive, negative -2 1, -2 My legs ache. 3 3, -1 You are the coolest. I hate Paul but encourage him. 2, -4 -4 2
  • 5. Term Strength Optimisation Term strengths (e.g., ache = -2) initially fixed by a human coder Term strengths optimised on training set with 10-fold cross-validation  Adjust term strengths to give best training set results then evaluate on test set  E.g., training set: “My legs ache”: coder sentiment = 1,-3 => adjust sentiment of “ache” from -2 to -3.
  • 6. Summary of sentiment methods sentiment word strength list terrify=-4  “miss” = +2, -2 spelling corrected nicce -> nice booster words alter strength very happy negating words flip emotions not nice repeated letters boost sentiment/+ve niiiice emoticon list :) =+2 exclamation marks count as +2 unless –ve hi! repeated punctuation boosts sentiment good!!! negative emotion ignored in questions u h8 me?
  • 7. Experiments Development data = 2600 MySpace comments coded by 1 coder Test data = 1041 MySpace comments coded by 3 independent coders Comparison against a range of standard machine learning algorithms
  • 8. Test data: Inter-coder agreement Comparison +ve -ve for 1041 agree- agree- Krippendorff’s inter-coder MySpace ment ment texts weighted alpha = 0.5743 for positive and 0.5634 Coder 1 vs. 2 51.0% 67.3% for negative sentiment Only moderate agreement Coder 1 vs. 3 55.7% 76.3% between coders but it is a hard 5-category task Coder 2 vs. 3 61.4% 68.2%
  • 9. SentiStrength vs. 693 other algorithms/variations Results:+ve sentiment strength Algorithm Optimal Accuracy Accuracy Correlation #features +/- 1 class SentiStrength - 60.6% 96.9% .599 Simple logistic regression 700 58.5% 96.1% .557 SVM (SMO) 800 57.6% 95.4% .538 J48 classification tree 700 55.2% 95.9% .548 JRip rule-based classifier 700 54.3% 96.4% .476 SVM regression (SMO) 100 54.1% 97.3% .469 AdaBoost 100 53.3% 97.5% .464 Decision table 200 53.3% 96.7% .431 Multilayer Perceptron 100 50.0% 94.1% .422 Naïve Bayes 100 49.1% 91.4% .567 Baseline - 47.3% 94.0% - Random - 19.8% 56.9% .016
  • 10. SentiStrength vs. 693 other algorithms/variations Results:-ve sentiment strength Algorithm Optimal Accuracy Accuracy Correlation #features +/- 1 class SVM (SMO) 100 73.5% 92.7% .421 SVM regression (SMO) 300 73.2% 91.9% .363 Simple logistic regression 800 72.9% 92.2% .364 SentiStrength - 72.8% 95.1% .564 Decision table 100 72.7% 92.1% .346 JRip rule-based classifier 500 72.2% 91.5% .309 J48 classification tree 400 71.1% 91.6% .235 Multilayer Perceptron 100 70.1% 92.5% .346 AdaBoost 100 69.9% 90.6% - Baseline - 69.9% 90.6% - Naïve Bayes 200 68.0% 89.8% .311 Random - 20.5% 46.0% .010
  • 11. Example differences/errors THINK 4 THE ADD  Computer (1,-1), Human (2,-1) 0MG 0MG 0MG 0MG 0MG 0MG 0MG 0MG!!!!!!!!!!!!!!!!!!!!N33N3R!!!!!!!!!!!!!!!!  Computer (2,-1), Human (5,-1)
  • 12. Application - Evidence of emotion homophily in MySpace Automatic analysis of sentiment in 2 million comments exchanged between MySpace friends Correlation of 0.227 for +ve emotion strength and 0.254 for –ve People tend to use similar but not identical levels of emotion to their friends in messages
  • 13. SentiStrength 2 Sentiment analysis programs are typically domain-dependant SentiStrength is designed to be quite generic  Does not pick up domain-specific non- sentiment terms, e.g., G3 SentiStrength 2.0 has extended negative sentiment dictionary  In response to weakness for negative sentiment Thelwall, M., Buckley, K., Paltoglou, G. (submitted). High Face Validity Sentiment Strength Detection for the Social Web
  • 14. 6 Social web data sets To test on a wide range of different Social Web text
  • 15. SentiStrength 2 (unsupervised) tests Social web sentiment analysis is Tested against human coder results less domain dependant than reviews Positive Negative Data set Correlation Correlation YouTube 0.589 0.521 MySpace 0.647 0.599 Twitter 0.541 0.499 Sports forum 0.567 0.541 Digg.com news 0.352 0.552 BBC forums 0.296 0.591 All 6 0.556 0.565
  • 16. Why the bad results for BBC? Long texts, mainly negative, expressive language used, e.g.,  David Cameron must be very happy that I have lost my job.  It is really interesting that David Cameron and most of his ministers are millionaires.  Your argument is a joke.
  • 17. SentiStrength vs. Machine learning for Social Web texts • Machine learning performs a bit better overall (7 out of 12 data sets/+ve or negative) • Logistic Regression with trigrams, including punctuation and emoticons; 200 features • But has “domain transfer” and “face validity” problems for some tasks
  • 18. SentiStrength software Versions: Windows, Java, live online (sentistrength.wlv.ac.uk) German version (Hannes Pirker) Variants: Binary (positive/negative), trinary (positive/neutral/negative) and scale (-4 to +4) Sold commercially - & purchasers converting to French, Spanish, Portuguese, & ?
  • 19. Sentistrength Collective Emotions in Cyberspace CYBEREMOTIONS = data gathering + complex systems methods + ICT outputs
  • 20. Application – sentiment in Twitter events Analysis of a corpus of 1 month of English Twitter posts Automatic detection of spikes (events) Sentiment strength classification of all posts Assessment of whether sentiment strength increases during important events Thelwall, M., Buckley, K., & Paltoglou, G. (2011). Sentiment in Twitter events. Journal of the American Society for Information Science and Technology, 62(2), 406-418.
  • 21. Automatically-identified Twitter spikes Proportion of tweets mentioning keyword 9 Mar 2010 9 Feb 2010
  • 22. Proportion of tweets Chile matching posts mentioning Chile 9 Feb 2010 Date and time 9 Mar 2010 Av. +ve sentiment Subj. Sentiment strength Just subj. Increase in –ve sentiment strength Av. -ve sentiment Just subj. 9 Feb 2010 Date and time 9 Mar 2010
  • 23. #oscars % matching posts Proportion of tweets mentioning the Oscars 9 Feb 2010 Date and time 9 Mar 2010 Av. +ve sentime Just subj. Subj. Sentiment strength Increase in –ve sentiment strength Av. -ve sentime Just subj. 9 Feb 2010 Date and time 9 Mar 2010
  • 24. Sentiment and spikes Analysis of top 30 spiking events  Strong evidence (p=0.001) that higher volume hours have stronger negative sentiment than lower volume hours  Insufficient evidence (p=0.014) that higher volume hours have different positive sentiment strength than lower volume hours => Spikes are typified by increases in negativity
  • 25. Proportion of tweets Bieber mentioning Bieber 9 Feb 2010 Date and time 9 Mar 2010 Av. +ve sen Just su But there is plenty of positivity Av. -ve sen if you know where to look! Just su 9 Mar 2010 9 Feb 2010 Date and time
  • 26. YouTube Video comments Short text messages left for a video by viewers Up to 1000 per video accessible via the YouTube API A good source of social web text data Mike Thelwall Pardeep Sud Farida Vis (submitted) Commenting on YouTube Videos: From Guatemalan Rock to El Big Bang
  • 27. Sentiment in YouTube comments Predominantly positive comments
  • 28. Trends in YouTube comment sentiment +ve and –ve sentiment strengths negatively correlated for videos (Spearman’s rho -0.213) # comments on a video correlates with –ve sentiment strength (Spearman’s rho 0.242, p=0.000) and negatively correlates with +ve sentiment strength (Spearman’s rho -0.113) – negativity drives commenting even though it is rare! Qualitative: Big debates over religion  No discussion about aging rock stars!
  • 29. Conclusion Automatic classification of sentiment strength is possible for the social web – even unsupervised!  …not good for longer, political messages? Hard to get accuracy much over 60%? Can identify trends through automatic analysis of sentiment in millions of social web messages
  • 30. Bibliography Thelwall, M., Buckley, K., Paltoglou, G., Cai, D., & Kappas, A. (2010). Sentiment strength detection in short informal text. Journal of the American Society for Information Science and Technology, 61(12), 2544–2558. Thelwall, M., Buckley, K., & Paltoglou, G. (2011). Sentiment in Twitter events. Journal of the American Society for Information Science and Technology, 61(12), 2544–2558.