Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Cargando en…3
×

Eche un vistazo a continuación

1 de 22 Anuncio

Más Contenido Relacionado

Más reciente (20)

Anuncio

Wie funktioniert eigentlich Pentametron? Computerlinguistische Perspektiven auf Twitter

  1. 1. Wie funktioniert eigentlich @Pentametron? Computerlinguistische Perspektiven auf Twitter StuTS 54 November 2013 Düsseldorf Esther Seyffarth Ruhr-Uni Bochum esther.seyffarth@rub.de Sprachwissenschaftliches Institut
  2. 2. Was können Linguistinnen mit Twitter anstellen? Sentimentanalyse? … bezüglich bestimmer Produkte/Hersteller … in politischen Zusammenhängen Korpus zur Erforschung von Dialektfragen? z. B. “yall” / “y’all” / “ya’ll” Recherche für Nachrichten? möglicherweise mit automatischer Textgenerierung auf Basis von Tweets Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [2]
  3. 3. Überblick Wie funktioniert @Pentametron? Vorstellung des CMU Pronunciation Dictionary Strukturierung Wie (gut) funktioniert Twitter zur Sentimentanalyse? Vorhersage von Wahlergebnissen anhand von Twitterdaten Bedeutungstragende Merkmale von Tweets Wie (gut) funktioniert Twitter als Basis für Nachrichtentexte? Ausbreitung von Krankheiten auswerten anhand von Tweets Automatisch Nachrichtentexte generieren Analyse Synthese Diskussion Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [3]
  4. 4. Wie funktioniert @Pentametron? @Pentametron verfasst keine Tweets selbst, sondern retweetet nur fremde Nachrichten. Was wird dafür benötigt? Zugriff auf eine große Menge an Tweets Eine Möglichkeit, die Silbenstruktur und die möglichen Reimwörter zu analysieren • z. B. mithilfe des CMU Pronunciation Dictionary Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [4]
  5. 5. Wie funktioniert @Pentametron? CMU Pronunciation Dictionary Erreichbar unter: Erstellt von Kevin Lenzo: http://www.speech.cs.cmu.edu/cgi-bin/cmudict http://www.linkedin.com/in/kevinlenzo Maschinenlesbare phonetische Transkription von über 125.000 englischen Wörtern Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [5]
  6. 6. Wie funktioniert @Pentametron? Good feelings = [equal] good reality. G UH1 D . F IY1 L IH0 NG Z . IY1 K W AH0 L . G UH1 D . R IY2 AE1 L AH0 T IY2 . σ1 σ2 σ3 σ4 σ5 σ6 σ7 σ8 σ9 σ10 Y UW1 . R IH1 L IY0 . R IH1 L IY0 . R IH1 L IY0 . B AA1 DH ER0 . M IY1 . You really Sprachwissenschaftliches Institut really really bother me Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [6]
  7. 7. Twitter und Sentimentanalyse Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [7]
  8. 8. Twitter und Sentimentanalyse Is social media a valid indicator of political behavior? ... Our results show that the percentage of RepublicanRepublicancandidate name mentions correlates with the Republican vote margin in the subsequent election. election Joseph DiGrazia, Karissa McKelvey, Johan Bollen, Fabio Rojas: More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [8]
  9. 9. Twitter und Sentimentanalyse Probleme des quantitativen Ansatzes: Die Vorhersagen wurden durch Twitter um nur 2,8% zuverlässiger Positiver oder negativer Kontext? • If in fact tweet data are an “unusually” good predictor of elections, then Anthony Weiner should be optimistic about his mayoral aspirations given his ‘explosion’ of tweet attention and despite his free fall in the polls. In fact, this study’s finding that the tweet content is inconsequential prompted Salon.com to post the following headline: “Good news for Weiner: All Twitter publicity is good publicity.” Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [9]
  10. 10. Twitter und Sentimentanalyse Probleme des quantitativen Ansatzes: Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 10 ]
  11. 11. Twitter und Sentimentanalyse Mögliche zusätzliche Kriterien (z. B. bei der Auswertung von bestimmten Produkten): Positive oder negative Gefühlsausdrücke? Mentions oder Nonmentions? Links? Hashtags? Von Standardsprache abweichende Zeichensetzung? Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 11 ]
  12. 12. Twitter und Sentimentanalyse Mögliche zusätzliche Kriterien (z. B. bei der Auswertung von bestimmten Produkten): Beliebtheit/Verbreitung? Emoticons? Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 12 ]
  13. 13. Twitter und Nachrichten Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 13 ]
  14. 14. Twitter und Nachrichten Adam Sadilek, Henry Kautz, Vincent Silenzio (2012): Modeling Spread of Disease from Social Interactions Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 14 ]
  15. 15. Twitter und Nachrichten Machine Learning Trainingskorpus: 5128 per Hand als “sick tweets” oder “normal tweets” annotierte Tweets 1,6 Mio Tweets wurden auf dieser Basis vom System als “sick” oder “normal” klassifiziert Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 15 ]
  16. 16. Twitter und Nachrichten CoCo-Location: User halten sich innerhalb einer bestimmten Zeitspanne im gleichen 100m*100m-Gebiet auf Co-Location ist relevant bei ansteckenden Krankheiten, die sich durch physikalischen Kontakt ausbreiten Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 16 ]
  17. 17. Probleme: Symptome ≠ Diagnose! Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 17 ]
  18. 18. Twitter und Nachrichten Probleme: Viele User bleiben unsichtbar (z. B. weil GPS-Daten nicht vorliegen oder Symptome vom System nicht erkannt werden) Im Artikel wurden nur Tweets von 1/30 aller Bewohner von NYC betrachtet, Geodaten waren nur für 1/3000 vorhanden Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 18 ]
  19. 19. Twitter und Nachrichten Ergebnisse: Bezüglich Zuverlässigkeit: • The correlation between the prevalence of infectious diseases predicted by our model and the predictions made by Google Flu Trends specifically for New York City is 0.73. 0.73 • Krieck et al. (2011) ... show that self-reported symptoms are the self- most reliable signal in detecting if a tweet is relevant to an outbreak or not. This is because people often do not know what their true problem is until diagnosed by an expert, but they can readily write about how they feel. Bezüglich Co-Location: • For instance, having 40 encounters with sick individuals with a 1hour slack makes one ill with 20% probability. Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 19 ]
  20. 20. Twitter und Nachrichten Projekte zur automatischen Generierung von Nachrichtentexten FroPatI: From Pattern to Information http://fropati.textrapic.eu Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 20 ]
  21. 21. Danke für die Aufmerksamkeit! Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 21 ]
  22. 22. Literatur DiGrazia, McKelvey, Bollen, Rojas (2013): More Tweets, more votes http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2235423 Auswertungen zu “More Tweets, more Votes”: http://www.washingtonpost.com/blogs/the-fix/wp/2013/08/16/how-twitter-could-predictelections-a-rebuttal/ http://psychcentral.com/blog/archives/2013/08/17/can-twitter-predict-elections-not-yet/ Hassan Saif, Yulan He, Harith Alani (2012): Semantic Sentiment Analysis of Twitter http://iswc2012.semanticweb.org/sites/default/files/76490497.pdf Regional Dialects Are Alive and Well on Twitter http://www.cmu.edu/news/archive/2011/January/jan7_twitterdialects.shtml Sadilek, Kautz, Silenzio (2012): Modeling Spread of Disease from Social Media http://www.aaai.org/ocs/index.php/ICWSM/ICWSM12/paper/view/4493/4999 Google Flu Trends http://www.google.org/flutrends/about/how.html Sprachwissenschaftliches Institut Computerlinguistische Perspektiven auf Twitter – Esther Seyffarth - StuTS 54, November 2013 [ 22 ]

×