"Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter" - Contenido de la presentación para #15MP2P celebrado en IN3-UOC del 3-5 Julio 2013
Análisis del lenguaje y contenido emocional en #15m en Twitter
1. “Hacia un método de análisis del
lenguaje y contenido emocional en la
gestación y explosión del 15M en
Twitter”
#15mP2P
datanalysis15M
@oscarmarinmiro
oscar@outliers.es
1
2. Punto de Partida (I)
• https://github.com/datanalysis15m/datasets/
blob/master/oscarmarin/AbrilJulio2011.txt
• 1.123.225 tweets
• Del 31/03/2011 al 08/07/2011
• #nolesvotes,#democraciarealya,#spanishrev
olution,#acampadasol,#15m,#yeswecamp,#
tomalacalle
• https://github.com/datanalysis15m/software/
tree/master/twitterDataGet
2
3. Punto de Partida (II)
• ¿Cómo podemos caracterizar el lenguaje
usado?
• ¿Cómo cambian estas características en el
tiempo?
• ¿Podemos medir las emociones implicadas
en los contenidos?
• ¿Cómo cambian con el tiempo? ¿Hay alguna
correlación con la viralidad?
3
8. Cualitativo:
Aproximaciones
• Manual: Calidad alta, velocidad baja
• Automática: Calidad media, velocidad alta
• Calidad mediante corpus:
• ¿Están todos los que son? [Recall]
• ¿Son todos los que están? [Precision]
8
12. Cualitativo: Nuestro
corpus
• 2000 tweets
• 50% tweets emocionales escogidos a
mano, corpus de entrenamiento
• 50% al azar, corpus de test
• Hay 1183 tweets en el corpus con
contenido emocional
• F1: 82.4 %
12
13. Cualitativo: El problema
de la subjetividad
• Medir objetivamente algo subjetivo
• Sumar subjetividades (crowdsourcing)
• Problema: Corpus NO de twitter
13
14. Conclusiones técnicas
• El análisis cuantitativo es trasladable a
otros contextos y escenarios
• Para afinar el análisis cualitativo y
justificar su corrección necesitamos más
trabajo de corpus (colaboración)
14
15. Trabajos futuros
• Red completa y navegable de conceptos y
entidades del #15m
• Red de emociones - conceptos/entidades
• Visualizar la propagación de las
emociones
• Acabar de liberar los diccionarios, código
y corpus. Necesitamos colaboración! :P
15