Análisis automático de comentarios generados por múltiples usuarios de Twitter.com
1. Análisis automático de comentarios generados
Por múltiples usuarios de Twitter.com
Jorge Gálvez Gajardo
Magister (c) en Ingeniería Informática PUCV
2. Introducción
• Avión de US Airway hizo
un aterrizaje forzoso en el
río Hudson (2009)
• Terremoto 8.8 en Chile
(2010)
• Protestas sociales
alrededor del Mundo
(2011)
• ¿2012?
3. Introducción
• 200 millones de tweets por día.
• 10 millones de páginas de libros.
• 31 ańos de lectura.
• 1.470 metros de altura si fueran
libros apilados.
Fuente: Blog twitter.com 30 Junio de 2011
4. Necesidad
• Generar automáticamente un resumen y análisis de
tweets para evitar leer cada uno de los comentarios.
Entregando una visión global del contenido durante
un periodo de tiempo.
5. ¿Qué es Twitter?
• Aplicación en la web que permite a sus usuarios escribir
pequeños textos (de hasta 140 caracteres) que pueden ser
leídos por cualquiera que tenga acceso a su página
• Existen cuentas privadas que son
leídas solo con la autorización del
usuario de la cuenta
11. ¿Qué es Twitter?
• Proporciona distintas API's :
Streaming: conjunto de tweets en tiempo real
Search: entrega tweets con una antigüedad de hasta 7 días, generando
datos vía web y en formato XML o JSON
Rest: ofrece a los desarrolladores acceso a todos los datos de Twitter,
entregando resultados en XML, JSON, RSS y ATOM
13. Extracción
Twitter
Pre Procesamiento
de Comentarios
Análisis de conjunto
de tweets
Presentar resultados
a usuarios
14. Extracción de Twitter
• Script recolectando las 24 horas del día comentarios
generados por usuarios de Twitter.
• Almacenar tweets en base de datos para futuras
consultas de procesamiento y análisis.
• Almacenar información adicional, como por ejemplo:
autores para análisis de interacción.
16. Pre procesamiento de comentarios
• Eliminar Stopwords
Artículos, pronombres, preposiciones, etc.
• Aplicar Stemming
Reduce una palabra a su raíz, por ejemplo las
palabras bibliotecas y bibliotecario tendrán
como raíz "bibliotec"
17. Análisis de conjunto de tweets
• Relación de comentarios a través de gráfico de red.
• Frecuencia de palabras mas utilizadas.
• Análisis de links mas compartidos.
• Clasificación de sentido en menciones.
• Resumen de un conjunto de tweets.
18. Análisis de conjunto de tweets
• Relación de comentarios a través de gráfico de red.
Fuente:
21. Análisis de conjunto de tweets
• Clasificación de sentido en menciones.
Utilizando máquinas de aprendizaje es posible
categorizar en positivo, negativo o neutro tweets
relacionados a un tema ene común
22. Análisis de conjunto de tweets
• Resumen de un conjunto de tweets
Algoritmo de Luhn: asigna un peso a cada
oración. Se eligen las oraciones con las
puntuaciones más altas para generar ese resumen.
Propuesta Sharifi, Hutton y Kalita: analiza un
patrón de frecuencia en tweets escritos sobre un
tema en común.
23. Análisis de conjunto de tweets
• Algoritmo de Luhn, noticia de emol.
(se eliminaron acentos)
Esta tarde, mientras se registraban intensas protestas en las calles de Santiago, un
grupo de estudiantes ingreso a dependencias del canal Chilevision.
Los manifestantes se mantuvieron mas de una hora dentro del recinto antes de
comenzar a retirarse, a las 20:00 horas de hoy. Segun informo el relato en vivo de la
toma, los estudiantes pidieron grabar un mensaje con sus demandas como condicion
para desocupar las instalaciones del canal, lo que fue concedido.
El mensaje que habria sido registrado aun no era transmitido por la estacion hasta las
20:17 de hoy.
El grupo, formado por alrededor de 200 jovenes, entro hasta los pasillos de la estacion
televisiva, donde se encontraban periodistas, funcionarios y personal de la estacion. La
sorpresiva ocupacion se realizo de manera pacifica.
Dirigentes de los alumnos dialogaron con directivos sindicales del canal, quienes
mediaron para que no se produjeran incidentes de violencia.
No obstante, se produjeron algunos forcejeos iniciales entre jovenes y trabajadores del
canal, en el momento en que los ocupantes exigieron, con canticos y gritos, salir al aire
en ese mismo momento.
La noticia fue difundida masivamente a traves de Twitter a partir de las 19:00 horas.
24. Análisis de conjunto de tweets
• Algoritmo de Luhn, comentarios Twitter
(se eliminaron acentos)
@sofiavaras porque no dejan dormir a los demas!!!!! y son socios de falabella y
@RipleyChile que mañana tienen ofertas!!. manana @falabella, @RipleyChile y
@almacenes paris seran felices porque todos iran a comprar ollas nuevas!!!.
Habia olvidado decir que la nina de @CorpBanca que me llamo para responder
inquietudes es un sol! Muchas gracias. Aprendan, @RipleyChile. No te pierdas
la ultima oferta Happy Hour de la semana!!! Netbook Acer AOD255E $99.990.-
http://bit.ly/pVyZNE. RT @stark: me tope oferton d @ripleychile en diario: iPod
Nano 8GB a $50 mil solo hoy. hay 500 en PA y 500 en ALC. http://twitpic.com/
5ybvun. Ta q lo pase bien anoche en el lanzamiento del AppleShop de
@RipleyChile http://yfrog.com/gypehvxgj
26. Comentarios de Twitter
extraídos desde buscador
relacionados con
"Ministerio del Deporte"
Piñera firma proyecto que crea Ministerio del Deporte
27. Conclusiones y Trabajo Futuro
• Dada la gran cantidad de información, se hace necesario
automatizar procesos que nos ayuden a comprender todo lo que
se escribe
• Esta herramienta nos ayuda a entender de mejor manera lo que
se esta comentando.
• Surge el problema de encontrar palabras mal escritas, por lo que
existe la necesidad de normalizar comentarios en redes sociales.
• Como nuevas metas se podría discriminar lingüísticamente la
forma de escribir en torno a determinado tema para un mejor
análisis.