presentación del desensamble y ensamble del equipo de computo en base a las n...
Big Data : Extraer y visualizar grandes volúmenes de datos
1. BIG DATA: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real
sobre Twitter
Fernando Zunino Pauline Morrison Fell
@fzunino @polinmf
Thursday, June 21, 12
2. Acerca de Zauber
• Somos una boutique de software y lab con base en Argentina y
Estados Unidos que provee servicios a una alta gama de líderes
de la industria y startups de internet en América Latina y Silicon
Valley.
• Nos especializamos en proyectos de Consumer Web, Social
Analytics y Big Data. Combinamos nuestros servicios de
desarrollo boutique con un laboratorio de I+D para desarrollar
nuevos emprendimientos y productos.
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
3. Nuestra experiencia con Twitter APIs
Al Jazeera - Twitter Dashboard CABA - Elecciones legislativas 2011 JSConfAr - Visualizing Tweets
Coca Cola - Social World Cup La Nacion - Elecciones presidenciales 2011 Zauberlabs - Tweet Discover
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
4. Análisis de
audiencias
online
Value insights on social audiences and conversations
Plataforma online que:
• Procesa social media data a gran escala para entregar
reportes en tiempo real
• Identifica patrones demográficos y de comportamiento
de seguidores y conversaciones en Twitter
• Usa ML y NLP para entregar perfiles sociales aumentados
con información nueva respecto de APIs existentes o
perfiles de usuarios.
Diseñada para:
• Investigación de mercado online
• Monitoreo de marcas en tiempo real
• ROI en Social Media
• Estrategias en Social Media
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
5. Visualizacio-
nes animadas
de Twitter
Build your own Twitter real-time visualizations
Plataforma online que permite:
• Construir infografías animadas sobre temas
en Twitter
• Enriquecer noticias con contenido social
• Ofrecer una segunda pantalla para un programa de TV
• Aumentar la participación en un evento
• Cubrir el buzz en eventos grandes o internacionales
Diseñada para:
• Periodistas, Bloggers, Directores de Contenido,
Marketeers, Organizadores de Eventos, Emisoras
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
6. Cómo lo construimos
FRONTEND BACKEND
Storm
Oozie
INFRAESTRUCTURA TWITTER API
Rest API
ELB, EC2, S3 Streaming API
Elastic Map Reduce
Route53, CloudWatch
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
7. Desafíos tecnológicos
• Límites API Twitter
• Big Data
• Manejo de datos no estructurados
• Inferencia de atributos ocultos
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
8. Límites API Twitter
• Rest API limitada a 350 requests por ahora por IP
• Streaming API (statuses/filter) está limitada si tweets exceden el
1% del Firehose
• Partners de Twitter (Gnip, DataSift) pueden ser una opción para
obtener un acceso mayor
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
9. Big Data
• Twitter en #
• 400M tweets por dia (http://www.theverge.com/
2012/6/6/3069424/twitter-400-million-total-daily-tweets)
• 140M usuarios activos (http://blog.twitter.com/2012/03/twitter-
turns-six.html)
• Generación de estadísticas en tiempo real
• Stream Processing => Storm
• Generación de estadísticas sobre los usuarios
• Batch Processing => Hadoop (Map Reduce, Pig)
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
10. Manejo de datos no estructurados
• Ubicación
• 5% de tweets utilizan GeoLocation API
• 72% Ingresan datos de ubicación en forma no
estructurada
• Utilizamos técnicas de NLP e Information Retrieval
para detectar ubicación
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
11. Inferencia de atributos ocultos
• Datos demográficos de usuarios no están presentes
• Tipo de Usuario
• Hombre/Mujer/Compañia
• Rango etario
• Machine Learning al rescate!
• Se utilizan técnicas de aprendizaje supervisado para
detectar dichos atributos
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
12. Demos
Rio+20 Malvinas
Boca vs Universidad de Chile Elecciones en Mexico
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
13. Gracias!
Preguntas?
Visualizaciones en tiempo real sobre Twitter
Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12