BIG DATA: Extraer y visualizar grandes volúmenes de datos



                        Visualizaciones en tiempo real
                                 sobre Twitter
                              Fernando Zunino                  Pauline Morrison Fell
                              @fzunino                         @polinmf


Thursday, June 21, 12
Acerca de Zauber
                        •    Somos una boutique de software y lab con base en Argentina y
                             Estados Unidos que provee servicios a una alta gama de líderes
                             de la industria y startups de internet en América Latina y Silicon
                             Valley.

                        •    Nos especializamos en proyectos de Consumer Web, Social
                             Analytics y Big Data. Combinamos nuestros servicios de
                             desarrollo boutique con un laboratorio de I+D para desarrollar
                             nuevos emprendimientos y productos.



                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Nuestra experiencia con Twitter APIs


     Al Jazeera - Twitter Dashboard                        CABA - Elecciones legislativas 2011          JSConfAr - Visualizing Tweets




     Coca Cola - Social World Cup                          La Nacion - Elecciones presidenciales 2011   Zauberlabs - Tweet Discover



                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Análisis de
                                                                                     audiencias
                                                                                       online

                             Value insights on social audiences and conversations

         Plataforma online que:
              •         Procesa social media data a gran escala para entregar
                        reportes en tiempo real

              •         Identifica patrones demográficos y de comportamiento
                        de seguidores y conversaciones en Twitter

              •         Usa ML y NLP para entregar perfiles sociales aumentados
                        con información nueva respecto de APIs existentes o
                        perfiles de usuarios.
         Diseñada para:
              •         Investigación de mercado online
              •         Monitoreo de marcas en tiempo real
              •         ROI en Social Media
              •         Estrategias en Social Media



                         Visualizaciones en tiempo real sobre Twitter
                         Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Visualizacio-
                                                                                     nes animadas
                                                                                      de Twitter

                          Build your own Twitter real-time visualizations

        Plataforma online que permite:

              •         Construir infografías animadas sobre temas
                        en Twitter

              •         Enriquecer noticias con contenido social

              •         Ofrecer una segunda pantalla para un programa de TV

              •         Aumentar la participación en un evento

              •         Cubrir el buzz en eventos grandes o internacionales

         Diseñada para:

              •         Periodistas, Bloggers, Directores de Contenido,
                        Marketeers, Organizadores de Eventos, Emisoras



                         Visualizaciones en tiempo real sobre Twitter
                         Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Cómo lo construimos
      FRONTEND                                                                       BACKEND

                                                                                                     Storm

                                                                                                               Oozie



      INFRAESTRUCTURA                                                                TWITTER API


                                                                                                   Rest API
                             ELB, EC2, S3                                                           Streaming API
                         Elastic Map Reduce
                        Route53, CloudWatch




                         Visualizaciones en tiempo real sobre Twitter
                         Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Desafíos tecnológicos

                        •    Límites API Twitter

                        •    Big Data

                        •    Manejo de datos no estructurados

                        •    Inferencia de atributos ocultos




                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Límites API Twitter

                        •    Rest API limitada a 350 requests por ahora por IP

                        •    Streaming API (statuses/filter) está limitada si tweets exceden el
                             1% del Firehose
                            •    Partners de Twitter (Gnip, DataSift) pueden ser una opción para
                                 obtener un acceso mayor




                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Big Data
                            •    Twitter en #
                                     •    400M tweets por dia (http://www.theverge.com/
                                          2012/6/6/3069424/twitter-400-million-total-daily-tweets)
                                     •    140M usuarios activos (http://blog.twitter.com/2012/03/twitter-
                                          turns-six.html)

                            •    Generación de estadísticas en tiempo real
                                     •    Stream Processing => Storm

                            •    Generación de estadísticas sobre los usuarios
                                     •    Batch Processing => Hadoop (Map Reduce, Pig)


                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Manejo de datos no estructurados
                           •    Ubicación

                               •     5% de tweets utilizan GeoLocation API

                               •     72% Ingresan datos de ubicación en forma no
                                     estructurada

                               •     Utilizamos técnicas de NLP e Information Retrieval
                                     para detectar ubicación




                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Inferencia de atributos ocultos
                                •     Datos demográficos de usuarios no están presentes

                                       •     Tipo de Usuario

                                           •    Hombre/Mujer/Compañia

                                       •     Rango etario

                                •     Machine Learning al rescate!

                                       •     Se utilizan técnicas de aprendizaje supervisado para
                                             detectar dichos atributos


                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Demos


                 Rio+20                                                             Malvinas




                  Boca vs Universidad de Chile                                      Elecciones en Mexico

                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Gracias!




                                                             Preguntas?
                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12

Big Data : Extraer y visualizar grandes volúmenes de datos

  • 1.
    BIG DATA: Extraery visualizar grandes volúmenes de datos Visualizaciones en tiempo real sobre Twitter Fernando Zunino Pauline Morrison Fell @fzunino @polinmf Thursday, June 21, 12
  • 2.
    Acerca de Zauber • Somos una boutique de software y lab con base en Argentina y Estados Unidos que provee servicios a una alta gama de líderes de la industria y startups de internet en América Latina y Silicon Valley. • Nos especializamos en proyectos de Consumer Web, Social Analytics y Big Data. Combinamos nuestros servicios de desarrollo boutique con un laboratorio de I+D para desarrollar nuevos emprendimientos y productos. Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 3.
    Nuestra experiencia conTwitter APIs Al Jazeera - Twitter Dashboard CABA - Elecciones legislativas 2011 JSConfAr - Visualizing Tweets Coca Cola - Social World Cup La Nacion - Elecciones presidenciales 2011 Zauberlabs - Tweet Discover Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 4.
    Análisis de audiencias online Value insights on social audiences and conversations Plataforma online que: • Procesa social media data a gran escala para entregar reportes en tiempo real • Identifica patrones demográficos y de comportamiento de seguidores y conversaciones en Twitter • Usa ML y NLP para entregar perfiles sociales aumentados con información nueva respecto de APIs existentes o perfiles de usuarios. Diseñada para: • Investigación de mercado online • Monitoreo de marcas en tiempo real • ROI en Social Media • Estrategias en Social Media Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 5.
    Visualizacio- nes animadas de Twitter Build your own Twitter real-time visualizations Plataforma online que permite: • Construir infografías animadas sobre temas en Twitter • Enriquecer noticias con contenido social • Ofrecer una segunda pantalla para un programa de TV • Aumentar la participación en un evento • Cubrir el buzz en eventos grandes o internacionales Diseñada para: • Periodistas, Bloggers, Directores de Contenido, Marketeers, Organizadores de Eventos, Emisoras Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 6.
    Cómo lo construimos FRONTEND BACKEND Storm Oozie INFRAESTRUCTURA TWITTER API Rest API ELB, EC2, S3 Streaming API Elastic Map Reduce Route53, CloudWatch Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 7.
    Desafíos tecnológicos • Límites API Twitter • Big Data • Manejo de datos no estructurados • Inferencia de atributos ocultos Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 8.
    Límites API Twitter • Rest API limitada a 350 requests por ahora por IP • Streaming API (statuses/filter) está limitada si tweets exceden el 1% del Firehose • Partners de Twitter (Gnip, DataSift) pueden ser una opción para obtener un acceso mayor Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 9.
    Big Data • Twitter en # • 400M tweets por dia (http://www.theverge.com/ 2012/6/6/3069424/twitter-400-million-total-daily-tweets) • 140M usuarios activos (http://blog.twitter.com/2012/03/twitter- turns-six.html) • Generación de estadísticas en tiempo real • Stream Processing => Storm • Generación de estadísticas sobre los usuarios • Batch Processing => Hadoop (Map Reduce, Pig) Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 10.
    Manejo de datosno estructurados • Ubicación • 5% de tweets utilizan GeoLocation API • 72% Ingresan datos de ubicación en forma no estructurada • Utilizamos técnicas de NLP e Information Retrieval para detectar ubicación Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 11.
    Inferencia de atributosocultos • Datos demográficos de usuarios no están presentes • Tipo de Usuario • Hombre/Mujer/Compañia • Rango etario • Machine Learning al rescate! • Se utilizan técnicas de aprendizaje supervisado para detectar dichos atributos Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 12.
    Demos Rio+20 Malvinas Boca vs Universidad de Chile Elecciones en Mexico Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 13.
    Gracias! Preguntas? Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12