Un universo de datos. El
fenómeno Big Data y la Ciencia

   Joaquín Salvachúa @ DIT ETSIT UPM
        joaquin.salvachua@upm.es
Movimiento browniano

• Movimiento aleatorio de particulas en un
 medio fluido.

• Analizado en función de la agregación de los
 movimientos de las moléculas del agua.



• ¿Que ocurriría si tuviesemos acceso a los
 movimientos de TODAS las moleculas del
 agua? (en vez de una agregación de datos).
Movimiento browniano
                social toda la
• Actualmente podemos tener
 información de lo que realiza una persona.

• ... Incluso lo que piensa, siente o desea
 (facebook, twitter, etc).

• .. Movimientos (smartCity, smartCar).




• El mundo como un gran fuente de datos.
Datos

• Análisis en casi tiempo real.
• Acceso a mayor cantidad de datos, de todo
 tipo, relevancia y veracidad.

• Posiblidad de almacenarlos todos.
• Posiblidad de procesar y guardar TODOS los
 datos. ( 1 W / n R ).
¿Muerte del método
               científico?
• ¿Modelo analítico? tengo datos...
• Evitar razonar sobre el problema.


• Ciencia guiada por datos.


• El mundo como experimento (gripe)
Big Data

• Capacidad de manipular grandes cantidades
 heterogeneas de datos.

  • Volumen
  • Variedad
  • Velocidad
  • Veracidad
Volumen grande
• Es como lo de antes.. pero más
    • Bussines intelligence.
• ¿Seguro?
• ¿Podemos tener una hormiga de 10 m de
 largo?
Almacenamiento y
          procesado
• Diversos enfoques para sistemas
 distribuidos.

• Problemas de resistencia a caidas, dificultad
 de configuración etc.



• Evitar que sea necesario manejar dichos
 datos.
Sistemas de
              almacenamiento
• BigTable (google GFS ) 2006
• Imitado en Hadoop (HDFS)


• Almacen clave-valor sin estructura.


• Discos baratos y fungibles (3 replicas)
P2P
• Sistemas autoregulados y autoconfigurados.
• Basados en DHT (Distributed Hash Tables)


• Base de los sistemas de compartición de
 ficheros P2P.

• Bases de datos NoSQL
• Sistema deMapReduce
            procesado distribuido
 autoorganizado y autosincronizado.

  • Diseñado por google (2004)
  • Estado en disco.
  • Dos fases.
Hadoop y otras hierbas.


• Proyecto de software libre Apache que
 replica la infraestructura inicial de google.

• Escrito en Java.
• Diversas capas para que sea más sencillo
 usarlo.
Relación con
        CloudComputing
• Despliegue de Hadoop en la nube.
• Pagas por lo que gastas.


• Soporte en los distintos proveedores.
• Engarce con sistemas de almacenamiento y
 de procesado de valores.
Variedad
• Manipulación de datos no estructurados, ni
 agregados.

• Necesidad de “cocinarlos” previamente.
• De múltiples fuentes no disjuntas:
 redundancia.



• Sobrepasar las ideas de la fracasada web
 semántica. (enfoque más pragmatico).
Velocidad
• Problema en transportar datos de un sensor
 a un almacenamiento o entre
 almacenamiento.



• Necesidad de procesarlos rapidamente.
• Esquemas similares a multimedia.
• Uso de GPUs.
• Procesado en “streamming”.
Visualización

• Mark Twain : "Lies, damned lies, and
 statistics Visualization”.

• Componente vital de todo análisis.
• Parte artistica del análisis.


• Nicho de gran futuro.
Privacidad
• Cambio en el esquema.
• Saben como nos comportamos (tipado de
 patos// duck-typing ).
¿Nuestros datos?




            Internet of things



           Socialmedia
IoT & SmartCities
• Fuente de datos en crudo.
• Abundancia de sensores: nuevos API.
• Problemas de almacenamiento: procesado
 distribuido.



• Ciudades inteligentes: propiedad emergente
 de sistemas analizados con BigData.
Problemas prácticos
• Podemos sintetizar atributos a los que
 debemos aplicar la ley de protección de
 datos.

    • Inferir sexo, orientación sexual, religión.


• Dificultad de la anonimización de los datos:
 esquemas de federación de busquedas-
 resultados.
Cerrando el bucle
Periodismo de datos

• Importancia de saber procesar datos no solo
 por científicos.

• Importante para la sociedad.
• OpenData


• Necesidad de entornos sencillos.
“Los limites de mi lenguaje
son los limites de mi mundo”
• R : Comunidad y flexibilidad


• Julia : Rapidez.


• NumPy (selección por parte de Darpa)
Problemas clásicos

• Lo ha dicho el “BigData”: Eliminación de
 teletrabajo en Yahoo (Marisa Mayer).




• GarbageIn-Garbage-Out
Social Media.

• Importancia del analisis basado en ciencia
 de redes.

• Extrapolable a otros campos.
• el Grafo social como “mi tesoro”.
• Ciencia de las redes.
• Necesidad de avances teóricos.
Problemas de procesado de
         grafos
• Almacenamientos poco orientado a análisis
 de grafos



• Nuevos enfoques
• (Google Pregel 2010)
  • ¿ enfoque correcto ?
Future Internet
FI-ware Fi-ppp
Triste es pedir... pero más
      triste es robar.
• Dificultad de acceder a “datasets”
 interesantes.



• ¿Es realmente el nuevo petroleo?


• Enfoques abiertos y colaborativos.
¿ Preguntas?

Big data Jornada Fundación Ramón Areces

  • 1.
    Un universo dedatos. El fenómeno Big Data y la Ciencia Joaquín Salvachúa @ DIT ETSIT UPM joaquin.salvachua@upm.es
  • 2.
    Movimiento browniano • Movimientoaleatorio de particulas en un medio fluido. • Analizado en función de la agregación de los movimientos de las moléculas del agua. • ¿Que ocurriría si tuviesemos acceso a los movimientos de TODAS las moleculas del agua? (en vez de una agregación de datos).
  • 3.
    Movimiento browniano social toda la • Actualmente podemos tener información de lo que realiza una persona. • ... Incluso lo que piensa, siente o desea (facebook, twitter, etc). • .. Movimientos (smartCity, smartCar). • El mundo como un gran fuente de datos.
  • 4.
    Datos • Análisis encasi tiempo real. • Acceso a mayor cantidad de datos, de todo tipo, relevancia y veracidad. • Posiblidad de almacenarlos todos. • Posiblidad de procesar y guardar TODOS los datos. ( 1 W / n R ).
  • 5.
    ¿Muerte del método científico? • ¿Modelo analítico? tengo datos... • Evitar razonar sobre el problema. • Ciencia guiada por datos. • El mundo como experimento (gripe)
  • 6.
    Big Data • Capacidadde manipular grandes cantidades heterogeneas de datos. • Volumen • Variedad • Velocidad • Veracidad
  • 7.
    Volumen grande • Escomo lo de antes.. pero más • Bussines intelligence. • ¿Seguro? • ¿Podemos tener una hormiga de 10 m de largo?
  • 8.
    Almacenamiento y procesado • Diversos enfoques para sistemas distribuidos. • Problemas de resistencia a caidas, dificultad de configuración etc. • Evitar que sea necesario manejar dichos datos.
  • 9.
    Sistemas de almacenamiento • BigTable (google GFS ) 2006 • Imitado en Hadoop (HDFS) • Almacen clave-valor sin estructura. • Discos baratos y fungibles (3 replicas)
  • 10.
    P2P • Sistemas autoreguladosy autoconfigurados. • Basados en DHT (Distributed Hash Tables) • Base de los sistemas de compartición de ficheros P2P. • Bases de datos NoSQL
  • 11.
    • Sistema deMapReduce procesado distribuido autoorganizado y autosincronizado. • Diseñado por google (2004) • Estado en disco. • Dos fases.
  • 12.
    Hadoop y otrashierbas. • Proyecto de software libre Apache que replica la infraestructura inicial de google. • Escrito en Java. • Diversas capas para que sea más sencillo usarlo.
  • 13.
    Relación con CloudComputing • Despliegue de Hadoop en la nube. • Pagas por lo que gastas. • Soporte en los distintos proveedores. • Engarce con sistemas de almacenamiento y de procesado de valores.
  • 14.
    Variedad • Manipulación dedatos no estructurados, ni agregados. • Necesidad de “cocinarlos” previamente. • De múltiples fuentes no disjuntas: redundancia. • Sobrepasar las ideas de la fracasada web semántica. (enfoque más pragmatico).
  • 15.
    Velocidad • Problema entransportar datos de un sensor a un almacenamiento o entre almacenamiento. • Necesidad de procesarlos rapidamente. • Esquemas similares a multimedia. • Uso de GPUs. • Procesado en “streamming”.
  • 16.
    Visualización • Mark Twain: "Lies, damned lies, and statistics Visualization”. • Componente vital de todo análisis. • Parte artistica del análisis. • Nicho de gran futuro.
  • 17.
    Privacidad • Cambio enel esquema. • Saben como nos comportamos (tipado de patos// duck-typing ).
  • 18.
    ¿Nuestros datos? Internet of things Socialmedia
  • 19.
    IoT & SmartCities •Fuente de datos en crudo. • Abundancia de sensores: nuevos API. • Problemas de almacenamiento: procesado distribuido. • Ciudades inteligentes: propiedad emergente de sistemas analizados con BigData.
  • 20.
    Problemas prácticos • Podemossintetizar atributos a los que debemos aplicar la ley de protección de datos. • Inferir sexo, orientación sexual, religión. • Dificultad de la anonimización de los datos: esquemas de federación de busquedas- resultados.
  • 21.
  • 22.
    Periodismo de datos •Importancia de saber procesar datos no solo por científicos. • Importante para la sociedad. • OpenData • Necesidad de entornos sencillos.
  • 23.
    “Los limites demi lenguaje son los limites de mi mundo” • R : Comunidad y flexibilidad • Julia : Rapidez. • NumPy (selección por parte de Darpa)
  • 24.
    Problemas clásicos • Loha dicho el “BigData”: Eliminación de teletrabajo en Yahoo (Marisa Mayer). • GarbageIn-Garbage-Out
  • 25.
    Social Media. • Importanciadel analisis basado en ciencia de redes. • Extrapolable a otros campos. • el Grafo social como “mi tesoro”. • Ciencia de las redes. • Necesidad de avances teóricos.
  • 26.
    Problemas de procesadode grafos • Almacenamientos poco orientado a análisis de grafos • Nuevos enfoques • (Google Pregel 2010) • ¿ enfoque correcto ?
  • 27.
  • 28.
    Triste es pedir...pero más triste es robar. • Dificultad de acceder a “datasets” interesantes. • ¿Es realmente el nuevo petroleo? • Enfoques abiertos y colaborativos.
  • 29.