Un universo de datos. Elfenómeno Big Data y la Ciencia   Joaquín Salvachúa @ DIT ETSIT UPM        joaquin.salvachua@upm.es
Movimiento browniano• Movimiento aleatorio de particulas en un medio fluido.• Analizado en función de la agregación de los...
Movimiento browniano                social toda la• Actualmente podemos tener información de lo que realiza una persona.• ...
Datos• Análisis en casi tiempo real.• Acceso a mayor cantidad de datos, de todo tipo, relevancia y veracidad.• Posiblidad ...
¿Muerte del método               científico?• ¿Modelo analítico? tengo datos...• Evitar razonar sobre el problema.• Cienci...
Big Data• Capacidad de manipular grandes cantidades heterogeneas de datos.  • Volumen  • Variedad  • Velocidad  • Veracidad
Volumen grande• Es como lo de antes.. pero más    • Bussines intelligence.• ¿Seguro?• ¿Podemos tener una hormiga de 10 m d...
Almacenamiento y          procesado• Diversos enfoques para sistemas distribuidos.• Problemas de resistencia a caidas, dif...
Sistemas de              almacenamiento• BigTable (google GFS ) 2006• Imitado en Hadoop (HDFS)• Almacen clave-valor sin es...
P2P• Sistemas autoregulados y autoconfigurados.• Basados en DHT (Distributed Hash Tables)• Base de los sistemas de compart...
• Sistema deMapReduce            procesado distribuido autoorganizado y autosincronizado.  • Diseñado por google (2004)  •...
Hadoop y otras hierbas.• Proyecto de software libre Apache que replica la infraestructura inicial de google.• Escrito en J...
Relación con        CloudComputing• Despliegue de Hadoop en la nube.• Pagas por lo que gastas.• Soporte en los distintos p...
Variedad• Manipulación de datos no estructurados, ni agregados.• Necesidad de “cocinarlos” previamente.• De múltiples fuen...
Velocidad• Problema en transportar datos de un sensor a un almacenamiento o entre almacenamiento.• Necesidad de procesarlo...
Visualización• Mark Twain : "Lies, damned lies, and statistics Visualization”.• Componente vital de todo análisis.• Parte ...
Privacidad• Cambio en el esquema.• Saben como nos comportamos (tipado de patos// duck-typing ).
¿Nuestros datos?            Internet of things           Socialmedia
IoT & SmartCities• Fuente de datos en crudo.• Abundancia de sensores: nuevos API.• Problemas de almacenamiento: procesado ...
Problemas prácticos• Podemos sintetizar atributos a los que debemos aplicar la ley de protección de datos.    • Inferir se...
Cerrando el bucle
Periodismo de datos• Importancia de saber procesar datos no solo por científicos.• Importante para la sociedad.• OpenData•...
“Los limites de mi lenguajeson los limites de mi mundo”• R : Comunidad y flexibilidad• Julia : Rapidez.• NumPy (selección ...
Problemas clásicos• Lo ha dicho el “BigData”: Eliminación de teletrabajo en Yahoo (Marisa Mayer).• GarbageIn-Garbage-Out
Social Media.• Importancia del analisis basado en ciencia de redes.• Extrapolable a otros campos.• el Grafo social como “m...
Problemas de procesado de         grafos• Almacenamientos poco orientado a análisis de grafos• Nuevos enfoques• (Google Pr...
Future InternetFI-ware Fi-ppp
Triste es pedir... pero más      triste es robar.• Dificultad de acceder a “datasets” interesantes.• ¿Es realmente el nuev...
¿ Preguntas?
Próxima SlideShare
Cargando en…5
×

Un universo de datos. El fenómeno Big Data y la Ciencia

355 visualizaciones

Publicado el

Joaquín Salvachúa, Departamento de Ingeniería de Sistemas Telemáticos (DIT).
Universidad Politécnica de Madrid (UPM).

Jornada 'El impacto de la Nube y el Big Data en la Ciencia'

Publicado en: Tecnología
  • Sé el primero en comentar

Un universo de datos. El fenómeno Big Data y la Ciencia

  1. 1. Un universo de datos. Elfenómeno Big Data y la Ciencia Joaquín Salvachúa @ DIT ETSIT UPM joaquin.salvachua@upm.es
  2. 2. Movimiento browniano• Movimiento aleatorio de particulas en un medio fluido.• Analizado en función de la agregación de los movimientos de las moléculas del agua.• ¿Que ocurriría si tuviesemos acceso a los movimientos de TODAS las moleculas del agua? (en vez de una agregación de datos).
  3. 3. Movimiento browniano social toda la• Actualmente podemos tener información de lo que realiza una persona.• ... Incluso lo que piensa, siente o desea (facebook, twitter, etc).• .. Movimientos (smartCity, smartCar).• El mundo como un gran fuente de datos.
  4. 4. Datos• Análisis en casi tiempo real.• Acceso a mayor cantidad de datos, de todo tipo, relevancia y veracidad.• Posiblidad de almacenarlos todos.• Posiblidad de procesar y guardar TODOS los datos. ( 1 W / n R ).
  5. 5. ¿Muerte del método científico?• ¿Modelo analítico? tengo datos...• Evitar razonar sobre el problema.• Ciencia guiada por datos.• El mundo como experimento (gripe)
  6. 6. Big Data• Capacidad de manipular grandes cantidades heterogeneas de datos. • Volumen • Variedad • Velocidad • Veracidad
  7. 7. Volumen grande• Es como lo de antes.. pero más • Bussines intelligence.• ¿Seguro?• ¿Podemos tener una hormiga de 10 m de largo?
  8. 8. Almacenamiento y procesado• Diversos enfoques para sistemas distribuidos.• Problemas de resistencia a caidas, dificultad de configuración etc.• Evitar que sea necesario manejar dichos datos.
  9. 9. Sistemas de almacenamiento• BigTable (google GFS ) 2006• Imitado en Hadoop (HDFS)• Almacen clave-valor sin estructura.• Discos baratos y fungibles (3 replicas)
  10. 10. P2P• Sistemas autoregulados y autoconfigurados.• Basados en DHT (Distributed Hash Tables)• Base de los sistemas de compartición de ficheros P2P.• Bases de datos NoSQL
  11. 11. • Sistema deMapReduce procesado distribuido autoorganizado y autosincronizado. • Diseñado por google (2004) • Estado en disco. • Dos fases.
  12. 12. Hadoop y otras hierbas.• Proyecto de software libre Apache que replica la infraestructura inicial de google.• Escrito en Java.• Diversas capas para que sea más sencillo usarlo.
  13. 13. Relación con CloudComputing• Despliegue de Hadoop en la nube.• Pagas por lo que gastas.• Soporte en los distintos proveedores.• Engarce con sistemas de almacenamiento y de procesado de valores.
  14. 14. Variedad• Manipulación de datos no estructurados, ni agregados.• Necesidad de “cocinarlos” previamente.• De múltiples fuentes no disjuntas: redundancia.• Sobrepasar las ideas de la fracasada web semántica. (enfoque más pragmatico).
  15. 15. Velocidad• Problema en transportar datos de un sensor a un almacenamiento o entre almacenamiento.• Necesidad de procesarlos rapidamente.• Esquemas similares a multimedia.• Uso de GPUs.• Procesado en “streamming”.
  16. 16. Visualización• Mark Twain : "Lies, damned lies, and statistics Visualization”.• Componente vital de todo análisis.• Parte artistica del análisis.• Nicho de gran futuro.
  17. 17. Privacidad• Cambio en el esquema.• Saben como nos comportamos (tipado de patos// duck-typing ).
  18. 18. ¿Nuestros datos? Internet of things Socialmedia
  19. 19. IoT & SmartCities• Fuente de datos en crudo.• Abundancia de sensores: nuevos API.• Problemas de almacenamiento: procesado distribuido.• Ciudades inteligentes: propiedad emergente de sistemas analizados con BigData.
  20. 20. Problemas prácticos• Podemos sintetizar atributos a los que debemos aplicar la ley de protección de datos. • Inferir sexo, orientación sexual, religión.• Dificultad de la anonimización de los datos: esquemas de federación de busquedas- resultados.
  21. 21. Cerrando el bucle
  22. 22. Periodismo de datos• Importancia de saber procesar datos no solo por científicos.• Importante para la sociedad.• OpenData• Necesidad de entornos sencillos.
  23. 23. “Los limites de mi lenguajeson los limites de mi mundo”• R : Comunidad y flexibilidad• Julia : Rapidez.• NumPy (selección por parte de Darpa)
  24. 24. Problemas clásicos• Lo ha dicho el “BigData”: Eliminación de teletrabajo en Yahoo (Marisa Mayer).• GarbageIn-Garbage-Out
  25. 25. Social Media.• Importancia del analisis basado en ciencia de redes.• Extrapolable a otros campos.• el Grafo social como “mi tesoro”.• Ciencia de las redes.• Necesidad de avances teóricos.
  26. 26. Problemas de procesado de grafos• Almacenamientos poco orientado a análisis de grafos• Nuevos enfoques• (Google Pregel 2010) • ¿ enfoque correcto ?
  27. 27. Future InternetFI-ware Fi-ppp
  28. 28. Triste es pedir... pero más triste es robar.• Dificultad de acceder a “datasets” interesantes.• ¿Es realmente el nuevo petroleo?• Enfoques abiertos y colaborativos.
  29. 29. ¿ Preguntas?

×