Big data Jornada Fundación Ramón Areces

Un universo de datos. El
fenómeno Big Data y la Ciencia

Joaquín Salvachúa @ DIT ETSIT UPM
joaquin.salvachua@upm.es

Movimiento browniano

• Movimiento aleatorio de particulas en un
medio fluido.

• Analizado en función de la agregación de los
movimientos de las moléculas del agua.

• ¿Que ocurriría si tuviesemos acceso a los
movimientos de TODAS las moleculas del
agua? (en vez de una agregación de datos).

Movimiento browniano
social toda la
• Actualmente podemos tener
información de lo que realiza una persona.

• ... Incluso lo que piensa, siente o desea
(facebook, twitter, etc).

• .. Movimientos (smartCity, smartCar).

• El mundo como un gran fuente de datos.

Datos

• Análisis en casi tiempo real.
• Acceso a mayor cantidad de datos, de todo
tipo, relevancia y veracidad.

• Posiblidad de almacenarlos todos.
• Posiblidad de procesar y guardar TODOS los
datos. ( 1 W / n R ).

¿Muerte del método
científico?
• ¿Modelo analítico? tengo datos...
• Evitar razonar sobre el problema.

• Ciencia guiada por datos.

• El mundo como experimento (gripe)

Big Data

• Capacidad de manipular grandes cantidades
heterogeneas de datos.

• Volumen
• Variedad
• Velocidad
• Veracidad

Volumen grande
• Es como lo de antes.. pero más
• Bussines intelligence.
• ¿Seguro?
• ¿Podemos tener una hormiga de 10 m de
largo?

Almacenamiento y
procesado
• Diversos enfoques para sistemas
distribuidos.

• Problemas de resistencia a caidas, dificultad
de configuración etc.

• Evitar que sea necesario manejar dichos
datos.

Sistemas de
almacenamiento
• BigTable (google GFS ) 2006
• Imitado en Hadoop (HDFS)

• Almacen clave-valor sin estructura.

• Discos baratos y fungibles (3 replicas)

P2P
• Sistemas autoregulados y autoconfigurados.
• Basados en DHT (Distributed Hash Tables)

• Base de los sistemas de compartición de
ficheros P2P.

• Bases de datos NoSQL

• Sistema deMapReduce
procesado distribuido
autoorganizado y autosincronizado.

• Diseñado por google (2004)
• Estado en disco.
• Dos fases.

Hadoop y otras hierbas.

• Proyecto de software libre Apache que
replica la infraestructura inicial de google.

• Escrito en Java.
• Diversas capas para que sea más sencillo
usarlo.

Relación con
CloudComputing
• Despliegue de Hadoop en la nube.
• Pagas por lo que gastas.

• Soporte en los distintos proveedores.
• Engarce con sistemas de almacenamiento y
de procesado de valores.

Variedad
• Manipulación de datos no estructurados, ni
agregados.

• Necesidad de “cocinarlos” previamente.
• De múltiples fuentes no disjuntas:
redundancia.

• Sobrepasar las ideas de la fracasada web
semántica. (enfoque más pragmatico).

Velocidad
• Problema en transportar datos de un sensor
a un almacenamiento o entre
almacenamiento.

• Necesidad de procesarlos rapidamente.
• Esquemas similares a multimedia.
• Uso de GPUs.
• Procesado en “streamming”.

Visualización

• Mark Twain : "Lies, damned lies, and
statistics Visualization”.

• Componente vital de todo análisis.
• Parte artistica del análisis.

• Nicho de gran futuro.

Privacidad
• Cambio en el esquema.
• Saben como nos comportamos (tipado de
patos// duck-typing ).

¿Nuestros datos?

Internet of things

Socialmedia

IoT & SmartCities
• Fuente de datos en crudo.
• Abundancia de sensores: nuevos API.
• Problemas de almacenamiento: procesado
distribuido.

• Ciudades inteligentes: propiedad emergente
de sistemas analizados con BigData.

Problemas prácticos
• Podemos sintetizar atributos a los que
debemos aplicar la ley de protección de
datos.

• Inferir sexo, orientación sexual, religión.

• Dificultad de la anonimización de los datos:
esquemas de federación de busquedas-
resultados.

Periodismo de datos

• Importancia de saber procesar datos no solo
por científicos.

• Importante para la sociedad.
• OpenData

• Necesidad de entornos sencillos.

“Los limites de mi lenguaje
son los limites de mi mundo”
• R : Comunidad y flexibilidad

• Julia : Rapidez.

• NumPy (selección por parte de Darpa)

Problemas clásicos

• Lo ha dicho el “BigData”: Eliminación de
teletrabajo en Yahoo (Marisa Mayer).

• GarbageIn-Garbage-Out

Social Media.

• Importancia del analisis basado en ciencia
de redes.

• Extrapolable a otros campos.
• el Grafo social como “mi tesoro”.
• Ciencia de las redes.
• Necesidad de avances teóricos.

Problemas de procesado de
grafos
• Almacenamientos poco orientado a análisis
de grafos

• Nuevos enfoques
• (Google Pregel 2010)
• ¿ enfoque correcto ?

Future Internet
FI-ware Fi-ppp

Triste es pedir... pero más
triste es robar.
• Dificultad de acceder a “datasets”
interesantes.

• ¿Es realmente el nuevo petroleo?

• Enfoques abiertos y colaborativos.

Big data Jornada Fundación Ramón Areces

Más contenido relacionado

Destacado

Similar a Big data Jornada Fundación Ramón Areces

Más de Joaquín Salvachúa

Último

Big data Jornada Fundación Ramón Areces