2. 2Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Cita para empezar
“Data is arguably the most important natural resource
of this century… Big data is big news just about
everywhere you go these days. Here in Texas,
everything is big, so we just call it data”
Michael Dell, 2014
3. 3Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
(Otra) Cita para empezar
“Big Data is like teenage sex: everyone talks about it,
nobody really knows how to do it, everyone thinks
everyone else is doing it, so everyone claims they are
doing it...”
Dan Ariely, 2013
4. 4Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
La “novedad” del Big Data
El término Big Data se acuñó en 1997, por
investigadores de la NASA
http://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whats-yours/#5fdbc76b21a9
5. 5Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué es?
El término Big Data se aplica a la acumulación de
datos que no pueden ser gestionados mediante
técnicas o herramientas tradicionales
6. 6Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Las 4 V’s (De la WWW a la VVVV)
https://www.google.com/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=0ahUKEwjNrorFnb7PAhWDVRQKHbicBU4QjhwIBQ&url=https%3A%2F%2Fwww.pinterest.com%2Fpin%2F6811
7013088528571%2F&bvm=bv.134495766,d.cWw&psig=AFQjCNHZWVdNvv1kvp9Y83IPV6mVPx2tcA&ust=1475570120075246
7. 7Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Acumulación de Datos
Los sensores existen desde hace décadas, pero:
1. El bajo consumo
2. El abaratamiento de los dispositivos
3. Las comunicaciones inalámbricas
Marcan un nuevo rumbo y propician la llegada de la
nueva sociedad de la información
8. 8Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Accesibilidad de Dispositivos
¿Hay algo extraño en esta imagen? ¿Qué falta/sobra?
9. 9Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Accesibilidad de Dispositivos
¿Hay algo extraño en esta imagen? ¿Qué falta/sobra?
10. 10Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
La huella digital
Una idea básica detrás del Big Data es que todo lo
que hacemos, deja una huella digital (datos), la cual
podemos usar y analizar.
○ Tarjetas de crédito
○ Teléfonos móviles
○ Redes sociales
○ Proveedores de Internet
○ Tarjeta de fidelización de mercado
http://www.privacidadlogica.es/2012/05/31/modelo-de-informe-sobre-sistema-de-control-horario-basado-en-huella-digital/
11. 11Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Damos (nuestros) datos a cambio de...?
12. 12Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿O a cambio de “nada”?
13. 13Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Se usan (nuestros) datos en contra?
http://fusion.net/story/158292/fitbit-data-just-undermined-a-womans-rape-claim/
14. 14Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Dónde están mis datos?
15. 15Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
“La cantidad de información que
nuestra sociedad genera es difícil de
cuantificar, pero una estimación
sostiene que creamos más datos cada
año, que la que ha sido producida en
toda la historia humana anterior”
New York Times
16. 16Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
El cuarto paradigma
Fuente: http://www.slideshare.net/TechnetFrance/rec201-mstechdaysfinal130213033305phpapp02-19779391
17. 17Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Datos → Materia Prima → $$$$
“To get the full business value from big data,
companies need to focus less on the three Vs of big
data and more on the four Ms of big data: Make Me
More Money!”
Bill Schmarzo, 2051
http://www.ft.com/intl/cms/s/2/927ca86e-d29b-11e2-88ed-00144feab7de.html#axzz2z2agBB6R
18. 18Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿De dónde viene esto?
http://es.slideshare.net/wso2.org/apibig-data-21617828
19. 19Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data Casos reales
El saber qué estamos viendo, gracias a televisiones
equipadas con:
○ Cámaras
○ Micrófonos
http://www.nbcnews.com/tech/tech-news/your-tv-watching-you
-latest-models-raise-concerns-f483619
20. 20Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data Casos reales
Ofrecer tarifas reducidas a “buenos conductores”
http://www.nytimes.com/2012/11/25/business/seeking-cheaper
-insurance-drivers-accept-monitoring-devices.html
21. 21Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data Casos reales
Análisis automático de candidatos a trabajo
http://www.theatlantic.com/magazine/archive/2013/12/theyre-watching-you-at-work/354681/
22. 22Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data Casos reales
Predecir el éxito en taquilla antes del estreno
http://www.newyorker.com/archive/2006/10/16/061016fa_fact6?currentPage=all
23. 23Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data Casos reales
En el pasado, vendedores y autores no podían saber
cuándo se sienta el lector a leer, cuánto lee, si se
cansa de leer…
24. 24Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data
● Los beneficios que una empresa puede obtener
son claros:
○ Conocimiento de sus clientes, mercados, productos, etc,
○ Redundando esto en nuevos mercados, nuevos segmentos
○ Alineamiento de la empresa a los clientes
○ …
● En definitiva nuevos ingresos y ahorros
25. 25Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Impacto Big Data
Oportunidades que se enmarcan en la era de la
personalización y especialización que demanda un
cliente exigente e informado
Fuente: http://www.luxortec.com/blog/camino-a-una-estrategia-centrada-en-el-cliente/
26. 26Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
El cambio
27. 27Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
El científico de datos
(Ese mago de la era del big data)
https://www.linkedin.com/pulse/junior-data-scientist-lisboa-miguel-reis
28. 28Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
El científico de datos
https://github.com/okulbilisim/awesome-datascience
29. 29Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Nuevo?
Término acuñado en 1998
“Los estadístas deben ser renombrados científicos de datos, ya
que pasan la mayor parte del tiempo manipulando y
experimentando con datos“
Chien-Fu Jeff Wu, en un discurso inaugural de la Universidad de Michigan
(Traducción Libre)
Término matizado en 2001 para incorporar “avances
recientes en la computación con datos”
Data science: an action plan for expanding the technical areas of the field of statistics
(International Statistical Review, 69, 21-26)
30. 30Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Knowledge Discovery from Databases
31. 31Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
Knowledge Discovery from Databases
BIG
32. 32Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
The Awesome Nerds
33. 33Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Integra Información
Grandes <Cantidades, fuentes, velocidades, ...> de
datos requieren de:
○ Nuevas arquitecturas para el almacenamiento de la
información
○ Nuevos métodos para su acceso y manipulación
○ Adaptación de métodos para su ejecución en paralelo
34. 34Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Integra Información
● Agrupar y unificar la información
● Unificación de la información:
○ Información interna: BBDD, hojas de cálculo, informes,…
○ Estudios publicados (demografía, catálogos, páginas, …)
○ Otras bases de datos (compradas, industrias/empresas
afines,…)
35. 35Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Transforma datos
● Transformar datos
○ Calcular totales/promedios de múltiples filas de datos
○ Dividir una columna en varias
○ Normalizar escalas
36. 36Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Limpia datos
● Limpiar datos
○ Problemas con el ingreso humano
○ Redundancias en los datos
○ Datos obsoletos
○ Datos inconsistentes con la realidad
○ Datos inconsistentes entre sí
37. 37Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Generar atributos
● Relevantes para la aplicación:
○ “01/01/2016” → MES = Enero
○ “01/01/2016” → DIA_DEL_MES = 1
○ “01/01/2016” → FESTIVO = TRUE
○ “01/01/2016” → FIN_DE_SEMANA = FALSE
○ “01/01/2016” → HOROSCOPO = CAPRICORNIO
38. 38Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Generar atributos
● Relevantes para la aplicación:
○ Número de compras
○ Antiguedad
○ Frecuencia de compra
○ Compra promedio (gasto promedio)
○ Categoría de productos adquiridos más frecuentemente
○ Preferencias de envío (ordinario o urgente)
○ Tipo de cliente (Normal o premium)
○ Nacional/Internacional
○ Distancia
39. 39Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Elimina atributos
● Sin relevancia (o significado) para la aplicación
○ Fecha de Nacimiento & Edad
○ Color de ojos
○ Identificador
40. 40Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Trata valores perdidos
● ¿El que no haya información, es información?
○ Fecha de nacimiento = ¿?
○ Nombre del cónyuge = ¿?
● ¿Se puede rellenar la información?
41. 41Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Trata valores anómalos
● 35º de temperatura no es un valor extraño, pero si
estamos en febrero...
○ ¿Se trata de un error?
○ ¿Es un valor verídico (pero atípico)?
42. 42Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Construye modelos...
● Supervisados → Predictivos
○ Tenemos datos “etiquetados”
■ Con la clase deseada (Clasificación)
■ Con el valor esperado (Regresión)
○ Realizan predicciones del valor de salida a partir de datos
43. 43Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Construye modelos...
● No-Supervisados → Descriptivos
○ Queremos conocer la estructura de los datos
■ Buscar agrupaciones de datos (Clustering)
■ Busca asociaciones dentro de los datos (Asociación)
■ Encontrar correlaciones entre datos
B
read→
M
ilk
44. 44Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Compara modelos...
45. 45Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Aplica modelos
● Utiliza las reglas de asociación para
○ Enfocar ventas cruzadas
○ Recomendar productos que puedan interesar
○ Gestionar la posición de los productos
○ Gestionar inventarios
○ Limitar descuentos especiales a sólo uno de los dos
productos que tienden a comprarse juntos
○ Ofrecer cupones descuento para el producto
“complementario”, cuando uno de los productos se venda
por separado
46. 46Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Aplica modelos
● Utiliza las agrupaciones obtenidas para
○ Generar perfiles de clientes
○ Enviar campañas/descuentos a colectivos con intereses
similares
○ Identificar anomalías
47. 47Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
¿Qué hace? Aplica modelos
● Utiliza modelos de clasificación para
○ Predecir la fuga de clientes en función de las acciones de
clientes pasados
○ Con la actividad de una tarjeta, ¿es la operación
fraudulenta?
● Utiliza modelos de regresión para
○ Dada la descripción de un piso, ¿cuál será el precio de
venta?
○ Dado el historial de transacciones, ¿cuáles serán las ventas
el próximo año?
○ Predecir el éxito de una campaña
48. 48Big Data: Impacto del procesamiento masivo de datos Enrique Onieva Caracuel
Bilbao Tech Week Octubre - 2016 @EnriqueOnieva
The Awesome Nerds
49. Bilbao Tech Week
http://www.bilbaotechweek.com/
3 - 6 de Octubre de 2016
Copyright (c) 2016 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the
Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-sa/3.0/