Big Data

Valor y Mercado

Óscar Marín Miró
@outliers_es
www.outliers.es

1
Contenidos
¿Qué es Big Data?
‣Historia
‣Las 3 V’s
‣Problema, Solución y Fenómeno

Valor del Big Data
‣Los Gigantes de la Generación de Datos
‣Nadamos en un mar de datos
‣Sectores de Aplicación

Pitfalls

‣Data vs Big Data
‣Data Science vs Big Data
‣Costes ocultos

Herramientas
+Escenarios
‣Ecosistema Hadoop
‣NoSQL
‣Real-time

Bibliografía
2
¿Qué es el Big Data?

“Data will help us” - Jonathan Harris
3
Historia

http:/
/assets.outliers.es/infographics/BigData_A_Brief_History.pdf

4
¿Qué es el Big Data?
“Big Data is a collection of data sets so large
and complex that it becomes difficult to
process using on-hand database management
tools or traditional data processing
applications”

http://en.wikipedia.org/wiki/Big_data
5
¿Qué es el Big Data?
-

Big Data y las 3 ‘V’

-

Velocidad
Volumen
Variedad

http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-DataVolume-Velocity-and-Variety.pdf

6
¿Qué es el Big Data? (de verdad)
- Twitter: 340 millones de

tweets diarios (~= 1TB/día)

- Facebook: 800 millones de
status diarios

- Google: 1000 millones de
consultas diarias

http:/
/www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocityand-volume-from-structuredata-2012
7
¿Qué es el Big Data? (de verdad)

Explosión de Uso

Explosión Social

Explosión Móvil
8
Big Data: Dimensiones
‣Problema: 3 V’s
‣Solución: Herramientas
‣Fenómeno: Posibilidades

9
El Valor de Big Data

http://labratrevenge.com/pdx

10
El Valor de Big Data
http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg
11
El Valor de Big Data:
Big Data Analysis
‣Estadístico
‣Texto
‣Análisis de Redes Sociales
‣Análisis GeoEspacial

12
El Valor de Big Data:
Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación
‣Customer Insights
‣Growth Hacking
‣Salud
‣Escalabilidad

13
El Valor de Big Data:
Publicidad

https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
14
El Valor de Big Data:
Customer Insights

http://innovabbva.outliers.es/mapas.html
15
El Valor de Big Data:
Growth Hacking
‣Impactos de tests A/B
‣Incrementar el Retention Rate
‣Incrementar los leads
‣Incremental el engagement

16
El Valor de Big Data:
Growth Hacking

https://www.youtube.com/watch?v=eqeS8US10_k
17
El Valor de Big Data:
Salud

https://www.23andme.com/ancestry/
18
El Valor de Big Data
Ciencias Sociales

http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/
#network-type-6-support-network
19
El Valor de Big Data:
Publicidad

http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html

20
El Valor de Big Data
Escalabilidad

http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
21
El Valor de Big Data
Antropología

http://www.ted.com/talks/what_we_learned_from_5_million_books.html
http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/
22
El Valor de Big Data
Urbanismo

http://bcnbeats.outliers.es/

23
Big Data Pitfalls

24
Big Data vs Data
‣Big Data ~= MB/s o volúmenes de TB
‣El 90% de los trabajos hablan de Big Data y
quieren decir Data
‣No es lo mismo coger datos de Twitter
que ser Twitter
‣Se confunde el fenómeno con el problema

25
Data Science vs Big Data
‣Técnicamente:
‣Data Science crea modelos
‣Big Data provee de infraestructura
‣En la práctica:
‣Si creas un modelo a partir de una

muestra de Big Data haces Big Data
‣Los perfiles son COMPLETAMENTE
diferentes!!
‣Big Data sin Data Science no es NADA
26
Big Data: Costes Ocultos
‣Computer Science First, Big Data Second!!
‣Probar en muestras significativas, SIEMPRE
‣Llegar hasta la presentación de los datos
con la muestra, lo más rápido posible
‣Funcionar con hipótesis

27
Herramientas

28
El ecosistema Hadoop
¿Qué es un Cluster Hadoop?
Un conjunto de servidores (nodos), sobre el que se
ejecutan procesos MapReduce y que comparten
datos mediante HDFS (Hadoop Distributed File
System

29
Ecosistema Hadoop
MAPREDUCE: Divide y vencerás
MAP:
Función de procesado.
Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’
La función ‘map’ es sin estado

REDUCE
Función de reducción
La salida del map es la entrada del reduce
Se usa para consolidar y eliminar redundancias

30
Ecosistema Hadoop
MAPREDUCE: Contar las palabras de
un fichero
MAP:
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>
REDUCE:
< Hello, 1>
< World, 2>
< Bye, 1>

31
Ecosistema Hadoop
MAPREDUCE: Control

‣ Se ejecutan ‘jobs’ que el framework divide
en ‘tasks’

‣ Master JobTracker
‣ TaskTracker por nodo
32
Ecosistema Hadoop
HDFS

‣ Implementa un único sistema de ficheros
‘juntando las capacidades’ de todos los
nodos

‣ Es transparente para el programador
‣ Se implementa tolerancia a fallos con nodos
de ‘backup’

33
Ecosistema Hadoop
HDFS

http://codemphasis.wordpress.com/2012/09/27/big-data-hadoop-hdfsand-mapreduce/
34
Ecosistema Hadoop

http://oreilly.com/data/radarreports/planning-for-big-data.csp
35
Soluciones NoSQL

VS

36
Soluciones NoSQL: MongoDB

37
Problemas de las BBDD
relacionales

‣ Leer datos completos es costoso (‘joins’)
‣ Transacciones (‘integridad’)
‣ Escalabilidad
‣ Cambio del modelo de datos (migraciones)
38
Soluciones NoSQL

‣ Almacenes clave-valor (Redis, BerkeleyDB,
Tokyo Cabinet)

‣ Orientadas a documento (MongoDB,
CouchDB, ElasticSearch, Solr)

‣ Orientadas a columnas (Cassandra, HBase,
BigTable)

39
Real-time processing

‣ Batch vs Real-time
‣ Hadoop anclado en Java
‣ Spark (Scala)
‣ Storm (Clojure)
http://www.ibm.com/developerworks/library/os-spark/#resources

40
Outliers Collective: Nuestras
Herramientas

‣ Visualización: D3.js
‣ Análisis:
‣ Texto: Python + Pattern
‣ Redes: Networkx + Gephi
‣ Estadística: R
‣ Persistencia: MongoDB, ElasticSearch
‣
41
Trabajos y ejemplos

http://assets.outliers.es/15memociones/

42
Outliers Collective+Prodigioso Volcán, 2014
http://elpais.com/especiales/2014/planeta-futuro/mapa-de-migraciones/
43
Outliers Collective, 2012
http://www.324.cat/eleccions-catalunya-2012/tuitometre
44
En Paradigma Tecnológico, 2009-2011
http://www.paginasamarillas.es/

45
En Paradigma Tecnológico, 2008
http://www.lainformacion.com/
46
Outliers Collective y Yolanda Quintana, 2013
http://viralgezi.outliers.es/
47
Outliers Collective, Alberto González Paje, Rafael Höhr, 2013
http://innovabbva.outliers.es/
48
Outliers Collective, 2013
http://flocker.outliers.es

49
Outliers Collective + Alberto González, 2013
http://assets.outliers.es/SocialGood/

50
Outliers Collective + Telenoika + Rocío Márquez + Patricia Benitez + Alberto González, 2013
http://vimeo.com/71084828
http://bcnbeats.outliers.es/
51
#LoQueCrece: IdeasForChange + Outliers Collective

52
Referencias

http://www.goodreads.com/shelf/show/big-data

53
¿Preguntas?
¡Gracias por el interés!

54

Big data: Valor y Mercado