Este documento discute el concepto de big data, los datos, la infraestructura necesaria para procesar y almacenar grandes cantidades de datos, el análisis avanzado de datos y la generación de conocimiento. Explica cómo las empresas y organizaciones usan el big data para segmentación de clientes, pruebas A/B, recomendaciones personalizadas y más. También aborda los retos de la investigación académica relacionados con el big data y propone posibles soluciones.
Big data, Inteligencia Artificial y Redes Sociales en la investigación
1. Redes sociales,
big data e IA
Mariché Navío Navarro
@mariche_navio
linkedin.com/in/mariche/
en la investigación académica
2. 2
• Si caminamos por la calle escuchando
Spotify.
• Si paramos en un supermercado como
Día o Carrefour a hacer la compra.
• Si pagamos con nuestra tarjeta de, por
ejemplo, el BBVA.
• Si nos tomamos un café en Starbucks.
• Si vemos cualquier serie de Netflix.
• Si usamos internet o llamamos con un
proveedor como Movistar.
• Si nos damos un capricho que
compramos en Amazon.
• Si utilizamos cualquier red social, como
Instagram o Facebook.
@mariche_navioMariché Navío Navarro
3. 3
BIG DATA
• Si caminamos por la calle escuchando
Spotify.
• Si paramos en un supermercado como
Día o Carrefour a hacer la compra.
• Si pagamos con nuestra tarjeta de, por
ejemplo, el BBVA.
• Si nos tomamos un café en Starbucks.
• Si vemos cualquier serie de Netflix.
• Si usamos internet o llamamos con un
proveedor como Movistar.
• Si nos damos un capricho que
compramos en Amazon.
• Si utilizamos cualquier red social, como
Instagram o Facebook.
@mariche_navioMariché Navío Navarro
4. 4
¿Para qué usa el
big data?
@mariche_navioMariché Navío Navarro
5. 5
¿Para qué usa el
big data?
Segmentación
Verticales
Ratio coste-felicidad
Test A/B
@mariche_navioMariché Navío Navarro
6. 6
Cuando un canal de
televisión lanza una
nueva serie, esta tiene
tan solo un 35% de
posibilidades de
triunfar y mantenerse
en la parrilla. Cuando lo
hace Netflix, sus
posibilidades
ascienden al 70%.
(Data Centric)
“
@mariche_navio
Mariché Navío Navarro
7. 7
Establecen patrones de
conducta para hacer
recomendaciones y
listas de descubrimiento
en función de los gustos
de cada usuario
▹ Géneros más
escuchados
▹ A qué hora
escuchan música
▹ Dónde la
escuchan
▹ Suscripciones a
una playlists
▹ Popularidad de los
artistas
▹ Tiempo de
reproducción
@mariche_navio
Mariché Navío Navarro
9. ¿Qué es el
big data?
9 @mariche_navioMariché Navío Navarro
10. Aplicación de técnicas
de analítica avanzada
sobre fuentes de datos
de gran volumen,
distintos formatos y
recogidos a distintas
latencias para obtener
conocimiento.
10
@mariche_navioMariché Navío Navarro
15. Los Datos
15
Variedad
Analítica
tradicional
Big Data
Fuentes de datos estructuradas
bbdd con formatos preparados para
ser procesados
o Fuentes internas o externas
§ Distinto origen:
privado (de pago) u open source
o Distintos formatos
§ Estructurados
§ Semi-estructurados
§ Cuasi-estructurados
§ No estructurados
@mariche_navioMariché Navío Navarro
16. Los Datos
16
§ Estructurados: Formato y
estructura claramente
definidos e inalterable.
• Ejemplo: Cubos OLAP
§ Semi-estructurados: Datos
separados por un patrón
reconocible que permite
trocearlos y estructurarlos
• Ejemplo: CSV
§ Cuasi-estructurados: Datos
separados por un patrón
difícilmente reconocible que
pueden llegar a estructurarse
• Gran esfuerzo, tiempo
e inversión en
herramientas.
• Ejemplo: Logs de una
máquina
§ No estructurados: No siguen
ningún patrón y están
almacenados en distintos tipos
de archivo
Big Data
-Facilidaddeanálisis+
-Abundancia+
@mariche_navioMariché Navío Navarro
19. ¿Problemas
para la
investigación
académica?
19
• Fuentes gratuitas y abiertas desactualizadas
• Fuentes de pago muy caras
• Fuentes con acceso a través de API:
dependencia de desarrolladores
@mariche_navioMariché Navío Navarro
22. Place your screenshot here
22
Open Datasets
para investigación
académica
Google Dataset Search
Google Public Data
Google Trends
@mariche_navioMariché Navío Navarro
23. Place your screenshot here
23
Open Datasets
para investigación
académica
Google Dataset Search
Google Public Data
Google Trends
@mariche_navioMariché Navío Navarro
24. Place your screenshot here
24
Open Datasets
para investigación
académica
Google Dataset Search
Google Public Data
Google Trends
@mariche_navioMariché Navío Navarro
25. Place your screenshot here
25
Open Datasets
para investigación
académica
API Graph (Facebook)
@mariche_navioMariché Navío Navarro
26. Place your screenshot here
26
Open Datasets
para investigación
académica
API Graph (Facebook)
nodes
edges
fields
@mariche_navioMariché Navío Navarro
27. Place your screenshot here
27
Open Datasets
para investigación
académica
Twitter API
@mariche_navioMariché Navío Navarro
28. Place your screenshot here
28
Open Datasets
para investigación
académica
Pew Research Center
@mariche_navioMariché Navío Navarro
29. Place your screenshot here
29
Open Datasets
para investigación
académica
Statista
@mariche_navioMariché Navío Navarro
30. Place your screenshot here
30
Open Datasets
para investigación
académica
Open data AWS
@mariche_navioMariché Navío Navarro
33. 33
Procesamiento y
formato
Data Lake: repositorio
de datos centralizado
à democratiza el
acceso transversal a la
información
Almacenamiento
distribuido
varios procesadores que
permiten analizar datos de
gran tamaño
La
Infraestructura
@mariche_navioMariché Navío Navarro
34. 34
La
Infraestructura
Por tanto,
las Arquitecturas Big Data…
• Almacenamiento y procesamiento
distribuidoen máquinas que trabajan en paralelo
• Nuevo hardware y software
• Data lakes frente a EDW
• Datos transaccionales
• Datos estructurados
• Orientado a entidades
Enterprise Data Warehouse
• Variedad de datos
• 10% coste
• 100 veces más capacidad
Data Lake
@mariche_navioMariché Navío Navarro
35. ¿Problemas
para la
investigación
académica?
35
• Complejidad tecnológica
• Costes de almacenamiento à Caída
• Capacitación profesional à Nuevas profesiones
especializadas
¿Problemas
para la
investigación
académica?
24
• Complejidad tecnológica
• Costes de almacenamiento à Caída
• Capacitación profesional à Nuevas profesiones
especializadas
@mariche_navioMariché Navío Navarro
37. 37
La Analítica
Avanzada
proceso de descubrir información
oculta en grandes cantidades de datos
estructurados y no estructurados,
usando métodos como la estadística, el
machine learning, la minería de datos y
la analítica predictiva.
Data science:
Aplicación de algoritmos y operaciones
que identifican patrones entre los datos.
@mariche_navioMariché Navío Navarro
38. 38
La Analítica
Avanzada
Modelos
§ Descriptivos à Qué ha pasado o está pasando
§ Predictivos à Qué ocurrirá
§ Prescriptivos à Solución
Analítica tradicional
Descripción de
hechos pasados, a
través de KPI y
gráficas
Big Data
• Aprende de hechos
pasados para…
• Predicciones
• Prescribir acciones
@mariche_navioMariché Navío Navarro
43. 43
La Analítica
Avanzada
Inteligencia
Artificial
Machine
Learning
Redes
neuronales
Deep
Learning
Conjunto de técnicas que tratan de emular el
comportamiento humano a través de sistemas
computacionales.
Subconjunto de técnicas que utilizan
modelos analíticos para permitir a
los sistemas computacionales aprender
de manera automática.
Sistemas computacionales programados para
emular la forma en que el cerebro humano
analiza y procesa la información.
Subconjunto de técnicas que utilizan redes
neuronales más complejas.
@mariche_navioMariché Navío Navarro
44. ▹ Medir
■ De forma estructurada y
consistente
▹ Encontrar relaciones
▹ Reportar
■ Representar la
información à
Atendiendo a objetivos
▹ Analizar
■ Para obtener
conocimiento
▹ Predecir
44
@mariche_navioMariché Navío Navarro
46. 46
La Analítica
Avanzada
Perfiles profesionales
Ingeniero de datos:
oPerfil técnico.
oTratamiento técnico de datos: ingesta, transformación y carga.
oPone los datos a disposición del data scientist.
Data Scientist:
oMatemático/Estadístico + Ingeniero informático + Experto en el tema
oAnalítica avanzada
Arquitecto Big Data
oInformático
oGestión y mantenimiento de software y hardware
Visualizador de datos
oVisión de negocio y espacial.
oDispone los resultados de manera que permitan aportar valor
Consultor Big Data
oAconseja para plantear las preguntas concretas y tomar decisiones
óptimas de acuerdo a los resultados analíticos.
@mariche_navioMariché Navío Navarro
47. 47
La Analítica
Avanzada
o Compra de herramientas
§ SPSS, SAS
§ Ventajas:
• Agilidad
§ Desventajas:
• Externalización del know-how
o Desarrollo de modelos y herramientas a medida
§ Uso de Python o Spark
§ Ventajas:
• Creación de conocimiento
§ Desventajas:
• Perfiles profesionales
Opciones de implementación
@mariche_navioMariché Navío Navarro
51. 51
Representación de eventos y
sus características
Nuestra meta:
Investigación
Creación o recolección
Registro / digitalización
Datos
@mariche_navioMariché Navío Navarro
52. 52
Datos con valor
Análisis y tratamiento de los datos
(operaciones como la agregación,
relación o estimación) para identificar
patrones o tendencias
Nuestra meta:
Organización
Presentación
Información
@mariche_navioMariché Navío Navarro
53. 53
Información organizada dentro
de un marco conceptual que
fomenta la comprensión y el
aprendizaje.
Nuestra meta:
Crear contexto
Storytelling / Narrativa
Conocimiento
@mariche_navioMariché Navío Navarro
56. 56
• Nuevas fuentes de datos
o Estrategia de datos
• Nuevas tecnologías
o Infraestructura Big Data
• Nuevos enfoques analíticos
o Analítica avanzada
• Nuevos perfiles profesionales
o Alta especialización
• Nuevo enfoque cultural
o Insights de mayor valor
En la evolución al Big Data…
@mariche_navioMariché Navío Navarro
58. Metodología Crisp-DM
58
Cross Industry Standard Process for Data Mining
@mariche_navio
Adaptación a investigación en Comunicación
(Propuesta original: Mariché Navío)
Mariché Navío Navarro
59. 59
Entendimiento
del negocio
Comprensión
de los datos
Arquitectura
Big Data
Tratamiento de
datos
Modelado
Presentación y
evaluación de
resultados
Despliegue y
activación de
insights
Crisp-DM
@mariche_navioMariché Navío Navarro
60. 60
Entendimiento del
problema de investigación
1
¿Qué problema de
investigación queremos
resolver?
• Hipótesis
• Preguntas de investigación
• Objetivos
¿Es realmente el Big Data útil para resolverlo? No existe un
proyecto de Big Data sin objetivos concretos y las preguntas
correctas.
@mariche_navioMariché Navío Navarro
61. 61
Comprensión
de los datos
2
¿Qué datos concretos necesito?
o ¿Cuáles tengo disponibles?
§ Fuentes internas
§ Fuentes externas
o ¿Cuáles tengo que obtener?
§ Fuentes internas
§ Fuentes externas
¿Metodologías?
¿Formatos?
@mariche_navioMariché Navío Navarro
62. 62
Comprensión
de los datos
2 ¿Se trata de datos
que se producen…
• …a gran Velocidad?
• …con gran Variedad?
• …con un Volumen
masivo?
@mariche_navioMariché Navío Navarro
63. 63
Arquitectura
Big Data
3
Fuentes de datos
• Herramientas para la ingesta, transformación y carga de la
fuente de datos en la plataforma Big Data
•Ejemplo: Amazon Kinesis, Kafka.
Procesamiento de datos
•Herramientas para crear la solución analítica mediante machine
learning
•Ejemplo: Python, R.
Almacenamiento de datos
•Herramientas para almacenamiento distribuido en distintos
nodos de la plataforma
•Ejemplos: Amazon S3, Hive.
Explotación de resultados
•Herramientas para la visualización de datos
•Ejemplos:Tableau, QlikView.
@mariche_navioMariché Navío Navarro
66. 66
Tratamiento
de los datos
4 Esta fase: Trata los datos para hacerlos
disponibles con la mayor calidad posible para
los posteriores procesos de modelado:
•Análisis de calidad de fuentes de datos
•Limpieza
•Normalización y estructuración de datos
•Análisis de texto
•Reconocimiento de patrones
@mariche_navio
Ya hemos…
- Identificado las fuentes
- Creado la arquitectura Big Data necesaria
- Disponibilizado los datos dentro de la arquitectura
60-70%del tiempo del data scientist
Mariché Navío Navarro
67. 67
Modelado
5
@mariche_navio
Empleo de técnicas de analítica avanzada para identificar
patrones de comportamiento en los datos para responder
a las preguntas de investigación.
Machine Learning: Principales modelos analíticos
Inteligencia
Artificial
Machine
Learning
Redes
neuronales
Deep
Learning
• Machine Learning supervisado
o Regresión
o Clasificación
• Machine Learning no supervisado
o Clustering
Mariché Navío Navarro
68. 68
Modelado
5
@mariche_navio
Empleo de técnicas de analítica avanzada para identificar
patrones de comportamiento en los datos para responder
a las preguntas de investigación.
Machine Learning: Principales modelos analíticos
Machine Learning supervisado
Regresión:
Modelos que aprenden de un conjunto de
variables predictoras para estimar una
variable objetivo (“clase”) de tipo continua.
Clasificación:
Modelos que aprenden de un conjunto de
variables predictoras para estimar una
variable objetivo de tipo discreta.
Mariché Navío Navarro
72. 72
Modelado
5
@mariche_navio
Empleo de técnicas de analítica avanzada para identificar
patrones de comportamiento en los datos para responder
a las preguntas de investigación.
Machine Learning: Principales modelos analíticos
Machine Learning NO supervisado
Clustering:
Modelos que identifican similitudes o patrones
en un conjunto de variables donde no existe
una clase.
Mariché Navío Navarro
77. 77
Modelado
5
@mariche_navio
No es el fin de la analítica. Es una fase iterativa donde se
entrenan distintos algoritmos y configuraciones hasta
conseguir un ‘modelo finalista’
Mariché Navío Navarro