1. Big Data & Data Science
¿Por qué todo el mundo
habla de ellos?
2. ¿Quien soy yo?
➢
Inés Huertas
➢
ihuertas@datatons.com
➢
@quierodata
➢
ITT Telemática
&
Máster Sist. Telemáticos e Informáticos
➢
Ex-Sysadmin
➢
Data Dreamer
➢
Abonada a Coursera, EDX, etc
➢
Co-founder
&
Data Scientist en Datatons
➢
Co-organizadora Rladies Madrid
➢
Co-organizadora Data Science Madrid
Meetup y Big Data Madrid Meetup
4. Las empresas tienen grandes cantidades de datos
•
Datos de históricos
•
Datos legales
•
Nuevos datos que antes no se recogían
•
Datos descentralizados
Todo nace de los datos
Los analizan mediante el uso de técnicas BI
✔
Captura, Analiza
✔
Es descriptivo
✔
Clásico: cuadros de mando
✔
Trata del pasado
¿Cuanto vendimos le mes pasado?
¿Cual es la tasa de morosidad?
5. Todo nace de los datos
➢
Hay 2,3 mil millones de usuarios activos en redes sociales
➢
El 91% de las marcas de retail usan dos o más canales de
redes sociales
➢
5,54 cuentas en redes sociales por usuario
➢
176 millones de usuarios en redes sociales el año pasado
➢
Facebook Messenger y Whatsapp manejan 60 mil millones
de mensajes diarios
➢
Se envían 500 millones de tuits al día. Es decir, 6 000 tuits
por segundo
➢
Las RRSS obtuvieron ingresos por publicidad
de 8,3 mil millones de dólares en 2015
➢
El 38% de las organizaciones destinaron un 20% de
su presupuesto total de publicidad a canales de
redes sociales
➢
El 96% de las personas que hablan sobre una
marca en redes sociales
Las Redes Sociales: La cotilla que todo lo sabe
7. BIG DATA
Plataformas Big Data como Hadoop nos facilitan todas las características de
nuestra lista de deseos:
✔
Capacidad de almacenar grandes cantidades de datos
✔
Tolerancia a fallos
✔
Flexibildad sobre el tipo de datos
✔
Bajo Coste
✔
Escalabilidad
✔
Gran ecosistemas de herramientas para explotación
✔
Computo distribuido
9. ¿Qué hacen los Data Scientist?
Aplicación de técnicas
estadísticas
Para ello utilizamos tecnicas
estadistias y matemáticas
que nos permiten aprender
de los datos, extraer
patrones o ver tendencias
Programación
Para implementar esta técnicas
utilizamos diferentes lenguajes de
programación y transformación de
los datos
Visualización y storing telling
No solo eso... tambien hay que
saber contar historias!!
Ver oportunidad de
negocio en los datos
Para ello se requiere de
conocimiento de negocio
y manejo de datos
10. El proceso:
➢ Los data scientist modelan los datos generando “modelos”, que
aprenden de los datos, por eso la importancia del histórico
➢ Tras el preprocesado de los datos se genera el “modelo” que describe el
comportamiento del cliente
¿Suena bien verdad?
¿Qué hacen los Data Scientist?
11. ¿Qué hacen los Data Scientist?
Hasta que te encuentras con cosas del tipo:
Entre el 70%-80% del tiempo de una analítica se destina en el
preprocesado del dato
14. ¿Qué cosas podemos conseguir
con estas analíticas?
¿Qué cosas podemos hacer con técnicas de machine learning?
● Descubrimiento de patrones y tendencias en los datos
Patrones de consumo en supermercado
Patrones de comportamiento con tarjetas de crédito
● Machine Learning : Aprendiendo de los datos para dar apoyo
a la toma de decisiones
Clásico: Concesión de hipotecas
Detección de fallos en líneas
● Grafos: estudiando relaciones
Telco estudio de potenciales clientes
Segmentaciones avanzadas
Clusterización por gusto
15. ¿Qué cosas podemos conseguir
con estas analíticas?
● Detección precoz situaciones
Detección de casos de churn
● Estimaciones temporales
Llamadas a un Call center
● Sistemas de recomendación
Amazon
● Campañas de marketing
16. Ejemplo de analítica con tratamiento
de imágenes en Smart Cities
Recopilación de imágenes
cada X minutos para el
análisis
Construcción de un modelo
que detecte a partir de las
imágenes el % de ocupación
del espacio
Comparación con transporte
EMT y capacidad de
autogestión de recursos de
flota
17. Los datos para la analítica:
Aproximadamente un mes de imagenes
Webscraping Imágenes cada 12 minutos
~ 1000 imágenes
Red neuronal con pocas capas
Precisión del 80%
Heatmap Frecuencia BusHeatmap Frecuencia Bus
Frecuencia Bus Porcentaje Ocupación de la zona
Heatmap Porcentaje de ocupación
Ejemplo de analítica con tratamiento
de imágenes en Smart Cities
18. 1 Clúster de servidores
1 Administrador Sistemas
1 Arquitecto big Data
2 Expertos en integración de
datos
1 o 2 Data scientist
Big Data para enriquecer mi negocio
✔
Desplegar un puñado de servidores en cloud o bien comprar servidores
físicos. Desplegar SO base y tunning.
✔
Desplegar software Hadoop y herramientas del ecosistema.
✔
Diseñar e implementar la ingesta de datos. Preprocesarlos para su posterior
uso apropiado. Esperar de 1 a 4 semanas.
✔
Integrar los datos con herramientas de usuario.
✔
Analizar y explotar los datos para obtención de información valiosa para
negocio de una forma eficiente.
La receta del Big Data
19. 19
Herramientas de Analítica
●
Open Source
●
Fuerte comunidad
●
Inicialmente ámbito investigación
●
No es muy “amigable” la
programación
●
Potente pero “make yourself”
●
Open Source
●
Lenguaje de propósito general
●
Inicio tardío en el mundo ML
●
Parece ser el standard al que
converger
●
Herramienta propietaria
●
Muy extendida en ámbito privado
●
Muy usada historicamente para
reporting en empresas
●
Gran usabilidad para quienes no
tienen conceptos de programación
●
Herramienta propietaria
●
Usada en suits de machine learning
asociadas a productos de IBM
●
Gran usabilidad para quienes no
tienen conceptos de programación
20. El problema del tamaño
Aplicar tecnicas de machine learning no es el único problema a
resolver...
A alguien le suena el error?
21. Cuando el tamaño importa
En cuanto a los datos diferentes problemas tendrán distintas soluciones
En funcion del tamaño de los datos podremos utilizar unas herramientas u
otras
22. 22
Soluciones analítica en Big
Data
Podemos utilizar un nodo de cómputo relativamente potente
Pero el problema continúa existiendo cuando los datos se
hacen más grandes
23. Soluciones para analíticas en
Big Data
Y si distribuimos el calculo de nuestras
analiticas en varias maquinas?
Server
file
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Cálculo de temperatura media en Junio
mifile=read(file)
suma_temp=0
num_mediciones=0
for linea in mifile
if (Fecha == Junio){
suma_temp=suma_temp+Temp
num_mediciones=num_mediciones+1
}
}
res_media_jun=suma_temp/num_mediciones
24. Y si distribuimos el calculo de nuestras analiticas en varias
maquinas?
Server1Parte_1
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Parte_2
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Parte_3
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Parte_4
Server2
if( fecha == Junio){
Return Temp
}
if( fecha == Junio){
Return Temp
}
if( fecha == Junio){
Return Temp
}
Temp
Temp
Temp
Temp
Temp
Temp
Temp
Temp
Temp Sum()/coutn() res
if( fecha == Junio){
Return Temp
}
Temp
Temp
Temp
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Soluciones para analíticas en
Big Data
28. Perfecto, ¿Pero tenemos de desarrollar todos los algoritmo desde cero?
Analíticas sobre Hadoop
29. 29
●
Dispone de librerías de machine learning con principales
métodos de analisis: clustering, sistemas de recomendación,
arboles de decisión...
●
Puede programarse en scala, Java o Python
●
Abstrae a los Data scientist de la implementación a bajo nivel
●
Permite tambien desarrollos adhoc de algoritmos
●
Dispone de librerías de machine learning
●
Puede programarse en scala, Python, R...
●
Interfaz grafica para mayor abstracción
Analíticas sobre Hadoop