SlideShare una empresa de Scribd logo
Machine Learning en el mundo real
De los Datos a las Predicciones
Un caso práctico del sector turístico
Andrés González
Responsable Área Big Data
andresg@clevertask.com
Twitter: @data_lytics
CleverTask Solutions SL - Big Data Business Unit 2
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 3
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 4
Sector hotelero
• % ocupación de
hoteles.
• Riesgo de
cancelación de
reservas.
• Ingresos.
CleverTask Solutions SL - Big Data Business Unit 5
Necesidad de negocio
Predecir la
NACIONALIDAD
de los clientes
ANTES de
llegar al hotel
CleverTask Solutions SL - Big Data Business Unit 6
Organizar el personal
Idiomas
CleverTask Solutions SL - Big Data Business Unit 7
Preparar actividades
CleverTask Solutions SL - Big Data Business Unit 8
Organizar las cocinas
CleverTask Solutions SL - Big Data Business Unit 9
Personalizar la estancia
CleverTask Solutions SL - Big Data Business Unit 10
… los detalles marcan
la diferencia
En definitiva, porque…
CleverTask Solutions SL - Big Data Business Unit 11
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 12
Machine Learning básico
CleverTask Solutions SL - Big Data Business Unit 13
Machine Learning básico
¿Puedes encontrar patrones en estos datos?
CleverTask Solutions SL - Big Data Business Unit
14
Machine Learning básico
Datos históricos Entrenamiento Predicción
Nuevos datos Re-entrenamiento
CleverTask Solutions SL - Big Data Business Unit 15
“Cocinar” la predicción2
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
CleverTask Solutions SL - Big Data Business Unit 16
“Cocinar” la predicción2
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
Recogida de Datos en “crudo”
Limpieza de Datos
Transformación y Feature Engineering
Aprendizaje y Entrenamiento del Modelo
Evaluación de calidad de las predicciones
CleverTask Solutions SL - Big Data Business Unit 17
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 18
De dónde vienen los datos
Web propia
Webs de Partners
Datos en crudo
RAW
CleverTask Solutions SL - Big Data Business Unit 19
Datos RAW
Fichero .xlsx con
histórico de
1 año de reservas
Un registro por cada reserva
Características
•260.000 reservas
•80 campos
•57 categóricos
•9 numéricos
•10 tipo fecha
•3 tipo texto
•1 campo erróneo
•Tamaño: 150 MB
CleverTask Solutions SL - Big Data Business Unit 20
Datos RAW
CleverTask Solutions SL - Big Data Business Unit 21
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 22
Proceso
Datos en crudo
Nuevos campos
1 3 4
Datos RAW
Transforma
y Feature
Engineering
Datos limpios
Campos calculados
2
Limpieza Modelo
CleverTask Solutions SL - Big Data Business Unit 23
Limpieza de datos
CleverTask Solutions SL - Big Data Business Unit 24
Limpieza de datos
Borrado de filas
• Reservas sin check-in
• Reservas canceladas
• Registros con errores
Borrado de
columnas
• Identificadores vs
nombres
• Columnas con pocos
datos
Otras acciones
• Dar formato a las fechas
• Eliminar acentos
• Transformar de .xlsx
a .csv
CleverTask Solutions SL - Big Data Business Unit 25
Dataset limpio
Limpio
•150.000 reservas
•46 campos
•26 categóricos
•9 numéricos
•10 tipo fecha
•1 tipo texto
•Tamaño: 75MB
Sucio
•260.000 reservas
•80 campos
•57 categóricos
•9 numéricos
•10 tipo fecha
•3 tipo texto
•1 campo erróneo
•Tamaño: 150 MB
CleverTask Solutions SL - Big Data Business Unit 26
Proceso
Datos en crudo
Nuevos campos
1 3 4
Datos RAW
Transformaciones
y Feature
Engineering
Datos limpios
Campos calculados
2
Limpieza Modelo
CleverTask Solutions SL - Big Data Business Unit 27
Transformaciones
Agrupación de países
•Muchos países a predecir (210)
•Algunos países tienen muy
pocas instancias
•Objetivo de cada agrupación:
mín. 1% del total de instancias
•Total grupos: 20
Nuevos campos
• ANTELACIÓN_RESERVA (calculado):
fecha reserva-fecha entrada
• PAIS_HOTEL (nombre de país)
• ESTRELLAS_HOTEL (1-5)
CleverTask Solutions SL - Big Data Business Unit 28
Dataset limpio
Limpio
•150.000 reservas
•46 campos
•Tamaño: 75MB
Sucio
•260.000 reservas
•80 campos
•Tamaño: 150 MB
Transformado
•150.000 registros
•49 campos
•Tamaño: 80MB
CleverTask Solutions SL - Big Data Business Unit 29
Qué es Feature Engineering
Extraer la señal del ruido
CleverTask Solutions SL - Big Data Business Unit 30
Técnicas de Feature
Engineering
• Detectar los campos (features) que son predictores
(señal) y eliminar los que no (ruido)
• Campos dependientes (pax, días, pax*días)
• Campos supérfluos (número de reserva)
• Campos con pocos datos
• Campos aleatorios (minuto y segundo de la reserva)
• Conocimiento del sector
• Experiencia
• Ciclo recursivo
CleverTask Solutions SL - Big Data Business Unit 31
Recursive Feature
Engineering
CleverTask Solutions SL - Big Data Business Unit 32
Dataset limpio
Limpio
•150.000 reservas
•46 campos
•Tamaño: 75MB
Sucio
•260.000 reservas
•80 campos
•Tamaño: 150 MB
Transformado
•150.000 registros
•49 campos
•Tamaño: 80MB
Dataset Final
•150.000 registros
•10 campos
•7 categóricos
•2 numéricos
•1 fecha
•Tamaño: 55MB
CleverTask Solutions SL - Big Data Business Unit 33
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 34
Proceso
Datos en crudo
Nuevos campos
1 3 4
Datos RAW
Transformaciones
y Feature
Engineering
Datos limpios
Campos calculados
2
Limpieza Modelo
CleverTask Solutions SL - Big Data Business Unit 35
Modelo
Entrenamiento
Aprendizaje
CleverTask Solutions SL - Big Data Business Unit 36
Modelo
CleverTask Solutions SL - Big Data Business Unit 37
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 38
Calidad del modelo
CleverTask Solutions SL - Big Data Business Unit 39
Calidad del modelo
80%
20% Evaluación
Training
Test
Dataset
100%
Modelo
CleverTask Solutions SL - Big Data Business Unit 40
Calidad del modelo
Tasa de acierto Matriz de confusión
CleverTask Solutions SL - Big Data Business Unit 41
Calidad del modelo
54% 75%
CleverTask Solutions SL - Big Data Business Unit 42
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
Recogida de Datos en “crudo” (RAW)
Limpieza de Datos
Transformación y Feature Engineering
Aprendizaje y Entrenamiento del Modelo
Evaluación de calidad de las predicciones
Cocinar una predicción
80%
20%
CleverTask Solutions SL - Big Data Business Unit 43
Otras técnicas
Ensembles Clústers
Análisis de pesos Detección de anomalías
CleverTask Solutions SL - Big Data Business Unit 44
FIN
email: andresg@clevertask.com
Twitter: @data_lytics
www.clevertask.com
10 suscripciones PRO gratuitas
de 3 meses ($900)
Código: BBVADATAWEEK

Más contenido relacionado

Destacado

Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
Javier Lasa
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
SpanishPASSVC
 
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
GeneXus
 
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Arcangel Campos
 
Proceso de propuesta y proyecto
Proceso de propuesta y proyectoProceso de propuesta y proyecto
Proceso de propuesta y proyecto
Education in the Knowledge Society PhD
 
La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...
Education in the Knowledge Society PhD
 
Presentacion historia de la I A
Presentacion historia de la I APresentacion historia de la I A
Presentacion historia de la I A
Jose Lopez
 
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Education in the Knowledge Society PhD
 
Research line: Information society and education
Research line: Information society and educationResearch line: Information society and education
Research line: Information society and education
Education in the Knowledge Society PhD
 
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del softwarePteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
sara272016
 
Research line: Interaction and e learning
Research line: Interaction and e learningResearch line: Interaction and e learning
Research line: Interaction and e learning
Education in the Knowledge Society PhD
 
Comparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario EspañolComparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario Español
eraser Juan José Calderón
 
Inteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte GrandeInteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte Grande
vito mercogliano
 
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación PedagógicaActas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
eraser Juan José Calderón
 
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
eraser Juan José Calderón
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
eraser Juan José Calderón
 
Evolución de la Inteligencia Artificial
Evolución de la Inteligencia ArtificialEvolución de la Inteligencia Artificial
Evolución de la Inteligencia Artificial
Fanny Ortega Luna
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
eraser Juan José Calderón
 
Identidad digital para investigadores. Introduccion
Identidad digital para investigadores. IntroduccionIdentidad digital para investigadores. Introduccion
Identidad digital para investigadores. Introduccion
Infobiblio_es Información Bibliográfica
 
Identidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival StrataIdentidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival Strata
Infobiblio_es Información Bibliográfica
 

Destacado (20)

Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
 
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
 
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
 
Proceso de propuesta y proyecto
Proceso de propuesta y proyectoProceso de propuesta y proyecto
Proceso de propuesta y proyecto
 
La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...
 
Presentacion historia de la I A
Presentacion historia de la I APresentacion historia de la I A
Presentacion historia de la I A
 
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
 
Research line: Information society and education
Research line: Information society and educationResearch line: Information society and education
Research line: Information society and education
 
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del softwarePteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
 
Research line: Interaction and e learning
Research line: Interaction and e learningResearch line: Interaction and e learning
Research line: Interaction and e learning
 
Comparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario EspañolComparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario Español
 
Inteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte GrandeInteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte Grande
 
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación PedagógicaActas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
 
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
 
Evolución de la Inteligencia Artificial
Evolución de la Inteligencia ArtificialEvolución de la Inteligencia Artificial
Evolución de la Inteligencia Artificial
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
 
Identidad digital para investigadores. Introduccion
Identidad digital para investigadores. IntroduccionIdentidad digital para investigadores. Introduccion
Identidad digital para investigadores. Introduccion
 
Identidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival StrataIdentidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival Strata
 

Similar a De los datos a las predicciones

Plataformas tecnologicas
Plataformas tecnologicas Plataformas tecnologicas
Plataformas tecnologicas
Nahuel Sturzenhofecker
 
Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data Graph
Neo4j
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
Software Guru
 
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
 I Jornada Sistemas de Información para la Logística - Jordi Pairó. I Jornada Sistemas de Información para la Logística - Jordi Pairó.
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
Instituto Logístico Tajamar
 
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
Albert Obiols
 
Prodware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field ServiceProdware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field Service
Departamento de Marketing
 
Técnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql serverTécnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql server
Enrique Catala Bañuls
 
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
SolidQ
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
Joseph Lopez
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
ICEMD
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
Carlos Fuentes
 
DexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdfDexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdf
ssuserfd1b561
 
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J SousaAdministraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Lisa Muthukumar
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
COIICV
 
Sistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptxSistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptx
JosAlumno
 
Observabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con ElasticObservabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con Elastic
Elasticsearch
 
sistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdfsistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdf
andresvargasbeato
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
BEEVA_es
 
Caso - Caixa Galicia
Caso - Caixa GaliciaCaso - Caixa Galicia
Caso - Caixa Galicia
Informatica Latinoamerica
 
2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza
KEEDIO
 

Similar a De los datos a las predicciones (20)

Plataformas tecnologicas
Plataformas tecnologicas Plataformas tecnologicas
Plataformas tecnologicas
 
Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data Graph
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
 
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
 I Jornada Sistemas de Información para la Logística - Jordi Pairó. I Jornada Sistemas de Información para la Logística - Jordi Pairó.
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
 
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
 
Prodware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field ServiceProdware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field Service
 
Técnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql serverTécnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql server
 
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
 
DexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdfDexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdf
 
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J SousaAdministraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Sistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptxSistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptx
 
Observabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con ElasticObservabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con Elastic
 
sistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdfsistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdf
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
Caso - Caixa Galicia
Caso - Caixa GaliciaCaso - Caixa Galicia
Caso - Caixa Galicia
 
2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza
 

Último

REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
IrapuatoCmovamos
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
eliassalascolonia43
 
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
Mayra798665
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
mirimerlos5
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
agustincarranza11
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 

Último (14)

REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
 
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 

De los datos a las predicciones

  • 1. Machine Learning en el mundo real De los Datos a las Predicciones Un caso práctico del sector turístico Andrés González Responsable Área Big Data andresg@clevertask.com Twitter: @data_lytics
  • 2. CleverTask Solutions SL - Big Data Business Unit 2 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 3. CleverTask Solutions SL - Big Data Business Unit 3 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 4. CleverTask Solutions SL - Big Data Business Unit 4 Sector hotelero • % ocupación de hoteles. • Riesgo de cancelación de reservas. • Ingresos.
  • 5. CleverTask Solutions SL - Big Data Business Unit 5 Necesidad de negocio Predecir la NACIONALIDAD de los clientes ANTES de llegar al hotel
  • 6. CleverTask Solutions SL - Big Data Business Unit 6 Organizar el personal Idiomas
  • 7. CleverTask Solutions SL - Big Data Business Unit 7 Preparar actividades
  • 8. CleverTask Solutions SL - Big Data Business Unit 8 Organizar las cocinas
  • 9. CleverTask Solutions SL - Big Data Business Unit 9 Personalizar la estancia
  • 10. CleverTask Solutions SL - Big Data Business Unit 10 … los detalles marcan la diferencia En definitiva, porque…
  • 11. CleverTask Solutions SL - Big Data Business Unit 11 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 12. CleverTask Solutions SL - Big Data Business Unit 12 Machine Learning básico
  • 13. CleverTask Solutions SL - Big Data Business Unit 13 Machine Learning básico ¿Puedes encontrar patrones en estos datos?
  • 14. CleverTask Solutions SL - Big Data Business Unit 14 Machine Learning básico Datos históricos Entrenamiento Predicción Nuevos datos Re-entrenamiento
  • 15. CleverTask Solutions SL - Big Data Business Unit 15 “Cocinar” la predicción2 Ir al mercado a por los ingredientes Limpiarlos Transformarlos Cocinar Probar el plato
  • 16. CleverTask Solutions SL - Big Data Business Unit 16 “Cocinar” la predicción2 Ir al mercado a por los ingredientes Limpiarlos Transformarlos Cocinar Probar el plato Recogida de Datos en “crudo” Limpieza de Datos Transformación y Feature Engineering Aprendizaje y Entrenamiento del Modelo Evaluación de calidad de las predicciones
  • 17. CleverTask Solutions SL - Big Data Business Unit 17 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 18. CleverTask Solutions SL - Big Data Business Unit 18 De dónde vienen los datos Web propia Webs de Partners Datos en crudo RAW
  • 19. CleverTask Solutions SL - Big Data Business Unit 19 Datos RAW Fichero .xlsx con histórico de 1 año de reservas Un registro por cada reserva Características •260.000 reservas •80 campos •57 categóricos •9 numéricos •10 tipo fecha •3 tipo texto •1 campo erróneo •Tamaño: 150 MB
  • 20. CleverTask Solutions SL - Big Data Business Unit 20 Datos RAW
  • 21. CleverTask Solutions SL - Big Data Business Unit 21 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 22. CleverTask Solutions SL - Big Data Business Unit 22 Proceso Datos en crudo Nuevos campos 1 3 4 Datos RAW Transforma y Feature Engineering Datos limpios Campos calculados 2 Limpieza Modelo
  • 23. CleverTask Solutions SL - Big Data Business Unit 23 Limpieza de datos
  • 24. CleverTask Solutions SL - Big Data Business Unit 24 Limpieza de datos Borrado de filas • Reservas sin check-in • Reservas canceladas • Registros con errores Borrado de columnas • Identificadores vs nombres • Columnas con pocos datos Otras acciones • Dar formato a las fechas • Eliminar acentos • Transformar de .xlsx a .csv
  • 25. CleverTask Solutions SL - Big Data Business Unit 25 Dataset limpio Limpio •150.000 reservas •46 campos •26 categóricos •9 numéricos •10 tipo fecha •1 tipo texto •Tamaño: 75MB Sucio •260.000 reservas •80 campos •57 categóricos •9 numéricos •10 tipo fecha •3 tipo texto •1 campo erróneo •Tamaño: 150 MB
  • 26. CleverTask Solutions SL - Big Data Business Unit 26 Proceso Datos en crudo Nuevos campos 1 3 4 Datos RAW Transformaciones y Feature Engineering Datos limpios Campos calculados 2 Limpieza Modelo
  • 27. CleverTask Solutions SL - Big Data Business Unit 27 Transformaciones Agrupación de países •Muchos países a predecir (210) •Algunos países tienen muy pocas instancias •Objetivo de cada agrupación: mín. 1% del total de instancias •Total grupos: 20 Nuevos campos • ANTELACIÓN_RESERVA (calculado): fecha reserva-fecha entrada • PAIS_HOTEL (nombre de país) • ESTRELLAS_HOTEL (1-5)
  • 28. CleverTask Solutions SL - Big Data Business Unit 28 Dataset limpio Limpio •150.000 reservas •46 campos •Tamaño: 75MB Sucio •260.000 reservas •80 campos •Tamaño: 150 MB Transformado •150.000 registros •49 campos •Tamaño: 80MB
  • 29. CleverTask Solutions SL - Big Data Business Unit 29 Qué es Feature Engineering Extraer la señal del ruido
  • 30. CleverTask Solutions SL - Big Data Business Unit 30 Técnicas de Feature Engineering • Detectar los campos (features) que son predictores (señal) y eliminar los que no (ruido) • Campos dependientes (pax, días, pax*días) • Campos supérfluos (número de reserva) • Campos con pocos datos • Campos aleatorios (minuto y segundo de la reserva) • Conocimiento del sector • Experiencia • Ciclo recursivo
  • 31. CleverTask Solutions SL - Big Data Business Unit 31 Recursive Feature Engineering
  • 32. CleverTask Solutions SL - Big Data Business Unit 32 Dataset limpio Limpio •150.000 reservas •46 campos •Tamaño: 75MB Sucio •260.000 reservas •80 campos •Tamaño: 150 MB Transformado •150.000 registros •49 campos •Tamaño: 80MB Dataset Final •150.000 registros •10 campos •7 categóricos •2 numéricos •1 fecha •Tamaño: 55MB
  • 33. CleverTask Solutions SL - Big Data Business Unit 33 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 34. CleverTask Solutions SL - Big Data Business Unit 34 Proceso Datos en crudo Nuevos campos 1 3 4 Datos RAW Transformaciones y Feature Engineering Datos limpios Campos calculados 2 Limpieza Modelo
  • 35. CleverTask Solutions SL - Big Data Business Unit 35 Modelo Entrenamiento Aprendizaje
  • 36. CleverTask Solutions SL - Big Data Business Unit 36 Modelo
  • 37. CleverTask Solutions SL - Big Data Business Unit 37 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 38. CleverTask Solutions SL - Big Data Business Unit 38 Calidad del modelo
  • 39. CleverTask Solutions SL - Big Data Business Unit 39 Calidad del modelo 80% 20% Evaluación Training Test Dataset 100% Modelo
  • 40. CleverTask Solutions SL - Big Data Business Unit 40 Calidad del modelo Tasa de acierto Matriz de confusión
  • 41. CleverTask Solutions SL - Big Data Business Unit 41 Calidad del modelo 54% 75%
  • 42. CleverTask Solutions SL - Big Data Business Unit 42 Ir al mercado a por los ingredientes Limpiarlos Transformarlos Cocinar Probar el plato Recogida de Datos en “crudo” (RAW) Limpieza de Datos Transformación y Feature Engineering Aprendizaje y Entrenamiento del Modelo Evaluación de calidad de las predicciones Cocinar una predicción 80% 20%
  • 43. CleverTask Solutions SL - Big Data Business Unit 43 Otras técnicas Ensembles Clústers Análisis de pesos Detección de anomalías
  • 44. CleverTask Solutions SL - Big Data Business Unit 44 FIN email: andresg@clevertask.com Twitter: @data_lytics www.clevertask.com 10 suscripciones PRO gratuitas de 3 meses ($900) Código: BBVADATAWEEK