SlideShare una empresa de Scribd logo
1 de 11
Descargar para leer sin conexión
LATAM Challenge
Diseño e implementación de una red neuronal para
recomendación de destinos
Sebastián Camberos
Abril 2018
Descripción LATAM Challenge
• Objetivo: recomendar destinos a
nivel cliente
• Libre elección de arquitectura
para recomendación
• Origen datos: muestra
suministrada por LATAM con
usuarios y destinos anónimos
• Muestra (sin procesar)
- 18.4 millones registros x 10 campos
- 5.7 GB de datos distribuidos en 6
archivos con formato JSON
¿Cuál es el Data Journey?
Preferencias
Usuarios
Estructura
Dataset
Distribuciones Consolidación
Machine
Learning
Inferencia
SQL (Google BigQuery) + Python Python Python + TensorFlow + TensorBoard
• Filtro de datos en base
a rangos de estadística
descriptiva
• Eliminación variables
• Generación pares
origen - destino por
usuario
• Incorporación variable
para segmentación
• Determinación de
distribuciones de
frecuencia por variable
• Cálculo de parámetros
estadísticos (valor
esperado y desviación
estándar)
• Inspección dataset
• Identificación variables
• Cantidad registros
• Registros nulos
• Estructura de datos
sobre línea temporal
• Límites de variables
numéricas (edad,
distancia, precio)
• Dimensión de
categorías (destinos,
usuarios, género)
• Aplicación de filtros
adicionales para
segmentación (edad,
distancia, género,
frecuencia de viaje)
• Construcción tensor de
preferencias (usuarios
vs destinos)
• Separación muestra en
set de entrenamiento y
validación
• Redimensionamiento
tensores
• Calibración hiper
parámetros (referencia
Hinton, 2007)
• Ejecución
entrenamiento red
neuronal
• Seguimiento función de
pérdida
• Visualización evolución
entrenamiento
• Inferencia de
preferencias sobre
usuario aleatorio (set
validación)
• Preprocesamiento datos
- Uso Google BigQuery para reducir
tiempo de procesamiento
- Incorporación variable para
segmentación: frecuencia de viaje
para [usuario, origen, destino]
- Eliminación variables precio, reserva,
salida y llegada
- Consolidación muestra 2.29 millones
de registros x 7 campos
Consolidación
Machine Learning
• Descripción modelo
- Basado en Restricted Boltzmann
Machine como filtro colaborativo
(Hinton, 2007)
- Diseño original para recomendación
de películas (catálogo Netflix)
- Red neuronal 2 layers (1 hidden + 1
visible)
- Hidden layer con 128 unidades
neuronales y activación sigmoid
- Código Python 2.7 y TensorFlow 1.6
• Calibración hiper parámetros
- Pesos iniciales aleatorios
- Optimizador Contrastive Divergence
- Entrenamiento por batches
Entrenamiento Red Neuronal
Evolución función de pérdida a 16, 32, 64 y 128 epochs
Inferencia
Evolución de
recomendación
vs preferencia
original para
idéntico usuario
a 16, 32, 64 y
128 epochs
• Inferencia da cuenta de
preferencias de los usuarios y
sugiere destinos alternativos
• No obstante, el modelo requiere
pruebas adicionales para,
- Establecer estabilidad
- Confirmar asignación de
calificaciones a preferencias
originales para un gran número de
usuarios
16 epochs
32 epochs
64 epochs
128 epochs
LATAM Challenge

Más contenido relacionado

Similar a LATAM Challenge

Practicar con weka.pptx
Practicar con weka.pptxPracticar con weka.pptx
Practicar con weka.pptx
DarnelyC
 
1-1. Introducción 2019-10-30.pdf
1-1. Introducción 2019-10-30.pdf1-1. Introducción 2019-10-30.pdf
1-1. Introducción 2019-10-30.pdf
carlarenata16
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Denodo
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009
sabueso81
 

Similar a LATAM Challenge (20)

S8-DAW-2022S1.pptx
S8-DAW-2022S1.pptxS8-DAW-2022S1.pptx
S8-DAW-2022S1.pptx
 
Introducción a Azure DocumentDB
Introducción a Azure DocumentDBIntroducción a Azure DocumentDB
Introducción a Azure DocumentDB
 
Big Data Mining with Mahout
Big Data Mining with MahoutBig Data Mining with Mahout
Big Data Mining with Mahout
 
Características nosql de postgresql
Características nosql de postgresqlCaracterísticas nosql de postgresql
Características nosql de postgresql
 
Practicar con weka.pptx
Practicar con weka.pptxPracticar con weka.pptx
Practicar con weka.pptx
 
Machine learning for dummies - Azuges November 2016
Machine learning for dummies - Azuges November 2016Machine learning for dummies - Azuges November 2016
Machine learning for dummies - Azuges November 2016
 
Sistemas de recomendación & Big Data
Sistemas de recomendación & Big DataSistemas de recomendación & Big Data
Sistemas de recomendación & Big Data
 
1-1. Introducción 2019-10-30.pdf
1-1. Introducción 2019-10-30.pdf1-1. Introducción 2019-10-30.pdf
1-1. Introducción 2019-10-30.pdf
 
Madrid DataEng - LeanXcale, Simplifying architectures for real time decisions
Madrid DataEng - LeanXcale, Simplifying architectures for real time decisionsMadrid DataEng - LeanXcale, Simplifying architectures for real time decisions
Madrid DataEng - LeanXcale, Simplifying architectures for real time decisions
 
R users Galicia 2018
R users Galicia 2018R users Galicia 2018
R users Galicia 2018
 
HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOS
 
Geo network 4 elasticsearch (1)
Geo network 4   elasticsearch (1)Geo network 4   elasticsearch (1)
Geo network 4 elasticsearch (1)
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
 
CCC-Graph
CCC-GraphCCC-Graph
CCC-Graph
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Brainwave
BrainwaveBrainwave
Brainwave
 
ASP.NET MVC
ASP.NET MVCASP.NET MVC
ASP.NET MVC
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 

Último

My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
FeliGamarra1
 
LOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptx
LOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptxLOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptx
LOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptx
losjuegos881
 
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfProyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
nicolas24233
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
analiticaydatos
 
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
camilasto28
 

Último (20)

Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
Desarrollo de Software con NetBeans 7 1.pdf
Desarrollo de Software con NetBeans 7 1.pdfDesarrollo de Software con NetBeans 7 1.pdf
Desarrollo de Software con NetBeans 7 1.pdf
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
LOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptx
LOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptxLOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptx
LOS OBSTACULOS DE LA DEMOCRACIA CPA (2).pptx
 
Mapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costosMapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costos
 
Las familias más ricas de país de América Latina y su fortuna (2024).pdf
Las familias más ricas de país de América Latina y su fortuna  (2024).pdfLas familias más ricas de país de América Latina y su fortuna  (2024).pdf
Las familias más ricas de país de América Latina y su fortuna (2024).pdf
 
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfProyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Homicidios por período en México (1988-2024).pdf
Homicidios por período en México (1988-2024).pdfHomicidios por período en México (1988-2024).pdf
Homicidios por período en México (1988-2024).pdf
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
 

LATAM Challenge

  • 1. LATAM Challenge Diseño e implementación de una red neuronal para recomendación de destinos Sebastián Camberos Abril 2018
  • 2. Descripción LATAM Challenge • Objetivo: recomendar destinos a nivel cliente • Libre elección de arquitectura para recomendación • Origen datos: muestra suministrada por LATAM con usuarios y destinos anónimos • Muestra (sin procesar) - 18.4 millones registros x 10 campos - 5.7 GB de datos distribuidos en 6 archivos con formato JSON
  • 3. ¿Cuál es el Data Journey? Preferencias Usuarios Estructura Dataset Distribuciones Consolidación Machine Learning Inferencia SQL (Google BigQuery) + Python Python Python + TensorFlow + TensorBoard • Filtro de datos en base a rangos de estadística descriptiva • Eliminación variables • Generación pares origen - destino por usuario • Incorporación variable para segmentación • Determinación de distribuciones de frecuencia por variable • Cálculo de parámetros estadísticos (valor esperado y desviación estándar) • Inspección dataset • Identificación variables • Cantidad registros • Registros nulos • Estructura de datos sobre línea temporal • Límites de variables numéricas (edad, distancia, precio) • Dimensión de categorías (destinos, usuarios, género) • Aplicación de filtros adicionales para segmentación (edad, distancia, género, frecuencia de viaje) • Construcción tensor de preferencias (usuarios vs destinos) • Separación muestra en set de entrenamiento y validación • Redimensionamiento tensores • Calibración hiper parámetros (referencia Hinton, 2007) • Ejecución entrenamiento red neuronal • Seguimiento función de pérdida • Visualización evolución entrenamiento • Inferencia de preferencias sobre usuario aleatorio (set validación)
  • 4.
  • 5.
  • 6. • Preprocesamiento datos - Uso Google BigQuery para reducir tiempo de procesamiento - Incorporación variable para segmentación: frecuencia de viaje para [usuario, origen, destino] - Eliminación variables precio, reserva, salida y llegada - Consolidación muestra 2.29 millones de registros x 7 campos Consolidación
  • 7.
  • 8. Machine Learning • Descripción modelo - Basado en Restricted Boltzmann Machine como filtro colaborativo (Hinton, 2007) - Diseño original para recomendación de películas (catálogo Netflix) - Red neuronal 2 layers (1 hidden + 1 visible) - Hidden layer con 128 unidades neuronales y activación sigmoid - Código Python 2.7 y TensorFlow 1.6 • Calibración hiper parámetros - Pesos iniciales aleatorios - Optimizador Contrastive Divergence - Entrenamiento por batches
  • 9. Entrenamiento Red Neuronal Evolución función de pérdida a 16, 32, 64 y 128 epochs
  • 10. Inferencia Evolución de recomendación vs preferencia original para idéntico usuario a 16, 32, 64 y 128 epochs • Inferencia da cuenta de preferencias de los usuarios y sugiere destinos alternativos • No obstante, el modelo requiere pruebas adicionales para, - Establecer estabilidad - Confirmar asignación de calificaciones a preferencias originales para un gran número de usuarios 16 epochs 32 epochs 64 epochs 128 epochs