Machine Learning para la
Optimización y Mejora de
Procesos
Sesión 5: Técnicas de Validación
Ing. Mg. Miguel Angel Patiño Antonioli
RECORDANDO
¿Qué aprendimos la clase pasada?
https://www.menti.com/al7y9kd458e7
LOGRO DE LA SESIÓN
- Comprender la separación de datos en train y test
- Conocer las principales formas de evaluación de modelos
- Identificar la validación cruzada
- Distinguir grid search de random search para la selección de mejores
parámetros
EVALUACION
DE MODELOS
Overfitting vs Underfitting
▪ El Overfitting (sobreajuste) es un comportamiento de ML que ocurre cuando el modelo está
alineado tan estrechamente con los datos de entrenamiento que no sabe cómo responder
ante datos nuevos. Causas:
➢ Modelo de ML demasiado complejo y memoriza patrones extremadamente sutiles en
los datos de entrenamiento que no se pueden aplicar a nuevos datos.
➢ Cantidad de datos de entrenamiento insuficientes para la complejidad del modelo, o con
gran cantidad de información irrelevante.
▪ Solución recomendada: Gestionar la complejidad del modelo y mejorar el conjunto de
datos de entrenamiento
▪ El Underfitting (subajuste), ocurre cuando el modelo no se alinea bien con los datos de
entrenamiento o no logra aplicar patrones a datos nuevos.
▪ Overfitting y Underfitting pueden ocurrir en modelos de clasificación como en regresión.
Los modelos de regresión y clasificación sobre ajustados memorizan los datos de entrenamiento
mucho mejor que los modelos ajustados correctamente.
Overfitting vs Underfitting
Overfitting vs Underfitting
▪ Cuando solo se observa el error calculado de un modelo de ML para los datos de
entrenamiento, es más difícil detectar el sobreajuste que el subajuste.
▪ Para evitar el sobreajuste, es importante validar un modelo de ML antes de utilizarlo
con datos de prueba.
En modelos sobreajustados, el error calculado es bajo para datos de entrenamiento y alto para datos de prueba.
¿Cómo mejorar el Overfitting?
Prevención del sobreajuste mejorando el conjunto de datos de entrenamiento
Aumento de datos
Generación de nuevas variables
Limpieza de datos
FIABILIDAD DE LOS MODELOS DE ML
Medición del
Rendimiento
• Crucial para
precisión y
fiabilidad de las
predicciones
• Permite evaluar la
capacidad de
generación de
nuevos datos
Prevención del
Overfitting
• Se evita el
Overfitting
• Se busca que el
modelo aprenda
patrones
significativos
Optimización de
Hiperparámetros
• La validación
proporciona
información sobre
la configuración
óptima de los
hiperparámetros
del ML, influyendo
directamente en su
rendimiento
predictivo.
TRAIN Y TEST
EVALUACION DE MODELOS DE CLASIFICACIÓN
EVALUACION DE MODELOS DE REGRESION
EVALUACION DE MODELOS DE CLASIFICACION
VALIDACION
CRUZADA
VALIDACION CRUZADA
VALIDACION CRUZADA
Evaluación de Modelos en BigML
Métricas de Evaluación
Hay una variedad de métricas
para evaluar modelos, como
precisión, recall, F1-score y área
bajo la curva ROC. Estas métricas
proporcionan una visión
detallada del rendimiento del
modelo en diferentes aspectos.
Comparación de Modelos
Se puede comparar el
rendimiento de varios
modelos de forma simultánea,
lo que facilita la identificación
del modelo más adecuado
para un problema específico.
Visualización de Resultados
Existen herramientas visuales
para representar gráficamente el
rendimiento de los modelos, lo
que facilita la interpretación de
los resultados y su comunicación
a diferentes audiencias.
Importancia de la Validación
SELECCIÓN
DE MEJORES
PARAMETROS
GRID VS RANDOM SEARCH
GRID SEARCH
RANDOM SEARCH
Validación y Evaluación de Modelos de ML en BigML
❑Source
❑Data Sets
❑Splits Training Data/Test Data
❑Model
❑Predictions
❑Evaluations
MONITOREO DE CONOCIMIENTOS
• Vamos a validar brevemente lo aprendido en esta sesión
• Nota de participación del curso
https://www.menti.com/al7y9kd458e7
CASO PRACTICO
CASO PRACTICO: VALIDACION
• Exploraremos 2 casos prácticos de negocioCasos Propuestos
• Insumo de ideas para el proyecto final
Casos Propuestos.pdf
PROYECTO FINAL
PROYECTO FINAL: VALIDACION
• En los grupos de proyecto final: explorar una aplicación de validación
• Salas de zoom
www.sgs.pe

MAchine Learning y Kaizennnnnnnnnnnnnnnnnn

  • 1.
    Machine Learning parala Optimización y Mejora de Procesos Sesión 5: Técnicas de Validación Ing. Mg. Miguel Angel Patiño Antonioli
  • 2.
    RECORDANDO ¿Qué aprendimos laclase pasada? https://www.menti.com/al7y9kd458e7
  • 3.
    LOGRO DE LASESIÓN - Comprender la separación de datos en train y test - Conocer las principales formas de evaluación de modelos - Identificar la validación cruzada - Distinguir grid search de random search para la selección de mejores parámetros
  • 4.
  • 5.
    Overfitting vs Underfitting ▪El Overfitting (sobreajuste) es un comportamiento de ML que ocurre cuando el modelo está alineado tan estrechamente con los datos de entrenamiento que no sabe cómo responder ante datos nuevos. Causas: ➢ Modelo de ML demasiado complejo y memoriza patrones extremadamente sutiles en los datos de entrenamiento que no se pueden aplicar a nuevos datos. ➢ Cantidad de datos de entrenamiento insuficientes para la complejidad del modelo, o con gran cantidad de información irrelevante. ▪ Solución recomendada: Gestionar la complejidad del modelo y mejorar el conjunto de datos de entrenamiento ▪ El Underfitting (subajuste), ocurre cuando el modelo no se alinea bien con los datos de entrenamiento o no logra aplicar patrones a datos nuevos. ▪ Overfitting y Underfitting pueden ocurrir en modelos de clasificación como en regresión.
  • 6.
    Los modelos deregresión y clasificación sobre ajustados memorizan los datos de entrenamiento mucho mejor que los modelos ajustados correctamente. Overfitting vs Underfitting
  • 7.
    Overfitting vs Underfitting ▪Cuando solo se observa el error calculado de un modelo de ML para los datos de entrenamiento, es más difícil detectar el sobreajuste que el subajuste. ▪ Para evitar el sobreajuste, es importante validar un modelo de ML antes de utilizarlo con datos de prueba. En modelos sobreajustados, el error calculado es bajo para datos de entrenamiento y alto para datos de prueba.
  • 8.
    ¿Cómo mejorar elOverfitting? Prevención del sobreajuste mejorando el conjunto de datos de entrenamiento Aumento de datos Generación de nuevas variables Limpieza de datos
  • 9.
    FIABILIDAD DE LOSMODELOS DE ML Medición del Rendimiento • Crucial para precisión y fiabilidad de las predicciones • Permite evaluar la capacidad de generación de nuevos datos Prevención del Overfitting • Se evita el Overfitting • Se busca que el modelo aprenda patrones significativos Optimización de Hiperparámetros • La validación proporciona información sobre la configuración óptima de los hiperparámetros del ML, influyendo directamente en su rendimiento predictivo.
  • 10.
  • 11.
    EVALUACION DE MODELOSDE CLASIFICACIÓN
  • 12.
  • 13.
    EVALUACION DE MODELOSDE CLASIFICACION
  • 14.
  • 15.
  • 16.
  • 17.
    Evaluación de Modelosen BigML Métricas de Evaluación Hay una variedad de métricas para evaluar modelos, como precisión, recall, F1-score y área bajo la curva ROC. Estas métricas proporcionan una visión detallada del rendimiento del modelo en diferentes aspectos. Comparación de Modelos Se puede comparar el rendimiento de varios modelos de forma simultánea, lo que facilita la identificación del modelo más adecuado para un problema específico. Visualización de Resultados Existen herramientas visuales para representar gráficamente el rendimiento de los modelos, lo que facilita la interpretación de los resultados y su comunicación a diferentes audiencias.
  • 18.
    Importancia de laValidación
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
    Validación y Evaluaciónde Modelos de ML en BigML ❑Source ❑Data Sets ❑Splits Training Data/Test Data ❑Model ❑Predictions ❑Evaluations
  • 24.
    MONITOREO DE CONOCIMIENTOS •Vamos a validar brevemente lo aprendido en esta sesión • Nota de participación del curso https://www.menti.com/al7y9kd458e7
  • 25.
  • 26.
    CASO PRACTICO: VALIDACION •Exploraremos 2 casos prácticos de negocioCasos Propuestos • Insumo de ideas para el proyecto final Casos Propuestos.pdf
  • 27.
  • 28.
    PROYECTO FINAL: VALIDACION •En los grupos de proyecto final: explorar una aplicación de validación • Salas de zoom
  • 29.