7. Visión general Comprensión del negocio Comprensión de los datos Preparación de los datos Modelación Evaluación Despliegue de resultados DATOS
8. Fases Determinación de los objetivos. Definición de Criterios de Éxito. Calificación de la Situación. Determinación de las metas de la Minería de datos Recolectar los datos iniciales. Descripción de los datos. Exploración de los Datos. Verificación de la Calidad de los datos. Selección de Datos. Limpieza de los Datos. Construcción de Nuevos Datos. Formateo de los Datos. Selección de la Técnica de Modelación. Generación de Pruebas para el Modelo. Construcción del Modelo. Calificación del Modelo. Aplicación del modelo a la rutina diaria. Monitoreo y mantenimiento. Reporte Final Evaluación del modelo con respecto a los objetivos del proyecto. Evaluación costo-beneficio. Evaluar su aplicación en la realidad Comprensión de negocio Entendimiento de datos Preparación de datos Modelado Evaluación Despliegue de resultados
14. Comparación SEMMA CRISP Orientado al desarrollo del proceso de MD Orientado a los objetivos empresariales Se inicia analizando los datos Se inicia analizando los objetivos del negocio Ligada a productos SAS Metodología abierta y gratuita Orientado a una metodología de gestión de proyectos
16. El Proceso de la Minería de Datos Explotación Data Selección Conocimiento Patrones Minería de Datos Interpretación/ Evaluación Preparación de Datos Data Pre-procesada Datos Modelos Despliegue inducción deducción
27. Entendimiento de los Datos Recolección de datos iníciales Descripción de los datos Exploración de los datos Verificación de la calidad de los datos univariada multivariada series de datos
30. Preparación de los Datos Limpieza de datos Integración de Datos Transformación de datos Reducción de datos Valores extremos Valores null Valores con ruido Valores inconsistentes Valores mal clasificados Problemas de semántica ¿significa lo mismo? Problemas de temporalidad ¿cuándo fue registrado? Problemas de codificación y formato. Problemas de idioma. Problemas de duplicidad ¿cuál vale? Problema de medio de almacenamiento. Filas: suma y agregación de datos Columnas: log, sin, exp, tan, etc… Funciones entre columnas.