Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Jairo Acosta Solano
El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe.
DIRIGIDO A:
Profesionales que se desempeñan en las áreas de planeación estratégica, mercadeo, comercial, producción, gestión de clientes y estudiantes de últimos semestres de carreras profesionales de
Administración, Ingeniería Industrial, Mercadeo y afines
que tengan interés en desarrollar competencias en el análisis de los datos a través de herramientas estadísticas y de minería de datos que permitan aprovechar las tecnologías y herramientas de Big Data, para la toma de decisiones e identificar nuevas oportunidades de negocio y de mercados.
*El aspirante debe tener conocimientos básicos en estadística y uso de tecnologías de información.
Tomado del curso Introducción a la escritura científica: retos y potencialidades del entorno digital - http://hub11.ecolearning.eu/course/introduccion-a-la-escritura-cientifica-retos/
Una señal analógica es una señal generada por algún tipo de fenómeno electromagnético; que es representable por una función matemática continua en la que es variable su amplitud y periodo en función del tiempo.
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Jairo Acosta Solano
El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe.
DIRIGIDO A:
Profesionales que se desempeñan en las áreas de planeación estratégica, mercadeo, comercial, producción, gestión de clientes y estudiantes de últimos semestres de carreras profesionales de
Administración, Ingeniería Industrial, Mercadeo y afines
que tengan interés en desarrollar competencias en el análisis de los datos a través de herramientas estadísticas y de minería de datos que permitan aprovechar las tecnologías y herramientas de Big Data, para la toma de decisiones e identificar nuevas oportunidades de negocio y de mercados.
*El aspirante debe tener conocimientos básicos en estadística y uso de tecnologías de información.
Tomado del curso Introducción a la escritura científica: retos y potencialidades del entorno digital - http://hub11.ecolearning.eu/course/introduccion-a-la-escritura-cientifica-retos/
Una señal analógica es una señal generada por algún tipo de fenómeno electromagnético; que es representable por una función matemática continua en la que es variable su amplitud y periodo en función del tiempo.
Convocatoria de becas de Caja Ingenieros 2024 para cursar el Máster oficial de Ingeniería de Telecomunicacion o el Máster oficial de Ingeniería Informática de la UOC
2. MATRIZ DE CONFUSIÓN
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA
Verdaderos
Positivos (TP)
Falsos
Negativos (FN)
NO MANZANA
Falsos Positivos
(FP)
Verdaderos
Negativos (TN)
3. MATRIZ DE CONFUSIÓN
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA TP = 8 FN = 7
NO MANZANA FP = 6 TN = 10
4. MATRIZ DE CONFUSIÓN
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA TP = 12 FN = 3
NO MANZANA FP = 7 TN = 9
5. MÉTRICAS – EXACTITUD (ACCURACY)
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA TP = 8 FN = 7
NO MANZANA FP = 6 TN = 10
Se define como la proximidad entre el
resultado y la clasificación exacta.
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
6. MÉTRICAS – PRECISION (PRECISSION)
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA TP = 8 FN = 7
NO MANZANA FP = 6 TN = 10
Calidad de la respuesta positiva del clasificador
𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
7. MÉTRICAS – SENSIBILIDAD
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA TP = 8 FN = 7
NO MANZANA FP = 6 TN = 10
Eficiencia en la clasificación de los elementos
que son de la clase. Es también conocida como
la tasa de verdaderos positivos (TP Rate).
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑑𝑎𝑑 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
8. MÉTRICAS – ESPECIFICIDAD
Resultado clasificación
MANZANA NO MANZANA
Instancias
reales
MANZANA TP = 8 FN = 7
NO MANZANA FP = 6 TN = 10
Eficiencia en la clasificación de los elementos
que NO son de la clase.
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =
𝑇𝑁
𝑇𝑁 + 𝐹𝑃
La tasa de falsos positivos (FP Rate) es igual al
complementario de la especificidad.
𝐹𝑃 𝑅𝑎𝑡𝑒 = 1 − 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑