1. Proyecto Big Data:
Análisis de Deserción Estudiantil
en la Universidad Continental
JUAN MAYTA
JHONNY EGUSQUIZA
2. Descripción del Negocio:
El cliente donde se implementa la solución es la Universidad Continental, la cual pertenece al
rubro de servicios educativos.
Ofrece 28 carreras profesionales de pregrado y 10 programas de posgrado.
Tiene 04 sedes y una población estudiantil de aproximadamente 10,000 alumnos.
3. Alcance
La solución de ciencia de datos que se construirá estará enfocada en determinar:
• Las características de los alumnos con deserción.
• Los factores que puedan generar deserción de alumnos.
Se construirá una solución de bigdata que procese la gran cantidad de datos manejada por
la universidad para poder presentar la información indicada y plantear recomendaciones
para poder mejorar esta situación. Esta solución será consumida a través de Power BI.
4. Equipo de Proyecto
Sponsor
Especialista
BigData
Project Manager
UContinental
Analista de
datos
Analista de
negocio
EQUIPO DE EJECUCIÓN
DEL PROYECTO
EQUIPO DE GESTIÓN
DEL PROYECTO
Comité de control de
cambios
Project Manager
Consultora
5. Métricas
Objetivos cualitativos:
• Reducir la tasa de deserción académica por semestre académico.
• Identificar las características de los alumnos con deserción.
• Determinar los factores que puedan generar deserción de alumnos.
Métricas cuantificables:
• Tasa de deserción académica por semestre.
6. Métricas
Mejoras en los valores de las métricas
• Reducir la tasa de deserción académica por semestre académico, a 4%
Valor de referencia (actual) de la métrica
• La tasa actual de deserción académica es de 8%
7. Cronograma de Actividades
Código Actividad Fecha
inicio
Fecha fin Hito Predecesora
1 GESTIÓN DEL PROYECTO 09.07.2018 06.11.2018 --
1.1 INICIO -- --
1.1.1 Project Charter aprobado 09.07.2018 16.07.2018 --
1.1.2 Kick Off 17.07.2018 17.07.2018 -- 1.1.2
1.2 PLANIFICACIÓN 18.07.2018 31.07.2018 -- --
1.2.1 Plan de Integración 18.07.2018 18.07.2018 -- 1.1.1
1.2.2 Plan de Gestión del Alcance 18.07.2018 18.07.2018 1.2.1
1.2.3 Plan de Gestión del Tiempo 19.07.2018 19.07.2018 1.2.2
1.2.4 Plan de Gestión del Costo 20.07.2018 20.07.2018 1.2.3
1.2.5 Plan de Gestión de Recursos Humanos 21.07.2018 21.07.2018 1.2.4
1.2.6 Plan de Gestión de Calidad 24.07.2018 24.07.2018 1.2.5
1.2.7 Plan de Gestión de Comunicaciones 25.07.2018 25.07.2018 1.2.6
1.2.8 Plan de Gestión de Riesgo 26.07.2018 26.07.2018 1.2.7
1.2.9 Plan de Gestión de Adquisiciones 27.07.2018 27.07.2018 1.2.8
1.2.10 Plan de Gestión de Stakeholders 31.07.2018 31.07.2018 1.2.9
8. Cronograma de Actividades
Código Actividad Fecha inicio Fecha fin Hito Predecesora
1 GESTIÓN DEL PROYECTO 09.07.2018 06.11.2018 --
1.3 MONITOREO Y CONTROL -- --
1.3.1 Monitoreo
1.3.1.1 Reporte de avance de actividades - WPI 1 20.08.2018 20.08.2018 --
1.3.1.2 Reporte de avance de actividades - WPI 2 03.08.2018 03.08.2018 1.3.1.1
1.3.1.3 Reporte de avance de actividades - WPI 3 17.09.2018 17.09.2018 1.3.1.2
1.3.1.4 Reporte de avance de actividades - WPI 4 24.09.2018 26.09.2018 1.3.1.3
1.3.2 Control de cambios
1.3.2.1 Informe de sugerencia de cambios 1 aprobado 23.08.2018 23.08.2018 1.3.1.1
1.3.2.2 Informe de sugerencia de cambios 2 aprobado 05.09.2018 05.09.2018 1.3.1.2
1.3.2.3 Informe de sugerencia de cambios 3 aprobado 19.09.2018 19.09.2018 1.3.1.3
1.3.2.4 Informe de sugerencia de cambios 4 aprobado 26.09.2018 26.09.2018 1.3.1.4
1.4 CIERRE 02.11.2018 06.11.2018 -- --
1.4.1 Acta de Cierre aprobada 02.11.2018 06.11.2018 9.4
9. Cronograma de Actividades
Código Actividad Fecha inicio Fecha fin Hito Predecesora
2 DESARROLLO DE LA SOLUCIÓN BIGDATA 13.08.2018 30.10.2018 --
2.1 Análisis y diseño de la solución 13.08.2018 16.08.2018
2.2 Implementación de arquitectura de la solución 17.08.2018 31.08.2018 2.1
2.3 Ingesta de datos. Se transferirán datos entre
Oracle y Hadoop.
03.09.2018 05.09.2018 2.2
2.4 Almacenamiento de datos. Los datos se
almacenarán en HDFS a través de importación.
06.09.2018 07.09.2018 2.3
2.5 Procesamiento de datos. Se construirán scripts en
Hive para generar vistas de datos.
10.09.2018 12.09.2018 2.4
2.6 Análisis y visualización de datos. Se utilizarán
tablas dinámicas, fórmulas DAX y gráficos
dinámicos en Power BI.
13.09.2018 20.09.2018 2.5
2.7 Pruebas funcionales 21.09.2018 28.09.2018 2.6
2.8 Pase a producción 01.10.2018 01.10.2018 2.7
2.9 Soporte post-productivo 02.10.2018 30.10.2018 2.8
10. Arquitectura
Datos
• Tablas BD Oracle, información estructurada en columnas
Herramientas y recursos de almacenamiento/análisis de datos que se usarán en la solución
• Sqoop
• Hadoop HDFS
• MapReduce / Hive
• Power Bi
11. Arquitectura
Diagrama de la Solución
Source Data
Oracle on
Windows/Unix
Ingestion
Sqoop
(JDBC)
Storage
Hadoop
HDFS
Processing
Mapreduce /
Hive
Visualization
Power BI
(ODBC)
Infrastructure
Clúster de Servidores DataCenter
Sw Virtualización: Hyper-V
Distribution Hadoop: Hortonworks
High Disponibility: Hadoop Cluster
12. Comunicación
Reuniones de coordinación
Se realizarán reuniones una vez a la semana para conocer los avances del proyecto, retrasos,
acciones a seguir, así como el control de cambios si lo amerita.
Personas de contacto de ambos lados
• Gerente de Proyecto de Consultora
• Gerente de Proyecto Universidad Continental
13. Diccionario de Datos
Item Campo Tipo Valores (Ej.) Descripción DataSet
1 Programa String E001 Descripción de
programa de estudios
Data_alumnos
2 Alumno Char(6) 10015 Código de alumno Data_alumnos
3 Anio Char(4) 2014 Año de matrícula Data_alumnos
4 Semestre Char(1) 1 Semestre de matrícula Data_alumnos
5 Curso Char(6) 101213 Curso Data_alumnos
6 Sección Char(3) 20M Sección Data_alumnos
7 Docente Char(6) 098775 Docente de sección Data_alumnos
8 Nota_final Number(4,2) 17 Promedio final Data_alumnos
9 Escala_pago Char(2) 20 Escala de pago Data_alumnos
10 Condicion_pago Char(2) B Condición de pago Data_alumnos
11 Ciclo Char(2) 02 Ciclo de estudios Data_alumnos
12 Recibos_cancelados Int 1 Nro. Recibos cancelados Data_alumnos
13 Recibos_pendientes Int 4 Nro. Recibos pendientes Data_alumnos
14 Deserción Char(1) X Flag de deserción Data_alumnos
15. Diccionario de Datos
Item Campo Tipo Valores (Ej.) Descripción DataSet
26 Cod_pregunta Char(3) S01 Código de pregunta Eval_servicios
27 Desc_pregunta Varchar2(40) Desarrollo de
silabos
Descripción de pregunta Eval_servicios
28 Anio Char(4) 2014 Año de evaluación Eval_servicios
29 Tda Number(4,2) 31.91 % totalmente de
acuerdo
Eval_servicios
30 Da Number(4,2) 53.46 % de acuerdo Eval_servicios
31 Eda Number(4,2) 13.82 % en desacuerdo Eval_servicios
32 Ns Number(4,2) 0.81 % No sé Eval_servicios
16. Fuente de Datos
Item Data Set Name Original Location Destination Location
1 Eval_Docentes Oracle HDFS
2 Eval_Servicios Oracle HDFS
3 Data_alumnos Oracle HDFS
26. Creación de Vistas con Hive QL en Hive 2.0
Ejemplo: Deserción por ciclo de estudios y periodo:
CREATE VIEW vista_desercion_ciclo AS
select concat(anio,semestre) as periodo,ciclo,count(*) as nro
from
(
select distinct data_alumnos.anio as anio, data_alumnos.semestre as
semestre, data_alumnos.alumno, data_alumnos.ciclo_estudiante as ciclo
from data_alumnos where data_alumnos.desercion='X') a
group by concat(anio,semestre),ciclo;
28. Consumo de datos de Hive a Power BI
HABILITAR HIVE PARA CONEXIÓN CON POWERBI
SE HABILITÓ EN HIVE LA OPCIÓN INTERACTIVE QUERY Y SE CONFIGURO EL ODBC
EN EL EQUIPO.
29. Consumo de datos de Hive a Power BI
CARGAR INFORMACIÓN EN POWERBI
SE CONFIGURÓ LA COMUNICACIÓN ENTRE POWERBI Y HIVE UTILIZANDO EL ODBC
30. Consumo de datos de Hive a Power BI
PREPARAR INFORMACIÓN EN POWERBI
-SE ACTUALIZÓ LA INFORMACIÓN CARGADA Y SE REALIZARON CORRECCIONES
ADICIONALES PARA GENERAL LOS DASHBOARDS DE ENCUESTAS.
42. Conclusiones (1)
• La tasa promedio de deserción en el periodo evaluado es de 9%
• Los ciclos de estudios donde se tiene mayor tasa de deserción es del 1º al 6º ciclo
• La mayor tasa de desaprobados por asignatura está en el rango del 10 al 30%.
• La mayor parte de alumnos con deserción académica no tiene deuda de pensiones,
seguido en porcentaje, por alumnos que tienen deuda en sus cinco cuotas de pensiones
(deudores).
• La mayor parte de alumnos con deserción académica tiene como condición de pago
“Normal”, es decir no tiene beneficios económicos.
• La mayor parte de alumnos con deserción académica tiene como escala de pago de
pensiones con tendencia a las más bajas, es decir no tienen una pensión mensual
superior a S/.1,000 soles
43. Conclusiones (2)
• La mayor parte de alumnos con deserción académica tiene todos sus cursos
desaprobados en el periodo matriculado, seguido en porcentaje por alumnos que tienen
todos sus cursos aprobados.
• La mayor parte de alumnos con deserción académica tiene de 3 a más cursos
desaprobados, lo cual es tendiente a generar deficiencia académica y expulsión del
alumno de la universidad.
• La mayor parte de docentes asociados a las asignaturas donde los alumnos tienen
deserción académica, tienen un promedio de evaluación entre bueno, muy bueno y
excelente, lo cual denota la satisfacción por parte del alumno por el docente asignado.
44. Recomendaciones (1)
• Existe un alto porcentaje de desaprobados por asignatura, lo que podría configurarse
como un alto grado de dificultad para la aprobación de los contenidos educativos, por lo
que se sugiere realizar reuniones académicas con los docentes para conocer la situación
académica de los alumnos y/o docentes y tomar las acciones correctivas que
correspondan.
• Revisar y/o mejora un programa de tutoría que permita el acompañamiento académico
al alumno durante el semestre académico, que incluya el seguimiento a sus calificaciones
parciales.
45. Recomendaciones (2)
• Potenciar la labor del área de bienestar universitario, a fin de que permita hacer
seguimiento administrativo a los alumnos que tienen más de una cuota de pensiones
después de su vencimiento, y poder ofertarle asesoría y/o apoyo para poder revertir
dicha situación.
• Mejorar el programa de becas y beneficios económicos para los estudiantes.