SlideShare una empresa de Scribd logo
1 de 46
Proyecto Big Data:
Análisis de Deserción Estudiantil
en la Universidad Continental
JUAN MAYTA
JHONNY EGUSQUIZA
Descripción del Negocio:
El cliente donde se implementa la solución es la Universidad Continental, la cual pertenece al
rubro de servicios educativos.
Ofrece 28 carreras profesionales de pregrado y 10 programas de posgrado.
Tiene 04 sedes y una población estudiantil de aproximadamente 10,000 alumnos.
Alcance
La solución de ciencia de datos que se construirá estará enfocada en determinar:
• Las características de los alumnos con deserción.
• Los factores que puedan generar deserción de alumnos.
Se construirá una solución de bigdata que procese la gran cantidad de datos manejada por
la universidad para poder presentar la información indicada y plantear recomendaciones
para poder mejorar esta situación. Esta solución será consumida a través de Power BI.
Equipo de Proyecto
Sponsor
Especialista
BigData
Project Manager
UContinental
Analista de
datos
Analista de
negocio
EQUIPO DE EJECUCIÓN
DEL PROYECTO
EQUIPO DE GESTIÓN
DEL PROYECTO
Comité de control de
cambios
Project Manager
Consultora
Métricas
Objetivos cualitativos:
• Reducir la tasa de deserción académica por semestre académico.
• Identificar las características de los alumnos con deserción.
• Determinar los factores que puedan generar deserción de alumnos.
Métricas cuantificables:
• Tasa de deserción académica por semestre.
Métricas
Mejoras en los valores de las métricas
• Reducir la tasa de deserción académica por semestre académico, a 4%
Valor de referencia (actual) de la métrica
• La tasa actual de deserción académica es de 8%
Cronograma de Actividades
Código Actividad Fecha
inicio
Fecha fin Hito Predecesora
1 GESTIÓN DEL PROYECTO 09.07.2018 06.11.2018 --
1.1 INICIO -- --
1.1.1 Project Charter aprobado 09.07.2018 16.07.2018  --
1.1.2 Kick Off 17.07.2018 17.07.2018 -- 1.1.2
1.2 PLANIFICACIÓN 18.07.2018 31.07.2018 -- --
1.2.1 Plan de Integración 18.07.2018 18.07.2018 -- 1.1.1
1.2.2 Plan de Gestión del Alcance 18.07.2018 18.07.2018  1.2.1
1.2.3 Plan de Gestión del Tiempo 19.07.2018 19.07.2018  1.2.2
1.2.4 Plan de Gestión del Costo 20.07.2018 20.07.2018  1.2.3
1.2.5 Plan de Gestión de Recursos Humanos 21.07.2018 21.07.2018  1.2.4
1.2.6 Plan de Gestión de Calidad 24.07.2018 24.07.2018  1.2.5
1.2.7 Plan de Gestión de Comunicaciones 25.07.2018 25.07.2018  1.2.6
1.2.8 Plan de Gestión de Riesgo 26.07.2018 26.07.2018  1.2.7
1.2.9 Plan de Gestión de Adquisiciones 27.07.2018 27.07.2018  1.2.8
1.2.10 Plan de Gestión de Stakeholders 31.07.2018 31.07.2018  1.2.9
Cronograma de Actividades
Código Actividad Fecha inicio Fecha fin Hito Predecesora
1 GESTIÓN DEL PROYECTO 09.07.2018 06.11.2018 --
1.3 MONITOREO Y CONTROL -- --
1.3.1 Monitoreo
1.3.1.1 Reporte de avance de actividades - WPI 1 20.08.2018 20.08.2018  --
1.3.1.2 Reporte de avance de actividades - WPI 2 03.08.2018 03.08.2018  1.3.1.1
1.3.1.3 Reporte de avance de actividades - WPI 3 17.09.2018 17.09.2018  1.3.1.2
1.3.1.4 Reporte de avance de actividades - WPI 4 24.09.2018 26.09.2018  1.3.1.3
1.3.2 Control de cambios
1.3.2.1 Informe de sugerencia de cambios 1 aprobado 23.08.2018 23.08.2018  1.3.1.1
1.3.2.2 Informe de sugerencia de cambios 2 aprobado 05.09.2018 05.09.2018  1.3.1.2
1.3.2.3 Informe de sugerencia de cambios 3 aprobado 19.09.2018 19.09.2018  1.3.1.3
1.3.2.4 Informe de sugerencia de cambios 4 aprobado 26.09.2018 26.09.2018  1.3.1.4
1.4 CIERRE 02.11.2018 06.11.2018 -- --
1.4.1 Acta de Cierre aprobada 02.11.2018 06.11.2018  9.4
Cronograma de Actividades
Código Actividad Fecha inicio Fecha fin Hito Predecesora
2 DESARROLLO DE LA SOLUCIÓN BIGDATA 13.08.2018 30.10.2018 --
2.1 Análisis y diseño de la solución 13.08.2018 16.08.2018 
2.2 Implementación de arquitectura de la solución 17.08.2018 31.08.2018  2.1
2.3 Ingesta de datos. Se transferirán datos entre
Oracle y Hadoop.
03.09.2018 05.09.2018  2.2
2.4 Almacenamiento de datos. Los datos se
almacenarán en HDFS a través de importación.
06.09.2018 07.09.2018  2.3
2.5 Procesamiento de datos. Se construirán scripts en
Hive para generar vistas de datos.
10.09.2018 12.09.2018  2.4
2.6 Análisis y visualización de datos. Se utilizarán
tablas dinámicas, fórmulas DAX y gráficos
dinámicos en Power BI.
13.09.2018 20.09.2018  2.5
2.7 Pruebas funcionales 21.09.2018 28.09.2018  2.6
2.8 Pase a producción 01.10.2018 01.10.2018  2.7
2.9 Soporte post-productivo 02.10.2018 30.10.2018  2.8
Arquitectura
Datos
• Tablas BD Oracle, información estructurada en columnas
Herramientas y recursos de almacenamiento/análisis de datos que se usarán en la solución
• Sqoop
• Hadoop HDFS
• MapReduce / Hive
• Power Bi
Arquitectura
Diagrama de la Solución
Source Data
Oracle on
Windows/Unix
Ingestion
Sqoop
(JDBC)
Storage
Hadoop
HDFS
Processing
Mapreduce /
Hive
Visualization
Power BI
(ODBC)
Infrastructure
Clúster de Servidores DataCenter
Sw Virtualización: Hyper-V
Distribution Hadoop: Hortonworks
High Disponibility: Hadoop Cluster
Comunicación
Reuniones de coordinación
Se realizarán reuniones una vez a la semana para conocer los avances del proyecto, retrasos,
acciones a seguir, así como el control de cambios si lo amerita.
Personas de contacto de ambos lados
• Gerente de Proyecto de Consultora
• Gerente de Proyecto Universidad Continental
Diccionario de Datos
Item Campo Tipo Valores (Ej.) Descripción DataSet
1 Programa String E001 Descripción de
programa de estudios
Data_alumnos
2 Alumno Char(6) 10015 Código de alumno Data_alumnos
3 Anio Char(4) 2014 Año de matrícula Data_alumnos
4 Semestre Char(1) 1 Semestre de matrícula Data_alumnos
5 Curso Char(6) 101213 Curso Data_alumnos
6 Sección Char(3) 20M Sección Data_alumnos
7 Docente Char(6) 098775 Docente de sección Data_alumnos
8 Nota_final Number(4,2) 17 Promedio final Data_alumnos
9 Escala_pago Char(2) 20 Escala de pago Data_alumnos
10 Condicion_pago Char(2) B Condición de pago Data_alumnos
11 Ciclo Char(2) 02 Ciclo de estudios Data_alumnos
12 Recibos_cancelados Int 1 Nro. Recibos cancelados Data_alumnos
13 Recibos_pendientes Int 4 Nro. Recibos pendientes Data_alumnos
14 Deserción Char(1) X Flag de deserción Data_alumnos
Diccionario de Datos
Item Campo Tipo Valores (Ej.) Descripción DataSet
15 Anio Char(4) 2014 Año de evaluación Eval_docentes
16 Semestre Char(1) 1 Semestre de evaluación Eval_docentes
17 Curso Char(6) 102030 Curso Eval_docentes
18 Sección Char(2) 20T Sección Eval_docentes
19 Docente Char(6) 203040 Docente Eval_docentes
20 Dim1 Varchar2(40) Normas Dimensión eval. 1 Eval_docentes
21 Dim2 Varchar2(40) Silabo Dimensión eval. 2 Eval_docentes
22 Dim3 Varchar2(40) Cordialidad Dimensión eval. 3 Eval_docentes
23 Dim4 Varchar2(40) Identificación Dimensión eval. 4 Eval_docentes
24 Dim5 Varchar2(40) Calificaciones Dimensión eval. 5 Eval_docentes
25 Prom_eval Varchar2(12) Excelente Promedio evaluación Eval_docentes
Diccionario de Datos
Item Campo Tipo Valores (Ej.) Descripción DataSet
26 Cod_pregunta Char(3) S01 Código de pregunta Eval_servicios
27 Desc_pregunta Varchar2(40) Desarrollo de
silabos
Descripción de pregunta Eval_servicios
28 Anio Char(4) 2014 Año de evaluación Eval_servicios
29 Tda Number(4,2) 31.91 % totalmente de
acuerdo
Eval_servicios
30 Da Number(4,2) 53.46 % de acuerdo Eval_servicios
31 Eda Number(4,2) 13.82 % en desacuerdo Eval_servicios
32 Ns Number(4,2) 0.81 % No sé Eval_servicios
Fuente de Datos
Item Data Set Name Original Location Destination Location
1 Eval_Docentes Oracle HDFS
2 Eval_Servicios Oracle HDFS
3 Data_alumnos Oracle HDFS
Ingesta de datos
Ingesta de datos - Sandbox Ambari – Files View
INFORMACIÓN BÁSICA:
EVALUACIÓN DE DOCENTES Y SERVICIOS UNIVERSITARIOS E INFORMACIÓN DE ALUMNOS
Ingesta de datos -Sandbox Ambari – Files View
CARGA DE INFORMACIÓN:
SE SUBIÓ LA INFORMACIÓN Y SE ACTUALIZÓ LOS PERMISOS.
Almacenamiento de datos
Almacenamiento de datos en HDFS
CARGA A HDFS:
SE GENERÓ LA BD UCONTINENTAL Y SE CARGÓ LA INFORMACIÓN
Almacenamiento de datos en HDFS
Almacenamiento de datos en HDFS
Almacenamiento de datos en HDFS
Procesamiento de datos
Creación de Vistas con Hive QL en Hive 2.0
Ejemplo: Deserción por ciclo de estudios y periodo:
CREATE VIEW vista_desercion_ciclo AS
select concat(anio,semestre) as periodo,ciclo,count(*) as nro
from
(
select distinct data_alumnos.anio as anio, data_alumnos.semestre as
semestre, data_alumnos.alumno, data_alumnos.ciclo_estudiante as ciclo
from data_alumnos where data_alumnos.desercion='X') a
group by concat(anio,semestre),ciclo;
Análisis y visualización de datos
Consumo de datos de Hive a Power BI
HABILITAR HIVE PARA CONEXIÓN CON POWERBI
SE HABILITÓ EN HIVE LA OPCIÓN INTERACTIVE QUERY Y SE CONFIGURO EL ODBC
EN EL EQUIPO.
Consumo de datos de Hive a Power BI
CARGAR INFORMACIÓN EN POWERBI
SE CONFIGURÓ LA COMUNICACIÓN ENTRE POWERBI Y HIVE UTILIZANDO EL ODBC
Consumo de datos de Hive a Power BI
PREPARAR INFORMACIÓN EN POWERBI
-SE ACTUALIZÓ LA INFORMACIÓN CARGADA Y SE REALIZARON CORRECCIONES
ADICIONALES PARA GENERAL LOS DASHBOARDS DE ENCUESTAS.
1. Porcentaje de deserción académica por semestre
2. Deserción por ciclo de estudios y semestre
3. Deserción por estado de pago de pensiones por semestre
4. Deserción por condición de pago por semestre
5. Deserción por escala de pago por semestre
6. Porcentaje de asignaturas desaprobadas por semestre en casos de deserción
7. Número de asignaturas desaprobadas por semestre en casos de deserción
8. Número de asignaturas desaprobadas por semestre
9. Resultados de evaluación docente por semestre en casos de deserción
10. Encuestas – Cursos y alumnos
11. Encuestas – Servicios Generales
Conclusiones (1)
• La tasa promedio de deserción en el periodo evaluado es de 9%
• Los ciclos de estudios donde se tiene mayor tasa de deserción es del 1º al 6º ciclo
• La mayor tasa de desaprobados por asignatura está en el rango del 10 al 30%.
• La mayor parte de alumnos con deserción académica no tiene deuda de pensiones,
seguido en porcentaje, por alumnos que tienen deuda en sus cinco cuotas de pensiones
(deudores).
• La mayor parte de alumnos con deserción académica tiene como condición de pago
“Normal”, es decir no tiene beneficios económicos.
• La mayor parte de alumnos con deserción académica tiene como escala de pago de
pensiones con tendencia a las más bajas, es decir no tienen una pensión mensual
superior a S/.1,000 soles
Conclusiones (2)
• La mayor parte de alumnos con deserción académica tiene todos sus cursos
desaprobados en el periodo matriculado, seguido en porcentaje por alumnos que tienen
todos sus cursos aprobados.
• La mayor parte de alumnos con deserción académica tiene de 3 a más cursos
desaprobados, lo cual es tendiente a generar deficiencia académica y expulsión del
alumno de la universidad.
• La mayor parte de docentes asociados a las asignaturas donde los alumnos tienen
deserción académica, tienen un promedio de evaluación entre bueno, muy bueno y
excelente, lo cual denota la satisfacción por parte del alumno por el docente asignado.
Recomendaciones (1)
• Existe un alto porcentaje de desaprobados por asignatura, lo que podría configurarse
como un alto grado de dificultad para la aprobación de los contenidos educativos, por lo
que se sugiere realizar reuniones académicas con los docentes para conocer la situación
académica de los alumnos y/o docentes y tomar las acciones correctivas que
correspondan.
• Revisar y/o mejora un programa de tutoría que permita el acompañamiento académico
al alumno durante el semestre académico, que incluya el seguimiento a sus calificaciones
parciales.
Recomendaciones (2)
• Potenciar la labor del área de bienestar universitario, a fin de que permita hacer
seguimiento administrativo a los alumnos que tienen más de una cuota de pensiones
después de su vencimiento, y poder ofertarle asesoría y/o apoyo para poder revertir
dicha situación.
• Mejorar el programa de becas y beneficios económicos para los estudiantes.
Proyecto Big Data:
Análisis de Deserción Estudiantil
en la Universidad Continental

Más contenido relacionado

Similar a Proyecto big data

45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas
45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas
45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanasJimpazcarranza
 
Gestión de proyectos en una PMO a través de un dashboard y KPIs
Gestión de proyectos en una PMO a través de un dashboard y KPIsGestión de proyectos en una PMO a través de un dashboard y KPIs
Gestión de proyectos en una PMO a través de un dashboard y KPIsAna Belén Rueda Martín
 
Portafolio de Computación Aplicada I
Portafolio de Computación Aplicada IPortafolio de Computación Aplicada I
Portafolio de Computación Aplicada INoeliaJtr
 
Diarios De Computación Aplicada
Diarios De Computación AplicadaDiarios De Computación Aplicada
Diarios De Computación AplicadaBryanFernando58
 
Portafolio compu
Portafolio compuPortafolio compu
Portafolio compuPablito Es
 
PDC curso compdigedu.pdf
PDC curso compdigedu.pdfPDC curso compdigedu.pdf
PDC curso compdigedu.pdfmintaka13
 
Analytics-para-contadores-programa-1-comprimido.pdf
Analytics-para-contadores-programa-1-comprimido.pdfAnalytics-para-contadores-programa-1-comprimido.pdf
Analytics-para-contadores-programa-1-comprimido.pdfrobert gomez
 
Robert Matamoros A diarios
Robert Matamoros A   diariosRobert Matamoros A   diarios
Robert Matamoros A diariosDonMata28
 
Computacion aplicada i
Computacion aplicada iComputacion aplicada i
Computacion aplicada iMiriamFarez
 
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Pepi Pedrero Rojo
 
Diarios de computacion aplicada
Diarios de computacion aplicadaDiarios de computacion aplicada
Diarios de computacion aplicadajeffguzman10
 
Indusmedia 2019. Paneles de mando. Ines Pascual
Indusmedia 2019. Paneles de mando. Ines PascualIndusmedia 2019. Paneles de mando. Ines Pascual
Indusmedia 2019. Paneles de mando. Ines PascualIndusmedia
 
Portafolio de Computación Aplicada
Portafolio de Computación AplicadaPortafolio de Computación Aplicada
Portafolio de Computación Aplicadahaydeemazac
 
OLAP Query Log: Hay vida más allá de las agregaciones - SolidQ Summit 2017
OLAP Query Log: Hay vida más allá de las agregaciones -  SolidQ Summit 2017OLAP Query Log: Hay vida más allá de las agregaciones -  SolidQ Summit 2017
OLAP Query Log: Hay vida más allá de las agregaciones - SolidQ Summit 2017SolidQ
 
Entregable final Analítica de Datos
Entregable final Analítica de DatosEntregable final Analítica de Datos
Entregable final Analítica de Datosale sierra
 
Programa profesional en Business_Intelligence con MSSQL Server 2015
Programa profesional en Business_Intelligence con MSSQL Server 2015Programa profesional en Business_Intelligence con MSSQL Server 2015
Programa profesional en Business_Intelligence con MSSQL Server 2015LPI ONG
 

Similar a Proyecto big data (20)

45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas
45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas
45559 7000004748 09-08-2020_114238_am_silabo_c2_-_ce_-_excel_pbi_-_05_semanas
 
Gestión de proyectos en una PMO a través de un dashboard y KPIs
Gestión de proyectos en una PMO a través de un dashboard y KPIsGestión de proyectos en una PMO a través de un dashboard y KPIs
Gestión de proyectos en una PMO a través de un dashboard y KPIs
 
Portafolio de Computación Aplicada I
Portafolio de Computación Aplicada IPortafolio de Computación Aplicada I
Portafolio de Computación Aplicada I
 
Diarios De Computación Aplicada
Diarios De Computación AplicadaDiarios De Computación Aplicada
Diarios De Computación Aplicada
 
Portafolio compu
Portafolio compuPortafolio compu
Portafolio compu
 
PDC curso compdigedu.pdf
PDC curso compdigedu.pdfPDC curso compdigedu.pdf
PDC curso compdigedu.pdf
 
Analytics-para-contadores-programa-1-comprimido.pdf
Analytics-para-contadores-programa-1-comprimido.pdfAnalytics-para-contadores-programa-1-comprimido.pdf
Analytics-para-contadores-programa-1-comprimido.pdf
 
Robert Matamoros A diarios
Robert Matamoros A   diariosRobert Matamoros A   diarios
Robert Matamoros A diarios
 
Computacion aplicada i
Computacion aplicada iComputacion aplicada i
Computacion aplicada i
 
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
 
Diarios de computacion aplicada
Diarios de computacion aplicadaDiarios de computacion aplicada
Diarios de computacion aplicada
 
02000 metodo validacion
02000 metodo validacion02000 metodo validacion
02000 metodo validacion
 
Quolutions Dossier Consultoría
Quolutions Dossier ConsultoríaQuolutions Dossier Consultoría
Quolutions Dossier Consultoría
 
Stratebi
StratebiStratebi
Stratebi
 
Indusmedia 2019. Paneles de mando. Ines Pascual
Indusmedia 2019. Paneles de mando. Ines PascualIndusmedia 2019. Paneles de mando. Ines Pascual
Indusmedia 2019. Paneles de mando. Ines Pascual
 
Portafolio de Computación Aplicada
Portafolio de Computación AplicadaPortafolio de Computación Aplicada
Portafolio de Computación Aplicada
 
11V03-V1_MEJORADO_2_8H.pptx
11V03-V1_MEJORADO_2_8H.pptx11V03-V1_MEJORADO_2_8H.pptx
11V03-V1_MEJORADO_2_8H.pptx
 
OLAP Query Log: Hay vida más allá de las agregaciones - SolidQ Summit 2017
OLAP Query Log: Hay vida más allá de las agregaciones -  SolidQ Summit 2017OLAP Query Log: Hay vida más allá de las agregaciones -  SolidQ Summit 2017
OLAP Query Log: Hay vida más allá de las agregaciones - SolidQ Summit 2017
 
Entregable final Analítica de Datos
Entregable final Analítica de DatosEntregable final Analítica de Datos
Entregable final Analítica de Datos
 
Programa profesional en Business_Intelligence con MSSQL Server 2015
Programa profesional en Business_Intelligence con MSSQL Server 2015Programa profesional en Business_Intelligence con MSSQL Server 2015
Programa profesional en Business_Intelligence con MSSQL Server 2015
 

Último

NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfisrael garcia
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdflauradbernals
 
institucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalenainstitucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalenajuniorcuellargomez
 
Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webDecaunlz
 
Institucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalenaInstitucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalenadanielaerazok
 
12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdfedwinmelgarschlink2
 
COMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdfCOMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdfOscarBlas6
 
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENAINSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENAdanielaerazok
 

Último (8)

NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdf
 
institucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalenainstitucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalena
 
Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la web
 
Institucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalenaInstitucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalena
 
12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf
 
COMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdfCOMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdf
 
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENAINSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
 

Proyecto big data

  • 1. Proyecto Big Data: Análisis de Deserción Estudiantil en la Universidad Continental JUAN MAYTA JHONNY EGUSQUIZA
  • 2. Descripción del Negocio: El cliente donde se implementa la solución es la Universidad Continental, la cual pertenece al rubro de servicios educativos. Ofrece 28 carreras profesionales de pregrado y 10 programas de posgrado. Tiene 04 sedes y una población estudiantil de aproximadamente 10,000 alumnos.
  • 3. Alcance La solución de ciencia de datos que se construirá estará enfocada en determinar: • Las características de los alumnos con deserción. • Los factores que puedan generar deserción de alumnos. Se construirá una solución de bigdata que procese la gran cantidad de datos manejada por la universidad para poder presentar la información indicada y plantear recomendaciones para poder mejorar esta situación. Esta solución será consumida a través de Power BI.
  • 4. Equipo de Proyecto Sponsor Especialista BigData Project Manager UContinental Analista de datos Analista de negocio EQUIPO DE EJECUCIÓN DEL PROYECTO EQUIPO DE GESTIÓN DEL PROYECTO Comité de control de cambios Project Manager Consultora
  • 5. Métricas Objetivos cualitativos: • Reducir la tasa de deserción académica por semestre académico. • Identificar las características de los alumnos con deserción. • Determinar los factores que puedan generar deserción de alumnos. Métricas cuantificables: • Tasa de deserción académica por semestre.
  • 6. Métricas Mejoras en los valores de las métricas • Reducir la tasa de deserción académica por semestre académico, a 4% Valor de referencia (actual) de la métrica • La tasa actual de deserción académica es de 8%
  • 7. Cronograma de Actividades Código Actividad Fecha inicio Fecha fin Hito Predecesora 1 GESTIÓN DEL PROYECTO 09.07.2018 06.11.2018 -- 1.1 INICIO -- -- 1.1.1 Project Charter aprobado 09.07.2018 16.07.2018  -- 1.1.2 Kick Off 17.07.2018 17.07.2018 -- 1.1.2 1.2 PLANIFICACIÓN 18.07.2018 31.07.2018 -- -- 1.2.1 Plan de Integración 18.07.2018 18.07.2018 -- 1.1.1 1.2.2 Plan de Gestión del Alcance 18.07.2018 18.07.2018  1.2.1 1.2.3 Plan de Gestión del Tiempo 19.07.2018 19.07.2018  1.2.2 1.2.4 Plan de Gestión del Costo 20.07.2018 20.07.2018  1.2.3 1.2.5 Plan de Gestión de Recursos Humanos 21.07.2018 21.07.2018  1.2.4 1.2.6 Plan de Gestión de Calidad 24.07.2018 24.07.2018  1.2.5 1.2.7 Plan de Gestión de Comunicaciones 25.07.2018 25.07.2018  1.2.6 1.2.8 Plan de Gestión de Riesgo 26.07.2018 26.07.2018  1.2.7 1.2.9 Plan de Gestión de Adquisiciones 27.07.2018 27.07.2018  1.2.8 1.2.10 Plan de Gestión de Stakeholders 31.07.2018 31.07.2018  1.2.9
  • 8. Cronograma de Actividades Código Actividad Fecha inicio Fecha fin Hito Predecesora 1 GESTIÓN DEL PROYECTO 09.07.2018 06.11.2018 -- 1.3 MONITOREO Y CONTROL -- -- 1.3.1 Monitoreo 1.3.1.1 Reporte de avance de actividades - WPI 1 20.08.2018 20.08.2018  -- 1.3.1.2 Reporte de avance de actividades - WPI 2 03.08.2018 03.08.2018  1.3.1.1 1.3.1.3 Reporte de avance de actividades - WPI 3 17.09.2018 17.09.2018  1.3.1.2 1.3.1.4 Reporte de avance de actividades - WPI 4 24.09.2018 26.09.2018  1.3.1.3 1.3.2 Control de cambios 1.3.2.1 Informe de sugerencia de cambios 1 aprobado 23.08.2018 23.08.2018  1.3.1.1 1.3.2.2 Informe de sugerencia de cambios 2 aprobado 05.09.2018 05.09.2018  1.3.1.2 1.3.2.3 Informe de sugerencia de cambios 3 aprobado 19.09.2018 19.09.2018  1.3.1.3 1.3.2.4 Informe de sugerencia de cambios 4 aprobado 26.09.2018 26.09.2018  1.3.1.4 1.4 CIERRE 02.11.2018 06.11.2018 -- -- 1.4.1 Acta de Cierre aprobada 02.11.2018 06.11.2018  9.4
  • 9. Cronograma de Actividades Código Actividad Fecha inicio Fecha fin Hito Predecesora 2 DESARROLLO DE LA SOLUCIÓN BIGDATA 13.08.2018 30.10.2018 -- 2.1 Análisis y diseño de la solución 13.08.2018 16.08.2018  2.2 Implementación de arquitectura de la solución 17.08.2018 31.08.2018  2.1 2.3 Ingesta de datos. Se transferirán datos entre Oracle y Hadoop. 03.09.2018 05.09.2018  2.2 2.4 Almacenamiento de datos. Los datos se almacenarán en HDFS a través de importación. 06.09.2018 07.09.2018  2.3 2.5 Procesamiento de datos. Se construirán scripts en Hive para generar vistas de datos. 10.09.2018 12.09.2018  2.4 2.6 Análisis y visualización de datos. Se utilizarán tablas dinámicas, fórmulas DAX y gráficos dinámicos en Power BI. 13.09.2018 20.09.2018  2.5 2.7 Pruebas funcionales 21.09.2018 28.09.2018  2.6 2.8 Pase a producción 01.10.2018 01.10.2018  2.7 2.9 Soporte post-productivo 02.10.2018 30.10.2018  2.8
  • 10. Arquitectura Datos • Tablas BD Oracle, información estructurada en columnas Herramientas y recursos de almacenamiento/análisis de datos que se usarán en la solución • Sqoop • Hadoop HDFS • MapReduce / Hive • Power Bi
  • 11. Arquitectura Diagrama de la Solución Source Data Oracle on Windows/Unix Ingestion Sqoop (JDBC) Storage Hadoop HDFS Processing Mapreduce / Hive Visualization Power BI (ODBC) Infrastructure Clúster de Servidores DataCenter Sw Virtualización: Hyper-V Distribution Hadoop: Hortonworks High Disponibility: Hadoop Cluster
  • 12. Comunicación Reuniones de coordinación Se realizarán reuniones una vez a la semana para conocer los avances del proyecto, retrasos, acciones a seguir, así como el control de cambios si lo amerita. Personas de contacto de ambos lados • Gerente de Proyecto de Consultora • Gerente de Proyecto Universidad Continental
  • 13. Diccionario de Datos Item Campo Tipo Valores (Ej.) Descripción DataSet 1 Programa String E001 Descripción de programa de estudios Data_alumnos 2 Alumno Char(6) 10015 Código de alumno Data_alumnos 3 Anio Char(4) 2014 Año de matrícula Data_alumnos 4 Semestre Char(1) 1 Semestre de matrícula Data_alumnos 5 Curso Char(6) 101213 Curso Data_alumnos 6 Sección Char(3) 20M Sección Data_alumnos 7 Docente Char(6) 098775 Docente de sección Data_alumnos 8 Nota_final Number(4,2) 17 Promedio final Data_alumnos 9 Escala_pago Char(2) 20 Escala de pago Data_alumnos 10 Condicion_pago Char(2) B Condición de pago Data_alumnos 11 Ciclo Char(2) 02 Ciclo de estudios Data_alumnos 12 Recibos_cancelados Int 1 Nro. Recibos cancelados Data_alumnos 13 Recibos_pendientes Int 4 Nro. Recibos pendientes Data_alumnos 14 Deserción Char(1) X Flag de deserción Data_alumnos
  • 14. Diccionario de Datos Item Campo Tipo Valores (Ej.) Descripción DataSet 15 Anio Char(4) 2014 Año de evaluación Eval_docentes 16 Semestre Char(1) 1 Semestre de evaluación Eval_docentes 17 Curso Char(6) 102030 Curso Eval_docentes 18 Sección Char(2) 20T Sección Eval_docentes 19 Docente Char(6) 203040 Docente Eval_docentes 20 Dim1 Varchar2(40) Normas Dimensión eval. 1 Eval_docentes 21 Dim2 Varchar2(40) Silabo Dimensión eval. 2 Eval_docentes 22 Dim3 Varchar2(40) Cordialidad Dimensión eval. 3 Eval_docentes 23 Dim4 Varchar2(40) Identificación Dimensión eval. 4 Eval_docentes 24 Dim5 Varchar2(40) Calificaciones Dimensión eval. 5 Eval_docentes 25 Prom_eval Varchar2(12) Excelente Promedio evaluación Eval_docentes
  • 15. Diccionario de Datos Item Campo Tipo Valores (Ej.) Descripción DataSet 26 Cod_pregunta Char(3) S01 Código de pregunta Eval_servicios 27 Desc_pregunta Varchar2(40) Desarrollo de silabos Descripción de pregunta Eval_servicios 28 Anio Char(4) 2014 Año de evaluación Eval_servicios 29 Tda Number(4,2) 31.91 % totalmente de acuerdo Eval_servicios 30 Da Number(4,2) 53.46 % de acuerdo Eval_servicios 31 Eda Number(4,2) 13.82 % en desacuerdo Eval_servicios 32 Ns Number(4,2) 0.81 % No sé Eval_servicios
  • 16. Fuente de Datos Item Data Set Name Original Location Destination Location 1 Eval_Docentes Oracle HDFS 2 Eval_Servicios Oracle HDFS 3 Data_alumnos Oracle HDFS
  • 18. Ingesta de datos - Sandbox Ambari – Files View INFORMACIÓN BÁSICA: EVALUACIÓN DE DOCENTES Y SERVICIOS UNIVERSITARIOS E INFORMACIÓN DE ALUMNOS
  • 19. Ingesta de datos -Sandbox Ambari – Files View CARGA DE INFORMACIÓN: SE SUBIÓ LA INFORMACIÓN Y SE ACTUALIZÓ LOS PERMISOS.
  • 21. Almacenamiento de datos en HDFS CARGA A HDFS: SE GENERÓ LA BD UCONTINENTAL Y SE CARGÓ LA INFORMACIÓN
  • 26. Creación de Vistas con Hive QL en Hive 2.0 Ejemplo: Deserción por ciclo de estudios y periodo: CREATE VIEW vista_desercion_ciclo AS select concat(anio,semestre) as periodo,ciclo,count(*) as nro from ( select distinct data_alumnos.anio as anio, data_alumnos.semestre as semestre, data_alumnos.alumno, data_alumnos.ciclo_estudiante as ciclo from data_alumnos where data_alumnos.desercion='X') a group by concat(anio,semestre),ciclo;
  • 28. Consumo de datos de Hive a Power BI HABILITAR HIVE PARA CONEXIÓN CON POWERBI SE HABILITÓ EN HIVE LA OPCIÓN INTERACTIVE QUERY Y SE CONFIGURO EL ODBC EN EL EQUIPO.
  • 29. Consumo de datos de Hive a Power BI CARGAR INFORMACIÓN EN POWERBI SE CONFIGURÓ LA COMUNICACIÓN ENTRE POWERBI Y HIVE UTILIZANDO EL ODBC
  • 30. Consumo de datos de Hive a Power BI PREPARAR INFORMACIÓN EN POWERBI -SE ACTUALIZÓ LA INFORMACIÓN CARGADA Y SE REALIZARON CORRECCIONES ADICIONALES PARA GENERAL LOS DASHBOARDS DE ENCUESTAS.
  • 31. 1. Porcentaje de deserción académica por semestre
  • 32. 2. Deserción por ciclo de estudios y semestre
  • 33. 3. Deserción por estado de pago de pensiones por semestre
  • 34. 4. Deserción por condición de pago por semestre
  • 35. 5. Deserción por escala de pago por semestre
  • 36. 6. Porcentaje de asignaturas desaprobadas por semestre en casos de deserción
  • 37. 7. Número de asignaturas desaprobadas por semestre en casos de deserción
  • 38. 8. Número de asignaturas desaprobadas por semestre
  • 39. 9. Resultados de evaluación docente por semestre en casos de deserción
  • 40. 10. Encuestas – Cursos y alumnos
  • 41. 11. Encuestas – Servicios Generales
  • 42. Conclusiones (1) • La tasa promedio de deserción en el periodo evaluado es de 9% • Los ciclos de estudios donde se tiene mayor tasa de deserción es del 1º al 6º ciclo • La mayor tasa de desaprobados por asignatura está en el rango del 10 al 30%. • La mayor parte de alumnos con deserción académica no tiene deuda de pensiones, seguido en porcentaje, por alumnos que tienen deuda en sus cinco cuotas de pensiones (deudores). • La mayor parte de alumnos con deserción académica tiene como condición de pago “Normal”, es decir no tiene beneficios económicos. • La mayor parte de alumnos con deserción académica tiene como escala de pago de pensiones con tendencia a las más bajas, es decir no tienen una pensión mensual superior a S/.1,000 soles
  • 43. Conclusiones (2) • La mayor parte de alumnos con deserción académica tiene todos sus cursos desaprobados en el periodo matriculado, seguido en porcentaje por alumnos que tienen todos sus cursos aprobados. • La mayor parte de alumnos con deserción académica tiene de 3 a más cursos desaprobados, lo cual es tendiente a generar deficiencia académica y expulsión del alumno de la universidad. • La mayor parte de docentes asociados a las asignaturas donde los alumnos tienen deserción académica, tienen un promedio de evaluación entre bueno, muy bueno y excelente, lo cual denota la satisfacción por parte del alumno por el docente asignado.
  • 44. Recomendaciones (1) • Existe un alto porcentaje de desaprobados por asignatura, lo que podría configurarse como un alto grado de dificultad para la aprobación de los contenidos educativos, por lo que se sugiere realizar reuniones académicas con los docentes para conocer la situación académica de los alumnos y/o docentes y tomar las acciones correctivas que correspondan. • Revisar y/o mejora un programa de tutoría que permita el acompañamiento académico al alumno durante el semestre académico, que incluya el seguimiento a sus calificaciones parciales.
  • 45. Recomendaciones (2) • Potenciar la labor del área de bienestar universitario, a fin de que permita hacer seguimiento administrativo a los alumnos que tienen más de una cuota de pensiones después de su vencimiento, y poder ofertarle asesoría y/o apoyo para poder revertir dicha situación. • Mejorar el programa de becas y beneficios económicos para los estudiantes.
  • 46. Proyecto Big Data: Análisis de Deserción Estudiantil en la Universidad Continental