Este documento presenta el uso de varias técnicas estadísticas multivariadas para analizar el rendimiento académico de estudiantes en una institución de educación superior. Las técnicas incluyen análisis de correspondencia, análisis de clúster, análisis de covarianza y regresión logística, las cuales se aplican a las calificaciones de los estudiantes y variables socioeconómicas. Los resultados indican que el análisis de covarianza permite comparar secciones de cursos eliminando el efecto de
El documento presenta información sobre métodos de análisis multivariado. Explica que estos métodos permiten analizar múltiples variables medidas para cada sujeto de estudio de forma simultánea. Describe brevemente los métodos de análisis factorial, análisis de correspondencias y análisis de cluster, incluyendo sus objetivos, etapas y usos comunes. Finalmente, incluye un ejemplo de tablas de resultados de un análisis de cluster.
El documento describe diferentes métodos estadísticos multivariados, incluyendo el cálculo del coeficiente de confiabilidad alfa de Cronbach, análisis de componentes principales, regresión múltiple, análisis discriminante múltiple, análisis de varianza multivariado, análisis conjunto, correlación canónica, análisis de conglomerados, escala multidimensional, análisis de correspondencia, modelos de probabilidad lineal, modelos de ecuaciones estructurales y análisis de varianza. Explica cada mé
Este documento proporciona una introducción a conceptos básicos de estadística como muestra, población, variable, dato y parámetro. Explica los tipos de estadística como descriptiva, inferencial y aplicada. También describe pasos para un estudio estadístico, tipos de muestreo, variables y tablas de frecuencias. El objetivo es brindar una visión general de los principales elementos y métodos de la estadística.
Redes sociales presentación 30 08 2010 carlos f. de angelisMario Sullivan
El documento presenta una introducción a los métodos cuantitativos para el análisis de datos, definiendo conceptos básicos como variable, matriz de datos y tipos de variables. Explica técnicas de análisis univariado, bivariado y multivariado según el tipo y cantidad de variables, incluyendo tablas de frecuencias, medidas de tendencia central, correlación, regresión y análisis de conglomerados. Finalmente, brinda ejemplos y criterios para seleccionar las técnicas apropiadas en cada caso.
Este documento presenta una introducción al análisis exploratorio de datos multivariantes. Explica que el objetivo del AED es examinar los datos antes de aplicar técnicas estadísticas para comprender las relaciones entre variables. Luego describe las etapas del AED, incluyendo preparar los datos, realizar análisis univariado y bivariado, y evaluar supuestos como normalidad y linealidad. Finalmente, provee detalles sobre métodos específicos para cada etapa como gráficos, medidas y pruebas estadísticas.
El documento proporciona una introducción al análisis multivariante. Explica que este conjunto de métodos estadísticos permite analizar datos con múltiples variables medidas para cada sujeto u objeto estudiado. Describe los objetivos del análisis multivariante y clasifica sus técnicas en métodos de dependencia, interdependencia y estructurales. Además, presenta ejemplos de aplicaciones del análisis multivariante en diversas áreas como la medicina, biología, sociología e investigación de mercados.
El documento presenta información sobre métodos de análisis multivariado. Explica que estos métodos permiten analizar múltiples variables medidas para cada sujeto de estudio de forma simultánea. Describe brevemente los métodos de análisis factorial, análisis de correspondencias y análisis de cluster, incluyendo sus objetivos, etapas y usos comunes. Finalmente, incluye un ejemplo de tablas de resultados de un análisis de cluster.
El documento describe diferentes métodos estadísticos multivariados, incluyendo el cálculo del coeficiente de confiabilidad alfa de Cronbach, análisis de componentes principales, regresión múltiple, análisis discriminante múltiple, análisis de varianza multivariado, análisis conjunto, correlación canónica, análisis de conglomerados, escala multidimensional, análisis de correspondencia, modelos de probabilidad lineal, modelos de ecuaciones estructurales y análisis de varianza. Explica cada mé
Este documento proporciona una introducción a conceptos básicos de estadística como muestra, población, variable, dato y parámetro. Explica los tipos de estadística como descriptiva, inferencial y aplicada. También describe pasos para un estudio estadístico, tipos de muestreo, variables y tablas de frecuencias. El objetivo es brindar una visión general de los principales elementos y métodos de la estadística.
Redes sociales presentación 30 08 2010 carlos f. de angelisMario Sullivan
El documento presenta una introducción a los métodos cuantitativos para el análisis de datos, definiendo conceptos básicos como variable, matriz de datos y tipos de variables. Explica técnicas de análisis univariado, bivariado y multivariado según el tipo y cantidad de variables, incluyendo tablas de frecuencias, medidas de tendencia central, correlación, regresión y análisis de conglomerados. Finalmente, brinda ejemplos y criterios para seleccionar las técnicas apropiadas en cada caso.
Este documento presenta una introducción al análisis exploratorio de datos multivariantes. Explica que el objetivo del AED es examinar los datos antes de aplicar técnicas estadísticas para comprender las relaciones entre variables. Luego describe las etapas del AED, incluyendo preparar los datos, realizar análisis univariado y bivariado, y evaluar supuestos como normalidad y linealidad. Finalmente, provee detalles sobre métodos específicos para cada etapa como gráficos, medidas y pruebas estadísticas.
El documento proporciona una introducción al análisis multivariante. Explica que este conjunto de métodos estadísticos permite analizar datos con múltiples variables medidas para cada sujeto u objeto estudiado. Describe los objetivos del análisis multivariante y clasifica sus técnicas en métodos de dependencia, interdependencia y estructurales. Además, presenta ejemplos de aplicaciones del análisis multivariante en diversas áreas como la medicina, biología, sociología e investigación de mercados.
El documento trata sobre el tema de la estadística. Explica que la estadística es la ciencia que utiliza conjuntos de datos numéricos para obtener inferencias basadas en probabilidades. Describe las ramas principales de la estadística como la estadística descriptiva y la estadística inferencial. También menciona algunas aplicaciones comunes de la estadística como la educación, contabilidad y administración. Finalmente, define conceptos estadísticos clave como población, muestra, variable e hipótesis.
El documento habla sobre el tema de la estadística. Explica que la estadística es la ciencia que utiliza datos numéricos para obtener inferencias basadas en probabilidades. Luego describe las ramas principales de la estadística como la estadística descriptiva y la estadística inferencial. Finalmente, detalla diversos conceptos y técnicas estadísticas como muestras, poblaciones, hipótesis, variables, datos, niveles de medición, distribución de frecuencias y análisis de varianza
El documento habla sobre el tema de la estadística. Explica que la estadística es la ciencia que utiliza datos numéricos para obtener inferencias basadas en probabilidades. Luego describe las ramas principales de la estadística como la estadística descriptiva y la estadística inferencial. Finalmente, detalla diversos conceptos y técnicas estadísticas como la teoría de muestras, el análisis de varianza, series temporales, y tablas de contingencia.
El documento presenta definiciones y conceptos básicos de estadística descriptiva e inferencial. Explica términos como población, muestra, variable, estadígrafos de posición como la media y la mediana. También describe diferentes métodos de muestreo, recolección de datos, niveles de medición y tablas de frecuencias.
Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para WindowsJairo Acosta Solano
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows.
El documento describe los elementos clave para diagnosticar y analizar un modelo de regresión lineal. Explica que la diagnosis es necesaria para determinar qué suposiciones del modelo son válidas y cuáles no a través del análisis de gráficos de residuos y estadísticos. También cubre factores que afectan los datos, como valores atípicos, y diferentes tipos de gráficos útiles para la diagnosis, como gráficos de residuos y de regresión parcial.
Este documento introduce conceptos básicos de estadística. Explica que la estadística se ocupa de recopilar y analizar datos numéricos de una población para hacer inferencias. Describe la estadística descriptiva, que resume datos, y la inferencia estadística, que genera modelos e inferencias teniendo en cuenta la aleatoriedad. También define términos clave como universo, población, muestra, variables, escalas de medición y tipos de muestreo.
El documento presenta una introducción al análisis multivariado, describiendo que analiza múltiples variables medidas para cada objeto de estudio. Luego describe los objetivos y tipos de técnicas del análisis multivariado, incluyendo métodos de dependencia, interdependencia y estructurales. Finalmente, concluye que el análisis multivariado estudia múltiples resultados de forma relacionada para esclarecer la distribución de variables y sus causas-efectos.
Este documento presenta una introducción al análisis multivariado. Explica que el análisis multivariado determina la contribución de múltiples factores a un resultado mediante la construcción de modelos estadísticos complejos. Luego describe varias técnicas multivariadas como el análisis de regresión múltiple, análisis de componentes principales, análisis de conglomerados y análisis discriminante. Finalmente, destaca la importancia del análisis multivariado en la investigación de mercados y estudios de opini
El documento describe los métodos de análisis multivariado, los cuales permiten analizar múltiples variables medidas para cada objeto de estudio. Explica que existen tres tipos de técnicas: métodos de dependencia que analizan las relaciones entre variables independientes y dependientes, métodos de interdependencia que identifican cómo están relacionadas todas las variables, y métodos estructurales que analizan las relaciones entre variables independientes y dependientes y entre ellas mismas. Finalmente, detalla algunas técnicas específicas como la regresión, anális
Este documento presenta una introducción al análisis estadístico descriptivo. Explica que la estadística se utiliza para recopilar y resumir conjuntos de datos y realizar inferencias. Distingue entre estadística descriptiva e inferencial. También clasifica las variables y tipos de gráficos que se pueden usar según el tipo de variable.
El documento describe diferentes tipos de análisis de datos, incluyendo análisis descriptivo, exploratorio, confirmatorio y de correlación. El objetivo del análisis de datos es detectar grupos altamente relacionados de variables a través de técnicas como tablas, gráficos, análisis de cada variable, transformación de datos, análisis factorial, tipológico y de regresión. También discute la importancia de relacionar los datos con el problema de conocimiento y las hipótesis planteadas.
Importancia de la Estadística en InvestigaciónCIE UCP
Este documento define términos clave en estadística como población, muestra, variables, datos y escalas de medición. Explica que la estadística se divide en descriptiva e inferencia. Describe las diferentes clases de variables como cualitativas y cuantitativas discretas y continuas. También presenta los pasos básicos del proceso estadístico como definir el problema, planificar, recolectar datos, analizar resultados y sacar conclusiones.
Importancia de la estadística en la investigación científicaCarlos Leon
El documento describe la importancia de la estadística en la investigación científica. Explica que la estadística analiza conjuntos de datos numéricos para revelar leyes y tendencias, y se aplica a áreas como el diseño de experimentos, la estimación de parámetros poblacionales, y el estudio de relaciones entre variables. Además, distingue entre estadística descriptiva, que se enfoca en caracterizar y resumir datos, e inferencia estadística, que permite generalizaciones, predicciones y la toma de decisiones
Este documento compara la estadística paramétrica y no paramétrica. La estadística paramétrica implica estimaciones de parámetros poblacionales y es más eficiente, pero requiere supuestos sobre la distribución de datos. La estadística no paramétrica hace pocas suposiciones sobre la distribución y es aplicable a muestras pequeñas, pero es menos potente. Se proveen ejemplos de pruebas paramétricas como T-student y no paramétricas como prueba de Chi-cuadrado.
La estadística descriptiva se utiliza para resumir y describir conjuntos de datos, mientras que la estadística inferencial permite hacer inferencias sobre una población basadas en una muestra. El documento también define términos estadísticos clave como variables, escalas de medición, poblaciones y muestras. Explica que las variables pueden ser cualitativas o cuantitativas y nomina las cuatro escalas de medición principales - nominal, ordinal, de intervalo y de razón - describiendo sus características.
Este documento presenta conceptos básicos sobre estadística para la interpretación de datos médicos. Explica variables, muestras, poblaciones y parámetros. Luego, describe diferentes tipos de análisis como univariado, bivariado, descriptivo e inferencial. Finalmente, detalla cómo evaluar el diseño estadístico de un estudio, y analizar datos bivariados entre variables cualitativas usando tablas de contingencia y coeficientes de asociación. El objetivo es que los lectores comprendan e interpreten indicadores estadísticos
El documento presenta una introducción al análisis multivariado, definiendo este método estadístico como el conjunto de técnicas para analizar simultáneamente conjuntos de datos con múltiples variables. Explica los tipos de métodos como el análisis factorial, de clusters, de regresión y discriminante. Luego describe técnicas específicas como el análisis de componentes principales, factorial, discriminante lineal y de correlación canónica. Finalmente, concluye que el análisis multivariado permite un mejor entendimiento de los fenó
El documento presenta una introducción al análisis de datos de encuestas, describiendo diferentes tipos de análisis como el descriptivo, exploratorio y confirmatorio. Explica cómo se resumen los datos de una muestra y analiza variables. También describe técnicas multivariadas como regresión, análisis factorial, tipológico y de correlación para identificar patrones en los datos.
Este documento describe los diferentes pasos y técnicas involucradas en el análisis de datos para una investigación científica. Explica el análisis descriptivo, exploratorio y confirmatorio de datos cuantificados y no cuantificados, así como la organización y representación de datos. También cubre técnicas específicas como el análisis de variables nominales, el método Delphi y la importancia de interpretar correctamente los resultados.
El documento habla sobre la estadística. Explica que la estadística se divide en dos ramas: estadística descriptiva y estadística inferencial. También describe varios temas estadísticos como teoría de muestras, estadística descriptiva, teoría de la estimación, diseño de experimentos, contraste de hipótesis, análisis de varianza, análisis de regresión y correlación, tablas de contingencia, teoría de la decisión, series temporales, análisis de ruid
El documento trata sobre el tema de la estadística. Explica que la estadística es la ciencia que utiliza conjuntos de datos numéricos para obtener inferencias basadas en probabilidades. Describe las ramas principales de la estadística como la estadística descriptiva y la estadística inferencial. También menciona algunas aplicaciones comunes de la estadística como la educación, contabilidad y administración. Finalmente, define conceptos estadísticos clave como población, muestra, variable e hipótesis.
El documento habla sobre el tema de la estadística. Explica que la estadística es la ciencia que utiliza datos numéricos para obtener inferencias basadas en probabilidades. Luego describe las ramas principales de la estadística como la estadística descriptiva y la estadística inferencial. Finalmente, detalla diversos conceptos y técnicas estadísticas como muestras, poblaciones, hipótesis, variables, datos, niveles de medición, distribución de frecuencias y análisis de varianza
El documento habla sobre el tema de la estadística. Explica que la estadística es la ciencia que utiliza datos numéricos para obtener inferencias basadas en probabilidades. Luego describe las ramas principales de la estadística como la estadística descriptiva y la estadística inferencial. Finalmente, detalla diversos conceptos y técnicas estadísticas como la teoría de muestras, el análisis de varianza, series temporales, y tablas de contingencia.
El documento presenta definiciones y conceptos básicos de estadística descriptiva e inferencial. Explica términos como población, muestra, variable, estadígrafos de posición como la media y la mediana. También describe diferentes métodos de muestreo, recolección de datos, niveles de medición y tablas de frecuencias.
Cómo realizar "paso a paso" un contraste de hipótesis con SPSS para WindowsJairo Acosta Solano
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la comparación de medias entre tres o más grupos independientes se realiza a través de un modelo matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa SPSS para Windows.
El documento describe los elementos clave para diagnosticar y analizar un modelo de regresión lineal. Explica que la diagnosis es necesaria para determinar qué suposiciones del modelo son válidas y cuáles no a través del análisis de gráficos de residuos y estadísticos. También cubre factores que afectan los datos, como valores atípicos, y diferentes tipos de gráficos útiles para la diagnosis, como gráficos de residuos y de regresión parcial.
Este documento introduce conceptos básicos de estadística. Explica que la estadística se ocupa de recopilar y analizar datos numéricos de una población para hacer inferencias. Describe la estadística descriptiva, que resume datos, y la inferencia estadística, que genera modelos e inferencias teniendo en cuenta la aleatoriedad. También define términos clave como universo, población, muestra, variables, escalas de medición y tipos de muestreo.
El documento presenta una introducción al análisis multivariado, describiendo que analiza múltiples variables medidas para cada objeto de estudio. Luego describe los objetivos y tipos de técnicas del análisis multivariado, incluyendo métodos de dependencia, interdependencia y estructurales. Finalmente, concluye que el análisis multivariado estudia múltiples resultados de forma relacionada para esclarecer la distribución de variables y sus causas-efectos.
Este documento presenta una introducción al análisis multivariado. Explica que el análisis multivariado determina la contribución de múltiples factores a un resultado mediante la construcción de modelos estadísticos complejos. Luego describe varias técnicas multivariadas como el análisis de regresión múltiple, análisis de componentes principales, análisis de conglomerados y análisis discriminante. Finalmente, destaca la importancia del análisis multivariado en la investigación de mercados y estudios de opini
El documento describe los métodos de análisis multivariado, los cuales permiten analizar múltiples variables medidas para cada objeto de estudio. Explica que existen tres tipos de técnicas: métodos de dependencia que analizan las relaciones entre variables independientes y dependientes, métodos de interdependencia que identifican cómo están relacionadas todas las variables, y métodos estructurales que analizan las relaciones entre variables independientes y dependientes y entre ellas mismas. Finalmente, detalla algunas técnicas específicas como la regresión, anális
Este documento presenta una introducción al análisis estadístico descriptivo. Explica que la estadística se utiliza para recopilar y resumir conjuntos de datos y realizar inferencias. Distingue entre estadística descriptiva e inferencial. También clasifica las variables y tipos de gráficos que se pueden usar según el tipo de variable.
El documento describe diferentes tipos de análisis de datos, incluyendo análisis descriptivo, exploratorio, confirmatorio y de correlación. El objetivo del análisis de datos es detectar grupos altamente relacionados de variables a través de técnicas como tablas, gráficos, análisis de cada variable, transformación de datos, análisis factorial, tipológico y de regresión. También discute la importancia de relacionar los datos con el problema de conocimiento y las hipótesis planteadas.
Importancia de la Estadística en InvestigaciónCIE UCP
Este documento define términos clave en estadística como población, muestra, variables, datos y escalas de medición. Explica que la estadística se divide en descriptiva e inferencia. Describe las diferentes clases de variables como cualitativas y cuantitativas discretas y continuas. También presenta los pasos básicos del proceso estadístico como definir el problema, planificar, recolectar datos, analizar resultados y sacar conclusiones.
Importancia de la estadística en la investigación científicaCarlos Leon
El documento describe la importancia de la estadística en la investigación científica. Explica que la estadística analiza conjuntos de datos numéricos para revelar leyes y tendencias, y se aplica a áreas como el diseño de experimentos, la estimación de parámetros poblacionales, y el estudio de relaciones entre variables. Además, distingue entre estadística descriptiva, que se enfoca en caracterizar y resumir datos, e inferencia estadística, que permite generalizaciones, predicciones y la toma de decisiones
Este documento compara la estadística paramétrica y no paramétrica. La estadística paramétrica implica estimaciones de parámetros poblacionales y es más eficiente, pero requiere supuestos sobre la distribución de datos. La estadística no paramétrica hace pocas suposiciones sobre la distribución y es aplicable a muestras pequeñas, pero es menos potente. Se proveen ejemplos de pruebas paramétricas como T-student y no paramétricas como prueba de Chi-cuadrado.
La estadística descriptiva se utiliza para resumir y describir conjuntos de datos, mientras que la estadística inferencial permite hacer inferencias sobre una población basadas en una muestra. El documento también define términos estadísticos clave como variables, escalas de medición, poblaciones y muestras. Explica que las variables pueden ser cualitativas o cuantitativas y nomina las cuatro escalas de medición principales - nominal, ordinal, de intervalo y de razón - describiendo sus características.
Este documento presenta conceptos básicos sobre estadística para la interpretación de datos médicos. Explica variables, muestras, poblaciones y parámetros. Luego, describe diferentes tipos de análisis como univariado, bivariado, descriptivo e inferencial. Finalmente, detalla cómo evaluar el diseño estadístico de un estudio, y analizar datos bivariados entre variables cualitativas usando tablas de contingencia y coeficientes de asociación. El objetivo es que los lectores comprendan e interpreten indicadores estadísticos
El documento presenta una introducción al análisis multivariado, definiendo este método estadístico como el conjunto de técnicas para analizar simultáneamente conjuntos de datos con múltiples variables. Explica los tipos de métodos como el análisis factorial, de clusters, de regresión y discriminante. Luego describe técnicas específicas como el análisis de componentes principales, factorial, discriminante lineal y de correlación canónica. Finalmente, concluye que el análisis multivariado permite un mejor entendimiento de los fenó
El documento presenta una introducción al análisis de datos de encuestas, describiendo diferentes tipos de análisis como el descriptivo, exploratorio y confirmatorio. Explica cómo se resumen los datos de una muestra y analiza variables. También describe técnicas multivariadas como regresión, análisis factorial, tipológico y de correlación para identificar patrones en los datos.
Este documento describe los diferentes pasos y técnicas involucradas en el análisis de datos para una investigación científica. Explica el análisis descriptivo, exploratorio y confirmatorio de datos cuantificados y no cuantificados, así como la organización y representación de datos. También cubre técnicas específicas como el análisis de variables nominales, el método Delphi y la importancia de interpretar correctamente los resultados.
El documento habla sobre la estadística. Explica que la estadística se divide en dos ramas: estadística descriptiva y estadística inferencial. También describe varios temas estadísticos como teoría de muestras, estadística descriptiva, teoría de la estimación, diseño de experimentos, contraste de hipótesis, análisis de varianza, análisis de regresión y correlación, tablas de contingencia, teoría de la decisión, series temporales, análisis de ruid
Este documento presenta diferentes métodos cualitativos y cuantitativos para realizar proyecciones de mercado. Entre los métodos cualitativos se encuentra el Método de Delphi, que reúne a expertos en un tema para obtener una opinión consensuada mediante cuestionarios iterativos. Los métodos cuantitativos incluyen modelos causales como la regresión lineal y modelos de series de tiempo como promedios móviles y suavización exponencial, los cuales usan datos históricos para proyectar tendencias futuras. El documento explic
El documento habla sobre la organización de datos estadísticos. Explica que la estadística se ocupa de sistematizar y analizar datos sobre fenómenos variables para estudiarlos de manera metódica. Los datos provienen de variables que pueden ser cualitativas o cuantitativas, y se organizan usando tablas de frecuencia e histogramas. El proceso de organización de datos implica recolectarlos de forma directa o indirecta y luego tabularlos y graficarlos para analizarlos de manera precisa y cercana a la realidad
Este documento presenta los objetivos, justificación y actividades de un laboratorio sobre regresión y correlación lineal. El objetivo general es caracterizar situaciones mediante análisis estadístico bivariante y determinar las relaciones entre variables. Se justifica el uso de regresión lineal simple y múltiple para interpretar correlaciones. Las actividades incluyen crear un mapa mental con conceptos bivariantes, definir términos clave y seleccionar una opción de laboratorio.
El documento describe diferentes métodos cualitativos y cuantitativos para realizar proyecciones de mercado. Entre los métodos cualitativos se encuentra el Método de Delphi, que involucra reunir expertos en un tema y aplicar múltiples rondas de cuestionarios para lograr un consenso. Los métodos cuantitativos incluyen modelos causales como la regresión lineal y modelos de series de tiempo como promedios móviles y suavización exponencial. El objetivo es determinar el comportamiento futuro de variables clave utilizando técnicas est
Este documento trata sobre el análisis de datos en la investigación. Explica que el análisis de datos es un proceso para resaltar información útil de los datos a través de la inspección, limpieza y transformación. Luego describe los tipos de análisis de datos como univariado, bivariado y trivariado, y los métodos estadísticos como medidas de tendencia central, medidas de dispersión y correlación que se usan en el análisis. Finalmente, enfatiza que el análisis e interpretación de datos requiere conocimientos
Este documento describe un proyecto para aprender a usar el programa estadístico SPSS con el objetivo de aplicarlo en la solución de problemas de comercio exterior. El proyecto busca investigar información sobre el uso de programas estadísticos y aprender a utilizar correctamente SPSS para desarrollar ejercicios y resolver problemas relacionados con el comercio exterior usando análisis estadísticos. El documento también incluye una revisión teórica sobre conceptos estadísticos como regresión lineal, correlación, prueba de
Este documento describe un proyecto de investigación sobre el uso del programa estadístico SPSS para analizar datos y resolver problemas de comercio exterior. El objetivo general es aprender a usar SPSS para determinar parámetros estadísticos e inferenciales y aplicarlos a problemas de comercio exterior. El documento también incluye una revisión de conceptos estadísticos como regresión lineal, correlación, prueba de hipótesis, distribución normal y t de Student.
Este documento describe diferentes técnicas estadísticas para identificar posibles relaciones entre variables. Explica que la búsqueda de asociación entre variables es el primer paso en el análisis de causalidad. Luego detalla coeficientes y pruebas estadísticas para relaciones entre variables cuantitativas como el coeficiente de Pearson y Spearman, y para variables ordinales como Rho de Spearman y Tau de Kendall. Concluye que conocer estas técnicas es esencial para establecer relaciones entre variables y realizar inferencia causal.
Este documento presenta una introducción a los métodos estadísticos. Explica conceptos clave como las ramas de la estadística (descriptiva, inferencial y matemática), las aplicaciones de la estadística en diversos campos como las ciencias naturales y sociales, y conceptos como hipótesis, variables, datos, población, muestra y nivel de medición nominal. También incluye ejemplos de cómo se usa la estadística en el fútbol, contabilidad y administración.
Este documento presenta un portafolio de estadística inferencial realizado por una estudiante para su curso de Comercio Exterior y Negociación Comercial Internacional. El objetivo general era aprender a manejar el programa SPSS para determinar parámetros estadísticos y aplicarlos a problemas de comercio exterior. El documento incluye la definición y tipos de estadística, regresión lineal, correlación, prueba de hipótesis, y distribución normal entre otros conceptos estadísticos.
Este documento describe un portafolio de estadística inferencial creado por una estudiante como parte de sus estudios en la Escuela de Comercio Exterior y Negociación Comercial Internacional de la Universidad Politécnica Estatal del Carchi en Ecuador. El portafolio cubre temas como el uso de programas estadísticos, regresión lineal, correlación, pruebas de hipótesis y distribuciones normales con el objetivo de aplicar estos conceptos a problemas de comercio exterior.
El documento describe los métodos de análisis multivariado, que analizan múltiples variables para determinar las relaciones entre ellas. Explica que sirve para representar datos de forma inteligible, esclarecer la distribución de variables, desarrollar modelos de predicción, y hallar relaciones causa-efecto. Detalla diferentes tipos de métodos como análisis factorial, de clusters, de regresión, y discriminante. Finalmente, discute las ventajas de estos métodos para observar relaciones entre variables, y las desventajas de su complejidad
Este documento describe los pasos para realizar un análisis de datos de investigación. Explica los tipos de análisis estadísticos descriptivos e inferenciales, incluyendo frecuencias, medidas de tendencia central, medidas de dispersión y pruebas paramétricas y no paramétricas. También cubre cómo organizar y presentar los resultados del análisis de datos para su interpretación.
Este documento presenta una introducción a los métodos estadísticos. Explica que la estadística estudia los métodos para recoger, organizar y analizar datos para obtener conclusiones válidas. Luego describe las principales ramas de la estadística como la descriptiva, inferencial y matemática. También cubre conceptos clave como variables, hipótesis, datos, población y muestra. Finalmente, presenta diversas aplicaciones de la estadística en campos como las ciencias, economía, medicina y educación.
El documento presenta una introducción a los métodos estadísticos. Explica que la estadística estudia los métodos para recoger, organizar y analizar datos de forma científica. Luego describe las principales ramas de la estadística como la descriptiva, inferencial y matemática. Finalmente, detalla algunas aplicaciones comunes de la estadística en campos como las ciencias, la economía y la medicina.
Este documento propone una metodología para analizar la relevancia de indicadores de rendimiento en educación superior utilizando redes bayesianas. Las redes bayesianas permiten determinar las principales relaciones entre variables y cómo afectan los cambios en variables controlables a los indicadores de rendimiento. Se ilustra la metodología con un caso práctico de la Universidad de Almería.
La pandemia de COVID-19 ha tenido un impacto significativo en la economía mundial. Muchos países experimentaron fuertes caídas en el PIB y aumentos en el desempleo en 2020 debido a los bloqueos y otras medidas de contención. A medida que se implementan las vacunas, se espera que la actividad económica se recupere en 2021 aunque el panorama sigue siendo incierto.
This document provides information on several artworks created by Colombian artist Fernando Botero between 1950 and 1993. It lists the names of the pieces, their creation dates, and the techniques used. It also notes that while Botero's works are known for their voluminous figures, the artist considers this emphasis on volume to be a representation of beauty rather than an act of painting "fat bodies."
Este documento presenta una introducción a un manual sobre redacción científica. Incluye un glosario de términos relacionados como bibliografía, ciencia, método científico y tipos de investigación. También presenta la biografía del autor y un índice de los capítulos que cubrirá el manual.
Este documento presenta los Requisitos de Uniformidad para manuscritos enviados a revistas biomédicas establecidos por el Comité Internacional de Editores de Revistas Médicas. Detalla consideraciones éticas como la autoría, conflictos de intereses, privacidad y protección de sujetos. También cubre cuestiones de publicación como obligación de publicar estudios negativos, correcciones, derechos de autor, publicaciones solapadas y cartas de lectores. Por último, proporciona directrices para la preparación y envío de manuscritos, incluyendo se
La historia clínica en odontología incluye la recopilación de datos del paciente a través de una anamnesis y exploración clínica, así como exploraciones complementarias como radiografías. La anamnesis recoge datos personales y médicos del paciente, mientras que la exploración clínica evalúa la boca mediante inspección, palpación y auscultación. Los hallazgos se registran en un odontograma, identificando cada diente con un número. Las radiografías como las periapicales y panorámicas permit
LA PEDAGOGIA AUTOGESTONARIA EN EL PROCESO DE ENSEÑANZA APRENDIZAJEjecgjv
La Pedagogía Autogestionaria es un enfoque educativo que busca transformar la educación mediante la participación directa de estudiantes, profesores y padres en la gestión de todas las esferas de la vida escolar.
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLMJuan Martín Martín
Examen de Selectividad de la EvAU de Geografía de junio de 2023 en Castilla La Mancha. UCLM . (Convocatoria ordinaria)
Más información en el Blog de Geografía de Juan Martín Martín
http://blogdegeografiadejuan.blogspot.com/
Este documento presenta un examen de geografía para el Acceso a la universidad (EVAU). Consta de cuatro secciones. La primera sección ofrece tres ejercicios prácticos sobre paisajes, mapas o hábitats. La segunda sección contiene preguntas teóricas sobre unidades de relieve, transporte o demografía. La tercera sección pide definir conceptos geográficos. La cuarta sección implica identificar elementos geográficos en un mapa. El examen evalúa conocimientos fundamentales de geografía.
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptxOsiris Urbano
Evaluación de principales hallazgos de la Historia Clínica utiles en la orientación diagnóstica de Hemorragia Digestiva en el abordaje inicial del paciente.
Durante el período citado se sucedieron tres presidencias radicales a cargo de Hipólito Yrigoyen (1916-1922),
Marcelo T. de Alvear (1922-1928) y la segunda presidencia de Yrigoyen, a partir de 1928 la cual fue
interrumpida por el golpe de estado de 1930. Entre 1916 y 1922, el primer gobierno radical enfrentó el
desafío que significaba gobernar respetando las reglas del juego democrático e impulsando, al mismo
tiempo, las medidas que aseguraran la concreción de los intereses de los diferentes grupos sociales que
habían apoyado al radicalismo.
Ponencia en I SEMINARIO SOBRE LA APLICABILIDAD DE LA INTELIGENCIA ARTIFICIAL EN LA EDUCACIÓN SUPERIOR UNIVERSITARIA. 3 de junio de 2024. Facultad de Estudios Sociales y Trabajo, Universidad de Málaga.
1. Revista digital de la Facultad de Ingeniería de Sistemas, nº 2, 2007, 51-82
SISTEMA PARA EL ANÁLISIS ESTADÍSTICO DE
TÉCNICAS MULTIVARIADAS DEL RENDIMIENTO
ACADÉMICO DE LOS ESTUDIANTES DE UNA
INSTITUCIÓN DE ENSEÑANZA SUPERIOR*
Jorge Chue Gallardo
jchue@ulima.edu.pe
Emma Barreno Vereau
ebarreno@ulima.edu.pe
Rosa Millones Rivalles
rbmillon@ulima.edu.pe
Universidad de Lima
Resumen
Este trabajo de investigación presenta diferentes técnicas multivariadas aplicadas
a las calificaciones obtenidas por los alumnos en las diferentes asignaturas de un plan
de estudios, así como algunas variables socioeconómicas para detectar las posibles
relaciones y comportamientos irregulares de alumnos, secciones y profesores de una
institución de educación superior. El objetivo es alcanzar una gestión educativa efi-
ciente, oportuna y confiable. Las técnicas multivariadas utilizadas son: análisis de
correspondencias simple, análisis clúster, análisis de covariancia, análisis discrimi-
nante, regresión logística binaria y regresión logística ordinal y nominal.
Los resultados de la investigación indican que la técnica del análisis de covarian-
cia permite comparar las diferentes secciones de un curso, eliminando el efecto del
promedio ponderado acumulativo o de cualquier otra covariable. De igual modo, las
otras técnicas multivariadas contribuyen a alcanzar el objetivo.
Palabras clave:
Análisis de correspondencias simple, análisis clúster, análisis de covariancia,
análisis discriminante, regresión logística binaria y regresión logística ordinal
y nominal. Modelos lineales generalizados y deviance.
* Este artículo no hubiera sido posible sin el apoyo del Instituto de Investigación Científica de
la Universidad de Lima (IDIC), que auspició el proyecto “Sistema para el Análisis Estadístico
con Técnicas Multivariadas del Rendimiento Académico de los Estudiantes de la Universi-
dad de Lima", realizado por los autores. Del mismo modo, agradecen sinceramente a todos
aquellos que de alguna manera los apoyaron en el desarrollo del presente artículo.
2. 52
1. Introducción
El proceso de toma de decisiones en una institución educativa debe
estar basado en métodos cuantitativos, especialmente en aquellos que
pertenecen a la ciencia de la estadística. Estos métodos permiten adop-
tar las mejores decisiones cuando se observan y analizan escenarios que
se desarrollan bajo condiciones de incertidumbre, aleatoriedad y varia-
bilidad.
Durante un semestre se registra información de diferentes variables
asociadas al rendimiento académico de los alumnos. Algunas de estas
variables son: número de desaprobados en las diferentes asignaturas del
plan de estudios, cursos con mayor número de desaprobados por
semestre, porcentaje de desaprobados por profesor, nivel socioeconómi-
co de los alumnos, condición laboral de los alumnos, categoría del cole-
gio de procedencia, etcétera. En este contexto, el objetivo principal del
proyecto es proporcionar un sistema que permita analizar las posibles
relaciones entre las notas de las asignaturas obtenidas por los alumnos
y algunas variables socioeconómicas de los mismos alumnos con la
ayuda de técnicas multivariadas para detectar cursos, alumnos y seccio-
nes que presenten comportamientos estadísticos irregulares.
2. Técnicas multivariadas
Las técnicas multivariadas son un conjunto de métodos estadísticos que
analizan simultáneamente medidas de diferentes variables de cada indi-
viduo u objeto en estudio. Las variables son aleatorias, pueden o no
tener distribución normal multivariada y deben estar interrelacionadas de
tal forma que sus efectos no pueden ser interpretados separadamente.
Las técnicas multivariadas utilizadas en el presente trabajo son:
• Métodos de interdependencia: análisis de correspondencias y análi-
sis clúster.
• Métodos de dependencia: análisis de covariancia, análisis discrimi-
nante y regresión logística.
Los cálculos de las estadísticas asociadas a cada técnica multivariada
son laboriosos y complejos en algunos casos, desde que la cantidad de
datos que se analizan es generalmente grande con numerosas operacio-
nes matriciales. Para facilitar estos cálculos se usaron los siguientes
paquetes estadísticos: Minitab® , SPSS® y R.
Jorge Chue, Emma Barreno, Rosa Millones
52 nº 2, 2007, 51-82
3. 2.1 Análisis de Correspondencia Simple
El Análisis de Correspondencia Simple (ACS) es una técnica estadística
utilizada para analizar las relaciones de dependencia e independencia
de un conjunto de variables categóricas a partir de datos originales. El
ACS permite construir un diagrama cartesiano, denominado mapa de
percepción de las categorías de varias variables; de forma que la proxi-
midad entre los puntos representados está relacionada con el nivel de
asociación entre dichas categorías.
Los principales objetivos del ACS son describir las asociaciones exis-
tentes entre las diferentes categorías de las variables analizadas y repre-
sentar gráficamente, en un espacio bidimensional, las asociaciones exis-
tentes entre las diferentes categorías de las variables analizadas. Los
tipos de datos utilizados son variables cualitativas nominales o variables
cuantitativas continuas categorizadas haciendo uso de intervalos.
La metodología del ACS es aplicada a una tabla de contingencia de
dimensiones r x c (r filas y c columnas) de la manera siguiente:
• Se calcula la tabla de frecuencias relativas, F de las observaciones.
• Se realiza la prueba Chi–Cuadrado para comprobar la existencia de
dependencia entre las variables analizadas. La existencia o no de
algún tipo de relación entre las variables X e Y se analiza mediante la
prueba de hipótesis sobre la independencia de dichas variables. Estas
hipótesis son dos: hipótesis nula (Ho) e hipótesis alternativa (Ha). Por
consiguiente:
Ho: Las variables del estudio X e Y son independientes
Ha: Las variables X e Y son dependientes
• Se calcula la tabla estandarizada Z, de frecuencias relativas de las mis-
mas dimensiones de la tabla original, r x c, dividiendo cada celda de
F por la raíz cuadrada de los totales de su fila y columna.
• Se calculan los h (normalmente h = 2) vectores propios ligados a valo-
res propios mayores, pero distintos de la unidad, de las matrices ZZT
y ZTZ.
En el presente estudio se realizó el Análisis de Correspondencia
Simple con la ayuda del software estadístico Minitab. Los reportes de
interés emitidos por el mencionado software son Row profiles; en rela-
ción con las categorías de la variable ubicada en las filas de la tabla de
contingencia, nos proporciona el porcentaje relacionado con cada una de
las categorías de la variable ubicada en las columnas.
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
53nº 2, 2007, 51-82
4. nº 2, 2007, 51-8254
Los column profiles por su parte nos indica, con relación a las catego-
rías de la variable ubicada en las columnas de la tabla de contingencia, el
porcentaje relacionado con cada una de las categorías de la variable ubi-
cada en las filas.
También tenemos el analysis of contingency table, que nos señala la
importancia de cada una de las dimensiones al momento de explicar las
dependencias observadas, así como las proporciones de inercia acumu-
lada que ayudan a decidir el número mínimo de dimensiones necesario
para explicar dichas dependencias.
Este análisis presenta las row contributions, que miden la importancia
de cada una de las variables categóricas ubicadas en las filas de la tabla
de contingencia en la construcción de los componentes o ejes factoria-
les construidos por el Análisis de Correspondencias Simple.
Las column contributions miden la importancia de cada una de las
variables categóricas ubicadas en las columnas de la tabla de contingen-
cia en la construcción de los componentes o ejes factoriales construidos
por el Análisis de Correspondencias Simple.
2.2 Análisis clúster
Con respecto al análisis clúster, que es otra técnica multivariante, este
nos permite clasificar objetos, casos o variables en grupos homogéneos
llamados conglomerados (clústers), con respecto a algún criterio de
selección predeterminado. El análisis clúster es utilizado en este trabajo
para identificar y explicar los diferentes grupos que conforman las enti-
dades en estudio, siendo estas agrupaciones realizadas de acuerdo con
la similitud existente entre ellas.
El estudio tuvo como finalidad ofrecer una metodología para la reali-
zación de agrupaciones y, de esta forma, poder realizar análisis persona-
lizados de acuerdo con las características que presente cada grupo for-
mado.
Al formar los clúster o grupos se busca cumplir que cada elemento
pertenezca a uno, y solo uno, de los grupos formados; que los objetos
dentro de cada grupo (conglomerado) sean similares entre sí, es decir
que exista una alta homogeneidad interna; y que los elementos dentro
de cada grupo sean diferentes a los elementos de los otros conglomera-
dos, es decir que exista una alta heterogeneidad externa.
Sobre los tipos de datos, no existe ningún tipo de restricción o condi-
ción que estos deban cumplir para proceder a aplicar la técnica, por lo
Jorge Chue, Emma Barreno, Rosa Millones
5. Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
nº 2, 2007, 51-82 55
que casi con cualquier tipo de datos y prácticamente sin preparación pre-
via de estos, se puede realizar un análisis de tipo clúster.
La metodología aplicada en el estudio es la siguiente:
• Planteamiento del problema para ser abordado mediante el análisis
clúster; lo más importante es la selección de las variables en las que
se basa la agrupación.
• Establecer medidas de semejanza y de distancia entre los elementos
u objetos por clasificar en función del tipo de datos analizado. La simi-
laridad o similitud es una medida de semejanza entre los elementos
que van a ser agrupados; lo más común es medir la semejanza en tér-
minos de la distancia entre los pares de ellos. Así, los elementos con
distancias reducidas entre ellos son más parecidos entre sí que aque-
llos con distancias mayores y se agruparán, por lo tanto, dentro del
mismo clúster. Los tres métodos empleados en la medición de la
similitud son: las medidas de correlación, las medidas de distancia
(variables métricas) y las medidas de asociación (variables categóri-
cas). Como las medidas de distancia son sensibles a la diferencia de
escalas o de magnitudes hechas entre variables, a veces, es necesa-
ria la estandarización de datos para evitar que las variables con una
gran dispersión tengan un mayor efecto en la similaridad. La forma de
estandarización más común es restarle a cada observación la media
de la variable y este resultado dividirlo entre su desviación estándar.
• Analizar los métodos de clasificación haciendo especial énfasis en los
métodos jerárquicos aglomerativos y en el algoritmo de las k-medias,
y determinar el número de grupos. Estos dos procedimientos depen-
derán de los resultados que se obtengan y de la interpretación deriva-
da de ellos; los dos tipos de procedimientos de agrupación son los
jerárquicos y los no jerárquicos.
Los procedimientos jerárquicos se caracterizan por el desarrollo de
una jerarquía o estructura de árbol (dendograma). De este modo, los
clústers están formados solamente por la unión de los grupos existen-
tes, así cualquier miembro de un clúster puede trazar su relación en una
ruta que no se rompe y que comenzaría con una simple relación. Los
métodos jerárquicos pueden ser por aglomeración o por división.
Entre los procedimientos no jerárquicos, el más usado es la
Agrupación K – medias. Este algoritmo requiere un único parámetro, K,
el número de agrupamientos que debe encontrar. Se aplica inicializando
arbitrariamente los centros de los K grupos; luego se asigna cada patrón
6. Jorge Chue, Emma Barreno, Rosa Millones
nº 2, 2007, 51-8256
al grupo más cercano y se recalculan los centros sobre la base de esta
asignación. Algunos patrones pueden cambiar de agrupamiento y, en
consecuencia, los centros de estos; si esto ocurre, se trata de repetir lo
realizado hasta que no se modifiquen los centros. Cuando no haya modi-
ficaciones se considera que se ha encontrado una buena partición y se
termina el agrupamiento.
No existen criterios objetivos y ampliamente válidos para la elección
del número óptimo de grupos, pero existe una idea importante: A medi-
da que se van formando grupos, estos son menos homogéneos, pero la
estructura es más clara; por tanto, se puede fijar un objetivo, que es
identificar el punto de equilibrio entre la estructura incompleta y la
estructura mezclada o confusa.
2.3 Análisis de covariancia
En el proceso de la gestión educativa con frecuencia se plantean las
siguientes interrogantes: ¿es uniforme la calificación que reciben los
alumnos en las diferentes secciones de un curso?, ¿enseñan todos los
profesores de un curso al mismo nivel?, ¿cómo eliminar la presencia de
factores extraños (por ejemplo, en algunas secciones los promedios pon-
derados son altos en tanto que en otras son bajos) que no permiten ana-
lizar únicamente el nivel de enseñanza que se ofrece en las diferentes
secciones de un curso?
Para responder las anteriores preguntas se eligió utilizar el análisis de
covariancia (Ancova), técnica estadística que es una combinación de aná-
lisis de regresión y análisis de variancia.
El Ancova es utilizado en este trabajo para ajustar las notas finales de
los alumnos de un curso mediante la covariable promedio ponderado
acumulativo (PPA) en un diseño completamente al azar. Este ajuste es
realizado con la finalidad de comparar los rendimientos académicos de
los alumnos de las diferentes secciones de un curso sin considerar el
efecto del PPA. El Ancova aprovecha la relación existente entre las notas
obtenidas por los alumnos y sus correspondientes promedios pondera-
dos acumulativos con la finalidad de reducir el error experimental y, de
esta manera, hacer del Ancova una herramienta apropiada para el análi-
sis de las diferentes secciones.
Luego, el modelo del Ancova para una covariable en un diseño com-
pletamente al azar es:
(1)
7. nº 2, 2007, 51-82 57
Yij es la variable respuesta de tipo cuantitativa. i = 1, 2,…, r represen-
ta una sección; j = 1, 2,…, ni. representa al alumno dentro de la sección.
μ es el promedio general. β es el coeficiente de regresión de la covaria-
ble X y mide el efecto de X en la variable respuesta Yi j. La covariable
cuantitativa Xi j está relacionada linealmente con Yi j. τi es el efecto del i-
ésimo tratamiento en la variable respuesta Yij. El efecto τi es una variable
binaria. eij es el término aleatorio.
Las suposiciones del modelo y otras propiedades se pueden encon-
trar en Neter, J. y Wasserman, W. (1974).
Las hipótesis del modelo del Ancova son:
Ho: τ1 = τ2 = …= τr = 0
Ha: Al menos un τi ≠ 0
Si los tratamientos difieren, la siguiente etapa en el análisis es la com-
paración por pares de los efectos de los tratamientos τk - τh (la distancia
vertical entre las líneas de regresión de tratamientos). Contrastes más
generales de los τ´i s también pueden ser utilizados.
La solución de un problema de Ancova puede realizarse por dos apro-
ximaciones:
• Análisis de variancia Anova – Modelo lineal general.
• Regresión lineal múltiple.
La solución más difundida es la de Anova – Modelo lineal general, que
se obtiene de Minitab, SPSS y R. Esta es la solución que se utiliza en el
presente trabajo de investigación. Para la solución de la regresión lineal
múltiple se recomienda el libro de Neter y Wasserman, quienes desarro-
llan en forma detallada esta aproximación.
2.4 Análisis discriminante
El análisis discriminante es un método que permite modelar la pertenen-
cia a un grupo de individuos en función de datos de varias variables, ade-
más de predecir al grupo más probable de un individuo, conociendo sola-
mente los valores de las variables que la caracterizan. Este método asig-
na objetos a grupos, estos objetos pueden ser personas, empresas, paí-
ses, plantas, animales, etcétera.
El modelo de análisis discriminante está definido por una combina-
ción lineal y se le conoce con el nombre de función discriminante.
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
8. Jorge Chue, Emma Barreno, Rosa Millones
nº 2, 2007, 51-8258
En la figura 1 está representada la función D, que es una combinación
lineal de las variables; sobre la función D se ha representado la proyec-
ción de las dos nubes de puntos, las líneas punteadas representan la ubi-
cación proyectada de los puntos medios de cada grupo (centroides). La
función lineal general se define como:
D = β0 + β1x1 + β2x2 + β3x3 + … + βkxk + εij (2)
Figura 1. Representación de la función discriminante
Esta técnica parte de una tabla de datos de n individuos a los que se
les ha medido k variables cuantitativas independientes que actúan como
perfil de características de cada uno de ellos. Desde el punto de vista del
análisis de varianza es saber si dos o más grupos son significativamente
diferentes, si se prueba que la media de una variable es significativamen-
te diferente en varios grupos, se puede asegurar que esta variable discri-
mina entre grupos.
EjeY
Eje X
Grupo 1 Grupo 2
9. nº 2, 2007, 51-82 59
Se recomienda considerar 20 sujetos por cada variable independien-
te, los tamaños de cada grupo pueden ser distintos; cuando ocurre esto,
el grupo de menor tamaño debe ser al menos tres veces superior al
número de variables predictoras incluidas en el análisis.
Las variables discriminantes deben ser métricas y la dependiente
categórica, si la variable dependiente no es categórica hay que transfor-
marla mediante las técnicas de exploración.
2.5 Regresión logística binaria
La regresión logística binaria es un tipo de regresión en que la variable
respuesta es una variable binaria (0 = si el resultado es un fracaso y 1 =
si el resultado es un fracaso) y las variables predictoras (independientes)
son continuas o categóricas. La presentación del modelo de regresión
logística es realizada desde la perspectiva de los modelos lineales gene-
ralizados.
Dobson (2002) señala lo siguiente, sean N variables aleatorias inde-
pendientes Y1,Y2,….,YN correspondientes al número de éxitos en N dife-
rentes subgrupos o estratos. La tabla 1 presenta la tabulación de los
datos por subgrupos.
Tabla 1
Frecuencias para N variables aleatorias binomiales
Dobson (2002) indica que el objetivo de la regresión logística es expli-
car la proporción de éxitos, Pi = Yi / ni, en cada subgrupo en términos de
variables continuas, niveles de factores u otro tipo de variable explicati-
va que caracterice el subgrupo. Como E(Yi )= niπi y por tanto E (Pi ) = πi,
se busca modelar las probabilidades πi como .
Donde Xi es un vector de variables explicativas (variables dummy para
niveles de un factor y valores para covariables), β es un vector de pará-
metros y g es una función link. El caso más simple es el modelo lineal
. Este modelo tiene la desventaja de que los valores ajustados
Subgrupos
1 2 …. N
Éxitos Y1 Y2 …. YN
Fracasos n1 - Y1 n2 – Y2 …. nN – YN
Total n1 n2 …. nN
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
10. Jorge Chue, Emma Barreno, Rosa Millones
nº 2, 2007, 51-8260
pueden ser menores que cero o mayores que uno, lo que origina
una inconsistencia con los valores de π, puesto que π es una probabili-
dad. Para asegurar que π se encuentre restringido al intervalo [0, 1] se uti-
liza el modelo logit para obtener:
(3)
La expresión (3) conduce a la función link (relación)
(4)
El término es denominado la función logit y se le interpreta
como el logaritmo de las apuestas (odds). Dobson (2002) indica que la
bondad del ajuste del modelo de regresión logística binaria es
(5)
Donde representa el máximo valor del logaritmo de la función de
verosimilitud para el modelo ajustado y el máximo valor del loga-
ritmo de la función de verosimilitud para el modelo saturado. D se distri-
buye asintóticamente como ji-cuadrado con (N–p) grados de libertad con
N= número de observaciones y p=número de parámetros estimados.
Las suposiciones del modelo y otras propiedades se pueden encon-
trar en Neter, J. y Wasserman, W.
2.6 Regresión logística ordinal y nominal
Cuando la variable respuesta es categórica y tiene más de dos posibles
valores, dos posibles aproximaciones pueden aplicarse: uno es la gene-
ralización de la regresión logística binaria a más de dos categorías origi-
nando la regresión logística ordinal o nominal, y el otro, es el uso de
modelos log-lineales para modelar las frecuencias con distribuciones de
Poisson. La diferencia entre estas dos aproximaciones es que en la
regresión logística ordinal o nominal una de las variables observadas es
reconocida como la variable respuesta y las otras como variables predic-
toras, mientras que en los modelos log-lineales todas las variables son
tratadas de la misma manera.
11. nº 2, 2007, 51-82 61
En este trabajo se utiliza la primera aproximación, es decir, la regre-
sión logística ordinal o nominal. Dobson (2002) indica que la regresión
logística nominal es utilizada cuando no existe un orden natural entre los
valores de la variable respuesta. Un valor (o categoría) de la variable res-
puesta es elegido arbitrariamente como la categoría de referencia.
Supóngase que esta es la primera categoría, entonces se pueden definir
los logit para las otras categorías de la siguiente manera:
(6)
Los estimadores de las probabilidades πj son:
(7)
La bondad del ajuste del modelo de regresión logística nominal es
medida por (5).
En la regresión logística nominal es más fácil interpretar los efectos
de las variables explicatorias en términos de las razones de apuestas en
lugar de los parámetros β propiamente dichos. Por ejemplo, sea una
variable respuesta con J categorías y una variable explicatoria o predicti-
va binaria x con dos valores 1 (efecto presente) y 0 (efecto ausente),
entonces la razón de apuestas al efecto j ( j = 2, 3, …, J ) relativo a la
categoría de referencia j = 1 es
(8)
donde πj p y π j a denotan las probabilidades de la categoría de respues-
ta j ( j = 1, 2, …, J), de acuerdo a si está presente o ausente el efecto de
la variable explicatoria x.
Por lo tanto:
(9)
Intervalos de confianza para OR j pueden calcularse aplicando la
formula
exp[b1j ± z(1-α/2) × SE(b1j)] (10)
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
12. Jorge Chue, Emma Barreno, Rosa Millones
nº 2, 2007, 51-8262
3.Sistema de análisis estadístico
En Incose (en línea) aparece la siguiente definición de sistema:
Un sistema es una construcción o una colección de diversos elemen-
tos que juntos producen resultados no obtenibles si se consideran a
dichos elementos por separado. Los elementos, o las piezas, pueden
incluir personas, hardware, software, instalaciones, políticas, y docu-
mentos; es decir, todo lo que se requiere para producir resultados del
sistema-nivel. Los resultados incluyen calidad del nivel del sistema,
propiedades, características, funciones, comportamiento y rendimien-
to del nivel de sistema. El valor añadido por el sistema en su totalidad,
más allá de lo que contribuye independientemente cada uno de los
elementos, es creado principalmente por la relación entre los elemen-
tos; es decir, cómo ellos están interconectados. [Traducción de los
autores.]
Este es el significado que se aplica en este trabajo de investigación;
es decir, plantear un modelo de sistema que estructure y organice los
diferentes elementos que existen en una institución de enseñanza supe-
rior, desde la perspectiva del análisis estadístico con técnicas multivaria-
das, para su gestión educativa.
En la figura 2 se presenta el modelo del sistema de análisis estadísti-
co. El sistema tiene como entrada los datos, la información que las uni-
dades administrativas posean de los alumnos y las encuestas que sean
necesarias aplicar para obtener la información pertinente al estudio. Los
datos corresponden a los alumnos, los profesores y las asignaturas. La
parte de procesamiento consiste en identificar el problema que se desea
analizar y a continuación elegir la técnica multivariada apropiada. La sali-
da del sistema está compuesta por modelos e indicadores que permiti-
rán a las autoridades tomar las decisiones que correspondan.
13. nº 2, 2007, 51-82 63
Figura 2. Modelo del Sistema de Análisis Estadístico
4. Resultados
4.1 Análisis de correspondencia simple
El análisis de correspondencia simple fue utilizado para determinar la
existencia y el tipo de relación entre las siguientes variables de un perio-
do o semestre académico:
• Nivel socioeconómico y rendimiento académico de alumnos.
• Categoría del colegio de procedencia y rendimiento académico de
los alumnos.
• Tipo de postulante y rendimiento académico de los alumnos.
• Condición laboral y ránking académico de los alumnos.
Las hipótesis de trabajo para nivel socioeconómico y rendimiento aca-
démico de alumnos fueron:
Ho: El nivel socioeconómico y el rendimiento académico de los alum-
nos son independientes.
Ha: El nivel socioeconómico y el rendimiento académico de los alum-
nos son dependientes.
Luego de procesar los datos con Minitab se obtuvo la figura 3, que se
presenta a continuación.
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
14. Jorge Chue, Emma Barreno, Rosa Millones
nº 2, 2007, 51-8264
Figura 3. Mapa perceptual – Nivel socioeconómico y rendimiento académico
De la figura 3 se deduce lo siguiente:
• El nivel socioeconómico del alumno tiene relación con su rendimien-
to académico.
• Los alumnos del nivel socioeconómico medio se encuentran más aso-
ciados a obtener un promedio ponderado académico de 13 a más.
• Los alumnos de nivel socioeconómico medio alto se encuentran más
asociados a obtener un promedio ponderado de 09 a 13.
• Los alumnos del nivel socioeconómico alto se encuentran más aso-
ciados a obtener un promedio ponderado académico de 11 a 13.
15. nº 2, 2007, 51-82 65
4.2 Análisis clúster
Con respecto al análisis clúster, se analizó la similitud existente en las
variables para lograr la:
• Clasificación de los cursos, según el número total de alumnos matri-
culados por primera, segunda y tercera vez.
• Clasificación de los alumnos de los distintos niveles por los prome-
dios obtenidos.
Para la “clasificación de los cursos, según el número total de alumnos
matriculados por primera, segunda y tercera vez”, se utilizó la siguiente
información: relación de cursos de una de las unidades académicas en
estudio, considerando código y nombre, número total de alumnos matri-
culados en los mencionados cursos, número total de alumnos matricula-
dos por primera, segunda y tercera vez. Se consideraron los cursos dic-
tados durante cinco ciclos académicos.
Cabe mencionar que en la unidad académica se dictan cursos de
especialidad que pertenecen a la misma unidad académica en estudio y
cursos comunes que pertenecen a la unidad académica en estudio y a
otra unidad académica afín.
Debido a la naturaleza de los datos, previamente se realizó un análisis
exploratorio de los datos y una estandarización de estos. Luego de pro-
cesar los datos con Minitab y mediante el uso de la medida de similitud
Distancia Euclídea, y el método de agrupación Ward Linkage, se obtuvo
una clasificación en seis grupos de acuerdo con las similitudes existen-
tes entre los cursos impartidos en la unidad académica en estudio. La
figura 4 presenta el Dendograma correspondiente a la clasificación de
los cursos, según el número total de alumnos matriculados por primera,
segunda y tercera vez.
• Grupo 01: Conformado por 4 cursos. En este grupo se encontraban
los cursos con la mayor cantidad de alumnos matriculados, que pre-
sentaban una considerable cantidad de alumnos matriculados por
segunda y tercera vez. Cabe destacar que la totalidad de estos cursos
eran cursos de especialidad.
• Grupo 02: Conformado por 10 cursos. En este grupo se encontraban
los cursos con una elevada cantidad de alumnos matriculados, pero
no tanto como los del grupo 01, que presentaban una mayor cantidad
de alumnos matriculados por segunda y tercera vez. En términos
generales, podría considerarse a estos cursos como “cuellos de bote-
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
16. Jorge Chue, Emma Barreno, Rosa Millones
nº 2, 2007, 51-8266
lla”; es decir, cursos que pueden ocasionar un retraso en la culmina-
ción del plan de estudios por parte de los alumnos de la unidad aca-
démica. Esto se apreció en la totalidad de cursos comunes.
• Grupo 03: Conformado por 8 cursos. En este grupo se encontraban
los cursos con una elevada cantidad de alumnos matriculados, pero
no tanto como los de los grupos 01 y 02, que presentaban una eleva-
da cantidad de alumnos matriculados por segunda y tercera vez.
Después de los cursos “cuellos de botella”, estos cursos también
representan una ligera dificultad para la culminación del plan de estu-
dios por parte de los alumnos de la unidad académica. Cabe destacar
que la mayoría de estos cursos son propios de la unidad académica
en estudio.
• Grupo 04: Conformado por 12 cursos. En este grupo se encontraban
los cursos con una cantidad estándar de alumnos matriculados, que
presentaban una mediana cantidad de alumnos matriculados por
segunda y tercera vez. Estos cursos también representan una ligera
dificultad para la culminación del plan de estudios por parte de los
alumnos de la unidad académica, pero menos considerable que las
de los grupos 02 y 03. También aquí cabe destacar que la mayoría de
estos cursos son cursos propios, con excepción de 3 cursos.
• Grupo 05: Conformado por 16 cursos. En este grupo se encontraban
los cursos con una cantidad estándar de alumnos matriculados, que
presentaban una baja cantidad de alumnos matriculados por segunda
y tercera vez. Estos cursos no representan una dificultad para la cul-
minación del plan de estudios por parte de los alumnos de la unidad
académica. La gran mayoría de estos cursos son cursos propios de la
unidad académica, con excepción de dos cursos.
• Grupo 06: Conformado por 26 cursos. En este grupo se encuentran
los cursos con una cantidad poco significativa de alumnos matricula-
dos, que presentan una baja o nula cantidad de alumnos matriculados
por segunda y tercera vez. Estos cursos no representan una dificultad
para la culminación del plan de estudios por parte de los alumnos de
la unidad académica.
17. nº 2, 2007, 51-82 67
Figura 4. Dendograma – Clasificación de los cursos, según el número totaL
de alumnos matriculados por primera, segunda y tercera vez.
4.3 Análisis de covariancia
A continuación se presentan los resultados de la aplicación del análisis
de covariancia a las notas de los alumnos de la asignatura A de un
semestre académico. La covariable utilizada fue el PPA (promedio pon-
derado acumulativo).
El curso A se ofreció en 13 secciones con 10 profesores. Algunos pro-
fesores dictaron 1 o 2 secciones. Las hipótesis de trabajo fueron las
siguientes:
• Hipótesis nula: Los profesores del curso A tienen el mismo nivel de
enseñanza y, por tanto, el mismo criterio para evaluar a sus alumnos.
• Hipótesis alternante: Al menos dos profesores son diferentes.
La información utilizada para realizar esta prueba fue: sección del
curso, nota del examen final, promedio ponderado acumulativo. El análi-
sis se realizó en dos etapas: la primera consistió en la prueba de norma-
lidad de los datos y la segunda en el análisis de covariancia propiamen-
te dicho.
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
18. Jorge Chue, Emma Barreno, Rosa Millones
Primera etapa:
Prueba de normalidad
• Solo se consideraron las notas en el intervalo [4, 17] para satisfacer la
suposición de normalidad.
• Se aplicó la prueba de normalidad de Bonett-Seier de la curtosis de
Geary porque es una prueba específica para la distribución normal. El
reporte del software R, usando la prueba de Bonett-Seier, permitió
concluir que los datos tienen distribución normal con p-value =
0.03673
Segunda etapa:
El reporte de Minitab es el siguiente:
En las figuras 5 y 6 se presentan las gráficas de los promedios de las
13 secciones del curso A, antes y después de realizar el ajuste con la téc-
nica del análisis de covariancia.
General Linear Model: NOTAFINAL versus SECCIONCURSO
Factor Type Levels Values
SECCIONCURSO fixed 13 301; 302; 303; 304; 305; 306; 307; 308; 309;
310; 311; 313; 316
Analysis of Variance for NOTAFINAL, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
PPA antes 1 1882,15 784,99 784,99 187,11 0,000
SECCIONCURSO 12 182,02 182,02 15,17 3,62 0,000
Error 550 2307,38 2307,38 4,20
Total 563 4371,55
S = 2,04823 R-Sq = 47,22% R-Sq(adj) = 45,97%
Term Coef SE Coef T P
Constant -1,6769 0,9911 -1,69 0,091
PPA antes 1,00423 0,07341 13,68 0,00
68 nº 2, 2007, 51-82
19. Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
Figura 5. Gráfica de los promedios - Notas de las 13 secciones del curso A.
Figura 6. Gráfica de los promedios – Notas ajustadas de las 13 secciones del curso A.
El uso de la variable PPA es altamente significativa. Hay diferencias
altamente significativas entre las diferentes secciones del curso A. El
gráfico confirma la conclusión de que hay fuertes diferencias entre las
secciones del curso A. La aplicación de la técnica multivariada del análi-
sis de covariancia es sencilla y puede hacerse con R y Minitab.
69nº 2, 2007, 51-82
20. nº 2, 2007, 51-8270
4.4 Análisis discriminante
Esta técnica multivariada permite identificar los cursos más influyentes
en cada área académica.
• Como variables independientes se han considerado las notas de los
cursos A, B, C, D, E, F, G, H, I, J, K, L, M, O de los alumnos de tres pro-
mociones y del tercer al séptimo ciclo.
• Para crear la variable dependiente se utilizó la técnica del análisis clús-
ter en la que, de acuerdo con la similitud existente entre las variables
estudiadas, se han obtenido tres grupos diferenciados, como se
observa en la figura 7; el grupo 01 corresponde a los alumnos que tie-
nen las peores notas y son los que han sido desaprobados en dos o
más cursos; el grupo 02 son mejores que el grupo anterior y el grupo
03 son los mejores alumnos.
Figura 7. Clasificación de los alumnos según notas
• Se realizó la prueba de normalidad a las variables independientes,
como se muestra en la figura 8.
Jorge Chue, Emma Barreno, Rosa Millones
21. nº 2, 2007, 51-82 71
Figura 8. Prueba de normalidad para las notas del curso F
El valor de p-value mayor que 0.15 indica que las notas del curso F
pueden ser modeladas por una distribución normal.
• Se aplicó el análisis discriminante utilizando SPSS y se obtuvieron tres
grupos:
– Grupo 1: Alumnos con menor rendimiento, los promedios de las
notas de los cursos es de: 10 hasta 13.4.
– Grupo 2: Alumnos con un mejor rendimiento que el grupo anterior,
con promedios de 11.7 a 13.4.
– Grupo 3: Alumnos con buen rendimiento, con promedios de 13.2
a 16.0.
De los 218 registros, el 27% corresponde al grupo 1; 58,7% al 2 y
14,7% al 3.
Para formar la función discriminante fueron necesarios siete pasos,
tal como se aprecia en la tabla 2; en el primer paso se ha incluido el
curso B, en el segundo, el J, y así sucesivamente. Los cursos A, E, F, G,
I, L y O han sido excluidos del análisis debido a que no son significativos.
El valor mínimo para que ingrese una variable en el análisis es de 3.84 y
el valor máximo para retirarla ha sido de 2.71. Los tres grupos conforma-
dos por el rendimiento académico están menos traslapados, según el
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
22. nº 2, 2007, 51-8272
estadístico Wilks, ya que va disminuyendo en cada paso. En esta aplica-
ción se realizó la prueba de la diferencia de promedios entre los tres gru-
pos, encontrándose que hay diferencia significativa.
At each step, the variable that minimizes the overall Wilk´s Lambda is entered.
a. Maximum number of steps is 28.
b. Minimum partial F to enter is 3.84.
c. Maximum partial F to remove is 2.71.
d. F level, tolerance, or VIN insufficient for futher computation.
Tabla 2. Pasos para formar la función discriminante
En la prueba de Wilks se contrasta la significación de las dos funcio-
nes obtenidas. En la primera línea se contrasta la hipótesis nula de que
el modelo completo (ambas funciones discriminantes tomadas juntas)
no permiten distinguir las medias de los grupos; entonces, se concluye
que en el modelo completo sí permite distinguir las medias de los gru-
pos (Sig. = 0). En la segunda línea se contrasta que las medias de los
grupos son iguales en la segunda función discriminante. De igual mane-
ra, se concluye que la segunda función discriminante permite observar
diferencias en al menos dos grupos.
Las tablas 3 y 4 indican lo siguiente: las variables que discriminan más
en la primera función son los cursos B, J y H.
Esto permite interpretar que los alumnos con notas altas en estos cur-
sos son clasificados como los mejores alumnos, y aquellos con notas
bajas son considerados en el primer grupo, es decir, los alumnos con difi-
cultad en el aprendizaje.
Test of Function(s) Wilks’ Lambda Chi-square df Sig.
1 through 2
27
.237
.865
.305.167
30.833
14
6
.000
.000
Step Entered
Wilks’ Lambda
Statistic df1 df2 df3
Exact F
Statistic df1 df2 Sig.
1
2
3
4
5
6
7
B
J
H
I
D
C
M
.508
.370
.311
.281
.264
.250
.237
1
2
3
4
5
6
7
2
2
2
2
2
2
2
215.0
215.0
215.0
215.0
215.0
215.0
215.0
104.142
69.006
56.246
47.011
39.859
34.977
31.466
2
4
6
8
10
12
14
215
428
426
424
422
420
418
.000
.000
.000
.000
.000
.000
.000
Jorge Chue, Emma Barreno, Rosa Millones
23. nº 2, 2007, 51-82 73
Unstandardized canonical discriminant
functions evaluated at group means
Tabla 3. Function at Group Tabla 4. Standardized Canonical
centroids function. Discriminant Coefficients.
En la segunda función la mayor ponderación es la de los cursos I y C;
es decir que alumnos con mayores notas en estos cursos son clasifica-
dos en el segundo grupo.
La clasificación correcta de los casos, en general, ha sido del orden
del 89,4%; en el grupo 1 del 96,6%; en el grupo 2 con 84,4% y en el
grupo 3 con 96,9%, como se observa en la tabla 5. Se concluye que hay
una buena clasificación de los grupos de alumnos.
a. 89.4% of original grouped cases correctly classified.
Tabla 5. Porcentaje de casos clasificados por grupos.
La validación del modelo fue realizada como se observa en la tabla 6.
Discr.
Predicted Group Membership
Total
1.00 2.00 3.00
Original
Count
1.00
2.00
3.00
56
14
0
2
108
1
0
6
31
58
128
32
%
1.00
2.00
3.00
96.6
10.9
.0
3.4
84.4
3.1
.0
4.7
96.9
100.0
100.0
100.0
Discr.
Function
1 2
1.00
2.00
3.00
–1.994
.092
3.247
.437
–.329
.523
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
Curso
Function
1 2
B .623 .075
C .218 –.452
D .160 .523
H .312 .195
I .212 –.715
J .463 .098
M .159 .569
24. nº 2, 2007, 51-8274
a. Cross validation is done only for those cases in the analysis. In cross validation, each
case is classified by the functions derived from all cases other than case.
b. 91.2% of selected original grouped case correctly classified.
c. 0% of unselected original grouped cases correctly classified.
d. 86.7% of selected cross-validated grouped cases correctly.
Tabla 6. Validación del modelo
La tabla 6 indica que la clasificación correcta es de 91,2% y la tasa de
aciertos en la validación es de 86,7%; es decir que se espera que la fun-
ción discriminante obtenida clasifique correctamente al 86,7% de los
futuros casos nuevos que se pretenden clasificar.
Finalmente, se concluye que las notas altas de los alumnos en los cur-
sos J, H, I, D, C y M permiten clasificarlos como los mejores alumnos, en
tanto que aquellos con notas bajas serán clasificados en el grupo 1, es
decir, alumnos con problemas que retrasan la culminación de sus estudios.
Discr.
Predicted Group Membership
Total
1.00 2.00 3.00
Cases selected Original Count 1.00
2.00
3.00
32
7
0
2
54
0
0
1
17
34
62
17
%
1.00
2.00
3.00
94.1
11.3
.0
5.9
87.1
0
0
1.6
100.0
100.0
100.0
100.0
Cross-validateda Count 1.00
2.00
3.00
30
7
0
4
51
0
0
4
17
34
62
17
% 1.00
2.00
3.00
88.2
11.3
.0
11.8
82.3
0
0
6.5
100.0
100.0
100.0
100.0
Cases not selected Original Count 1.00
2.00
3.00
0
0
0
0
0
0
0
0
0
0
0
0
% 1.00
2.00
3.00
0
0
0
0
0
0
0
0
0
100.0
100.0
100.0
Jorge Chue, Emma Barreno, Rosa Millones
25. nº 2, 2007, 51-82 75
4.5 Regresión logística binaria
La técnica de regresión logística binaria se presenta a continuación con
dos aplicaciones. En ambos casos, se debe tener presente que la varia-
ble dependiente asume valores 0 y 1.
Aplicación 1
Esta primera aplicación busca determinar la relación entre los cursos que
reciben los alumnos de la unidad académica en estudio y su capacidad
para conseguir trabajo. En términos académicos, todos los cursos de la
especialidad serían igualmente importantes, al menos los que se ofrecen
en los últimos ciclos. Los datos utilizados corresponden a la promoción
de un semestre académico formada por 39 alumnos.
• Hipótesis nula: Los cursos que ofrece la unidad académica son igual-
mente importantes para los recién egresados que desean conseguir
trabajo.
• Hipótesis alternante: Los cursos que ofrece la unidad académica no
son igualmente importantes para los recién egresados que desean
conseguir trabajo.
La información utilizada para realizar esta aplicación fue:
1. Notas de todos los cursos según el plan de estudios de la promoción
estudiada.
2. Situación laboral del egresado (trabaja = 1, no trabaja = 0).
Los resultados de Minitab indicaron lo siguiente:
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant 0,906706 6,41973 0,14 0,888
Curso 1 -0,694653 0,375103 -1,85 0,064 0,50 0,24 1,04
Curso 2 1,63172 0,835064 1,95 0,051 5,11 1,00 26,27
Curso 3 -0,705843 0,397185 -1,78 0,076 0,49 0,23 1,08
Log-Likelihood = -12,089
Test that all slopes are zero: G = 15,401, DF = 3, P-Value = 0,002
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 30,4086 32 0,547
Deviance 24,1789 32 0,838
Hosmer-Lemeshow 12,3166 8 0,138
26. nº 2, 2007, 51-8276
Ejemplo de predicción:
Si un alumno tiene las siguientes notas: 16, 13 y 14 en los cursos 1,2
y 3, entonces la probabilidad de que tenga trabajo es:
(5)
El modelo de regresión logística binaria con las notas de los cursos 1,
2 y 3 es apropiado para modelar la variable binaria trabajar o no trabajar.
(Deviance=24,1789 con p-value=0,838). Los resultados obtenidos son
válidos únicamente para la promoción 2005-2. Puede suceder que otra
promoción de egresados tenga otros resultados.
Aplicación 2
La segunda aplicación consiste en determinar el modelo que mejor se
ajuste a la proporción de desaprobados en los exámenes finales de las
diferentes secciones de un mismo curso en tres ciclos académicos con-
secutivos.
• Hipótesis nula: La proporción de desaprobados es igual en todas las
secciones de un mismo curso.
• Hipótesis alternante: La proporción de desaprobados no es igual en
todas las secciones de un mismo curso.
Tres modelos fueron utilizados para probar las hipótesis mencionadas.
• Modelo 1: logit πj k = α j + β k , αj = las proporciones de desapro-
bados son distintas de semestre a semestre. βk = los profesores tie-
nen diferentes proporciones de desaprobados.
• Modelo 2: logit πj k = α j, α j = las proporciones de desaprobados
son distintas de semestre a semestre.
• Modelo 3: logit πj k = β k , β k = los profesores tienen diferentes pro-
porciones de desaprobados
La información utilizada para esta aplicación se presenta en la tabla 7.
La variable Y i k representa el número de desaprobados en el i-ésimo ciclo
académico con el k-ésimo profesor. La variable n i k representa el núme-
ro de alumnos inscritos en el i-ésimo ciclo académico con el k-ésimo
profesor.
Jorge Chue, Emma Barreno, Rosa Millones
27. nº 2, 2007, 51-82 77
Tabla 7. Datos de la aplicación 2 de la regresión logística binaria.
La gráfica de la proporción de desaprobados se presenta en la figura 9.
Figura 9. Gráfica de la proporción de desaprobados (tabla 7).
Los resultados que se obtuvieron luego de aplicar el software R se
presentan en la tabla 8.
Ciclo
Profesor
A B C D E F
Ciclo
Acad. 1
Y1k 19 22 26 14 18 21
n1k 30 30 29 30 29 28
Ciclo
Acad. 2
Y2k 12 13 12 16 15 22
n2k 29 30 30 30 29 30
Ciclo
Acad. 3
Y3k 9 12 10 13 16 9
n3k 31 33 33 32 31 27
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
28. nº 2, 2007, 51-8278
Tabla 8. Resultados de los tres modelos de la aplicación 2 de la regresión logística binaria
El modelo 1 es el que mejor ajusta los datos pero tiene demasiados
parámetros, lo que significa que hay un sobreajuste (Principio de parsi-
monia). El modelo 2 tiene solo tres parámetros y no difiere significativa-
mente del modelo 1. El modelo 3 es inapropiado porque su desvío es
bastante alto. Los porcentajes de desaprobados varían de semestre a
semestre con un nivel de significación del 5%. El modelo más apropiado
es el 2. (Las proporciones de desaprobados son distintas de semestre a
semestre.)
4.6 Regresión logística ordinal y nominal
Para cuantificar las posibilidades que tienen los alumnos de terminar sus
estudios en los tiempos previstos, se decidió utilizar los datos de la pro-
moción 2005-2. Los datos fueron los siguientes:
1. Variable dependiente: tiempo de demora en terminar la carrera, codi-
ficado de la siguiente manera ( 1 = 6 años, 2 = 7 años, 3 = 8 o más
años).
2. Variable predictora: PPA (se probaron varias variables predictoras
pero el promedio ponderado acumulativo PPA demostró ser el mejor).
A continuación se presentan los resultados de Minitab:
Modelo 1 Modelo 2 Modelo 3
a1 = 1.1708***
a 2 = 0.4154
a3 = -0.14
a1 =0.76214**
a 2 =0.02247
a3= -0.53658***
b 1 = -0.7128*
b 2 =-0.4358
b 3 =-0.3577
b4 =-0.6058
b5 =-0.2477
b 1= -0.22314
b 2 = 0.02151
b 3 = 0.08701
b 4 = -0.13062
b 5 = 0.20294
b 6 =0.45474*
D1 = 22.785 con 10 g.l. D2 = 29.369 con 15 g.l D3 = 59.312 con 12 g.l
D2 – D1 = 6.584 con 5 g.l. D3 – D1 = 36.527*
con 2 g.l.
Jorge Chue, Emma Barreno, Rosa Millones
29. nº 2, 2007, 51-82 79
Sobre la base de los coeficientes calculados se procedió a construir
la tabla 9 con diferentes valores de PPA y con las probabilidades corres-
pondientes de que el alumno termine sus estudios en 6, 7, 8 o más años.
Tabla 9. Valores de PPA y probabilidades de terminar en 6, 7, 8 o más años.
PPA Termine en 6 años Termine en 7 años Termine en 8 o más años
10 0.003617 0.007184 0.989199
11 0.019914 0.037674 0.942413
12 0.102086 0.152725 0.745188
13 0.388838 0.267934 0.343228
14 0.780718 0.133871 0.085411
15 0.952207 0.031378 0.016414
16 0.991111 0.005916 0.002973
17 0.9984 0.001068 0.000533
18 0.999714 0.000191 0.000095
19 0.999949 0.000034 0.000017
Ordinal Logistic Regression: Código-Tiempo versus PPA
Link Function: Logit
Response Information
Variable Value Count
Código-Tiempo 1 15 (Egresados que terminaron en 6 años)
2 5 (Egresados que terminaron en 7 años)
3 15 (Egresados que terminaron en 8 o más años)
Total 35
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Const(1) -22.8389 6.69754 -3.41 0.001
Const(2) -21.7378 6.55946 -3.31 0.001
PPA 1.72206 0.511616 3.37 0.001 5.60 2.05 15.25
Log-Likelihood = -22.904
Test that all slopes are zero: G = 24.489, DF = 1, P-Value = 0.000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 75.1856 67 0.230
Deviance 45.8075 67 0.978
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
30. nº 2, 2007, 51-8280
La variable PPA es una variable apropiada para modelar el tiempo de
demora en terminar la carrera. Los valores que aparecen como Const (1)
y Const (2) son los estimados de los interceptos para los logit de las pro-
babilidades acumuladas para el tiempo de demora de 6 años y 7 años,
respectivamente. Debido a que la probabilidad acumulada para la última
respuesta es 1, no se presenta el intercepto para 8 o más años. El coefi-
ciente estimado para la covariable PPA es 1.72206 con p-value 0.001.
Este p-value indica que hay evidencia significativa para sostener que el
PPA afecta el tiempo de demora en terminar los estudios. El signo posi-
tivo del coeficiente con una razón de apuestas mayor que uno e igual a
5.6, indica que valores altos de PPA tienden a estar asociados con meno-
res tiempos de demora en terminar los estudios. Específicamente, si el
PPA de un alumno aumenta en una unidad, entonces la razón de apues-
tas de que termine en 6 años versus que termine en 7 años es 5.6 veces;
de igual forma que termine en 7 años versus que termine en 8 o más
años. El valor del desvío de 45.8075 con p-value de 0.978 indica que el
modelo es apropiado. El valor de PPA próximo a 13 es un indicador para
determinar si un alumno demora, entre 6 años como máximo y no menos
de 7 en terminar su carrera.
4.7 Modelo de herramienta informática para el sistema de
análisis estadístico
Con la finalidad de demostrar la viabilidad del sistema de análisis estadís-
tico se construyó una aplicación piloto en Visual Basic que conectase
Excel con R. La idea es capturar los datos de Excel y llevarlo a R para su
ejecución. La elección de R en esta prueba piloto es porque es un soft-
ware mucho más potente que Minitab y SPSS. El programa piloto se
denomina Rconexion.
5. Conclusiones
• Las técnicas multivariadas son útiles para analizar el rendimiento aca-
démico de los alumnos.
• La técnica del análisis de covariancia permite comparar las diferentes
secciones de un curso eliminando el efecto del promedio ponderado
acumulativo o de cualquier otra variable que se utilice como covariable.
• La regresión logística binaria permite modelar el porcentaje de de-
saprobados de diferentes ciclos académicos. Luego de probar con
Jorge Chue, Emma Barreno, Rosa Millones
31. nº 2, 2007, 51-82 81
diversos modelos, se eliminaron aquellos que tenían un desvío alto o
no cumplían con el principio de parsimonia.
• La regresión logística ordinal permite calcular las probabilidades de
que un alumno termine sus estudios en 6, 7, 8 o más años de acuer-
do con su promedio ponderado acumulativo.
• El análisis de correspondencia simple permite detectar la influencia
de variables cualitativas en el rendimiento académico de los alumnos.
Por ejemplo, los alumnos que pertenecen a la condición laboral A
(alumnos que no trabajan actualmente), se encuentran más asociados
a situarse en el décimo superior y en el tercio superior. Mientras que
los alumnos de condición laboral B (con trabajo de medio tiempo), se
encuentran más asociados a situarse en el medio superior.
• El análisis clúster es útil para identificar los cursos “cuellos de
botella”.
• El análisis discriminante permite identificar los cursos importantes
dentro de cada grupo de alumnos y cada área académica.
• Debido a que la información disponible está constituida por notas y
promedios ponderados, el análisis factorial no pudo ser aplicado por-
que reduciría innecesariamente el número de variables en estudio.
Otro inconveniente para el análisis factorial fue que las variables cua-
litativas no eran significativas.
6. Bibliografía
Cea D´Ancona, A. Análisis multivariable. Teoría y práctica en la investiga-
ción social. Madrid: Editorial Síntesis, 2002.
Dallas E., Johnson. Métodos multivariados aplicados al análisis de datos.
Internacional Thomson Editores, 2000.
Dobson, Annette. An Introduction to Generalized Linear Models. Florida:
Chapman & Hall/CRC, 2002.
Hair, J. F.; Anderson, R. E.; Tatham, R. L. y W.C. Black, Análisis
Multivariante. 5.ª edición. Traducción de Esme Prentice y Diego
Cano. Madrid: Prentice Hall/Iberia, 1999.
Incose. “Definiton of a system” [en línea] <http://www.incose.org/prac-
tice/fellows consensus.aspx>. [ Consulta: 24 de diciembre del
2006.]
Sistema para el análisis estadístico con técnicas multivariadas del rendimiento académico
32. nº 2, 2007, 51-8282
Lévy Mangin, Jean-Pierre y Jesús Mallou Varela. Análisis multivariable
para las ciencias sociales. Madrid: Pearson/Prentice Hall, 2003.
Luque Martínez, Teodoro. Técnicas de análisis de datos en investigación
de mercados. Madrid: Ediciones Pirámide, 2000.
Montgomery, D. C. Diseño y análisis de experimentos. Traducción de
Jaime Delgado Saldívar. México: Grupo Editorial Iberoamérica,
1991.
Neter, J. y W. Wasserman. Applied Linear Statistical Models. Illinois:
Richard D. Irwin, Inc., 1974.
Peña, D. Análisis de datos multivariantes. Madrid: McGraw-Hill, 2002.
Uriel, E. y J. Aldás. Análisis multivariante aplicado. Madrid: Thompson,
2005.
Jorge Chue, Emma Barreno, Rosa Millones