Este documento describe el uso de la regresión logística con datos de encuestas complejas usando el procedimiento PROC SURVEYLOGISTIC de SAS. Explica que mientras PROC LOGISTIC asume un muestreo aleatorio simple, PROC SURVEYLOGISTIC incorpora información del diseño de muestreo complejo como estratificación y agrupamiento para producir estimaciones válidas. Detalla la sintaxis de PROC SURVEYLOGISTIC y presenta un ejemplo de código SAS y resultados. Además, explica el método computacional usado
Este documento presenta una introducción a la estadística inferencial. Explica conceptos clave como distribución muestral, distribución muestral de la media, prueba Z, prueba t de Student para muestras simples e independientes, y condiciones para usar la prueba t. También resume el uso de la estadística inferencial en psicología para describir, predecir y explicar la conducta humana de manera objetiva basada en datos.
Libro dedicado al cálculo aproximado de raíces de ecuaciones no lineales utilizando Octave: Bisección, Regula, Secante, Pto. Fijo, Newton-Raphson, Wegstein, Müller, Sturm, etc.
Este documento describe diferentes tipos de muestreo, incluyendo muestreo probabilístico y no probabilístico. El muestreo probabilístico incluye muestreo aleatorio simple, sistemático y estratificado, donde cada elemento tiene una probabilidad conocida de ser seleccionado. El muestreo no probabilístico incluye muestreo por conveniencia o juicio, donde los elementos no son seleccionados al azar. El documento también proporciona ejemplos y fórmulas para calcular el tamaño de la muestra.
1.1. ¿Qué es la Estadística? 5
2.1. La Estadística en los negocios 5
3.1. Subdivisiones de la estadística 5
3.1.1. Ejemplo de Estadística descriptiva 5
3.1.2. Ejemplo de Estadística inferencial 5
4.1. Definiciones de estadística 6
5.1. Mapa conceptual 8
Bibliografía 10
El documento habla sobre las series de Taylor. Explica que una serie de Taylor es una representación o aproximación de una función como una suma de términos calculados de los valores de sus derivadas en un punto. También define las series de Maclaurin como casos particulares de las series de Taylor evaluadas en cero y analiza la convergencia de estas series para funciones elementales como seno y coseno.
Este documento introduce las pruebas de hipótesis estadísticas. Explica que una prueba de hipótesis involucra formular una hipótesis nula y una hipótesis alternativa, luego recolectar datos de una muestra para decidir si se acepta o rechaza la hipótesis nula. También discute los errores Tipo I y Tipo II, el nivel de significancia, y cómo realizar pruebas de hipótesis sobre la media cuando la varianza es conocida.
Este documento describe vectores en el plano y en el espacio. Define un vector como un segmento orientado con dirección, sentido y magnitud. Explica cómo representar vectores en el plano y en el espacio usando coordenadas cartesianas y cómo realizar operaciones como suma y multiplicación de vectores. También cubre propiedades importantes de los vectores como conmutatividad, asociatividad y el elemento neutro.
Este documento presenta 5 ejercicios de regresión lineal y regresión lineal múltiple. El objetivo es que los estudiantes apliquen estas técnicas estadísticas inferenciales a situaciones reales en ciencia e ingeniería. Los ejercicios involucran estimar modelos, calcular intervalos de confianza, coeficientes de correlación, matrices de varianzas y covarianzas, y pruebas de hipótesis.
Este documento presenta una introducción a la estadística inferencial. Explica conceptos clave como distribución muestral, distribución muestral de la media, prueba Z, prueba t de Student para muestras simples e independientes, y condiciones para usar la prueba t. También resume el uso de la estadística inferencial en psicología para describir, predecir y explicar la conducta humana de manera objetiva basada en datos.
Libro dedicado al cálculo aproximado de raíces de ecuaciones no lineales utilizando Octave: Bisección, Regula, Secante, Pto. Fijo, Newton-Raphson, Wegstein, Müller, Sturm, etc.
Este documento describe diferentes tipos de muestreo, incluyendo muestreo probabilístico y no probabilístico. El muestreo probabilístico incluye muestreo aleatorio simple, sistemático y estratificado, donde cada elemento tiene una probabilidad conocida de ser seleccionado. El muestreo no probabilístico incluye muestreo por conveniencia o juicio, donde los elementos no son seleccionados al azar. El documento también proporciona ejemplos y fórmulas para calcular el tamaño de la muestra.
1.1. ¿Qué es la Estadística? 5
2.1. La Estadística en los negocios 5
3.1. Subdivisiones de la estadística 5
3.1.1. Ejemplo de Estadística descriptiva 5
3.1.2. Ejemplo de Estadística inferencial 5
4.1. Definiciones de estadística 6
5.1. Mapa conceptual 8
Bibliografía 10
El documento habla sobre las series de Taylor. Explica que una serie de Taylor es una representación o aproximación de una función como una suma de términos calculados de los valores de sus derivadas en un punto. También define las series de Maclaurin como casos particulares de las series de Taylor evaluadas en cero y analiza la convergencia de estas series para funciones elementales como seno y coseno.
Este documento introduce las pruebas de hipótesis estadísticas. Explica que una prueba de hipótesis involucra formular una hipótesis nula y una hipótesis alternativa, luego recolectar datos de una muestra para decidir si se acepta o rechaza la hipótesis nula. También discute los errores Tipo I y Tipo II, el nivel de significancia, y cómo realizar pruebas de hipótesis sobre la media cuando la varianza es conocida.
Este documento describe vectores en el plano y en el espacio. Define un vector como un segmento orientado con dirección, sentido y magnitud. Explica cómo representar vectores en el plano y en el espacio usando coordenadas cartesianas y cómo realizar operaciones como suma y multiplicación de vectores. También cubre propiedades importantes de los vectores como conmutatividad, asociatividad y el elemento neutro.
Este documento presenta 5 ejercicios de regresión lineal y regresión lineal múltiple. El objetivo es que los estudiantes apliquen estas técnicas estadísticas inferenciales a situaciones reales en ciencia e ingeniería. Los ejercicios involucran estimar modelos, calcular intervalos de confianza, coeficientes de correlación, matrices de varianzas y covarianzas, y pruebas de hipótesis.
El documento describe los conceptos básicos de población, muestra, parámetro, estadística, variables y escalas de medición en estadística. Explica que una población es el conjunto total de datos sobre un fenómeno, mientras que una muestra es un subconjunto de la población. Los parámetros describen características de la población, mientras que las estadísticas describen características de la muestra. Las variables pueden ser cualitativas o cuantitativas y se miden en escalas nominal, ordinal, de interval
Este documento presenta una introducción a la inferencia estadística, incluyendo estimación y prueba de hipótesis. Define estadística, estadística descriptiva, probabilidad e inferencial. Explica la diferencia entre parámetros y estadísticos, y las propiedades de un buen estimador. También cubre distribuciones muestrales, el teorema del límite central, y distribuciones t y de Student. Finalmente, distingue entre estimación y prueba de hipótesis.
Este documento presenta una matriz de consistencia para un estudio sobre la aplicación de la robótica educativa en el desarrollo de actitudes científicas en estudiantes. El estudio tiene como objetivo general determinar la contribución de la robótica educativa en el desarrollo de estas actitudes. La hipótesis general es que la robótica educativa contribuye significativamente a este desarrollo. La metodología propuesta es descriptiva correlacional con una muestra de 25 estudiantes de un instituto tecnológico.
Este documento describe varias medidas de dispersión como la desviación estándar, varianza, desviación media, rango y coeficiente de variación. Estas medidas cuantifican cuán alejados están los valores de una distribución de la media y así indican qué tan homogénea o heterogénea es la distribución. Se explican las fórmulas para calcular cada medida y sus usos para comparar distribuciones y evaluar la precisión de experimentos.
Coeficiente de corelacio de pearson y spearmanYendry Lopez
El documento explica el coeficiente de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables cuantitativas, variando de -1 a 1, donde 1 indica correlación positiva perfecta, -1 negativa perfecta y 0 ninguna correlación lineal. El coeficiente de Spearman se usa para variables ordinales y también varía de -1 a 1.
El documento explica conceptos básicos de estadística como distribución de probabilidad, variables aleatorias, media y varianza. Define una distribución de probabilidad como una lista de todos los resultados posibles de un experimento junto con su probabilidad. Explica que la media es el valor promedio esperado de una variable y se calcula sumando cada resultado multiplicado por su probabilidad. Finalmente, la varianza mide el grado de dispersión en una distribución y se calcula restando la media a cada valor, elevando la diferencia al cuadrado y multiplicando por la probabilidad correspondiente.
Cinco ejemplos de aplicación de las distribuciones de probabilidad.leonardo19940511
Este documento presenta ejemplos de las principales distribuciones de probabilidad: Bernoulli, binomial, Poisson y normal. Incluye 5 ejemplos para cada distribución ilustrando cómo calcular la probabilidad de diferentes eventos. Por ejemplo, calcula la probabilidad de obtener determinados resultados al lanzar una moneda o sacar boletos de una urna usando la distribución de Bernoulli o binomial.
Este documento presenta los resultados de una prueba de hipótesis realizada sobre 12 estudiantes de ingeniería. Incluye los nombres de los estudiantes, el plan de estudios al que pertenecen, y la materia de Probabilidad y Estadística II. Además, presenta 5 ejemplos numéricos de problemas resueltos de pruebas de hipótesis con sus datos, planteamientos de hipótesis nula y alternativa, cálculos y conclusiones.
Tamaño de muestra para datos cualitativos y cuantitativosAna Lucía Caballero
Este documento trata sobre el tamaño de la muestra para datos cuantitativos y cualitativos. Explica conceptos como variable, población, muestra, métodos de muestreo probabilísticos y no probabilísticos. Incluye fórmulas para calcular el tamaño de la muestra para proporciones y para medias. También presenta casos prácticos de cálculo del tamaño de muestra.
Tarea 1 correlación y regresión linealMaría Gordón
Este documento presenta los objetivos, justificación y marco teórico sobre correlación y regresión lineal. Los objetivos incluyen desarrollar ejercicios de correlación y regresión e interpretar datos estadísticos. La justificación es aplicar estos conceptos a problemas del comercio exterior. El marco teórico explica conceptos como relación lineal positiva y negativa entre variables, diagrama de dispersión, y coeficiente de correlación de Pearson.
El coeficiente de correlación de Pearson y Spearman miden la relación lineal entre dos variables cuantitativas. El coeficiente de Pearson se usa para variables de escala de intervalo/razón, mientras que Spearman se usa para variables de escala ordinal. Ambos coeficientes oscilan entre -1 y 1, indicando correlación negativa o positiva respectivamente.
Este documento explica los coeficientes de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables cuantitativas, mientras que el coeficiente de Spearman usa rangos para medir la correlación entre variables al menos ordinales. El documento describe cómo calcular ambos coeficientes, cómo interpretar sus valores, y sus ventajas y desventajas. También presenta un ejemplo numérico para ilustrar el cálculo del coeficiente de Spearman.
Este documento trata sobre el tema de la regresión lineal simple. Explica conceptos como el modelo de regresión lineal, la estimación de parámetros a través de la recta de regresión de mínimos cuadrados, y las hipótesis básicas del modelo como la independencia y normalidad de los errores. También cubre temas como la interpretación de los coeficientes de la recta de regresión y el contraste del modelo mediante el análisis de residuos.
Diferenciacion de formulas con alta exactitudCesar Acosta
Este documento describe métodos numéricos para calcular derivadas aproximadas de funciones, incluyendo diferencias divididas de alta exactitud. Explica que al incluir más términos en la serie de Taylor se obtiene una mayor precisión en la estimación de derivadas. También compara diferentes fórmulas de diferencias divididas hacia adelante, hacia atrás y centradas, mostrando que la fórmula centrada puede dar resultados exactos.
Este documento define transformaciones lineales y proporciona ejemplos de funciones que son y no son transformaciones lineales. Una transformación lineal T de un espacio vectorial U a otro V debe cumplir dos condiciones: T(u1 + u2) = T(u1) + T(u2) y T(αu) = αT(u). Se demuestra un teorema y se enumeran propiedades de las transformaciones lineales.
Método de la regla falsa (o metodo de la falsa posición) SNTensor
Este documento describe el método de la regla falsa para encontrar las raíces de una función. Explica que este método aprovecha la idea de unir los puntos (a, f(a)) y (b, f(b)) con una línea recta cuya intersección con el eje x proporciona una mejor estimación de la raíz. Luego, presenta el algoritmo del método, el cual involucra calcular repetidamente nuevas aproximaciones a la raíz usando una fórmula hasta alcanzar un error menor a un valor dado. Finalmente, ilustra
La estadística paramétrica asume una distribución conocida de los datos basada en parámetros, mientras que la estadística no paramétrica estudia distribuciones que no cumplen con criterios paramétricos y cuyas distribuciones se determinan por los datos observados. La estadística paramétrica utiliza cálculos basados en la distribución supuesta de los datos, mientras que la no paramétrica puede utilizar métodos paramétricos después de determinar la distribución de los datos.
El Teorema de Bayes permite actualizar probabilidades previas al obtener nueva información. Se utiliza para calcular probabilidades a posteriori con base en probabilidades a priori y probabilidades condicionales. El teorema proporciona una fórmula para determinar la probabilidad de un evento dado que ocurrió otro evento.
Este documento describe los pasos para aplicar pruebas de significancia estadística. Estos procedimientos determinan si una hipótesis nula debe ser rechazada o no. Los pasos incluyen formular hipótesis nula e hipótesis alternativa, definir un nivel de significancia, seleccionar una prueba estadística apropiada, calcular el valor p, y comparar el valor p con el nivel de significancia para tomar una decisión sobre si rechazar o no la hipótesis nula.
Este documento compara el muestreo probabilístico clásico y el remuestreo basado en la técnica del bootstrap. Explica que el muestreo probabilístico clásico implica extraer una muestra aleatoria de un marco muestral más grande, mientras que el remuestreo permite simular múltiples muestreos y obtener intervalos de confianza. También discute cómo el número de muestras posibles es enormemente grande, y cómo el teorema del límite central predice que los resultados seguirán una distribución normal.
El documento describe los conceptos básicos de población, muestra, parámetro, estadística, variables y escalas de medición en estadística. Explica que una población es el conjunto total de datos sobre un fenómeno, mientras que una muestra es un subconjunto de la población. Los parámetros describen características de la población, mientras que las estadísticas describen características de la muestra. Las variables pueden ser cualitativas o cuantitativas y se miden en escalas nominal, ordinal, de interval
Este documento presenta una introducción a la inferencia estadística, incluyendo estimación y prueba de hipótesis. Define estadística, estadística descriptiva, probabilidad e inferencial. Explica la diferencia entre parámetros y estadísticos, y las propiedades de un buen estimador. También cubre distribuciones muestrales, el teorema del límite central, y distribuciones t y de Student. Finalmente, distingue entre estimación y prueba de hipótesis.
Este documento presenta una matriz de consistencia para un estudio sobre la aplicación de la robótica educativa en el desarrollo de actitudes científicas en estudiantes. El estudio tiene como objetivo general determinar la contribución de la robótica educativa en el desarrollo de estas actitudes. La hipótesis general es que la robótica educativa contribuye significativamente a este desarrollo. La metodología propuesta es descriptiva correlacional con una muestra de 25 estudiantes de un instituto tecnológico.
Este documento describe varias medidas de dispersión como la desviación estándar, varianza, desviación media, rango y coeficiente de variación. Estas medidas cuantifican cuán alejados están los valores de una distribución de la media y así indican qué tan homogénea o heterogénea es la distribución. Se explican las fórmulas para calcular cada medida y sus usos para comparar distribuciones y evaluar la precisión de experimentos.
Coeficiente de corelacio de pearson y spearmanYendry Lopez
El documento explica el coeficiente de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables cuantitativas, variando de -1 a 1, donde 1 indica correlación positiva perfecta, -1 negativa perfecta y 0 ninguna correlación lineal. El coeficiente de Spearman se usa para variables ordinales y también varía de -1 a 1.
El documento explica conceptos básicos de estadística como distribución de probabilidad, variables aleatorias, media y varianza. Define una distribución de probabilidad como una lista de todos los resultados posibles de un experimento junto con su probabilidad. Explica que la media es el valor promedio esperado de una variable y se calcula sumando cada resultado multiplicado por su probabilidad. Finalmente, la varianza mide el grado de dispersión en una distribución y se calcula restando la media a cada valor, elevando la diferencia al cuadrado y multiplicando por la probabilidad correspondiente.
Cinco ejemplos de aplicación de las distribuciones de probabilidad.leonardo19940511
Este documento presenta ejemplos de las principales distribuciones de probabilidad: Bernoulli, binomial, Poisson y normal. Incluye 5 ejemplos para cada distribución ilustrando cómo calcular la probabilidad de diferentes eventos. Por ejemplo, calcula la probabilidad de obtener determinados resultados al lanzar una moneda o sacar boletos de una urna usando la distribución de Bernoulli o binomial.
Este documento presenta los resultados de una prueba de hipótesis realizada sobre 12 estudiantes de ingeniería. Incluye los nombres de los estudiantes, el plan de estudios al que pertenecen, y la materia de Probabilidad y Estadística II. Además, presenta 5 ejemplos numéricos de problemas resueltos de pruebas de hipótesis con sus datos, planteamientos de hipótesis nula y alternativa, cálculos y conclusiones.
Tamaño de muestra para datos cualitativos y cuantitativosAna Lucía Caballero
Este documento trata sobre el tamaño de la muestra para datos cuantitativos y cualitativos. Explica conceptos como variable, población, muestra, métodos de muestreo probabilísticos y no probabilísticos. Incluye fórmulas para calcular el tamaño de la muestra para proporciones y para medias. También presenta casos prácticos de cálculo del tamaño de muestra.
Tarea 1 correlación y regresión linealMaría Gordón
Este documento presenta los objetivos, justificación y marco teórico sobre correlación y regresión lineal. Los objetivos incluyen desarrollar ejercicios de correlación y regresión e interpretar datos estadísticos. La justificación es aplicar estos conceptos a problemas del comercio exterior. El marco teórico explica conceptos como relación lineal positiva y negativa entre variables, diagrama de dispersión, y coeficiente de correlación de Pearson.
El coeficiente de correlación de Pearson y Spearman miden la relación lineal entre dos variables cuantitativas. El coeficiente de Pearson se usa para variables de escala de intervalo/razón, mientras que Spearman se usa para variables de escala ordinal. Ambos coeficientes oscilan entre -1 y 1, indicando correlación negativa o positiva respectivamente.
Este documento explica los coeficientes de correlación de Pearson y Spearman. El coeficiente de Pearson mide la relación lineal entre dos variables cuantitativas, mientras que el coeficiente de Spearman usa rangos para medir la correlación entre variables al menos ordinales. El documento describe cómo calcular ambos coeficientes, cómo interpretar sus valores, y sus ventajas y desventajas. También presenta un ejemplo numérico para ilustrar el cálculo del coeficiente de Spearman.
Este documento trata sobre el tema de la regresión lineal simple. Explica conceptos como el modelo de regresión lineal, la estimación de parámetros a través de la recta de regresión de mínimos cuadrados, y las hipótesis básicas del modelo como la independencia y normalidad de los errores. También cubre temas como la interpretación de los coeficientes de la recta de regresión y el contraste del modelo mediante el análisis de residuos.
Diferenciacion de formulas con alta exactitudCesar Acosta
Este documento describe métodos numéricos para calcular derivadas aproximadas de funciones, incluyendo diferencias divididas de alta exactitud. Explica que al incluir más términos en la serie de Taylor se obtiene una mayor precisión en la estimación de derivadas. También compara diferentes fórmulas de diferencias divididas hacia adelante, hacia atrás y centradas, mostrando que la fórmula centrada puede dar resultados exactos.
Este documento define transformaciones lineales y proporciona ejemplos de funciones que son y no son transformaciones lineales. Una transformación lineal T de un espacio vectorial U a otro V debe cumplir dos condiciones: T(u1 + u2) = T(u1) + T(u2) y T(αu) = αT(u). Se demuestra un teorema y se enumeran propiedades de las transformaciones lineales.
Método de la regla falsa (o metodo de la falsa posición) SNTensor
Este documento describe el método de la regla falsa para encontrar las raíces de una función. Explica que este método aprovecha la idea de unir los puntos (a, f(a)) y (b, f(b)) con una línea recta cuya intersección con el eje x proporciona una mejor estimación de la raíz. Luego, presenta el algoritmo del método, el cual involucra calcular repetidamente nuevas aproximaciones a la raíz usando una fórmula hasta alcanzar un error menor a un valor dado. Finalmente, ilustra
La estadística paramétrica asume una distribución conocida de los datos basada en parámetros, mientras que la estadística no paramétrica estudia distribuciones que no cumplen con criterios paramétricos y cuyas distribuciones se determinan por los datos observados. La estadística paramétrica utiliza cálculos basados en la distribución supuesta de los datos, mientras que la no paramétrica puede utilizar métodos paramétricos después de determinar la distribución de los datos.
El Teorema de Bayes permite actualizar probabilidades previas al obtener nueva información. Se utiliza para calcular probabilidades a posteriori con base en probabilidades a priori y probabilidades condicionales. El teorema proporciona una fórmula para determinar la probabilidad de un evento dado que ocurrió otro evento.
Este documento describe los pasos para aplicar pruebas de significancia estadística. Estos procedimientos determinan si una hipótesis nula debe ser rechazada o no. Los pasos incluyen formular hipótesis nula e hipótesis alternativa, definir un nivel de significancia, seleccionar una prueba estadística apropiada, calcular el valor p, y comparar el valor p con el nivel de significancia para tomar una decisión sobre si rechazar o no la hipótesis nula.
Este documento compara el muestreo probabilístico clásico y el remuestreo basado en la técnica del bootstrap. Explica que el muestreo probabilístico clásico implica extraer una muestra aleatoria de un marco muestral más grande, mientras que el remuestreo permite simular múltiples muestreos y obtener intervalos de confianza. También discute cómo el número de muestras posibles es enormemente grande, y cómo el teorema del límite central predice que los resultados seguirán una distribución normal.
Este documento describe cómo los sistemas de información geográfica (SIG) pueden aplicarse al análisis y cartografía de riesgos climáticos. Explica que los SIG son la herramienta más adecuada para la modelización y cartografía de riesgos, ya que permiten codificar la información relevante en formato digital. Además, introduce conceptos básicos sobre modelización de procesos naturales y tipos de modelos, y destaca el papel de los SIG en el almacenamiento y análisis de datos espaciales neces
1. La presentación describe 6 estrategias propuestas en un estudio de caso y los modelos probabilísticos que podrían aplicarse para desarrollar cada estrategia, justificando la elección de cada modelo con citas textuales de referencias documentales. Se incluye también una bibliografía de 4 fuentes.
Este documento describe los materiales y métodos utilizados para desarrollar un modelo dinámico que permita incrementar el aprendizaje de matemáticas en estudiantes. Presenta las estrategias de desarrollo paso a paso del modelo, incluyendo la definición del problema, análisis del sistema, conceptualización, formulación, evaluación y análisis de políticas. También describe la población de 280 estudiantes y la muestra de 163 estudiantes, así como las técnicas de recolección de datos como entrevistas y encuestas que se utilizar
Este documento describe el aprendizaje no supervisado y sus principales aplicaciones como el análisis de conglomerados. Explica que en el aprendizaje no supervisado no se conocen las clases de salida y el objetivo es descubrir estructuras en los datos agrupando observaciones similares. Detalla diferentes métodos de agrupamiento como k-means y jerárquicos que generan clusters de datos.
El documento presenta una introducción a la investigación de operaciones (IO). Explica que la IO usa el método científico para modelar problemas del mundo real y encontrar soluciones óptimas mediante el uso de técnicas matemáticas. También describe los pasos típicos del método científico aplicado en la IO, incluyendo la delimitación del problema, modelación, resolución del modelo, verificación y conclusión.
Los métodos estadísticos son procedimientos para manejar datos cuantitativos y cualitativos mediante técnicas de recolección, recuento, presentación, descripción y análisis. Permiten comprobar hipótesis o establecer relaciones de causalidad. Modelos como la regresión lineal y logística predicen resultados continuos u objetivos categóricos en base a predictores. Otros métodos como el análisis de componentes principales y factorial realizan reducción de datos. La estadística es una herramienta útil en diversas
Quimiometria para principiantes, personas que conocen poco del tema y necesitan conocer lo básico para el trabajo.
Especialmente enfocado a la industria, donde el uso de quimiometría ha ido en aumento y donde se observan las mayores ventajas de la quimiometría.
Este documento describe el uso de dos métodos, el método GUM y el método de Monte Carlo, para determinar la incertidumbre de medición en la medición del diámetro de un cilindro de bronce. Se midió el diámetro en cinco puntos y se obtuvieron valores entre 19,995 y 20,005 mm. Los métodos GUM y Monte Carlo se utilizaron para calcular la incertidumbre combinada teniendo en cuenta factores como la variación de las mediciones, el error del micrómetro y la resolución. Los resultados de ambos métodos se compararon para
El documento presenta el diagnóstico y análisis final de un estudio de caso. Se identifican tres estrategias propuestas (participación, servicio, optimización) y se asignan modelos probabilísticos específicos para cada una. Se justifican los modelos con citas textuales de referencias bibliográficas y se incluyen las referencias en formato APA.
El documento presenta el diagnóstico y análisis final de un estudio de caso sobre modelos probabilísticos. Se identifican tres estrategias propuestas (participación, servicio, optimización) y se asigna a cada una un modelo probabilístico específico (cadena de Markov, línea de espera, programación estocástica). Se justifica la elección de cada modelo con citas textuales de referencias bibliográficas.
Este documento presenta los aspectos principales del muestreo estadístico. Define términos clave como población, unidad de muestreo, marco de muestreo y parámetro. Explica las ventajas del muestreo sobre un censo completo, como un costo y tiempo de recolección de datos reducidos. Además, describe las etapas clave en el diseño de una encuesta por muestreo, como establecer objetivos, definir la población, diseñar la muestra, y analizar los datos.
Este documento describe diferentes métodos de muestreo estadístico como el muestreo aleatorio simple, el muestreo sistemático y el muestreo estratificado. Explica las ventajas del muestreo sobre un censo completo, como un costo y tiempo de recolección de datos más bajos. También define términos clave como elemento, unidad elemental y parámetro poblacional.
Reconocimiento de los metodos probabilisticosAngiePea36
El documento presenta un resumen de los métodos probabilísticos aplicados a diferentes estrategias como proyección, compra, decisión, participación, servicio y optimización. Describe los modelos probabilísticos mínimos cuadrados, exponencial, binomial, de revisión continua, de inventario sin déficit e incremento absoluto. También presenta cadenas de Markov, distribución estacionaria, tiempo de espera, tiempo entre servicio y tiempo de salida.
APLICACIONES GEOESTADISTICA I -BARBARA PRADOEduardo Mera
Este documento presenta las aplicaciones de la geoestadística en yacimientos mineros, medio ambiente y modelos digitales de elevación. Explica cómo se usa la geoestadística para encontrar yacimientos minerales mediante el análisis de muestras de suelo y rocas. También describe cómo se puede usar para estudiar la distribución espacial de insectos y el tamaño de las copas de los árboles. Por último, explica los diferentes tipos de modelos digitales de elevación como contornos, TIN y raster, y
STATGRAPHICS Centurión es un software estadístico para Windows que contiene más de 150 procedimientos estadísticos para análisis de datos. Incluye herramientas como StatWizard y StatAdvisor que guían a los usuarios sin experiencia estadística. El software ha estado en el mercado desde 1982 y es utilizado por grandes compañías.
Este documento describe las etapas del proceso de investigación científica, incluyendo concebir la idea, plantear el problema, elaborar el marco teórico, definir el tipo de investigación, establecer hipótesis, seleccionar el diseño, recolectar datos y analizarlos. También presenta estadísticas descriptivas como promedio, desviación estándar, histograma y correlación para analizar datos de PIB e importaciones. Finalmente, aplica regresión lineal para pronosticar el PIB.
Similar a REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS (20)
REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS
1. REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS
Integrantes: Luz Mery Pumacayo Manuelo
Héctor Oses Rosa
Angelo Miguel Eca Romero
2. Regresión Logística
Análisis de datos categóricos 2
ÍNDICE
1. INTRODUCCIÓN.............................................................................................. 3
2. METODOLOGÍA DE ENCUESTAS POR MUESTREO.................................... 4
3. REGRESIÓN LOGÍSTICA EN ENCUESTAS................................................... 5
4. SINTAXIS DE PROC SURVEYLOGISTIC ....................................................... 6
5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC ........................................ 8
5.1. CODIGO SAS ................................................................................................................................. 9
5.2. RESULTADOS............................................................................................................................. 12
6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC ........................... 19
6.1. GENERALES................................................................................................................................ 19
6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD ......................................................................... 20
6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA ................................................................. 21
6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE MOREL CON
MLE Y TAYLOR ........................................................................................................................................ 22
7. CONCLUSIONES........................................................................................... 25
8. ANEXOS......................................................................................................... 26
9. BIBLIOGRAFIA.............................................................................................. 35
3. Regresión Logística
Análisis de datos categóricos 3
1. INTRODUCCIÓN
El presente trabajo fue desarrollado como trabajo final de la asignatura: “Análisis de datos
Categóricos”, cursada dentro del plan de estudios del “Máster en Tratamiento Estadístico
Computacional de la Información”.
En este trabajo desarrollamos una revisión de los papers “Performing Logistic Regression
on Survey Data with the New SURVEYLOGISTIC Procedure” por Anthony B. An de SAS
Institute Inc., Cary, North Carolina, USA publicado el año 2002 y “Logistic Regression
Under Complex Survey Designs” por Jorge G. Morel, Survey Methodology, Statistics
Canada publicado el año 1989, entre otros libros y materiales de trabajo especificados en
la bibliografía.
El primer paper describe el enfoque metodológico y las aplicaciones del procedimiento
PROC SURVEYLOGISTIC, inicia comentando la importancia del procedimiento, presenta
un ejemplo de aplicación y finaliza con la sintaxis y bases matemáticas del procedimiento.
Los puntos más importantes de este paper se encuentran en los capítulos 2 al 5 del
presente trabajo.
Por otro lado, el segundo paper detalla el procedimiento numérico para estimar el vector
de parámetros y su correspondiente matriz de covarianzas asintótica para una función
logística generalizada considerando un diseño muestral complejo. Así también realiza un
ajuste a la matriz de covarianza estimada por el método de expansión de la Serie de
Taylor cuando el tamaño de la muestra es pequeño, denominado procedimiento CPLX en
un contexto de muestreo por conglomerados. En un primer momento desarrolla el
procedimiento propuesto para la regresión logística con datos obtenidos de un muestreo
por conglomerados, en uno segundo realiza un estudio de Monte Carlo con el que
compara los resultados usando la estimación por máxima verosimilitud, el método de
expansión de la Serie de Taylor y su método (procedimiento CPLX) y finalmente realiza
una extensión del procedimiento CPLX para un muestreo estratificado, menciona también
que la estimación puede ser extendida a diseños muestrales multietapicos. El capítulo 6
contiene los puntos relacionados principalmente a este paper.
Variables de respuesta binarias, ordinales y nominales se estudian con frecuencia en
investigaciones por encuestas. La regresión logística modela la relación entre tales
variables de respuesta categórica y un conjunto de variables explicativas. SAS tiene el
PROC LOGISTIC para ajustar modelos de regresión logística para datos provenientes de
una muestra aleatoria. Sin embargo, este enfoque no es válido si los datos provienen de
otros diseños muestrales complejos con estratificación, agrupamiento, y/o tienen pesos
diferentes. En estos casos, se deben aplicar técnicas especializadas para producir las
estimaciones adecuadas.
El procedimiento PROC SURVEYLOGISTIC, permite ajustar una regresión logística a
datos de encuesta tomando como base el procedimiento LOGISTIC ya existente.
4. Regresión Logística
Análisis de datos categóricos 4
2. METODOLOGÍA DE ENCUESTAS POR MUESTREO
La investigación por encuestas permite obtener y elaborar datos de modo rápido y eficaz
(Anguita et al. 2002). En este tipo de investigación se realizan preguntas a personas que
conforman la población de interés para conocer sus actitudes respecto a un tema de
estudio determinado. Cuando se trata de un grupo numeroso de personas, una forma de
proceder puede ser entrevistar a todos los elementos del grupo, sin embargo puede
resultar inviable tanto por los costos como por el tiempo que requeriría. Por ello se recurre
a una muestra y se entrevista solo a un subgrupo representativo y los resultados son
extrapolados al resto de la población. Ante ello surge la metodología de encuestas por
muestreo, la cual contiene un conjunto de procedimientos sistemáticos que garantiza la
objetividad de los datos recogidos y es usada para obtener información de una población
grande seleccionando y midiendo una muestra.
Durante el proceso de selección de la muestra, los investigadores aplican diseños
muestrales para representar adecuadamente a la población y hacer inferencias válidas.
Debido a la variabilidad de características o de la estructura de la población se recurre a
diseños del tipo complejo con la finalidad de obtener representatividad estructural de la
misma, de tal manera que la muestra sea un fiel reflejo de la población que se desea
estudiar.
Los procedimientos de SAS para analizar información de encuestas (a la fecha de la
elaboración del paper) son:
PROC SURVEYSELECT proporciona métodos para seleccionar muestras.
PROC SURVEYMEANS realiza análisis descriptivos de las muestras.
PROC SURVEYREG realiza análisis de regresión con muestras complejas.
PROC SURVEYLOGISTIC se presenta como un procedimiento experimental de SAS 9.0
el cual ajusta modelos de regresión logística con datos de encuestas que no provienen de
un muestreo aleatorio simple.
5. Regresión Logística
Análisis de datos categóricos 5
3. REGRESIÓN LOGÍSTICA EN ENCUESTAS
Como se mencionó anteriormente, en investigaciones por encuestas es frecuente usar la
regresión logística para modelar la relación entre variables respuesta del tipo categórico y
un conjunto de variables explicativas. Cuando se utiliza un diseño de muestra complejo,
debe incorporarse el diseño de la muestra en el análisis de los datos de la encuesta para
hacer inferencias estadísticamente válidas.
PROC LOGISTIC asume que la muestra es extraída de una población infinita bajo
muestreo aleatorio simple. Sin embargo, para datos provenientes de encuestas por
muestreo con diseño complejo y de población finita, este procedimiento no es adecuado.
Morel (1989) demuestra vía un estudio de Monte carlo que el sesgo relativo del Error de
Tipo I estimado es más alto en muestras pequeñas y grandes cuando se ignora el diseño
muestral (siempre y cuando la correlación intraclase sea distinta de 0). Así pues, para
hacer inferencias validas acerca de los parámetros del modelo, el diseño muestral debe
ser incorporado al análisis, lo cual puede realizarse a partir del PROC
SURVEYLOGISTIC.
La sintaxis de es similar al de PROC LOGISTIC y utiliza los mismos algoritmos iterativos
para estimar los coeficientes de regresión por máxima verosimilitud que en PROC
LOGISTIC (Fisher-Scoring o Newton Raphson).
Las funciones de enlace también son comunes en ambos procedimientos: logit acumulada
(CLOGIT o PROPODD), logit generalizada (GLOGIT), la función probit (PROBIT) y la log-
log complementaria (CLOGLOG), ver en el anexo II las expresiones matemáticas.
La diferencia entre ambas está en la estimación de la matriz de covarianza de los
parámetros del modelo logístico, en concreto, PROC SURVEYLOGISTIC: (para mayor
detalle ver sección 6):
Utiliza una aproximación de la expansión de Taylor para estimar la matriz de
covarianza del vector de parámetros del modelo e incorpora información del
diseño de la muestra tomando en cuenta la estratificación, el clustering y los pesos
muestrales a partir de las sentencias STRATA, CLÚSTER y WEIGHT
respectivamente.
Usa el ajuste debido Morel (1989) en la estimación de la matriz de covarianza
mencionada para reducir el sesgo cuando la muestra es pequeña.
Incluye también el factor de corrección por población finita en la estimación de la
matriz de covarianza, si la muestra es seleccionada sin reemplazo y el ratio de
muestreo no es lo suficientemente pequeño como para ignorarlo.
6. Regresión Logística
Análisis de datos categóricos 6
4. SINTAXIS DE PROC SURVEYLOGISTIC
A continuación, se muestran las principales sentencias disponibles en PROC
SURVEYLOGISTIC: (para mayor detalle revisar SAS/STAT(R) 9.3 User’ Guide).
PROC SURVEYLOGISTIC <options>; /*invoca el procedimiento SURVEYLOGISTIC. Si el
análisis se incluye un factor de corrección de población finita, se puede incluir la opción de
ratio de la muestra Rate o R, o del total poblacional con la opción Total o N. Total
especifica los totales de la población en los estratos y son usados para calcular la
corrección por población finita en la estimación de la varianza*/
BY variables; /*Para obtener análisis separados de grupos de observaciones*/
CLASS variable <(v-options)><variable <(v-options)>... ></v-options>; /*nombra
las variables de clasificación usadas en el análisis. Pueden ser variables de clase
o numéricas*/
CLUSTER variables; /*nombra las variables que identifican los clústeres en un
diseño muestral agrupado. Si hay una sentencia STRATA, los clústeres son
anidados dentro del estrato*/
CONTRAST ’label’ effect values <effectvalues, ...> </options>; /*proporciona la
customización de los test de hipótesis. Es similar al CONTRAST del PROC
LOGISTIC*/
FREQ variable; /*identifica una variable que contiene la frecuencia de ocurrencia
de cada observación*/
MODEL /*nombra a la variable respuesta, así como efectos explicativos. Las
opciones MODEL pueden ser especificadas después de un /. Dos tipos de
sentencias MODEL pueden ser explicitadas, single-trial y events/trials:*/
MODEL variable <(variable-options)> = <effects> </options>; /*es aplicable
exclusivamente a datos de respuesta binarios. Se usa cuando cada
observación en el data set contiene información de sólo una prueba, por
ejemplo, un solo sujeto en un experimento. Se especifica una variable como la
variable respuesta*/
MODEL events / trials = <effects> </options>; /*se usa cuando cada
observación en el data set contiene información de varias pruebas de
respuesta binaria, como el número de sujetos observados y contestados. Se
especifica dos variables separadas por /. La primera variable es el número de
respuestas positivas y la segunda el número de pruebas*/
LINK (opción de la sentencia MODEL): con esta opción se puede especificar la
función de linkage:
LOGIT o CLOGIT, función logit acumulada. Es la función por
defecto.
CLOGLOG, función log-log complementaria.
7. Regresión Logística
Análisis de datos categóricos 7
GLOGIT, función logit generalizada.
PROBIT, función inversa de la distribución normal estándar.
STRATA variables </options>; /*nombra las variables que forman los estratos
(variables de estratificación) en una muestra estratificada. Las cuales pueden ser
numéricas o categóricas*/
<label:> TEST equation1 <equation2, ...> </option>; /*realiza contrastes de
hipótesis sobre los coeficientes de regresión. El test de Wald se usa para
conjuntamente testear la hipótesis nula (H0:Lβ=c)*/
UNITS independent1 = list1 <independent2 = list2 ... > </option>; /*especifica las
unidades de cambio para las variables explicativas continuas para que así el odds
ratio pueda ser estimado. Independent es el nombre de la variable explicativa y
list es la lista de unidades de cambio separados por espacios que son de interés
para esa variable. Cada unidad de cambio en la lista tiene una de las siguientes
formas: number, SD o -SD, número*SD; donde number es cualquier número
distinto de cero y SD es la desviación estándar de la muestra de la
correspondiente a la variable independiente*/
WEIGHT variable </option>; /*nombra la variable que contiene los pesos de la
muestra. Esta variable debe ser numérica. Si no se especifica ninguna variable
WEIGHT, se asigna a todas las observaciones un peso de 1 por defecto*/
MODEL y WEIGHT sólo pueden utilizarse una vez, mientras que CLASS, CLUSTER,
STRATA, y CONTRAST pueden utilizarse varias veces.
8. Regresión Logística
Análisis de datos categóricos 8
5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC
El siguiente ejemplo ilustra cómo usar el PROC SURVEYLOGISTIC. Una firma de
investigación de mercado realiza una encuesta entre estudiantes de pregrado de la
Universidad de Carolina del Norte en Chapel Hill (UNC) para evaluar tres nuevos diseños
webs de un Sitio Web comercial, cuya población objetivo son los estudiantes de pregrado.
El diseño muestral es estratificado, donde los estratos corresponden a la “clase de
estudiantes”: Freshman (1er año), Sophomore (2do año), Junior y Senior. Dentro de
cada estrato, se seleccionaron 100 estudiantes al azar usando un muestreo aleatorio
simple sin reemplazo.
El total de estudiantes en cada estrato (semestre de otoño del 2001) y la muestra
seleccionada en cada una, se muestra en la tabla 1:
Tabla 1.
Class Enrollment Sample
Freshman 3 734 100
Sophomore 3 565 100
Junior 3 903 100
Senior 4 196 100
Cada estudiante de la muestra evaluó los tres nuevos diseños web A, B y C en una
escala ordinal donde la puntuación estuvo en el rango de me disgusta mucho hasta me
gusta mucho, tal y como se muestra en el tabla 2:
Tabla 2.
Scale Label
1 dislike very much
2 Dislike
3 Neutral
4 Like
5 like very much
Y finalmente en la tabla 3 se muestra la cantidad de estudiantes que evaluaron cada uno
de los tres diseños (A, B y C) dentro de cada estrato.
Tabla 3.
Evaluation of New Web Designs
Rating Counts
Strata Design 1 2 3 4 5
Freshman A 10 34 25 16 15
9. Regresión Logística
Análisis de datos categóricos 9
B 5 10 24 30 21
C 11 14 20 34 21
Sophomore A 19 12 26 18 25
B 10 18 32 23 17
C 15 22 34 9 20
Junior A 8 21 23 26 22
B 1 14 25 23 37
C 16 19 30 23 12
Senior A 11 14 24 33 18
B 8 15 35 30 12
C 2 34 27 18 16
5.1. CODIGO SAS
A continuación, se muestra el código SAS utilizado en el ejemplo:
En Enrollment se guarda la población total de cada estrato.
Los datos son guardados en WebSurvey, el cual contiene las variables class, design,
rating, counts y weight:
CLASS, indica las cuatro clases de estudiantes (los 4 estratos): freshman,
sophomore, junior y senior.
DESIGN, especifica los tres diseños web: A, B y C.
RATING, contiene las calificaciones de los estudiantes para los nuevos diseños
web.
COUNTS, indica la frecuencia de calificaciones que cada diseño web recibió
dentro de cada estrato.
El autor señala que si una muestra es realizada sin reemplazo y el factor de muestreo
no es lo suficientemente pequeño para ser ignorado, debe incluirse un factor de
corrección por población finita en el análisis. Para este diseño complejo, se incluyen
los pesos muestrales para asegurar un análisis apropiado.
10. Regresión Logística
Análisis de datos categóricos 10
En el código SAS que se muestra a continuación, WEIGHT, contiene los pesos
muestrales, que son los recíprocos de las probabilidades de selección en este
ejemplo.
El siguiente código etiqueta a las variables class, design y rating.
11. Regresión Logística
Análisis de datos categóricos 11
Finalmente se llama a PROC SURVEYLOGISTIC para especificar el modelo:
TOTAL especifica la población total de cada estrato guardada en la variable
Enrollment. Los totales poblacionales son usados para calcular el factor de
corrección por población finita en las estimaciones de la varianza.
FORMAT, renombra a las variables con las etiquetas señaladas.
La sentencia STRATA especifica la variable de estratificación denominada class.
En CLASS se coloca la variable predictora, en este caso categorica: design. El
disenio web C fue usado como nivel de referencia.
Con la sentencia MODEL se especifica el modelo, RATING es la variable de
respuesta, escalada ordinalmente, y dos variables indicadoras para el diseño A
son las variables explicativas con el diseño C como nivel de referencia. Dado que
la empresa de investigación está interesada en el diseño web que reciba las
calificaciones más positivas, se especifica la opción DESCENDING.
El autor utiliza el modelo logit acumulado conocido también como el proportional
odds model. La función de enlace utilizado es el CLOGIT. No es necesario
especificarlo pues el modelo por default del procedimiento (SAS/STAT(R) 9.3
User’ Guide).
WEIGHT, contiene los pesos muestrales.
Cabe indicar que para que el procedimiento corriera en la versión actual del SAS V9.4 la
opción DESCENDING para la variable respuesta es especificada en la sentencia MODEL
y no fuera como se muestra en el paper. Ante ello, el autor advirtió al inicio del ejemplo
señalando que la versión V9.0 utilizada para ilustrar el uso del PROC SURVEYLOGISTIC
en el paper es experimental y los resultados mostrados podrían cambiar posteriormente.
12. Regresión Logística
Análisis de datos categóricos 12
5.2. RESULTADOS
A continuación se muestran las salidas de PROC SURVEYLOGISTIC para el modelo
logístico ordinal, con la sintaxis especificada por el autor. La tabla 4 detalla la cantidad de
categorías de la variable respuesta: 5, el modelo usado: Logit acumulado o llamado
también modelo odds proporcional, la técnica de optimización usada para estimar los
parámetros de máxima verosimilitud: Algoritmo de Fisher, la inclusión de la corrección por
población finita en la estimación de la varianza, así como el uso de pesos muestrales.
También se especifica el método usado por default para la estimación de la varianza:
Método de expansión de la Serie de Taylor con el ajuste por grados de libertad1.
Tabla 4.
1
Cabe indicar que para usar el ajuste de Morel (1989) este debe especificarse con la sentencia
VADAJUST=MOREL (SAS/STAT(R) 9.3 User’ Guide).
13. Regresión Logística
Análisis de datos categóricos 13
El autor inicia el análisis evaluando un supuesto importante del modelo Logit acumulado o
modelo odds proporcional) a través del score test que se observa en la tabla 5. Con los
datos proporcionados y utilizando la versión SAS V9.4 (a la fecha de presentación de este
trabajo), el test estadístico es significativo con un p-value < 0.0001, con lo que
rechazamos la hipótesis nula de que el odds ratio es invariante a donde se dicotomicen
las categorías de la variable respuesta e indicaría que el modelo Logit acumulado podría
no ser adecuado2
(para mayor detalle sobre el modelo Logit acumulado y el supuesto de
invarianza de odds ratio, revisar el anexo I).
Tabla 5.
Dado que el supuesto para este modelo no se cumple, se especifica un modelo logístico
politomico, un modelo alternativo sugerido por Kleinbaum, 2010 página 481 cuando el
supuesto no se cumple. Para ello se cambia en el procedimiento la función de enlace a:
GLOGIT, con esto se ajustara un modelo Logit generalizado e indicamos el ajuste de
Morel para la varianza estimada. Especificar el orden de las categorías de las variables
respuesta en este modelo es innecesario.
El modelo queda planteado como sigue, usando la notación de Kleinbaum, 2010:
( = / )
( = 3: / )
= + +
Donde: g=1: dislike very much, 2: dislike, 4: like, 5: like very much.
El diseño C, es el nivel de referencia.
2
Cabe indicar que en el paper, el modelo Logit acumulado ajustado, si supera el test de invarianza de odds
ratio. Creemos que la razón del cambio es la versión de SAS V9.0 usada en ese entonces, pues tal y como el
autor explico se trataba de un PROC SURVEYLOGISTIC aun en etapa experimental y los resultados podrían
cambiar con una versión posterior.
14. Regresión Logística
Análisis de datos categóricos 14
La tabla 6 indica que el modelo Logit generalizado es usado en el análisis. En este caso
se ha usado como técnica de optimización el algoritmo de Newton-Raphson y el método
de estimación de varianza por default es el método de expansión de la Serie de Taylor
con el ajuste de Morel (1989).
Tabla 6.
Para plantear el modelo debe especificarse la categoría de referencia de la variable
respuesta con la que se realizaran las comparaciones del resto de categorías. Al no ser
indicado, el procedimiento ordena internamente las etiquetas de forma ascendente y
selecciona el orden más alto, en este caso a rating=neutral, precisamente con el que
queremos se realice las comparaciones, ver tabla 7.
15. Regresión Logística
Análisis de datos categóricos 15
Tabla 7.
En la tabla 8, se especifican las dos variables indicadoras que ingresaron al modelo
(diseño A y diseño B). El diseño C es considerado como nivel de referencia. Las tablas 9 y
10 muestran la significancia del modelo.
Tabla 8.
Tabla 9.
Tabla 10.
La estimación de los parámetros del modelo y los odds ratio son mostrados en las tablas
11 y 12.
16. Regresión Logística
Análisis de datos categóricos 16
En la tabla 11, se muestran los parámetros estimados, 4 parámetros estimados de
intercepto, 4 parámetros estimados para el diseño A y 4 parámetros estimados para el
diseño B. Tanto para el diseño A y B, el primer parámetro estimado compara rating=dislike
vs. rating=neutral, el segundo parámetro estimado compara rating=dislike very much vs.
rating=neutral, el tercero compara rating=like vs. rating=neutral y el cuarto, rating=like very
much vs. rating=neutral
Tabla 11.
En la tabla 12, los intervalos al 95% de confianza para los odds ratio del diseño A vs C
contienen a 1, por lo que no se puede afirmar con estos datos sobre la preferencia de A.
El diseño B comparado con el diseño C, es significativamente menos probable que
obtenga una puntuación negativa (dislike o dislike very much) que neutral, al tener odds
ratio menores que 1.
17. Regresión Logística
Análisis de datos categóricos 17
Tabla 12.
Con la tabla 13, obtenemos una conclusión similar de B pero ahora respecto a A.
Tabla 13.
Cuando se comparan el diseño A y C con el B, se logra más información, pues es
significativamente más probable que A y C obtengan una puntuación negativa (dislike o
dislike very much) que neutral, al tener odds ratio superiores a 1 en estas dos categorías,
ver tabla 14.
18. Regresión Logística
Análisis de datos categóricos 18
Tabla 14.
Finalmente, el modelo logístico generalizado aplicado a estos datos de encuesta, no
muestra evidencia que algún Diseño Web sea el preferido, pero sí podemos decir que los
diseños A y C gustan menos que B (tabla 14).
19. Regresión Logística
Análisis de datos categóricos 19
6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC
A continuación, se resume los principales puntos que definen la base matemática detrás
del procedimiento PROC SURVEYLOGISTIC de SAS.
6.1. GENERALES
a) Diferencia entre muestreo estratificado y por conglomerados:
En el muestreo estratificado hay homogeneidad de elementos dentro del estrato y
heterogeneidad entre estratos. Se realiza una selección aleatoria de los elementos
dentro de cada estrato.
En el muestro por conglomerados hay heterogeneidad de elementos dentro del
conglomerado y homogeneidad entre conglomerados. Se realiza una selección
aleatoria de conglomerados.
b) Se considera una muestra estratificada y por conglomerados:
Primero se realiza la estratificación (por ejemplo, con fraude o sin fraude) y después el
muestreo por conglomerados (por ejemplo, vive en Alcalá, Alcobendas o Villaverde).
Y es la variable respuesta con categorías 1, 2, ..., D, D + 1.
Las p covarianzas se denotan por un vector fila p-dimensional.
c) Cada observación se representa con un vector fila:
Vector fila: ( , ′ , ( ), )
ℎ = 1,2 , . . . , es el número del estrato con un total de estratos.
= 1 ,2 , . . . , es el número del conglomerado con un total de conglomerados.
ñ = ∑ es el número total de conglomerados en la muestra.
= 1 ,2 , . . . , es el número de unidad dentro del estrato ℎ y conglomerado ,
con un total de unidades.
= ∑ ∑ es el tamaño total de la muestra.
es el peso muestral.
es un vector columna − . Si la respuesta del − é miembro
del − é conglomerado en el estrato ℎ cae en la categoría , la − é fila
del vector es igual a 1, siendo 0 el resto de los elementos del vector.
( ) es la variable indicadora para la categoría ( + 1) de la variable .
es el vector − de las variables explicativas para el − é
miembro del − é conglomerado en el estrato ℎ. Si hay un término
independiente entonces ≡ 1.
es la tasa muestral para el estrato ℎ.
20. Regresión Logística
Análisis de datos categóricos 20
es el vector esperanza de la variable respuesta.
= ( | ) = ( , , . . . , )′
( ) = ( ( )| ) = 1 − ′ siendo un vector columna −
cuyos elementos son 1.
d) Función link:
La función link queda representada por (·) = = ( , ) donde es un vector
columna − para los coeficientes de regresión.
La función logarítmica de pseudo – verosimilitud es:
( ) = (( ( ))′ + ( ( )) ( ))
6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD
a) Proceso iterativo:
El estimador de máxima verosimilitud es una solución a las ecuaciones estimadas:
( ( ) − ) − = 0
es la matriz de derivadas parciales de la función link con respecto a .
Para obtener el estimador de máxima verosimilitud , el procedimiento utiliza
iteraciones con un valor de comienzo ( )
para .
En el paso − é se obtiene el estimador ( )
.
En el paso ( + 1) − é el estimador ( )
= ( )
+ ( ) ( )
donde:
- ( )
= ∑ ∑ ∑ ( )
( ( ( )
) − ( ) ( )
) ′
( )
- ( )
= ∑ ∑ ∑ ( )
( ( ( )
) − ( ) ( )
) − ( )
Donde ( )
, ( )
son evaluados en ( )
.
El proceso iterativo continúa hasta que el algoritmo alcanza, en el paso − é ,
el criterio de convergencia
b) Criterio de convergencia del gradiente:
Por defecto, en SAS la iteración converge en el − é paso si
21. Regresión Logística
Análisis de datos categóricos 21
( ( )
)′ ( ( )
) ( ( )
)
( ( )) + 10
<
Siendo por defecto = 10 o el indicado a través de la opción GCONV.
y son, respectivamente, el vector gradiente y la matriz Hessiana esperada
negativa de la función logarítmica de pseudo – verosimilitud.
c) Criterio de la función de convergencia:
Alternativamente, se puede establecer que la iteración converja cuando el cambio en la
función logarítmica de verosimilitud se reduzca en el paso ( + 1) – é hasta
( ( )
) − ( ( )
)
| ( ( ))| + 10
<
Donde se establece en SAS en la opción FCONV
Otros dos criterios de convergencia ABSFCONV y XCONV son permitidos en SAS
6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA
Estimación de la matriz de covarianza de (utilizada para realizar test de hipótesis).
a) Usando la aproximación de Taylor:
( ) =
Donde:
= ∑ ∑ ∑ ( ( ) − ) ′
= ∑
( )
∑ (ℯ − ℯ ..) (ℯ − ℯ ..)
ℯ = ∑ ( ( ) − ) ( − )
ℯ .. = ∑ ℯ
y son evaluadas en .
b) Usando el ajuste de Morel a la fórmula de Taylor:
( ) = +
Donde:
22. Regresión Logística
Análisis de datos categóricos 22
= ( , ( + 1) ( ))
tiene a como límite inferior, el cual se puede indicar mediante la opción
DEFFBOUND = , o si no, el procedimiento utiliza = 1 por defecto.
Si ñ – + 1 > 3 ( + 1) – 2 entonces =
ñ ( )
Si ñ – + 1 ≤ 3 ( + 1) – 2 entonces =
converge a 0 cuando el tamaño de la muestra es grande y tiene a como límite
superior, el cual se puede especificar mediante la opción ADJBOUND = , o si
no, el procedimiento utiliza = 0,5 por defecto.
y son constantes positivas dadas.
Sobre el ajuste de Morel:
Reducirá el sesgo por muestra pequeña reflejado en tasas de Error de Tipo I
inflados.
Garantizara una matriz de covarianza estimada definida positiva siempre que
exista.
El ajuste de Morel tenderá a cero cuando el tamaño de la muestra es grande, es
decir, que ambos métodos (Taylor y Morel) son asintóticamente equivalentes.
6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE
MOREL CON MLE Y TAYLOR
Morel realizó una comparación de tres procedimientos de estimación: MLE, estimación
por máxima verosimilitud donde se ignora el efecto del clustering, TAYLOR el cual usa el
método de expansión de la Serie de Taylor y el procedimiento CPLX en el que realiza un
ajuste al de TAYLOR (ajuste de Morel). El estudio Monte Carlo se realizó con datos
generados a partir de dos tipos de esquema de muestreo:
a) Esquema de muestreo 1: Todos los elementos dentro de un clúster tienen el
mismo vector de variables explicativas. Y, por tanto, el modelo contiene pesos que
indican el porcentaje de observaciones de un mismo vector respecto al total.
Diferentes grados de correlación intraclase son inducidos para las variables
respuestas dentro de un mismo segmento.
b) Esquema de muestreo 2: Los elementos dentro de un clúster tienen vectores de
variables explicativas distintos. Diferentes grados de correlación intraclase son
controlados.
El estudio comparativo de los tres modelos consistió en lo siguiente:
1. Estimar mediante cada uno de los tres procedimientos el sesgo relativo de los
Errores Tipo I obtenidos al comparar al 5% de significación : = mediante F-
tests contra F(12, ∞; 0.05) = 1.753. Los resultados se muestran en las tablas 3.1 y
3.5 del anexo III.
23. Regresión Logística
Análisis de datos categóricos 23
Conclusiones:
El método de Taylor para muestras pequeñas suele presentar
resultados muy alejados de aquellos proporcionados usando el ajuste
de Morel (CPLX).
Para datos en los que no hay correlación intraclase Ϛ = 0 y el efecto
de diseño ∅ = 0 , el procedimiento MLE proporciona menor sesgo
relativo a la estimación del error de tipo I, seguido por el de CPLX y el
de Taylor (en el esquema 2 no se cumple para n=20, n=100)
El MLE muestra mayor distorsión del error de tipo I estimado cuando la
correlación intraclase es positiva. Esta distorsión se va incrementando
a medida que la correlación intraclase también va creciendo.
En general el procedimiento CPLX produce sesgos más pequeños que
el de TAYLOR tanto en muestras pequeñas como grandes.
2. Si los estadísticos F usados para el test : = se multiplican por el número de
parámetros usados, el estadístico resultante se distribuye mediante una variable
aleatoria Chi-cuadrado. Las medias y varianzas para estos estadísticos Chi-
cuadrado se muestran en las tablas 3.2 y 3.6 del anexo III.
Conclusiones:
El método de Taylor para muestras pequeñas produce valores medios
altos y varianzas muy elevadas en comparación con los otros dos
métodos.
Para datos en los que no hay correlación intraclase Ϛ = 0, el
procedimiento MLE proporciona resultados aceptables.
A medida que aumenta la correlación intraclase, las medias y las
varianzas tienden a aumentar con los tres métodos, sin embargo, es el
método CPLX el que es capaz de mantenerlos en valores no
demasiado elevados.
El método de Taylor y CPLX proporcionan resultados similares para
muestras grandes.
3. Se estimó el efecto diseño para los procedimientos CPLX y TAYLOR y se
obtuvieron resultados para el esquema de muestreo 1 y 2. Los resultados se
muestran en las tablas 3.3 y 3.7 del anexo III.
En el esquema 1 ambos métodos dieron buenos resultados. El método
CPLX mostro menor sesgo y errores estándar ligeramente más altos.
En el esquema 2 Taylor produce menor sesgo que CPLX en muestras
pequeñas. Sin embargo en muestras grandes tienen similar resultado.
4. Se estimaron los sesgos para los percentiles 5 y 95 del estadístico t de Student
t =
.
− de las estimaciones de los coeficientes individuales,
sólo para los modelos MLE y CPLX. Los resultados se muestran en las tablas 3.4
y 3.8.
24. Regresión Logística
Análisis de datos categóricos 24
Conclusiones:
MLE tiene un sesgo relativo cercano a cero en ausencia de correlación
intraclase. El sesgo se incrementa a medida que esta correlación
crece.
En general CPLX tiene sesgos pequeños y para muestras grandes es
despreciable.
25. Regresión Logística
Análisis de datos categóricos 25
7. CONCLUSIONES
Existen varios procedimientos en SAS disponibles que permiten realizar análisis
relacionados con encuestas de investigación, tales como: PROC
SURVEYSELECT, PROC SURVEYMEANS, PROC SURVEYREG, PROC
LOGISTIC y PROC SURVEYLOGISTIC.
El procedimiento LOGISTIC se utiliza para ajustar modelos de regresión logística
para datos de una muestra aleatoria. Si los datos provienen de diseños complejos,
se deben aplicar técnicas especializadas para generar estimaciones adecuadas.
Los cuales están incluidos en el procedimiento PROC SURVEYLOGISTIC.
En futuras versiones de SAS, se agregarán más funciones (por ejemplo,
selecciones de modelos) a PROC SURVEYLOGISTIC, así como más
procedimientos para el análisis de datos de encuestas.
SOBRE EL PROCEDIMIENTO DE MOREL:
Para datos en los que no hay correlación intraclase Ϛ = 0, el procedimiento MLE
proporciona buenos resultados, seguido por el de Morel y el de Taylor.
Los métodos de Taylor y Morel son asintóticamente equivalentes para muestras
grandes. Para muestras pequeñas, el procedimiento de Morel proporciona siempre
mejores resultados que el método de Taylor.
El método de Morel se comporta mejor tanto para muestras grandes como
pequeñas.
26. Regresión Logística
Análisis de datos categóricos 26
8. ANEXOS
ANEXO I
MODELOS LOGIT ACUMULADO (AGRESTI, 2007 SEGUNDA EDICION PAGINAS 180-
182)
Cuando las categorías de la variable respuesta son ordenadas, los Logits pueden utilizar
este ordenamiento. Estos modelos resultan tener interpretaciones más simples y con un
poder potencialmente más grande que modelos Logit categóricos-baseline.
Una probabilidad acumulada para Y es la probabilidad que Y se encuentre en o por
debajo de un punto particular. Para una categoría de respuesta j, la probabilidad
acumulada es:
( ≤ ) = + ⋯ + , = 1, … ,
Las probabilidades acumuladas reflejan el ordenamiento, con ( ≤ 1) ≤ ( ≤ 2)
≤ ⋯ ≤ ( ≤ ) = 1. Los modelos para probabilidades acumuladas no usan la
probabilidad final ( ≤ ) pues este es necesariamente igual a 1.
Los Logits de las probabilidades acumuladas son:
( ≤ ) =
( ≤ )
1 − ( ≤ )
=
+ ⋯ +
+ ⋯ +
= 1, … , − 1
Estos son llamados los Logits acumulados. Para J=3, por ejemplo, los modelos usan
ambos [ ( ≤ 1)] = y [ ( ≤ 2)] =
( + )
. Cada
logit acumulado usa todas las categorías de la variable respuesta.
Modelos Logit acumulado: Propiedad de odds proporcionales.
Un modelo para el logit acumulado j luce como un modelo de regresión logística binario
en el cual las categorías 1 a j se combinan para formar una sola categoría y las categorías
j+1 a J forman una segunda categoría. Para una variable explicativa x, el modelo
[ ( ≤ )] = + , = 1, … , − 1 (1)
tiene el parámetro describiendo el efecto de x en el log odds de la categoría j de
respuesta o por debajo. En esta fórmula, no tiene un subíndice j. Así, el modelo asume
que el efecto de x es idéntico para todos los J-1 Logits acumulados. Cuando este modelo
ajusta bien, requiere un solo parámetro en lugar de J-1 parámetros para describir el efecto
de x.
27. Regresión Logística
Análisis de datos categóricos 27
La siguiente figura representa este modelo para cuatro categorías de respuesta con x
cuantitativa. Cada probabilidad acumulada tiene su propia curva, describiendo su cambio
como una función de x. La curva para ( ≤ ) luce como una curva de regresión logística
para una respuesta binaria con un par de resultados ( ≤ ) y ( > ). El efecto común
para cada j implica que las tres curvas tienen la misma forma. Cualquier curva es idéntica
a cualquiera de los otros desplazados a la derecha o desplazados a la izquierda.
Interpretaciones del modelo pueden usar odds ratios para las probabilidades acumuladas
y sus complementos. Para dos valores y de x, un odds ratio que compara las
probabilidades acumuladas es:
( ≤ / = )
( > / = )
( ≤ / = )
( > / = )
El log de este odds ratio es la diferencia entre los Logits acumulados para aquellos dos
valores de x. Esto es igual a ( − ), proporcional a la distancia entre los valores de x.
En particular, para − = 1, el odds ratio de la respuesta por debajo de cualquier
categoría dada, multiplica por cada unidad de incremento en x.
Para este log odds ratio ( − ), la misma constante de proporcionalidad( ) aplica
para cada probabilidad acumulada. Esta propiedad es llamada “supuesto de odds
proporcional” del modelo (1)
Para Kleinbaum, 2010 pagina 467, esta propiedad implica que el odds ratio es invariante a
donde se dicotomicen las categorías de la variable respuesta. Si se cumple este
supuesto, entonces el modelo odds proporcional nos permite resumir la relación entre la
respuesta y cada variable independiente con un solo parámetro y no con varios.
Kleinbaum, 2010 en la página 480, indica como sería el procedimiento al correr varios
modelos de regresión logística como alternativa al modelo odds proporcional. En
específico, para verificar el supuesto de proporcionalidad de odds con los modelos
estimados por separado, señala que el método más simple seria calcular los odds ratios
‘crudos’ con cada modelo y compararlos. Para un modelo de cuatro niveles por ejemplo,
28. Regresión Logística
Análisis de datos categóricos 28
se verificaría si los coeficientes de las variables independientes son similares unas a otras
(solo en este tipo de modelamiento).
29. Regresión Logística
Análisis de datos categóricos 29
ANEXO II.
Modelos para variables de respuesta binarias y de varias categorías ( = 1, 2, … , )
Modelo Logístico Generalizado
(siendo D + 1 la categoría de
referencia para Y)
Modelo Logit Acumulado
(Modelo de Odds Proporcionales)
Función
link
Donde: Donde:
suma acumulada de
las proporciones
esperadas para las
1eras categorías de
la variable .
Matriz 1eras
derivadas
parciales
Donde:
es el Producto de
Kronecker
Donde:
es un vector columna D-
dimensional
es una matriz D x D
Evaluado en
el estimador
de máxima
verosimilitud Donde:
30. Regresión Logística
Análisis de datos categóricos 30
Modelos para variables de respuesta binaria ( = 1)
Modelo clog-log Modelo Probit
Función
link
Donde:
es el vector de parámetros.
Donde:
es el vector de
parámetros.
es la función de distribución
acumulada de la
distribución normal estándar
Matriz 1eras
derivadas
parciales
Evaluado en
el estimador
de máxima
verosimilitud
35. Regresión Logística
Análisis de datos categóricos 35
9. BIBLIOGRAFIA
1. An, Anthony B. Performing Logistic Regression on Survey Data with the New
SURVEYLOGISTIC. Procedure. SAS Institute Inc. Cary, North Carolina. Paper.
258-27.
2. Agresti, A. (2007). An introduction to categorical data analysis. 2nd ed. pp.180-182.
3. Anguita et. al. (2002). La encuesta como tecnica de investigacion. Elaboracion de
cuestionarios y tratamiento estadistico de los datos (I). Aten Primaria 2003. 31(8):
527-38.
http://www.unidaddocentemfyclaspalmas.org.es/resources/9+Aten+Primaria+2003.+La+E
ncuesta+I.+Custionario+y+Estadistica.pdf
4. Kleinbaum, D. (2010). Logistic Regression. 3rd ed. New York, NY: Springer,
pp.467/480-481.
5. Morel, G. (1989). Logistic Regression under Complex Survey Designs. Survey
Methodology. 15. 203-223.
6. SAS/STAT(R) 9.3 User's Guide
https://support.sas.com/documentation/cdl/en/statug/63962/HTML/default/viewer.htm#
surveylogistic_toc.htm