Este documento presenta ejemplos de análisis de varianza (ANOVA) realizados con el programa estadístico R. En el primer ejemplo, se analizan las longitudes de los sépalos de tres especies de iris utilizando un ANOVA de un factor. Los resultados muestran diferencias significativas entre las especies. En el segundo ejemplo, se analiza el efecto de cuatro tratamientos farmacológicos utilizando un ANOVA de un factor. Finalmente, en el tercer ejemplo se analiza la producción de cultivos en diferentes fincas y con diferentes fertilizantes us
Este documento resume los principales métodos numéricos para resolver ecuaciones no lineales. Explica brevemente el método de la bisección, la interpolación lineal, Newton-Raphson, punto fijo, Bairstow y división sintética. Incluye ejemplos para ilustrar cada método y destaca que Newton-Raphson converge más rápido pero requiere calcular derivadas, mientras que la bisección es más lento pero no necesita derivadas.
Este documento explica cómo calcular intervalos reales para agrupar datos. Primero se calcula la mitad de la distancia entre los límites superiores e inferiores de los intervalos aparentes obtenidos anteriormente. Luego, esa mitad de distancia se resta de los límites inferiores y se suma a los límites superiores para obtener los intervalos reales, de modo que los límites superiores e inferiores de cada intervalo se unan sin brechas. Finalmente, se muestra una tabla con las columnas para los intervalos reales y las frecu
Este documento describe el proceso de agrupación de datos para crear intervalos. Explica que cuando hay demasiadas categorías de datos, es útil agruparlos en intervalos para facilitar el análisis. Detalla cómo determinar el número de intervalos y cómo construirlos de manera que cumplan con ciertas condiciones, como que los límites extremos sean menores o mayores que los valores mínimo y máximo de los datos. Además, incluye un ejemplo paso a paso de cómo agrupar un conjunto de 300 datos en 10 intervalos.
La densidad de probabilidad Weibull se utiliza comúnmente en estudios de confiabilidad. Tiene dos parámetros, el parámetro de forma (α) y el parámetro de escala (β). Se puede estimar α y β a partir de una muestra mediante la transformación de la función de distribución Weibull en una expresión lineal y calculando la pendiente y la intersección de la regresión. El documento proporciona un ejemplo de cómo estimar los parámetros Weibull a partir de datos de tiempo de interrupción de una señal satelital.
Este documento describe el método de Gauss-Jordan para resolver sistemas de ecuaciones lineales. Explica que este método consiste en transformar la matriz aumentada del sistema en una matriz identidad a través de operaciones de filas, lo que proporciona directamente la solución. Además, muestra un ejemplo paso a paso de cómo aplicar el método Gauss-Jordan para resolver un sistema de 3 ecuaciones con 3 incógnitas.
Este documento describe el método de la bisección para encontrar raíces de una ecuación. El método involucra iterativamente dividir el intervalo inicial en dos partes iguales basado en si el valor de la función es positivo o negativo en el punto medio, hasta que el intervalo sea menor a un error especificado. El documento provee detalles sobre cómo calcular el número de iteraciones necesarias y presenta un ejemplo numérico para ilustrar el método.
Este documento describe el modelo de distribución de Weibull, que se usa comúnmente en análisis de fiabilidad. El modelo de Weibull puede tomar diferentes formas dependiendo de sus parámetros, lo que permite usar el mismo modelo para diferentes tasas de falla. El documento explica cómo estimar los parámetros del modelo a través de métodos gráficos y analíticos y cómo usar el modelo para realizar cálculos de fiabilidad.
Este documento resume los principales métodos numéricos para resolver ecuaciones no lineales. Explica brevemente el método de la bisección, la interpolación lineal, Newton-Raphson, punto fijo, Bairstow y división sintética. Incluye ejemplos para ilustrar cada método y destaca que Newton-Raphson converge más rápido pero requiere calcular derivadas, mientras que la bisección es más lento pero no necesita derivadas.
Este documento explica cómo calcular intervalos reales para agrupar datos. Primero se calcula la mitad de la distancia entre los límites superiores e inferiores de los intervalos aparentes obtenidos anteriormente. Luego, esa mitad de distancia se resta de los límites inferiores y se suma a los límites superiores para obtener los intervalos reales, de modo que los límites superiores e inferiores de cada intervalo se unan sin brechas. Finalmente, se muestra una tabla con las columnas para los intervalos reales y las frecu
Este documento describe el proceso de agrupación de datos para crear intervalos. Explica que cuando hay demasiadas categorías de datos, es útil agruparlos en intervalos para facilitar el análisis. Detalla cómo determinar el número de intervalos y cómo construirlos de manera que cumplan con ciertas condiciones, como que los límites extremos sean menores o mayores que los valores mínimo y máximo de los datos. Además, incluye un ejemplo paso a paso de cómo agrupar un conjunto de 300 datos en 10 intervalos.
La densidad de probabilidad Weibull se utiliza comúnmente en estudios de confiabilidad. Tiene dos parámetros, el parámetro de forma (α) y el parámetro de escala (β). Se puede estimar α y β a partir de una muestra mediante la transformación de la función de distribución Weibull en una expresión lineal y calculando la pendiente y la intersección de la regresión. El documento proporciona un ejemplo de cómo estimar los parámetros Weibull a partir de datos de tiempo de interrupción de una señal satelital.
Este documento describe el método de Gauss-Jordan para resolver sistemas de ecuaciones lineales. Explica que este método consiste en transformar la matriz aumentada del sistema en una matriz identidad a través de operaciones de filas, lo que proporciona directamente la solución. Además, muestra un ejemplo paso a paso de cómo aplicar el método Gauss-Jordan para resolver un sistema de 3 ecuaciones con 3 incógnitas.
Este documento describe el método de la bisección para encontrar raíces de una ecuación. El método involucra iterativamente dividir el intervalo inicial en dos partes iguales basado en si el valor de la función es positivo o negativo en el punto medio, hasta que el intervalo sea menor a un error especificado. El documento provee detalles sobre cómo calcular el número de iteraciones necesarias y presenta un ejemplo numérico para ilustrar el método.
Este documento describe el modelo de distribución de Weibull, que se usa comúnmente en análisis de fiabilidad. El modelo de Weibull puede tomar diferentes formas dependiendo de sus parámetros, lo que permite usar el mismo modelo para diferentes tasas de falla. El documento explica cómo estimar los parámetros del modelo a través de métodos gráficos y analíticos y cómo usar el modelo para realizar cálculos de fiabilidad.
Este documento explica cómo calcular las marcas de clase y las frecuencias para datos agrupados. Primero se calculan las marcas de clase promediando los límites de cada intervalo. Luego, se cuenta la cantidad de datos dentro de cada intervalo para obtener las frecuencias absolutas, las cuales se anotan en la tabla de distribución de frecuencias.
El documento presenta una revisión de un intento de examen de estadística para ingeniería. Incluye 5 preguntas con respuestas del estudiante y comentarios de calificación. El intento obtuvo una calificación total de 5 puntos sobre 10.
Este documento describe diferentes medidas de dispersión como el rango, la varianza, la desviación estándar y el coeficiente de variación. Explica que estas medidas cuantifican cuán dispersos están los valores de un conjunto de datos en torno a la media. Proporciona fórmulas para calcular cada medida de dispersión tanto para datos agrupados como no agrupados, e ilustra los cálculos con ejemplos numéricos.
Este documento presenta una serie de problemas resueltos relacionados con variables aleatorias discretas y continuas. Incluye ejercicios sobre distribuciones binomial, de Poisson y normal, resolviendo cuestiones como el número esperado de eventos, las probabilidades de diferentes resultados y el cálculo de esperanzas y varianzas. Los problemas abarcan temas como el sexo de los hijos en una familia, el recuento de glóbulos blancos y la duración de llamadas telefónicas.
El método de Gauss-Jordan se utiliza para resolver sistemas de ecuaciones lineales. Consiste en transformar la matriz aumentada del sistema en una matriz identidad mediante operaciones de filas que normalizan los elementos de la diagonal principal y convierten los demás elementos de cada columna en ceros. Se ilustra el método resolviendo un sistema de tres ecuaciones y tres incógnitas como ejemplo.
Probabilidad, variables aleatorias y procesos estocásticos
Análisis estadístico y probabilísitico,
Tema 6: Vectores Gaussianos
- Función Característica de un Vector Aleatorio
- Función Densidad de Probabilidad de un Vector Gaussiano.
Probabilidad, variables aleatorias y procesos estocásticos
Análisis estadístico y probabilísitico,
Tema 5: Valor esperado
- Valor esperado de una función de v.a.r.
- Valor esperado de una función de vec. a.
- Valor esperado de vectores y matrices.
- Valor esperado condicional
- Funciones características
La distribución Chi-cuadrado describe la probabilidad de que la suma de los cuadrados de variables normales aleatorias independientes supere un valor. Tiene importantes aplicaciones en pruebas estadísticas como la prueba Chi-cuadrado de bondad de ajuste e independencia. La distribución F de Snedecor surge del cociente de dos variables Chi-cuadrado e indica la probabilidad de que la varianza de una muestra supere la de otra. Ambas distribuciones son fundamentales en análisis de varianza.
Este documento presenta una introducción a los vectores gaussianos. Explica que un vector aleatorio es gaussiano si cualquier combinación lineal de sus componentes es una variable aleatoria gaussiana. Luego define la función característica y densidad de probabilidad de un vector gaussiano en términos de su media y matriz de covarianza. Finalmente, ilustra algunas propiedades importantes de los vectores gaussianos y presenta ejemplos para aclarar los conceptos.
Este documento contiene 7 ejercicios de programación lineal resueltos. En el primer ejercicio se busca la distribución óptima de paquetes de refrescos para maximizar beneficios. En el segundo ejercicio se busca la distribución óptima de dietas para cumplir necesidades nutricionales al menor coste. En el tercer ejercicio se busca la distribución de hectáreas de olivos para maximizar producción de aceite sujeto a restricciones de recursos.
Mas ejercicios para la resolución de modelos aplicando el método simplexLuis Guerrero
Este documento presenta la resolución de dos problemas de programación lineal utilizando el método del simplex. En el primer problema, se transforma el programa a forma estándar y se itera entre calcular la tabla del simplex y pivotar hasta encontrar la solución óptima. En el segundo problema, se introduce una variable artificial para obtener una base canónica y poder aplicar el método, resolviéndolo de forma similar.
Este documento describe la distribución binomial y variables aleatorias discretas. Explica que una variable aleatoria binomial (X) representa el número de éxitos en n repeticiones independientes de un experimento con probabilidad constante de éxito p. Presenta fórmulas para calcular la probabilidad de diferentes valores de X y resume propiedades como la esperanza y varianza de una variable aleatoria binomial.
Este documento describe varios métodos numéricos para encontrar las raíces de una ecuación, incluyendo el método de bisección, el método de la falsa posición y los métodos gráficos. Estos métodos requieren que las funciones sean diferenciables y continuas en un intervalo y usan propiedades como el cambio de signo de una función cerca de una raíz para iterativamente aproximar la solución dentro de intervalos más pequeños.
Este documento introduce los sistemas de ecuaciones lineales, definidos como colecciones de ecuaciones lineales en varias variables. Explica que un sistema puede tener cero, una o infinitas soluciones, y describe métodos como sustitución y reducción para resolver sistemas. También introduce la notación matricial para representar sistemas.
Este documento describe varios métodos para generar variables aleatorias con distribuciones no uniformes, incluyendo el método de la transformada inversa, el método de rechazo, y métodos de simulación directa como la distribución normal basada en el teorema del límite central, distribuciones discretas como la binomial y Poisson, y distribuciones continuas como la normal y empíricas. Proporciona ejemplos detallados de cómo aplicar cada método.
Este documento describe medidas estadísticas de dispersión, asimetría y curtosis. Explica cómo calcular e interpretar el rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variación, coeficiente de asimetría y coeficiente de curtosis. Proporciona ejemplos detallados de cómo aplicar estas medidas a conjuntos de datos para analizar la variabilidad, simetría y forma de la distribución.
Diseño aleatorizado por bloques aplicado a los NegociosMaría Pilco Ch
Este documento presenta un análisis de varianza de un factor con diseño aleatorizado por bloques para determinar el mejor de tres métodos de montaje de un mecanismo. Se asignaron cinco operarios a tres métodos en un diseño de bloques completos al azar. El análisis de varianza muestra que los métodos son significativamente diferentes, y las pruebas de comparaciones múltiples indican que los pares A1-A2 y A1-A3 son significativamente diferentes. El documento también describe el procedimiento para realizar el análisis usando Statgraphics
El documento describe diferentes medidas de dispersión como el rango, la varianza, la desviación estándar y el coeficiente de variación. Explica cómo calcular estas medidas para datos agrupados y no agrupados, y provee ejemplos numéricos para ilustrar los cálculos. Las medidas de dispersión miden qué tan dispersos están los valores de una variable en torno a su media.
Este documento resume las medidas de dispersión para datos agrupados en estadística descriptiva. Explica que la desviación media, varianza y desviación estándar se calculan de la misma manera para datos agrupados que para datos individuales. Proporciona las fórmulas para calcular cada medida y muestra un ejemplo numérico del cálculo de la varianza a partir de una tabla de frecuencias de datos agrupados.
Introduction to R by David Lucy Cap 12-16Luis Pons
R es un lenguaje muy usado para crear modelos matemáticos a partir de datos. El comando lm en R se usa para crear modelos lineales y buscar regresión lineal. Los modelos lineales en R se crean con la función lm, la cual puede usarse para análisis de varianza u otros análisis. Los modelos lineales se basan en supuestos como la normalidad de los errores y varianza constante.
1) El documento presenta los resultados de varias tareas de un curso de estadística en R. Incluye un análisis exploratorio de datos usando gráficos y regresión lineal, así como un análisis de correlación y una prueba t de Student.
2) La prueba t de Student encuentra una diferencia estadísticamente significativa en el rendimiento de dos tiempos entre hombres y mujeres, con una media mayor para los hombres.
3) El análisis de correlación muestra una fuerte correlación positiva entre el potencial de
Este documento explica cómo calcular las marcas de clase y las frecuencias para datos agrupados. Primero se calculan las marcas de clase promediando los límites de cada intervalo. Luego, se cuenta la cantidad de datos dentro de cada intervalo para obtener las frecuencias absolutas, las cuales se anotan en la tabla de distribución de frecuencias.
El documento presenta una revisión de un intento de examen de estadística para ingeniería. Incluye 5 preguntas con respuestas del estudiante y comentarios de calificación. El intento obtuvo una calificación total de 5 puntos sobre 10.
Este documento describe diferentes medidas de dispersión como el rango, la varianza, la desviación estándar y el coeficiente de variación. Explica que estas medidas cuantifican cuán dispersos están los valores de un conjunto de datos en torno a la media. Proporciona fórmulas para calcular cada medida de dispersión tanto para datos agrupados como no agrupados, e ilustra los cálculos con ejemplos numéricos.
Este documento presenta una serie de problemas resueltos relacionados con variables aleatorias discretas y continuas. Incluye ejercicios sobre distribuciones binomial, de Poisson y normal, resolviendo cuestiones como el número esperado de eventos, las probabilidades de diferentes resultados y el cálculo de esperanzas y varianzas. Los problemas abarcan temas como el sexo de los hijos en una familia, el recuento de glóbulos blancos y la duración de llamadas telefónicas.
El método de Gauss-Jordan se utiliza para resolver sistemas de ecuaciones lineales. Consiste en transformar la matriz aumentada del sistema en una matriz identidad mediante operaciones de filas que normalizan los elementos de la diagonal principal y convierten los demás elementos de cada columna en ceros. Se ilustra el método resolviendo un sistema de tres ecuaciones y tres incógnitas como ejemplo.
Probabilidad, variables aleatorias y procesos estocásticos
Análisis estadístico y probabilísitico,
Tema 6: Vectores Gaussianos
- Función Característica de un Vector Aleatorio
- Función Densidad de Probabilidad de un Vector Gaussiano.
Probabilidad, variables aleatorias y procesos estocásticos
Análisis estadístico y probabilísitico,
Tema 5: Valor esperado
- Valor esperado de una función de v.a.r.
- Valor esperado de una función de vec. a.
- Valor esperado de vectores y matrices.
- Valor esperado condicional
- Funciones características
La distribución Chi-cuadrado describe la probabilidad de que la suma de los cuadrados de variables normales aleatorias independientes supere un valor. Tiene importantes aplicaciones en pruebas estadísticas como la prueba Chi-cuadrado de bondad de ajuste e independencia. La distribución F de Snedecor surge del cociente de dos variables Chi-cuadrado e indica la probabilidad de que la varianza de una muestra supere la de otra. Ambas distribuciones son fundamentales en análisis de varianza.
Este documento presenta una introducción a los vectores gaussianos. Explica que un vector aleatorio es gaussiano si cualquier combinación lineal de sus componentes es una variable aleatoria gaussiana. Luego define la función característica y densidad de probabilidad de un vector gaussiano en términos de su media y matriz de covarianza. Finalmente, ilustra algunas propiedades importantes de los vectores gaussianos y presenta ejemplos para aclarar los conceptos.
Este documento contiene 7 ejercicios de programación lineal resueltos. En el primer ejercicio se busca la distribución óptima de paquetes de refrescos para maximizar beneficios. En el segundo ejercicio se busca la distribución óptima de dietas para cumplir necesidades nutricionales al menor coste. En el tercer ejercicio se busca la distribución de hectáreas de olivos para maximizar producción de aceite sujeto a restricciones de recursos.
Mas ejercicios para la resolución de modelos aplicando el método simplexLuis Guerrero
Este documento presenta la resolución de dos problemas de programación lineal utilizando el método del simplex. En el primer problema, se transforma el programa a forma estándar y se itera entre calcular la tabla del simplex y pivotar hasta encontrar la solución óptima. En el segundo problema, se introduce una variable artificial para obtener una base canónica y poder aplicar el método, resolviéndolo de forma similar.
Este documento describe la distribución binomial y variables aleatorias discretas. Explica que una variable aleatoria binomial (X) representa el número de éxitos en n repeticiones independientes de un experimento con probabilidad constante de éxito p. Presenta fórmulas para calcular la probabilidad de diferentes valores de X y resume propiedades como la esperanza y varianza de una variable aleatoria binomial.
Este documento describe varios métodos numéricos para encontrar las raíces de una ecuación, incluyendo el método de bisección, el método de la falsa posición y los métodos gráficos. Estos métodos requieren que las funciones sean diferenciables y continuas en un intervalo y usan propiedades como el cambio de signo de una función cerca de una raíz para iterativamente aproximar la solución dentro de intervalos más pequeños.
Este documento introduce los sistemas de ecuaciones lineales, definidos como colecciones de ecuaciones lineales en varias variables. Explica que un sistema puede tener cero, una o infinitas soluciones, y describe métodos como sustitución y reducción para resolver sistemas. También introduce la notación matricial para representar sistemas.
Este documento describe varios métodos para generar variables aleatorias con distribuciones no uniformes, incluyendo el método de la transformada inversa, el método de rechazo, y métodos de simulación directa como la distribución normal basada en el teorema del límite central, distribuciones discretas como la binomial y Poisson, y distribuciones continuas como la normal y empíricas. Proporciona ejemplos detallados de cómo aplicar cada método.
Este documento describe medidas estadísticas de dispersión, asimetría y curtosis. Explica cómo calcular e interpretar el rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variación, coeficiente de asimetría y coeficiente de curtosis. Proporciona ejemplos detallados de cómo aplicar estas medidas a conjuntos de datos para analizar la variabilidad, simetría y forma de la distribución.
Diseño aleatorizado por bloques aplicado a los NegociosMaría Pilco Ch
Este documento presenta un análisis de varianza de un factor con diseño aleatorizado por bloques para determinar el mejor de tres métodos de montaje de un mecanismo. Se asignaron cinco operarios a tres métodos en un diseño de bloques completos al azar. El análisis de varianza muestra que los métodos son significativamente diferentes, y las pruebas de comparaciones múltiples indican que los pares A1-A2 y A1-A3 son significativamente diferentes. El documento también describe el procedimiento para realizar el análisis usando Statgraphics
El documento describe diferentes medidas de dispersión como el rango, la varianza, la desviación estándar y el coeficiente de variación. Explica cómo calcular estas medidas para datos agrupados y no agrupados, y provee ejemplos numéricos para ilustrar los cálculos. Las medidas de dispersión miden qué tan dispersos están los valores de una variable en torno a su media.
Este documento resume las medidas de dispersión para datos agrupados en estadística descriptiva. Explica que la desviación media, varianza y desviación estándar se calculan de la misma manera para datos agrupados que para datos individuales. Proporciona las fórmulas para calcular cada medida y muestra un ejemplo numérico del cálculo de la varianza a partir de una tabla de frecuencias de datos agrupados.
Introduction to R by David Lucy Cap 12-16Luis Pons
R es un lenguaje muy usado para crear modelos matemáticos a partir de datos. El comando lm en R se usa para crear modelos lineales y buscar regresión lineal. Los modelos lineales en R se crean con la función lm, la cual puede usarse para análisis de varianza u otros análisis. Los modelos lineales se basan en supuestos como la normalidad de los errores y varianza constante.
1) El documento presenta los resultados de varias tareas de un curso de estadística en R. Incluye un análisis exploratorio de datos usando gráficos y regresión lineal, así como un análisis de correlación y una prueba t de Student.
2) La prueba t de Student encuentra una diferencia estadísticamente significativa en el rendimiento de dos tiempos entre hombres y mujeres, con una media mayor para los hombres.
3) El análisis de correlación muestra una fuerte correlación positiva entre el potencial de
Matemática para Ingeniería - Determinantes
Se tocaran los temas de la regla de sarrus, propiedades de las determinantes y la relación entre inversa y determinantes.
Vladimir Acori Flores
Este documento presenta un análisis de regresión para explicar el riesgo de infección en hospitales en términos de cinco variables predictoras. Se estima un modelo de regresión múltiple significativo que explica el 53.8% de la variabilidad. Tres de las variables no son significativas individualmente y pueden ser descartadas. El análisis de diagnóstico identifica algunos puntos influyentes pero no atípicos, y el supuesto de normalidad de los errores no se cumple completamente.
Este documento presenta un análisis de varianza de un factor (ANOVA) realizado en R sobre datos de longitud de pétalos de tres especies de iris (Iris setosa, Iris versicolor e Iris virginica). Primero se leen y organizan los datos, luego se realiza un resumen y gráfico exploratorio. Finalmente, se aplica el ANOVA y se concluye que existen diferencias significativas entre las tres especies.
Este documento describe diversas medidas de dispersión estadísticas. Explica que miden qué tan dispersos están los elementos de un conjunto de datos alrededor de la media. Describe el rango, la varianza, la desviación estándar y el coeficiente de variación como las principales medidas de dispersión. También explica cómo se calculan estas medidas tanto para datos no agrupados como para datos agrupados.
Este documento describe los componentes clave de la salida de una regresión lineal en STATA. Explica que la regresión lineal minimiza la suma de los cuadrados de los errores para determinar la línea de mejor ajuste entre una variable dependiente y una o más independientes. Luego resume cada sección de la salida de STATA, incluido el análisis de varianza, las medidas de ajuste del modelo y la estimación de parámetros.
El documento describe las distribuciones teóricas más comunes en el campo de la fiabilidad, incluyendo la distribución exponencial, de Weibull y de Poisson. Se enfoca en explicar el modelo de Weibull, el cual es flexible debido a sus tres parámetros y puede ajustarse a diferentes tasas de falla. También proporciona ejemplos de cómo estimar los parámetros de Weibull a partir de datos de falla y calcular la confiabilidad para diferentes períodos de tiempo.
Este documento describe las representaciones gráficas de datos experimentales. Explica que las tablas y gráficas permiten presentar datos de manera que otros puedan obtener mucha información. Describe cómo crear tablas y gráficas claras, incluyendo elegir variables y escalas apropiadas, y representar datos medidos y errores. El objetivo es comunicar los resultados de una manera informativa y comprensible.
Este documento presenta el método gráfico para determinar los parámetros de Weibull (Gamma, Beta y Eta) utilizando hojas de Weibull. Explica que Gamma es el parámetro de posición, Eta el parámetro de escala y Beta el parámetro de forma. Luego detalla los 5 pasos del método gráfico: 1) ordenar datos y calcular frecuencias acumuladas, 2) ubicar puntos en hoja de Weibull, 3) determinar Gamma, 4) determinar Eta, 5) determinar Beta. Finalmente aplica este método a datos
El documento trata sobre los conceptos de estabilidad, condición y errores numéricos en cálculos matemáticos. Explica cómo pequeños cambios en los datos de entrada pueden amplificar el error en los resultados, y define el número condicionado como una medida de esto. También describe el error numérico total como la suma de los errores de truncamiento y redondeo, y diferentes tipos de errores como los de formulación, medición y equivocación. Finalmente incluye ejercicios resueltos como ejemplos.
El documento trata sobre los conceptos de estabilidad, condición y errores numéricos en cálculos matemáticos. Explica cómo pequeños cambios en los datos de entrada pueden amplificar el error en los resultados, y define el número condicionado como una medida de esto. También describe los diferentes tipos de errores numéricos como de truncamiento, redondeo y formulación, y cómo minimizarlos. Por último, presenta algunos ejercicios resueltos sobre cálculo de errores absolutos y relativos.
Este documento describe diferentes medidas de dispersión como el rango, la varianza, la desviación estándar y el coeficiente de variación. Explica cómo calcular estas medidas tanto para datos no agrupados como agrupados, y provee ejemplos numéricos para ilustrar los cálculos. Las medidas de dispersión miden qué tan dispersos están los valores de una variable alrededor de su media.
Este documento describe el modelo estadístico y análisis de varianza para un diseño cuadro latino. Se definen los tratamientos de las columnas, hileras y tratamientos sorteados. Los datos se recopilan y suman. Se calcula la suma de cuadrados total y de los tratamientos. Esto permite determinar si existen diferencias significativas entre los tratamientos evaluados.
Estadística y probabilidad de la universidad nacional de la amazonia peruanaJosueDavidTuanamaLin
El documento presenta información sobre la organización y presentación de datos unidimensionales. Explica conceptos como frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa y frecuencia relativa acumulada. También describe cómo construir una distribución de frecuencias para variables cuantitativas discretas y continuas, incluyendo el cálculo de intervalos de clase y la elaboración de tablas y histogramas de frecuencia.
Este documento presenta un proyecto final sobre álgebra lineal realizado por tres estudiantes. Resume varios temas clave como matrices, determinantes, sistemas de ecuaciones lineales y métodos para resolverlos. El proyecto explica conceptos matemáticos importantes y cómo aplicarlos para resolver problemas de la vida real.
Este documento describe el análisis de varianza (ANOVA) para un factor principal y uno o más factores de bloqueo. Explica cómo realizar el ANOVA para un factor, un factor principal y un factor de bloqueo, y para diseños con cuadrados latinos y grecolatinos que incluyen dos o tres factores de bloqueo. También incluye ejemplos y cómo calcular las sumas de cuadrados, grados de libertad, cuadrados medios, estadísticos F y tomar decisiones sobre la igualdad de medias.
Este documento describe el análisis de varianza (ANOVA) para un factor principal y uno o más factores de bloqueo. Explica cómo realizar el ANOVA para un factor, un factor principal y un factor de bloqueo, y para un factor principal y dos o tres factores de bloqueo usando diseños de cuadrado latino y grecolatino. Describe cómo calcular las sumas de cuadrados, grados de libertad, cuadrados medios, y estadísticos F para cada caso.
Estadio cognoscente - tratamiento de datos y ajuste de curva (WORD)Sheyla Caraballo
Este documento presenta los 19 pasos para realizar el ajuste de curva de datos no agrupados mediante el método de frecuencias absolutas. En primer lugar, se ordenan y agrupan los datos originales en una tabla. Luego, se calculan las medidas de tendencia central como la media, mediana y moda, así como las medidas de dispersión como la varianza y desviación estándar. Finalmente, se generan tablas con los intervalos de clase, frecuencias absolutas y relativas para graficar la curva de ajuste.
José Luis Jiménez Rodríguez
Junio 2024.
“La pedagogía es la metodología de la educación. Constituye una problemática de medios y fines, y en esa problemática estudia las situaciones educativas, las selecciona y luego organiza y asegura su explotación situacional”. Louis Not. 1993.
LA PEDAGOGIA AUTOGESTONARIA EN EL PROCESO DE ENSEÑANZA APRENDIZAJEjecgjv
La Pedagogía Autogestionaria es un enfoque educativo que busca transformar la educación mediante la participación directa de estudiantes, profesores y padres en la gestión de todas las esferas de la vida escolar.
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...JAVIER SOLIS NOYOLA
El Mtro. JAVIER SOLIS NOYOLA crea y desarrolla el “DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARIS”. Esta actividad de aprendizaje propone el reto de descubrir el la secuencia números para abrir un candado, el cual destaca la percepción geométrica y conceptual. La intención de esta actividad de aprendizaje lúdico es, promover los pensamientos lógico (convergente) y creativo (divergente o lateral), mediante modelos mentales de: atención, memoria, imaginación, percepción (Geométrica y conceptual), perspicacia, inferencia y viso-espacialidad. Didácticamente, ésta actividad de aprendizaje es transversal, y que integra áreas del conocimiento: matemático, Lenguaje, artístico y las neurociencias. Acertijo dedicado a los Juegos Olímpicos de París 2024.
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLMJuan Martín Martín
Examen de Selectividad de la EvAU de Geografía de junio de 2023 en Castilla La Mancha. UCLM . (Convocatoria ordinaria)
Más información en el Blog de Geografía de Juan Martín Martín
http://blogdegeografiadejuan.blogspot.com/
Este documento presenta un examen de geografía para el Acceso a la universidad (EVAU). Consta de cuatro secciones. La primera sección ofrece tres ejercicios prácticos sobre paisajes, mapas o hábitats. La segunda sección contiene preguntas teóricas sobre unidades de relieve, transporte o demografía. La tercera sección pide definir conceptos geográficos. La cuarta sección implica identificar elementos geográficos en un mapa. El examen evalúa conocimientos fundamentales de geografía.
1. Ejercicios de An´alisis de la Varianza con R
Francesc Carmona
Departament d’Estad´ıstica
30 de noviembre de 2006
1. Introducci´on
En este documento se resuelven algunos de los problemas del libro Problemas de Probabilidades y Es-
tad´ıstica vol. 2 de C.M. Cuadras[2] con el programa estad´ıstico R. Los enunciados de los problemas se
encuentran en dicho libro.
Para profundizar en la teor´ıa subyacente al An´alisis de la Varianza se puede consultar, entre otros, el
libro de Modelos lineales[1]. Si se quiere aprender R desde el principio o practicar su utilizaci´on en la
Estad´ıstica elemental un buen libro es el de J. Verzani[5]. Para estudiar modelos lineales avanzados con
R se puede leer el libro de J.J. Faraway[3].
2. Dise˜no de un factor
Problema 10.1
Se trata de una comparaci´on entre tres poblaciones.
En primer lugar procedemos a leer los datos
> Iris.setosa <- c(5.1, 4.9, 4.7, 4.6, 5, 5.4, 4.6, 5, 4.4, 4.9,
+ 5.4, 4.8, 4.8, 4.3, 5.8)
> Iris.versicolor <- c(7, 6.4, 6.9, 5.5, 6.5, 5.7, 6.3, 4.9, 6.6,
+ 5.2, 5, 5.9, 6, 6.1, 5.6)
> Iris.virginica <- c(6.3, 5.8, 7.1, 6.3, 6.5, 7.6, 4.9, 7.3, 6.7,
+ 7.2, 6.5, 6.4, 6.8, 5.7, 5.8)
Pero ´esta no es la forma adecuada para trabajar con un programa estad´ıstico. Mejor ponemos los datos
en un ´unico vector y a˜nadimos una variable cualitativa o factor que nos indique la poblaci´on de cada
dato.
> longitud <- c(Iris.setosa, Iris.versicolor, Iris.virginica)
> especie <- rep(1:3, each = 15)
> especie <- factor(especie, labels = c("Iris setosa", "Iris versicolor",
+ "Iris virginica"))
En R es imprescindible definir el vector especie como un factor, ya que en caso contrario se podr´ıa
confundir con un vector num´erico.
Una ´unica instrucci´on realiza los dos pasos
> especie <- gl(3, 15, labels = c("Iris setosa", "Iris versicolor",
+ "Iris virginica"))
Con la instrucci´on split podemos separar los datos
> split(longitud, especie)
Ahora podemos realizar un resumen de los datos y el gr´afico que puede verse en la figura 1.
> tapply(longitud, especie, summary)
> plot(longitud ~ especie)
Asumiendo que la variable longitud sigue una distribuci´on normal con varianza com´un para las tres
poblaciones, la tabla del an´alisis de la varianza es
1
2. Iris setosa Iris versicolor Iris virginica
4.55.05.56.06.57.07.5
especie
longitud
Figura 1: Gr´aficos de caja de las longitudes para las tres especies de flores
> p.aov <- aov(longitud ~ especie)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
especie 2 18.7631 9.3816 25.715 5.105e-08 ***
Residuals 42 15.3227 0.3648
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Otra posibilidad es definir el modelo lineal y obtener la tabla con la instrucci´on anova.
> g.lm <- lm(longitud ~ especie)
> anova(g.lm)
Como el p-valor es muy peque˜no se concluye que hay diferencias muy significativas entre las tres especies.
Las estimaciones de los par´ametros se obtienen con
> model.tables(p.aov)
Tables of effects
especie
especie
Iris setosa Iris versicolor Iris virginica
-0.8689 0.1911 0.6778
> model.tables(p.aov, type = "mean")
Tables of means
Grand mean
5.782222
especie
especie
Iris setosa Iris versicolor Iris virginica
4.913 5.973 6.460
2
3. El modelo lineal contiene mucha informaci´on que se puede obtener con la instrucci´on summary.
> summary(g.lm)
Call:
lm(formula = longitud ~ especie)
Residuals:
Min 1Q Median 3Q Max
-1.56000 -0.31333 -0.01333 0.42667 1.14000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.9133 0.1560 31.505 < 2e-16 ***
especieIris versicolor 1.0600 0.2206 4.806 1.99e-05 ***
especieIris virginica 1.5467 0.2206 7.013 1.39e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.604 on 42 degrees of freedom
Multiple R-Squared: 0.5505, Adjusted R-squared: 0.5291
F-statistic: 25.72 on 2 and 42 DF, p-value: 5.105e-08
Sin embargo, las estimaciones que se obtienen aqu´ı corresponden al modelo con la restricci´on que el
par´ametro de la primera especie es cero. Esta es la opci´on por defecto para los modelos lineales en R. Se
puede ver la matriz del dise˜no en esta situaci´on:
> model.matrix(g.lm)
El error cuadr´atico medio o estimaci´on insesgada de la varianza del modelo es
> ECM <- deviance(p.aov)/p.aov$df.residual
> ECM
[1] 0.3648254
Esta estimaci´on tambi´en se obtiene directamente del modelo lineal
> summary(g.lm)$sigma^2
[1] 0.3648254
Adem´as R contiene una base de datos con los famosos datos de Fisher o Anderson para 50 flores de cada
una de las 3 especies.
> data(iris)
> help(iris)
Se puede repetir el an´alisis con los datos de la variable Sepal.length y el factor Species.
Problema 10.2
Se trata de un an´alisis de la varianza con un ´unico factor tratamiento y cuatro niveles (P,A,B,AB). La
introducci´on de los datos es la siguiente:
> P <- c(10, 0, 15, -20, 0, 15, -5, NA, NA, NA)
> A <- c(20, 25, 33, 25, 30, 18, 27, 0, 35, 20)
> B <- c(15, 10, 25, 30, 15, 35, 25, 22, 11, 25)
> AB <- c(10, 5, -5, 15, 20, 20, 0, 10, NA, NA)
> descenso <- c(P, A, B, AB)
> tratam <- gl(4, 10, labels = c("placebo", "f´armaco A", "f´armaco B",
+ "asociaci´on AB"))
Suponiendo normalidad y homogeneidad de las varianzas, planteamos el test sobre la igualdad de medias.
Un resumen num´erico y gr´afico se puede obtener con las instrucciones
3
4. > mean(descenso, na.rm = TRUE)
> tapply(descenso, tratam, summary)
> stripchart(descenso ~ tratam, method = "stack")
El modelo lineal y la tabla del an´alisis de la varianza son
> g.lm <- lm(descenso ~ tratam)
> anova(g.lm)
Analysis of Variance Table
Response: descenso
Df Sum Sq Mean Sq F value Pr(>F)
tratam 3 2492.61 830.87 8.5262 0.0002823 ***
Residuals 31 3020.93 97.45
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El p-valor es inferior al nivel de significaci´on propuesto (0.01) de modo que rechazamos la hip´otesis nula
de igualdad de medias y admitimos que hay diferencias entre los f´armacos.
Para ver si hay diferencias entre los f´armacos A y B calcularemos el intervalo de confianza para la
diferencia de medias:
> mediaA <- mean(descenso[tratam == "f´armaco A"])
> mediaB <- mean(descenso[tratam == "f´armaco B"])
> dif <- mediaA - mediaB
> ee.dif <- summary(g.lm)$sigma * sqrt(1/10 + 1/10)
> c(dif - qt(0.995, 31) * ee.dif, dif + qt(0.995, 31) * ee.dif)
[1] -10.11422 14.11422
Como este intervalo contiene al cero, podemos pensar que las diferencias entre A y B no son significativas.
Aunque puede comprobarse que ambos f´armacos difieren significativamente del placebo, cuando se realiza
m´as de una comparaci´on necesitamos un m´etodo de comparaciones m´ultiples. En caso contrario el error
de tipo I global no estar´ıa controlado. En R se puede aplicar el m´etodo de la diferencia significativa
honesta de Tukey con la funci´on TukeyHSD. Otros m´etodos de comparaci´on dos a dos se pueden hallar
en el paquete multcomp.
3. Dise˜no de dos factores
Problema 10.3
Se trata de un dise˜no de bloques aleatorizados (cada finca es un bloque).
Introducimos los datos con las instrucciones:
> produc <- c(2.1, 2.2, 1.8, 2, 1.9, 2.2, 2.6, 2.7, 2.5, 2.8, 1.8,
+ 1.9, 1.6, 2, 1.9, 2.1, 2, 2.2, 2.4, 2.1)
> fert <- gl(4, 5)
> finca <- factor(rep(1:5, 4))
> xtabs(produc ~ finca + fert)
fert
finca 1 2 3 4
1 2.1 2.2 1.8 2.1
2 2.2 2.6 1.9 2.0
3 1.8 2.7 1.6 2.2
4 2.0 2.5 2.0 2.4
5 1.9 2.8 1.9 2.1
Ahora podemos generar un resumen de los datos y los gr´aficos de la figura 2.
4
5. > tapply(produc, fert, summary)
> tapply(produc, finca, summary)
> stripchart(produc ~ fert, method = "stack")
> stripchart(produc ~ finca, method = "stack")
> interaction.plot(fert, finca, produc, legend = F)
> interaction.plot(finca, fert, produc, legend = F)
1.6 2.0 2.4 2.8
1234
1.6 2.0 2.4 2.8
12345
1.62.02.42.8
fert
meanofproduc
1 2 3 4
1.62.02.42.8
finca
meanofproduc
1 2 3 4 5
Figura 2: Gr´aficos de puntos y de interacciones con los datos de producci´on.
A la vista de los gr´aficos, concluimos que no hay datos at´ıpicos, asimetr´ıas o heterocedasticidad. Tampoco
parece haber interacciones.
El modelo lineal y la tabla del an´alisis de la varianza son:
> g.lm <- lm(produc ~ finca + fert)
> anova(g.lm)
Analysis of Variance Table
Response: produc
Df Sum Sq Mean Sq F value Pr(>F)
finca 4 0.08800 0.02200 0.6471 0.6395716
fert 3 1.43200 0.47733 14.0392 0.0003137 ***
Residuals 12 0.40800 0.03400
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
No hay diferencias entre las fincas, pero s´ı las hay entre los fertilizantes.
Los efectos y las medias son:
5
6. > p.aov <- aov(produc ~ finca + fert)
> efectos <- model.tables(p.aov)
> efectos
Tables of effects
finca
finca
1 2 3 4 5
-0.090 0.035 -0.065 0.085 0.035
fert
fert
1 2 3 4
-0.14 0.42 -0.30 0.02
> medias <- model.tables(p.aov, type = "means")
> medias
Tables of means
Grand mean
2.14
finca
finca
1 2 3 4 5
2.050 2.175 2.075 2.225 2.175
fert
fert
1 2 3 4
2.00 2.56 1.84 2.16
En este caso el modelo es balanceado, de forma que el dise˜no es ortogonal y el orden de los factores
en la instrucci´on anova no es importante. En este sentido hay que se˜nalar que la tabla ANOVA de R
corresponde a un contraste secuencial de modelos:
y ~ 1
y ~ finca
y ~ finca + fert
El primer p-valor corresponde a la comparaci´on de los dos primeros modelos de la lista, mientras que el
segundo p-valor corresponde a la comparaci´on de los dos ´ultimos. El denominador de ambos contrastes
F es el error cuadr´atico medio del modelo completo, aqu´ı 0,034.
Cuando el dise˜no no es ortogonal, por ejemplo si falta una observaci´on, para contrastar el efecto del
tratamiento es mejor el modelo con el efecto bloque en primer lugar. Una forma de contrastar todos los
t´erminos de un modelo respecto a dicho modelo completo es:
> drop1(g.lm, test = "F")
Single term deletions
Model:
produc ~ finca + fert
Df Sum of Sq RSS AIC F value Pr(F)
<none> 0.408 -61.844
finca 4 0.088 0.496 -65.938 0.6471 0.6395716
fert 3 1.432 1.840 -37.719 14.0392 0.0003137 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
6
7. Problema 10.6
Los datos son:
> frec <- c(22, 21, 17, 20, 16, 21, 25, 19, 23, 31, 35, 35, 24,
+ 18, 26, 25, 23, 23, 11, 16, 17, 24, 24, 20)
> mes <- factor(rep(1:4, each = 6), labels = c("Enero", "Marzo",
+ "Mayo", "Julio"))
> hora <- factor(rep(1:6, 4), labels = as.character(9:14))
Las medias son
> tapply(frec, mes, mean)
Enero Marzo Mayo Julio
19.50000 28.00000 23.16667 18.66667
> tapply(frec, hora, mean)
9 10 11 12 13 14
20.50 18.50 20.75 25.00 24.50 24.75
La tabla del an´alisis de la varianza es
> p.aov <- aov(frec ~ hora + mes)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
hora 5 152.83 30.57 1.7313 0.188155
mes 3 325.67 108.56 6.1485 0.006155 **
Residuals 15 264.83 17.66
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
No existen diferencias entre las horas.
Existen diferencias entre los meses.
4. Dise˜no de dos factores con interacci´on
Problema 10.4
Vamos a introducir los datos:
> huevos <- c(93, 94, 93, 90, 93, 86, 95.5, 83.5, 92, 92.5, 82,
+ 82.5, 92, 91, 90, 95, 84, 78, 83.3, 87.6, 81.9, 80.1, 79.6,
+ 49.4, 84, 84.4, 77, 67, 69.1, 88.4, 85.3, 89.4, 85.4, 87.4,
+ 52, 77)
> genotipo <- rep(rep(1:3, each = 6), 2)
> siembra <- rep(1:2, each = 18)
> genotipo <- factor(genotipo, labels = c("++", "+-", "--"))
> siembra <- factor(siembra, labels = c("100", "800"))
El n´umero de huevos eclosionados por casilla sigue la distribuci´on binomial con n = 100 o n = 800. Para
normalizar la muestra se aplica la transformaci´on
> y <- asin(sqrt(huevos/100))
> y <- y * 180/pi
de donde resulta la tabla:
> split(round(y, 2), genotipo)
7
8. $`++`
[1] 74.66 75.82 74.66 71.57 74.66 68.03 65.88 69.38 64.82 63.51 63.15 44.66
$`+-`
[1] 77.75 66.03 73.57 74.11 64.90 65.27 66.42 66.74 61.34 54.94 56.23 70.09
$`--`
[1] 73.57 72.54 71.57 77.08 66.42 62.03 67.46 71.00 67.54 69.21 46.15 61.34
Aunque no es absolutamente necesario, vamos a poner los datos en forma de data.frame o base de datos
de R.
> problema <- data.frame(y, siembra, genotipo)
> rm(y, siembra, genotipo)
> attach(problema)
Algunos de los siguientes gr´aficos pueden verse en la figura 3.
> boxplot(y ~ siembra)
> boxplot(y ~ genotipo)
> plot.design(problema, fun = "mean")
> plot.design(problema, fun = "median")
> interaction.plot(genotipo, siembra, y)
> interaction.plot(siembra, genotipo, y)
64666870
Factors
"mean"ofy
100
800
++
+−
−−
siembra
66687072
Factors
"median"ofy
100
800
++
+−
−−
siembra
626670
genotipo
meanofy
++ +− −−
siembra
100
800
626670
siembra
meanofy
100 800
genotipo
−−
+−
++
Figura 3: Gr´aficos de medias, medianas e interacciones con los datos transformados del problema de los
huevos.
La tabla del an´alisis de la varianza para un dise˜no de dos factores con interacci´on es
8
9. > p.aov <- aov(y ~ siembra * genotipo, data = problema)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
siembra 1 662.09 662.09 14.8329 0.0005736 ***
genotipo 2 7.66 3.83 0.0859 0.9179521
siembra:genotipo 2 35.35 17.68 0.3960 0.6764562
Residuals 30 1339.09 44.64
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Aunque las sumas de cuadrados son ligeramente distintas a las del libro de Cuadras, por la mayor
precisi´on utilizada, los resultados son evidentemente los mismos. No es significativa la diferencia entre los
genotipos ni la interacci´on, pero s´ı existen diferencias significativas sembrando 100 u 800 huevos, siendo
el porcentaje de eclosiones mayor en el primer caso (al haber menos huevos, las larvas disponen de m´as
alimento).
> medias <- model.tables(p.aov, type = "means")
> medias$tables$siembra
siembra
100 800
71.34575 62.76873
> detach(problema)
5. Dise˜no de cuadrados latinos
Problema 10.5
Vamos a introducir los datos:
> produc <- c(12, 17, 24, 12, 18, 22, 14, 15, 15, 13, 20, 31, 20,
+ 14, 12, 18)
> fila <- factor(rep(1:4, 4))
> columna <- factor(rep(1:4, each = 4))
> variedad <- c("A", "C", "D", "B", "B", "D", "C", "A", "C", "A",
+ "B", "D", "D", "B", "A", "C")
> problema <- data.frame(fila, columna, variedad, produc)
> rm(fila, columna, variedad, produc)
> attach(problema)
Efectivamente, se trata de un dise˜no de cuadrados latinos:
> matrix(problema$variedad, 4, 4)
[,1] [,2] [,3] [,4]
[1,] "A" "B" "C" "D"
[2,] "C" "D" "A" "B"
[3,] "D" "C" "B" "A"
[4,] "B" "A" "D" "C"
La tabla del an´alisis de la varianza para este dise˜no es
> p.aov <- aov(produc ~ fila + columna + variedad, data = problema)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
fila 3 18.688 6.229 0.5273 0.67964
columna 3 35.188 11.729 0.9929 0.45737
variedad 3 280.688 93.563 7.9206 0.01651 *
Residuals 6 70.875 11.813
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9
10. 1 2 3 4
15202530
fila
1 2 3 4
15202530
columna
A B C D
15202530
variedad
Figura 4: Gr´aficos de puntos con los datos de producci´on del problema 10.5.
> detach(problema)
No hay diferencias significativas entre filas ni entre columnas. En cambio s´ı hay diferencias entre varie-
dades.
6. Dise˜no multifactorial
Problema 11.5
Existen dos causas de variabilidad (tiempo y dosis). Como adem´as los individuos son los mismos en cada
casilla, debemos a˜nadir un efecto bloque que recoja los efectos individuales. Admitiremos que los datos
se ajustan a un dise˜no de dos factores con interacci´on en bloques aleatorizados.
Los datos son
> glucemia <- c(82, 83, 85, 75, 81, 88, 87, 91, 79, 85, 83, 85,
+ 85, 79, 81, 86, 87, 90, 80, 83, 90, 91, 94, 83, 88, 96, 97,
+ 99, 88, 93, 108, 109, 112, 89, 103, 110, 110, 117, 90, 109,
+ 118, 120, 125, 119, 114)
> tiempo <- factor(rep(rep(1:3, each = 5), 3), labels = c("0'",
+ "15'", "30'"))
> dosis <- factor(rep(1:3, each = 15), labels = c("0 mg", "5 mg",
+ "10 mg"))
> bloque <- factor(rep(1:5, 9))
La tabla del an´alisis de la varianza para este dise˜no es
> p.aov <- aov(glucemia ~ tiempo + dosis + tiempo:dosis + bloque)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
tiempo 2 556.0 278.0 27.3502 1.186e-07 ***
dosis 2 5939.9 2970.0 292.1667 < 2.2e-16 ***
bloque 4 841.9 210.5 20.7056 1.661e-08 ***
tiempo:dosis 4 357.4 89.4 8.7903 6.615e-05 ***
Residuals 32 325.3 10.2
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Observemos que el residuo queda determinado por la definici´on del modelo en la f´ormula.
Tanto el factor tiempo, como el factor dosis y la interacci´on son muy significativos. Incluso es tambi´en
significativo el efecto bloque. La principal causa de variabilidad es el factor dosis.
En este caso, una posibilidad interesante ser´ıa explotar el hecho de que los factores tienen escala ordinal
como en el ejemplo de la secci´on 15.2 de [3].
Problema 11.6
Se trata de un dise˜no con 3 factores a 3,2 y 3 niveles, con 3 r´eplicas por casilla. Los datos son
10
11. 0’ 15’ 30’
8090110
0 mg 5 mg 10 mg
8090110
8090100110120
tiempo
meanofglucemia
0’ 15’ 30’
dosis
10 mg
5 mg
0 mg
8090100110120
dosis
meanofglucemia
0 mg 5 mg 10 mg
tiempo
30’
15’
0’
Figura 5: Gr´aficos de puntos y de interacci´on con los datos de glucemia del problema 11.5.
> horas <- c(7.3, 7.5, 7.1, 7.1, 7.3, 6.9, 8.1, 8.2, 8, 7.6, 7.4,
+ 7.2, 6.8, 7.3, 7.2, 8.3, 8.2, 8.1, 8.5, 8.3, 8.4, 7.5, 7.2,
+ 7.2, 8.9, 8.4, 8.1, 8.3, 8.7, 7.9, 7.6, 7.4, 7.2, 9, 8.5,
+ 8, 6.7, 6.5, 6.3, 6.7, 6.3, 6.2, 6.8, 6.2, 6.2, 6.1, 6.2,
+ 6.9, 6.4, 6.9, 6.8, 6, 6.1, 6.2)
> tratam <- factor(rep(1:3, each = 18), labels = c("A1", "A2",
+ "A3"))
> sexo <- factor(rep(rep(1:2, each = 9), 3), labels = c("B1", "B2"))
> forma <- factor(rep(rep(1:3, each = 3), 6), labels = c("C1",
+ "C2", "C3"))
La tabla del an´alisis de la varianza para este dise˜no es
> p.aov <- aov(horas ~ tratam * sexo * forma)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
tratam 2 25.3781 12.6891 167.5330 < 2.2e-16 ***
sexo 1 0.0030 0.0030 0.0391 0.8443
forma 2 3.6048 1.8024 23.7971 2.596e-07 ***
tratam:sexo 2 0.0226 0.0113 0.1491 0.8620
tratam:forma 4 4.8896 1.2224 16.1394 1.172e-07 ***
sexo:forma 2 0.0959 0.0480 0.6333 0.5367
tratam:sexo:forma 4 0.2252 0.0563 0.7433 0.5689
Residuals 36 2.7267 0.0757
11
12. ---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Son significativos los efectos principales tratamiento y forma, y su interacci´on. No es significativo el efecto
sexo, ni las dem´as interacciones.
Aunque algunos autores discrepan, Cuadras a˜nade los efectos no significativos al residuo y calcula de
nuevo la tabla del an´alisis de la varianza para el dise˜no reducido:
> p.aov <- aov(horas ~ tratam * forma)
> summary(p.aov)
Df Sum Sq Mean Sq F value Pr(>F)
tratam 2 25.3781 12.6891 185.794 < 2.2e-16 ***
forma 2 3.6048 1.8024 26.391 2.609e-08 ***
tratam:forma 4 4.8896 1.2224 17.899 7.375e-09 ***
Residuals 45 3.0733 0.0683
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como la interacci´on es significativa, no deber´ıamos contrastar los efectos principales. La estimaci´on de los
efectos principales y su significaci´on dependen de la codificaci´on cuando las interacciones est´an presentes
en el modelo.
7. An´alisis de la covarianza
Problema 12.4
Se trata de un dise˜no unifactorial con una variable concomitante.
En primer lugar introducimos los datos:
> tiempo <- c(570, 710, 630, 633, 640, 552, 620, 585, 593, 710,
+ 698, 560, 842, 940, 898, 730, 872, 855)
> neurot <- c(12, 26, 18, 19, 19, 10, 19, 19, 6, 18, 20, 3, 18,
+ 29, 25, 8, 22, 18)
> farmaco <- rep(c("A", "B", "C"), each = 6)
> datos <- data.frame(tiempo, neurot, farmaco)
> rm(tiempo, neurot, farmaco)
> attach(datos)
En el data.frame el vector farmaco (no es num´erico) se convierte autom´aticamente en un factor.
Un resumen de los datos se puede obtener con la instrucci´on
> by(datos, farmaco, summary)
farmaco: A
tiempo neurot farmaco
Min. :552.0 Min. :10.00 A:6
1st Qu.:585.0 1st Qu.:13.50 B:0
Median :631.5 Median :18.50 C:0
Mean :622.5 Mean :17.33
3rd Qu.:638.3 3rd Qu.:19.00
Max. :710.0 Max. :26.00
------------------------------------------------------------
farmaco: B
tiempo neurot farmaco
Min. :560.0 Min. : 3.00 A:0
1st Qu.:587.0 1st Qu.: 9.00 B:6
Median :606.5 Median :18.50 C:0
Mean :627.7 Mean :14.17
3rd Qu.:678.5 3rd Qu.:19.00
Max. :710.0 Max. :20.00
12
13. ------------------------------------------------------------
farmaco: C
tiempo neurot farmaco
Min. :730.0 Min. : 8.00 A:0
1st Qu.:845.3 1st Qu.:18.00 B:0
Median :863.5 Median :20.00 C:6
Mean :856.2 Mean :20.00
3rd Qu.:891.5 3rd Qu.:24.25
Max. :940.0 Max. :29.00
Si prescindimos de la informaci´on que el neuroticismo puede influir en el tiempo de frenado, el modelo
lineal es
> g0 <- lm(tiempo ~ farmaco, datos)
> anova(g0)
Analysis of Variance Table
Response: tiempo
Df Sum Sq Mean Sq F value Pr(>F)
farmaco 2 213678 106839 26.537 1.184e-05 ***
Residuals 15 60390 4026
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pero en el segundo gr´afico de la figura 6 se observa la influencia de la variable concomitante:
> plot(tiempo ~ neurot, pch = as.character(farmaco), datos)
A B C
600700800900
A
A
AAA
A
B
BB
BB
B
C
C
C
C
CC
5 10 20 30
600700800900
neurot
tiempo
Figura 6: Gr´aficos de puntos y de dispersi´on con los datos del problema 12.4.
Se comprueba que la interacci´on f´armaco:neurot no es significativa:
> g1 <- lm(tiempo ~ neurot + farmaco + neurot:farmaco, datos)
> model.matrix(g1)
(Intercept) neurot farmacoB farmacoC neurot:farmacoB neurot:farmacoC
1 1 12 0 0 0 0
2 1 26 0 0 0 0
3 1 18 0 0 0 0
4 1 19 0 0 0 0
5 1 19 0 0 0 0
6 1 10 0 0 0 0
13
15. La estimaci´on del par´ametro de regresi´on γ es 7.959 y su significaci´on resulta muy clara.
El summary de un anova contrasta los modelos secuencialmente, para ver la diferencia entre f´armacos
(eliminando la influencia del neuroticismo) debemos utilizar la instrucci´on drop1:
> drop1(g, test = "F")
Single term deletions
Model:
tiempo ~ neurot + farmaco
Df Sum of Sq RSS AIC F value Pr(F)
<none> 15274 129
neurot 1 45116 60390 152 41.353 1.572e-05 ***
farmaco 2 146875 162149 168 67.313 6.580e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Observemos que este resultado contrasta la significaci´on de la variable concomitante (dada la presencia
del factor) y la del factor (con la presencia de la variable concomitante). La diferencia entre f´armacos es
muy significativa.
A
A
AAA
A
B
BB
BB
B
C
C
C
C
CC
5 10 20 30
600700800900
Neuroticismo
Tiempodereacción
A
A
AA
A
A
B
B
B
B
BB
C
C
C
C
C
C
600 700 800 900
−80−40040
Ajustados
Residuos
Figura 7: Gr´afico con las rectas ajustadas y gr´afico de residuos con los datos del problema 12.4.
Con las estimaciones obtenidas por el summary(g) podemos dibujar las rectas de regresi´on del gr´afico 7.
> plot(tiempo ~ neurot, pch = as.character(farmaco), xlab = "Neuroticismo",
+ ylab = "Tiempo de reacci´on")
> abline(484.539, 7.959)
> abline(484.539 + 30.371, 7.959, lty = 2)
> abline(484.539 + 212.442, 7.959, lty = 3)
> plot(fitted(g), residuals(g), pch = as.character(farmaco), xlab = "Ajustados",
+ ylab = "Residuos")
> detach(datos)
Problema 12.6
En primer lugar introducimos los datos del peso inicial y el engorde semanal de cerdos, clasificados por
sexos y corrales, con tres tipos de alimentaci´on.
> engorde <- c(9.94, 9.52, 9.48, 8.21, 9.32, 9.32, 10.98, 10.56,
+ 8.82, 10.42, 10, 8.51, 9.24, 9.95, 9.34, 8.43, 9.68, 8.86,
+ 9.67, 9.2, 9.75, 9.11, 8.66, 8.5, 7.63, 8.9, 10.37, 9.51,
+ 8.57, 8.76)
> peso <- c(48, 38, 32, 35, 35, 41, 46, 48, 32, 43, 48, 39, 32,
+ 38, 41, 46, 46, 40, 37, 40, 48, 48, 28, 37, 33, 42, 50, 42,
15
16. + 30, 40)
> sexo <- rep(c("M", "H"), 15)
> corral <- factor(rep(rep(1:5, each = 2), 3))
> aliment <- rep(c("A", "B", "C"), each = 10)
> datos <- data.frame(engorde, peso, sexo, corral, aliment)
> rm(engorde, peso, sexo, corral, aliment)
> attach(datos)
El peso inicial es la variable concomitante y s´olo se toma la interacci´on del tipo de alimentaci´on con el
sexo y se ignoran las dem´as interacciones.
Si inicialmente prescindimos de la variable concomitante, el modelo es
> g <- lm(engorde ~ aliment + corral + sexo + aliment:sexo, datos)
> anova(g)
Analysis of Variance Table
Response: engorde
Df Sum Sq Mean Sq F value Pr(>F)
aliment 2 2.3242 1.1621 2.7657 0.08701 .
corral 4 4.9607 1.2402 2.9515 0.04554 *
sexo 1 0.4539 0.4539 1.0802 0.31107
aliment:sexo 2 0.4642 0.2321 0.5523 0.58413
Residuals 20 8.4038 0.4202
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
donde se observa que no hay diferencias entre tipos de alimentaci´on ni entre sexos. Tampoco es signifi-
cativa la interacci´on aliment:sexo. Sin embargo, hay diferencias entre corrales. La matriz de dise˜no del
modelo se obtiene con la instrucci´on model.matrix(g).
La estimaci´on y el contraste del par´ametro de regresi´on de la variable peso se consigue as´ı:
> gp <- lm(engorde ~ peso + aliment + corral + sexo + aliment:sexo,
+ datos)
> summary(gp)
Call:
lm(formula = engorde ~ peso + aliment + corral + sexo + aliment:sexo,
data = datos)
Residuals:
Min 1Q Median 3Q Max
-1.13435 -0.28296 0.07649 0.25202 0.91814
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.68812 1.13880 4.995 8.04e-05 ***
peso 0.08927 0.02407 3.709 0.00149 **
alimentB -0.58029 0.32048 -1.811 0.08603 .
alimentC -0.72141 0.32091 -2.248 0.03664 *
corral2 0.53183 0.39715 1.339 0.19634
corral3 -0.18711 0.31776 -0.589 0.56290
corral4 0.47703 0.29267 1.630 0.11958
corral5 0.46760 0.34792 1.344 0.19478
sexoM 0.31624 0.32550 0.972 0.34347
alimentB:sexoM 0.26190 0.45732 0.573 0.57357
alimentC:sexoM 0.08083 0.45465 0.178 0.86078
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
16
17. Residual standard error: 0.5065 on 19 degrees of freedom
Multiple R-Squared: 0.7065, Adjusted R-squared: 0.552
F-statistic: 4.574 on 10 and 19 DF, p-value: 0.002179
> sqrt(13.76)
[1] 3.709447
La estimaci´on es ˆγ =0.08927 y el estad´ıstico de contraste t =3.709 (significativo, p-valor=0.00149).
Si no hay diferencias entre los tipos de alimentaci´on el modelo lineal es:
> ga <- lm(engorde ~ peso + corral + sexo, datos)
> summary(ga)
Call:
lm(formula = engorde ~ peso + corral + sexo, data = datos)
Residuals:
Min 1Q Median 3Q Max
-0.80818 -0.38845 -0.04262 0.35904 0.88094
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.21131 1.22237 4.263 0.000292 ***
peso 0.09020 0.02607 3.460 0.002127 **
corral2 0.54228 0.43756 1.239 0.227724
corral3 -0.18228 0.35332 -0.516 0.610845
corral4 0.47656 0.32689 1.458 0.158396
corral5 0.47493 0.38523 1.233 0.230085
sexoM 0.43242 0.21349 2.025 0.054575 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5657 on 23 degrees of freedom
Multiple R-Squared: 0.5567, Adjusted R-squared: 0.4411
F-statistic: 4.814 on 6 and 23 DF, p-value: 0.002566
De modo que la estimaci´on del par´ametro de regresi´on para el peso es 0.0902 y es significativo. El contraste
de los modelos es
> anova(ga, gp)
Analysis of Variance Table
Model 1: engorde ~ peso + corral + sexo
Model 2: engorde ~ peso + aliment + corral + sexo + aliment:sexo
Res.Df RSS Df Sum of Sq F Pr(>F)
1 23 7.3614
2 19 4.8741 4 2.4873 2.424 0.08378 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Esta tabla nos dice que no hay diferencias entre alimentaciones.
Sin embargo, en el libro de Cuadras[2] se propone considerar las interacciones entre alimentos y sexo de
modo que el modelo lineal es un poco m´as complejo.
> aliAsexoM <- c(rep(c(1,-1), 5), rep(0, 10), rep(c(-1,1), 5))
> aliBsexoH <- c(rep(0, 10), rep(c(-1,1), 5), rep(c(1,-1), 5))
> ga0 <- lm(engorde ~ peso + corral + sexo + aliAsexoM + aliBsexoH)
> summary(ga0)
17
18. Call:
lm(formula = engorde ~ peso + corral + sexo + aliAsexoM + aliBsexoH)
Residuals:
Min 1Q Median 3Q Max
-0.80354 -0.34457 -0.02659 0.38268 0.85203
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.78574 1.11954 5.168 4.04e-05 ***
peso 0.08781 0.02779 3.160 0.00472 **
corral1 -0.25098 0.25193 -0.996 0.33048
corral2 0.26459 0.27951 0.947 0.35460
corral3 -0.44561 0.21520 -2.071 0.05090 .
corral4 0.22678 0.25945 0.874 0.39196
sexo1 -0.21374 0.11120 -1.922 0.06827 .
aliAsexoM -0.05736 0.15200 -0.377 0.70966
aliBsexoH -0.07548 0.15516 -0.486 0.63167
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5884 on 21 degrees of freedom
Multiple R-Squared: 0.5622, Adjusted R-squared: 0.3954
F-statistic: 3.37 on 8 and 21 DF, p-value: 0.01211
> anova(ga0, gp)
Analysis of Variance Table
Model 1: engorde ~ peso + corral + sexo + aliAsexoM + aliBsexoH
Model 2: engorde ~ peso + aliment + corral + sexo + aliment:sexo
Res.Df RSS Df Sum of Sq F Pr(>F)
1 21 7.2710
2 19 4.8741 2 2.3968 4.6716 0.02238 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ahora la estimaci´on del par´ametro de regresi´on para el peso es 0.08781 y tambi´en es significativo. La
tabla del an´alisis de la varianza nos da un estad´ıstico F =4.6716 que es significativo (p-valor=0.02238),
de modo que hay diferencias entre los tipos de alimentaci´on. Estos resultados coinciden con los del libro
de Cuadras[2] y con los de Wishart(1938) y Rao(1965).
An´alogamente, si no hay diferencias entre los corrales el modelo es
> gb <- lm(engorde ~ peso + aliment + sexo + aliment:sexo, datos)
> summary(gb)
Call:
lm(formula = engorde ~ peso + aliment + sexo + aliment:sexo,
data = datos)
Residuals:
Min 1Q Median 3Q Max
-1.00049 -0.29798 -0.06508 0.36105 1.15798
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.48393 0.75555 8.582 1.26e-08 ***
peso 0.07615 0.01738 4.382 0.000217 ***
alimentB -0.58554 0.35596 -1.645 0.113581
alimentC -0.71092 0.35617 -1.996 0.057905 .
18
19. sexoM 0.28476 0.35833 0.795 0.434929
alimentB:sexoM 0.29602 0.50534 0.586 0.563729
alimentC:sexoM 0.05984 0.50408 0.119 0.906540
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.5627 on 23 degrees of freedom
Multiple R-Squared: 0.5614, Adjusted R-squared: 0.447
F-statistic: 4.907 on 6 and 23 DF, p-value: 0.002302
> anova(gb, gp)
Analysis of Variance Table
Model 1: engorde ~ peso + aliment + sexo + aliment:sexo
Model 2: engorde ~ peso + aliment + corral + sexo + aliment:sexo
Res.Df RSS Df Sum of Sq F Pr(>F)
1 23 7.2831
2 19 4.8741 4 2.4089 2.3476 0.09126 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La estimaci´on del par´ametro de regresi´on para el peso es 0.07615 y tambi´en es significativo. La tabla del
an´alisis de la varianza nos da un estad´ıstico F =2.3476 que no es significativo (p-valor=0.09126).
La varianza estimada de los errores en el modelo sin variable concomitante es
> summary(g)$sigma^2
[1] 0.4201907
En cambio, la varianza estimada de los errores en el modelo con variable concomitante es
> summary(gp)$sigma^2
[1] 0.2565335
Casi la mitad de la anterior.
8. An´alisis de los residuos
En todos los modelos deber´ıamos hacer un diagn´ostico mediante un an´alisis de los residuos m´as o menos
sofisticado.
En general y como m´ınimo, un par de gr´aficos nos pueden servir. Por ejemplo, en el modelo lineal del
problema 10.1 podemos representar los residuos como se puede ver en la figura 8.
> g.lm <- lm(longitud ~ especie)
> plot(especie, residuals(g.lm), ylab = "residuos")
> abline(h = 0)
> qqnorm(residuals(g.lm))
> qqline(residuals(g.lm))
Para contrastar la igualdad de las varianzas en las tres especies podemos realizar el contraste de Levene.
> y <- longitud
> med <- tapply(y, especie, median)
> med
Iris setosa Iris versicolor Iris virginica
4.9 6.0 6.5
> aresid <- abs(y - med[especie])
> anova(lm(aresid ~ especie))
19
20. Iris setosa Iris virginica
−1.5−0.50.5
residuos
−2 −1 0 1 2
−1.5−0.50.5
Theoretical Quantiles
SampleQuantiles
Figura 8: Gr´aficos de diagn´ostico con los datos del problema 10.1.
Analysis of Variance Table
Response: aresid
Df Sum Sq Mean Sq F value Pr(>F)
especie 2 0.5760 0.2880 2.185 0.1251
Residuals 42 5.5360 0.1318
Se considera que hay heterocedasticidad si el p-valor es menor que 0,01. En este caso no hay raz´on para
dudar de la homocedasticidad.
Referencias
[1] F. Carmona, Modelos lineales, Publicacions UB, 2005.
[2] C.M. Cuadras, Problemas de Probabilidades y Estad´ıstica. Vol.2:Inferencia Estad´ıstica. EUB, 2000.
[3] J.J. Faraway, Linear Models with R, Chapman & Hall/CRC, 2004.
[4] P. Murrell, R Graphics, Chapman & Hall/CRC, 2005.
[5] J. Verzani, Using R for Introductory Statistics. Chapman & Hall/CRC, 2004.
20