R - Probabilidades y Estadística

Universidad Nacional de San Juan Facultad de Filosofía, Humanidades y Artes Departamento de Matemática Profesorado de Matemática Cátedra: “Probabilidades y Estadística” Trabajo de Laboratorio: R y R Commander Práctica Docente en el Nivel Superior Alumnos: Ganga, H.S. Leonel Pazcel, Ana Laura 2010 Prólogo En el año 2010 en el marco de nuestra Práctica Docente en el Nivel Superior, nos fue encomendada la tarea de comenzar el trabajo con un software estadístico nuevo de distribución libre denominado “R”. Con todo lo que implica el desafío de trabajar con algo nuevo y diferente a lo que se venía trabajando emprendimos el camino y la verdad que más allá de las largas horas de trabajo y de pruebas de ensayo y error para entender el funcionamiento y sus aplicaciones, pudimos sacarlo adelante. Esta tarea no hubiese podido llevarse a cabo sin el apoyo primeramente del equipo de cátedra encabezado por la Dra. Adriana Mallea y la Lic. Ana María Ruiz, a las cuales estaremos eternamente agradecidos la ayuda otorgada, como así también el de los alumnos del ciclo lectivo 2010 a los cuales también les agradecemos su colaboración, su valoración por nuestra actividad y fundamentalmente el respeto brindado hacia nosotros. Creemos que la actividad desarrollada este año es solo el comienzo de todo aquello que puede hacerse con R y R Commander y confiamos que partiendo de nuestra base las futuras generaciones de practicantes y de alumnos puedan ampliar el horizonte de conocimientos acerca del trabajo estadístico con R. El conocimiento matemático supone un abanico de conocimientos auxiliares entre los cuales figura el conocimiento de la informática como herramienta aplicada a nuestra futura actividad docente. Esperamos que este material sea de apoyo y gran ayuda para los futuros matemáticos. Muchas gracias a las docentes y a los alumnos por confiar en nosotros. Nos despedimos diciendo hasta siempre y con la esperanza de haber logrado un acercamiento de ustedes a esta ciencia tan interesante que es la Estadística. Gracias por todo. Leonel Ganga y Ana Laura Pazcel Índice de Contenidos TOC quot;
1-3quot;
Introducción PAGEREF _Toc287017797 5 Capítulo 1: Estadística Descriptiva PAGEREF _Toc287017798 7 ¿Cómo cargar datos? PAGEREF _Toc287017799 7 Resumiendo la información: Tablas Estadísticas PAGEREF _Toc287017800 14 Gráficos Estadísticos PAGEREF _Toc287017801 17 Parámetros de Posición y de Dispersión PAGEREF _Toc287017802 18 Capítulo 2: Distribuciones Muestrales PAGEREF _Toc287017803 22 Teorema Central del Límite PAGEREF _Toc287017804 26 Distribución de la varianza Muestral PAGEREF _Toc287017805 31 Gráfica de la Distribución Chi-Cuadrado PAGEREF _Toc287017806 33 Capítulo 3: Test de Hipótesis e Intervalos de Confianza PAGEREF _Toc287017807 35 Introducción PAGEREF _Toc287017808 35 Inferencia Clásica en Poblaciones Normales PAGEREF _Toc287017809 36 Test para la Media de una Población Normal PAGEREF _Toc287017810 37 Filtrado de Datos PAGEREF _Toc287017811 38 Resúmenes Numéricos en función de un factor PAGEREF _Toc287017812 40 Test para dos muestras independientes de una población Normal PAGEREF _Toc287017813 47 ¿Varianzas desconocidas pero Iguales? PAGEREF _Toc287017814 50 Test con nivel asintótico para hipótesis sobre la media de una población sin suponer normalidad PAGEREF _Toc287017815 53 Capítulo 4: Regresión Lineal Simple PAGEREF _Toc287017816 54 Introducción PAGEREF _Toc287017817 54 Diagrama de Dispersión PAGEREF _Toc287017818 56 Coeficiente de Correlación Lineal de Pearson PAGEREF _Toc287017819 58 Coeficiente de Determinación R2 PAGEREF _Toc287017820 60 Cálculo de la Recta de Ajuste PAGEREF _Toc287017821 61 Predicciones PAGEREF _Toc287017822 63 Interpolaciones y Extrapolaciones PAGEREF _Toc287017823 64 Intervalos de Confianza PAGEREF _Toc287017824 64 Análisis de la Varianza (ANOVA) PAGEREF _Toc287017825 65 Valores Ajustados y Residuos PAGEREF _Toc287017826 67 Gráfica de los residuos PAGEREF _Toc287017827 69 Introducción ¿Qué es R? R es un poderoso lenguaje de programación basado en el paradigma DOO (Diseño Orientado a Objetos), el cual se constituye además como una poderosa herramienta informática de tratamiento estadístico de los datos. El tratamiento estadístico de los datos supone: Estadística Descriptiva Estadística Inferencial Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboración de personas del todo el mundo. ¿Qué significa que R sea un lenguaje de programación? Significa que cada persona puede “generar” un código que implique una instrucción determinada dentro del programa, para ello, debe contar con conocimientos en Programación como así también en el paradigma DOO, dentro de él, es el uso del objeto una entidad básica. Cualquier expresión evaluada por R tiene como resultado un objeto. Cada objeto pertenece a una clase, de forma que las funciones pueden tener comportamientos diferentes en función de la clase a la que pertenece su objeto argumento. ¿Porqué decimos que es un software Libre? Un software se considera libre cuando: Todos los usuarios que trabajan con él pueden introducir modificaciones en su código fuente. Los usuarios crean nuevas funciones que realicen determinadas instrucciones específicas. No se debe pagar una licencia para su uso. ¿Qué es R Commander en el contexto de R? Es una interfaz gráfica de trabajo que pretende “acercar” más al usuario, puesto que el trabajo en R como consola implica conocimientos de Programación, trabajando con R Commander (su abreviatura es Rcmdr) estos conocimientos no son necesarios. Además esta interfaz está en castellano lo que facilita aún más el trabajo estadístico. Además de lo aclarado anteriormente el trabajo con Rcmdr supone servir como generador de instrucciones R. Es posible que muchos de nuestros alumnos no necesiten otro nivel de uso que el que proporciona Rcmdr, pero unos pocos y la mayoría del personal investigador, una vez superado el respeto inicial a la herramienta, se decantarán por manejarse directamente con la consola de R. Instalación en Windows La descarga de R en el equipo se efectúa desde: http://cran.es.r-project.org/bin/windows/base/release.htm Luego se procede con la ejecución, siguiendo las instrucciones. Para la instalación de Rcmdr, se arranca R desde Inicio->Todos los programas-> R. A continuación, Paquetes->Instalar Paquete(s) y elegido el mirror desde el cual se quiere instalar el paquete, por ejemplo Spain (Madrid), se selecciona Rcmdr. Harán falta más paquetes para la instalación completa de Rcmdr, pero se instalarán automáticamente la primera vez que se ejecute ya que son de apoyo para la gestión propia de Rcmdr. En ambos sistemas operativos, la carga de la librería se efectuará mediante la instrucción library(quot;
Rcmdrquot;
). Si se cierra Rcmdr (sin cerrar R), para volver a cargarlo se debe ejecutar la instrucción Commander(). Capítulo 1: Estadística Descriptiva En este capítulo abordaremos las siguientes secciones: ¿Cómo cargar datos? Resumiendo la información: Tablas Estadísticas Gráficos Estadísticos Resúmenes Numéricos y Parámetros ¿Cómo cargar datos? Para cargar datos en R tenemos dos opciones: La primera opción consiste en realizar la carga a través del mismo programa como se muestra a continuación: Antes de comenzar a trabajar con los datos, debemos asegurarnos de haber cargado el paquete “R commander”, para ello haciendo click en la solapa “Paquetes”, opción “Cargar paquete…”, aparecerán los diferentes paquetes que se pueden utilizar, de los cuales seleccionamos “Rcmdr”. Luego que el paquete ha sido cargado aparecerán dos ventanas, una que corresponde a la consola del R (R console) y otra correspondiente al R commander: En la ventana correspondiente a la consola de R, se muestran las sentencias utilizadas para “llamar” a las funciones predefinidas en el programa; mientras que en la ventana del R commander podemos directamente “llamar” a las funciones pero no vemos su sintaxis (Interfaz para el usuario “amigable”). De igual forma, si el usuario está interesado en conocer cuál es el código y la sintaxis utilizada puede visualizarla a través de la consola de R (R console), esta información aparece a medida que uno va “llamando” a cada una de las funciones que va necesitando en R commander. Para cargar los datos primeramente lo haremos desde R, introduciendo nosotros mismos uno por uno los datos con los cuales trabajaremos. Para ello comenzaremos con el siguiente ejemplo: Ejemplo de aplicación: Las siguientes fueron las notas obtenidas por un grupo de alumnos en un examen de la materia “Estadística” en la carrera de Ingeniería: 6-6-2-8-9-3-6-2-7-9-10-4-4-2-3-7-3-2-6-4-7-6-6-10-3-3-9-2-2-3 Para introducir estos datos en R, procederemos del siguiente modo: En R commander hacemos click en la solapa “Datos”, seleccionamos “Nuevo conjunto de datos”. Una vez en la pantalla, el programa pedirá asignar un nombre al conjunto de datos que vamos a cargar, es decir que aparecerá la siguiente tabla: Una vez que dimos click en Aceptar, aparecerá el Editor de datos de R para cargar los datos en filas (puede que sea más de un atributo), por eso, el programa tiene varias columnas para poder hacer referencia a las diferentes variables. Realizada la carga de los datos del ejemplo, quedarán de la siguiente manera: Aclaración: Para cambiar el nombre de cada variable interviniente, nos posicionamos sobre la celda referida a la misma, hacemos click con el botón derecho del mouse y aparecerá un cuadro que nos pedirá ingresar el nuevo nombre de la variable (renombrar) y el tipo de dato que albergará (numérico o carácter). La segunda opción para la carga de datos, puede realizarse importando los mismos, desde cualquier extensión de archivo que el programa soporte, en este caso la extensión de Excel es .xls. Para realizar esta carga hacemos click en “Datos”, seleccionamos la opción de “Importar datos” y luego hacemos click “desde conjunto de datos Excel…” En la pantalla se visualizará (una vez cargado los datos desde el disco C, por defecto) la siguiente ventana: Una vez cargado el conjunto de datos (por cualquiera de las dos maneras), los datos no aparecerán en pantalla inmediatamente, por este motivo, si hacemos click en la solapa “Visualizar conjunto de datos”, podremos ver a nuestra derecha el conjunto de datos que ha sido cargado. Resumiendo la información: Tablas Estadísticas Para trabajar con las tablas estadísticas, primeramente debemos convertir los datos numéricos en factores, para ello seleccionamos de la solapa “Datos” la opción “Modificar variables del conjunto de datos activo”, y hacemos click en “Convertir variable numérica en factor” En la tabla anterior tildamos la opción Utilizar números, y hacemos click en Aceptar. De esta manera la variable numérica queda convertida en factores. Para realizar la tabla de frecuencias, en la solapa “Estadísticos”, seleccionamos “Resúmenes” y luego “distribución de frecuencias”. La tabla correspondiente aparecerá en la ventana de resultados. Gráficos Estadísticos Para realizar el gráfico correspondiente al conjunto de datos cargados (variable cuantitativa discretizada): Notas, procederemos de la siguiente manera: En la pestaña “Gráficas”, seleccionamos “Gráfica de Barras”: El gráfico correspondiente será: El gráfico no aparecerá en la ventana del R commander, sino en la ventana del RGuide. Parámetros de Posición y de Dispersión Para poder obtener los parámetros de posición y de dispersión, primeramente debemos tener en cuenta que la variable debe ser de tipo numérica, es decir, no puedo trabajar los datos como si fuesen factores, por esta razón, será necesario agregar en el conjunto de datos una columna adicional con las mismas notas pero de tipo numéricas. Para ello en la solapa “Editar conjunto de datos”, se abrirá el conjunto de datos y podremos agregar una nueva columna designando a la nueva variable con otro nombre y aclarando que es de tipo numérico. Para determinar los parámetros, nos posicionamos sobre la pestaña Estadísticos, luego resúmenes y dentro de ello seleccionamos resúmenes numéricos. Podremos ver: Media Cuartiles Desviación típica Esto se muestra en las siguientes diapositivas: Haciendo click en Aceptar, obtendremos en la ventana de resultado la información deseada: Capítulo 2: Distribuciones Muestrales Hay situaciones donde es necesario generar valores aleatorios que sigan un determinado patrón y que permitan estudiar el comportamiento de determinados modelos, simular situaciones de laboratorio, generar la distribución de una combinación de variables, comparar valores muestrales con los extraídos de la verdadera población en estudio. En Rcmdr, para cada una de las distribuciones de probabilidad que tiene implementadas, se puede seleccionar la opción Muestra de una distribución. Por ejemplo para seleccionar una muestra de una distribución de Poisson, hacemos click en la solapa “Distribuciones”, luego “Distribuciones Discretas”, “Distribución de Poisson” y a continuación “Muestra de una distribución de Poisson”. A continuación aparecerá una ventana que nos pedirá ingresar: El valor de la media (el valor de λ) El nombre que se asignará a la muestra El tamaño de la muestra (la cantidad de filas) El número de observaciones sobre la muestra (la cantidad de elementos de la muestra, cantidad de columnas) Las opciones de “Añadir al conjunto de datos”: Media muestral Suma de cada muestra Desviación típica de cada muestra Se generarán 2 muestras de 30 elementos cada una En la ventana de Mensajes aparecerá una leyenda que indicará el tamaño de muestra y de observaciones que se han hecho sobre la muestra: Las muestras extraídas de la distribución de Poisson se comportan de igual manera que si se tratase de la distribución de Poisson en sí. Para ver sus valores, hacemos click en “Visualizar conjunto de datos”: Estamos interesados en comparar los valores de la media muestral y varianza muestral con los correspondientes valores de la población. Determinemos para la distribución de Poisson el valor de la media y la varianza respectivamente en este caso serán ambos iguales (el valor de λ=15) El desvío será √(15)= 3. 8730 “Comparemos estos valores con los obtenidos en las muestras” Para la muestra 1 obtuvimos los siguientes valores: Media=14,8 Desvío=4,318365 Para la muestra 2 los valores obtenidos son los siguientes: Media=14,96667 Desvío=3,633971 El promedio de ambas medias y de los desvíos muestrales serán respectivamente: 14,883335 (promedio de las 2 medias muestrales) 3,976168 (promedio de los 2 desvíos muestrales) Esto sucede porque algunas de las muestras “caerán” cerca de la media poblacional mientras que otras se encontrarán alejadas de la misma. De hecho podemos repetir el cálculo anterior sistemáticamente varias veces y obtendremos cada vez medias y varianzas diferentes. Sin embargo, estas medias y varianzas tienen un patrón. La teoría nos dice que si calculamos el promedio de muchas medias muestrales, estas convergerán a la media poblacional y que en promedio las varianzas convergerán a la varianza poblacional. Teorema Central del Límite En función de las muestras de la distribución de Poisson, veremos que la distribución de la media muestral se “aproxima” a una normal para tamaños de muestras grandes. Para esto, lo veremos en función de la gráfica para cada muestra: Utilizando lo visto anteriormente obtenemos las siguientes gráficas: Muestra 1 Muestra 2 Ejercicio de Aplicación N°1: Genere muestras de tamaño 10, 100 y 500 (3 de cada tamaño) de una población que sigue una distribución binomial con n=18, p=0,7. ¿Cuál es el valor promedio de las medias? ¿y de las varianzas? Ejercicio de Aplicación N°2: Verificar el Lema 2.3.1 de la Teoría Sugerencia: Definir una distribución Normal y obtener una muestra de ella, luego encontrar la gráfica correspondiente de la media muestral, en función de lo que dice el lema. En función de la distribución binomial con n=18, p=0,7 dada anteriormente, tomaremos numerosas muestras de igual tamaño, por ejemplo: 100 muestras de tamaño 10 y verificaremos el Corolario 2.2.1 enunciado en Teoría. La tabla generada realizando el procedimiento ya conocido será la siguiente: Una vez que se han generado las muestras, en la solapa Estadísticos, opción Resúmenes, haciendo click en Resúmenes Numéricos, seleccionaremos Media y Desvío para la variable de interés (en este caso Mmuestral), la ventana que aparecerá será la siguiente: En la ventana de resultados aparecerá los valores pedidos: Total de Muestras Tomadas Compararemos los resultados obtenidos con los valores de la media y desvío poblacional. Como se trata de una distribución binomial con parámetros n=18 (cantidad de ensayos en la distribución binomial) y p=0,7 entonces: μ=18.0,7=12,6 y σ =√18.0,7.0,3/√10 (tamaño de cada muestra)=0,6148 Luego podemos observar que la media de todas las medias muestrales, es exactamente igual a la media de la población, y que la varianza de las medias muestrales es igual a la varianza de la población dividida por el tamaño de la muestra. Cabe aclarar que esto se verifica cuando el muestreo se hace con reemplazo en una población finita. Si quisiéramos obtener la gráfica de la distribución de las medias muestrales, deberíamos realizar un histograma por tratarse de una variable continua (en este caso denotada por Mmuestral). El gráfico quedaría determinado de la siguiente manera: Distribución de la varianza Muestral Para encontrar la distribución de la varianza muestral cuando se muestrea de poblaciones normales introduciremos la siguiente distribución: Distribución Chi- Cuadrado: Tomaremos el ejemplo 2.4.1 de la teoría: Supongamos que la varianza de los pesos de niños de 12 años es de 39 kg2 y que estos están distribuidos normalmente. ¿Cuál es la probabilidad que una muestra aleatoria de 25 niños arroje una varianza superior a 57?. Es decir nos piden determinar P[S2>57]. Por lo visto anteriormente en Teoría (Corolario 2.4.3) determinaremos una Chi-Cuadrado con 24 grados de libertad. Entonces P[S2>57]= P[χ2(24)>35,077]. En R lo haremos de la siguiente manera: En la solapa “Distribuciones”, opción “Distribuciones Continuas”, seleccionaremos “Distribución Chi-cuadrado” y haremos click en “Probabilidades Chi-cuadrado”. Luego aparecerá el siguiente cuadro que deberá completarse con los datos que nos brinda el enunciado del ejemplo dado: Dando click en Aceptar obtendremos el siguiente valor de probabilidad (aparecerá en la ventana de resultados): Gráfica de la Distribución Chi-Cuadrado En la solapa “Distribuciones”, opción “Distribuciones Continuas”, seleccionaremos “Distribución Chi-cuadrado” y haremos click en “Gráfica de la distribución Chi-cuadrado”. Obtendremos la siguiente gráfica: El mecanismo de trabajo en R es análogo a lo visto para Distribuciones Chi-Cuadrado. Para las restantes distribuciones, es decir: Distribución F de Fisher: Deberán tener en los siguientes resultados enunciados en Teoría: Teorema 2.5.1 Corolario 2.5.1 Distribución t de Student: Deberán tener en los siguientes resultados enunciados en Teoría: Teorema 2.6.1 Corolario 2.6.1 Capítulo 3: Test de Hipótesis e Intervalos de Confianza Introducción Interesa dar una mayor consistencia al análisis inferencial y ello se consigue desde dos puntos de vista, que en muchas ocasiones son complementarios: la construcción de intervalos de confianza y la realización de contrastes de hipótesis. Tanto uno como otro tienen en cuenta el margen de error derivado de cierta pérdida de información, que se produce al intentar explicar el comportamiento de una población a partir del conocimiento de una parte muy pequeña de sus miembros. En el caso de los intervalos de confianza, el objetivo es dar una cierta “garantía” de la presencia del parámetro dentro de un intervalo construido a partir de la muestra, mientras que para el caso de los contrastes, la pretensión es dar respuesta a si el valor del parámetro se encuentra, a la luz de la evidencia muestral, dentro de un conjunto de valores especificados en lo que se conoce como hipótesis nula (H0) o, por el contrario, se haya dentro de su alternativo especificado por la hipótesis alternativa (H1). Inferencia Clásica en Poblaciones Normales Puesto que los contrastes paramétricos utilizan más información que los no paramétricos, ofrecen mejores resultados. Por ello, siempre que sea posible se debe recurrir a los primeros. Dependiendo de la estructura de sus hipótesis, se distingue entre los siguientes tipos de contrastes: 1. Contrastes Bilaterales: en ellos se propone un valor puntual para el parámetro bajo estudio, de forma que se rechazaría bien porque la evidencia muestral lleve a decidir que el valor es mayor que el propuesto o bien que es menor (valor distinto al planteado). Formalmente: 2. Contrastes Unilaterales: en ellos se propone que el valor del parámetro se encuentre por debajo (ó por encima) de un cierto valor. Las dos situaciones se plantearían de la siguiente forma: H₀:θ=θ₀ H₁:θ<θ₀H₀:θ=θ₀ H₁:θ>θ₀ Las distribuciones asociadas al proceso de muestreo son la normal y la t de Student para el estudio de medias, la Chi-cuadrado para la varianza y la F de Fisher para la comparación de varianzas; todas ellas estudiadas en el anterior capítulo. En general, interesa analizar el comportamiento de la media, aunque el mismo va a depender del conocimiento o no que se tenga de su varianza, o si para el caso de dos poblaciones sus varianzas coinciden. Test para la Media de una Población Normal Trabajaremos con dos muestras referidas a la altura y el peso de hombres y mujeres de un departamento de la Provincia de San Juan, las cuales provienen de una distribución Normal: El conjunto de datos con el que trabajaremos será el siguiente: Filtrado de Datos En ocasiones es necesario analizar, no todo el conjunto de datos, sino sólo un subconjunto de éste. En ese caso, lo que se hace es filtrar los datos mediante alguna condición dada por uno o varios valores de alguna variable. Lo haremos de la siguiente forma: 1. Seleccionando en el menú Datos -> Conjunto de datos activo -> Filtrar el conjunto de datos activo. 2. En la ventana emergente podemos seleccionar si deseamos quedarnos con todas las variables o elegir sólo algunas. 3. La casilla más importante es la de expresión de selección: ahí debemos escribir la expresión lógica que determine nuestro filtro. 4. Finalmente, es recomendable ponerle un nombre al nuevo conjunto de datos filtrado distinto del original, para evitar que lo sobreescriba. Una vez que se ha dado click en Aceptar el nuevo conjunto de datos (peso_altura_varon) pasará a ser el conjunto de datos activo con el cual trabajaremos. De la misma forma lo haremos para el peso y altura de las mujeres creando el conjunto de datos peso_altura_mujer. Los conjuntos de datos determinados a partir de los pesos y las alturas en general son los siguientes: Resúmenes Numéricos en función de un factor Las características muestrales se obtienen como siempre en Estadísticos->Resúmenes->Resúmenes numéricos..., seleccionando las correspondientes variables e indicando que se haga en función del sexo, para ello en la ventana emergente debemos seleccionar Resumir por grupo y elegir la variable SEXO: El resumen numérico para cada variable (PESO Y ALTURA) en función del factor SEXO, aparecerá en la ventana de resultados: 1° Caso: Contraste Bilateral Estamos interesados en testear: H0: μ = 175 vs. H1 : μ ≠ 175 Trabajaremos con la muestra que contiene la información referida a la altura promedio de los hombres con un nivel de significación α=0,05. A continuación elegimos la opción del menú Estadísticos -> Medias -> Test t para una muestra. Aparecerá la siguiente ventana: Nos pide en primer lugar que elijamos una (sólo una) variable, que debe ser aquella cuya media estemos analizando. Nos pide que indiquemos cuál es la hipótesis alternativa. En nuestro caso hemos elegido la opción de un test bilateral. Nos pide que especifiquemos el valor del valor hipotético con el que estamos comparando la media, en nuestro caso, 175 (en cm). Nos pide, por último, que especifiquemos un nivel de confianza. En realidad este nivel de confianza no lo es para el contraste, que se resolverá a través del p-valor, sino para el intervalo de confianza asociado al problema. La información arrojada en la ventana de resultados será la siguiente: Analicemos el resultado con detalle: En primer lugar, nos recuerda que estamos analizando la variable peso_altura_varon$ALTURA. A continuación nos informa del valor del estadístico de contraste (t = 1.0916), de los grados de libertad (df =19) y del p-valor (p-value = 0.2886). Ya podemos, por tanto, concluir: Dado que el p-valor no es inferior al 5 %, no tenemos suficientes evidencias en los datos para rechazar la hipótesis nula (μ =175) en favor de la alternativa (μ ≠ 175), es decir, con los datos de la muestra no tenemos suficientes evidencias de que la altura media de los hombres sea distinta de 175. Nos recuerda cuál era la hipótesis nula que habíamos planteado: alternative hypothesis: true mean is not equal to 175. A continuación proporciona un intervalo de confianza unilateral a la derecha, con un nivel de confianza del 95 %, para la media de la distribución normal de los datos: 95 percent confidence interval: 173.3488 ; 180.2512. Lo que quiere decir el resultado es que P [μ ∈ (173.3488, 180.2512)] = 0.95. La relación que guarda el intervalo de confianza con el contraste de hipótesis es la siguiente: Observemos que el valor hipotético que hemos considerado para la media, 175, está dentro de este intervalo, luego éste es un valor de confianza para μ. Es otra forma de concluir que no hay datos que avalen que la media de la variable es significativamente distinta de 175, ya que éste es un valor bastante plausible para esta media. Si los datos fueran tales que el intervalo de confianza para μ dejara fuera al valor 175, tendríamos razones para pensar que el valor de μ es significativamente distinto de 175, pero no es el caso. Finalmente, proporciona los estadísticos muestrales utilizados, en este caso, la media muestral: sample estimates: mean of x 176.8 2° Caso: Contraste Unilateral Estamos interesados en testear: H0: μ = 180 vs. H1: μ <180 Con un nivel de significación α=0,10 A continuación elegimos la opción del menú Estadísticos -> Medias -> Test t para una muestra. Aparecerá la siguiente ventana: La información arrojada en la ventana de resultados será la siguiente: En este caso el p-valor=0,03364 es menor que el nivel de significación y por tanto se rechaza la hipótesis nula. Igualmente se puede comprobar que 180 no pertenece al intervalo de confianza. 2° Caso: Contraste Unilateral: Estamos interesados en testear: H0: μ = 180 vs. H1: μ >180 Se trabaja de manera análoga al caso anterior. Test para dos muestras independientes de una población Normal Para el caso de muestras independientes se usará el fichero parque_eolico.xlsx, que contiene datos de la velocidad del viento, registrados durante 730 horas de forma simultánea, en dos localizaciones alternativas (Parque1 y Parque2). Se tratará de establecer la localización más aconsejable para la instalación de un parque de producción de energía eólica. Fijémonos que los datos de las dos muestras aparecen en dos columnas paralelas. Esa es una forma no demasiado correcta de especificarlas, ya que parece que cada dato de una de las muestras está relacionado con otro dato de la otra muestra y, en realidad, las muestras son independientes (de hecho podrían tener distinto tamaño muestral). Por este motivo, tenemos que preparar los datos para que R Commander entienda que se trata de dos muestras independientes. Lo que tenemos que hacer es juntar o apilar las dos muestras en una sola columna, indicando en una segunda columna si el dato es de una muestra u otra. Esta operación se realiza mediante la opción Datos -> Conjunto de datos activo -> Apilar variables del conjunto de datos activo. En la ventana de diálogo se pide el nombre de la nueva base de datos que se ha venido a llamar parque_eolicoapilado, el nombre de la variable apilada, velocidad, y el nombre de la nueva variable factor, parque, cuyas clases se han denominado Parque1 y Parque2. Ahora el conjunto de datos activo es parque_eolicoapilado, en visualizar conjunto de datos veremos la siguiente tabla que contiene las velocidades e indica a que parque pertenecen: ¿Varianzas desconocidas pero Iguales? Prueba para la igualdad de varianzas: Supongamos que deseamos testear: H0: (σ₁)²=(σ₂)² vs. H1: (σ₁)² ≠(σ₂)² (O lo que es equivalente H0: (σ₁)²/(σ₂)²= 1 vs. H1: (σ₁)²/(σ₂)² ≠ 1) El test F permite contrastar dicha hipótesis, desde Estadísticos->Varianzas->Test F para dos varianzas... seleccionando en este caso como factor la variable parque y como explicada la variable velocidad. Como p-valor= 0, 9093 > 0, 05 no hay motivos para rechazar la igualdad de varianzas. Siendo así, como se supone que los datos están distribuidos normalmente y las varianzas son iguales, los dos parques eólicos serán igualmente productivos cuando la diferencia de sus medias no se separe significativamente de 0. Para realizar este contraste se selecciona Estadísticos->Medias->Test t para muestras independientes... y en la ventana de diálogo emergente se selecciona como grupo la variable parque y como variable explicada la velocidad, marcando la opción bilateral con el 95% de nivel de confianza y suponiendo las varianzas iguales. Al ser el p−valor < 0, 001 se rechaza la hipótesis nula, con lo que se acepta que la diferencia, entre los niveles iniciales y finales, es positiva. Con ello se puede deducir que el tratamiento anual con Macromax reduce los niveles de ácido úrico en el organismo y existen así evidencias acerca de su efectividad. Si se deseara confirmar que el tratamiento produce un descenso de más de 50 puntos en el nivel de ácido úrico, se debería tocar ligeramente la instrucción R incluyendo ese dato: Luego haciendo click en Ejecutar la instrucción anterior, en la ventana de resultados aparecerá lo siguiente: De nuevo dado que p < 0, 001 se rechaza la hipótesis de que μA ≤ μD + 50 y se concluye que el medicamento produce una disminución de más de 50 puntos en el nivel de ácido úrico. Test con nivel asintótico para hipótesis sobre la media de una población sin suponer normalidad El “test t para una muestra” que se ha deducido suponiendo distribución normal, puede ser usado para variables con cualquier distribución, gracias al T.C.L. En este caso el nivel del test ya no será el valor elegido α, sino que será aproximadamente α para muestras grandes. Para muestras grandes es indistinto usar la distribución N(0,1) o la distribución t de Student para calcular el valor p (o la región de rechazo), porque cualquiera de las dos distribuciones que se use, se consigue el nivel asintótico α. En la práctica generalmente se usa la distribución t (ya que el test “t” es el único programado en la mayoría de los software); Si la normalidad es cierta, el test tiene nivel exacto, si los datos no son normales y n es grande, tiene nivel asintótico. Si los datos no son normales y n es pequeño, es un error aplicar el test t. Capítulo 4: Regresión Lineal Simple Introducción Objetivos: Contrastar si la relación entre pares de variables es estadísticamente significativa. Ajustar la recta de regresión de una variable dependiente dada una variable independiente. Realizar predicciones y estimaciones a partir de la recta de regresión. Obtener intervalos de confianza para dichas predicciones y estimaciones. El Método de Regresión Lineal es un método para desarrollar una ecuación de una recta para predecir el valor de una variable a partir del valor de la otra. También trabajaremos con correlación, que mide el grado de relación lineal entre dos variables (fuerza de la relación) Para comenzar el trabajo con R commander, utilizaremos el fichero notasalumnos.xlsx que contiene las notas parciales y finales de 25 alumnos. Estamos interesados en “explorar” si existe una relación lineal entre las notas parciales y las notas finales y en qué medida las primeras inciden en las segundas. El Conjunto de Datos activo es el siguiente: Diagrama de Dispersión Mirando el diagrama de dispersión de un conjunto de pares de valores, en este caso serán las notas parciales y las notas finales, ((np,nf)), podemos analizar la dirección, forma e intensidad de la “posible” relación entre las variables en cuestión. Para realizar el diagrama de dispersión en R commander seleccionaremos: Estadísticos ->Gráficas->Diagrama de dispersión para las variables mencionadas. En este caso, como lo que queremos es saber en qué medida las notas parciales inciden en las notas finales seleccionaremos como variable x a Nota.parcial y como variable y a Nota.final Recordemos que como se ha visto a lo largo de los años la variable x es la variable independiente mientras que la variable y es la variable dependiente. La gráfica obtenida será la siguiente: A la vista de la figura se observa la existencia de relación entre las dos variables. La línea de regresión suavizada y la línea discontinua de ajuste lineal, sugieren que los ajustes más eficientes son de tipo lineal. No obstante, la escala de representación de las variables podría ser un factor distorsionador que podría llevar a pensar, erróneamente, que las variables mantienen un grado de relación lineal mayor del que realmente existe. Coeficiente de Correlación Lineal de Pearson Para confirmar la existencia de una correlación lineal entre las variables procederemos a calcular el coeficiente de Pearson: Se selecciona la secuencia de opciones Estadísticos->Resúmenes->Test de correlación, eligiéndose en el cuadro de diálogo las variables que interesan. La salida que ofrece Rcmdr es: En la ventana de resultados aparecerá: Como p-valor=0,0001307<α=0,05 entonces rechazo la hipótesis nula, es decir acepto la alternativa de que el coeficiente de correlación es distinto de 0 y evidencia una relación estadísticamente significativa. El coeficiente de correlación es positivo y relativamente alto, r =0, 6910992, lo que indica que existe relación directa entre las variables. Coeficiente de Determinación R2 En cuanto a la intensidad, el coeficiente de determinación R2 =r2 = 0, 477618104 implica que un 52% de la variación de Y no se explica por X a través de la recta de ajuste. Esto no implica que no se pueda determinar un ajuste al Modelo sino, que algunos de los puntos se encontrarán alejados de la recta de ajuste o recta de regresión que determinaremos. Cálculo de la Recta de Ajuste Obtendremos la recta de ajuste de las notas finales en función de las notas parciales: Para ello, se selecciona: Estadísticos->Ajuste de modelos->Regresión lineal En la ventana emergente se elige Nota.final como variable explicada y Nota.parcial como variable explicativa. Damos click en Aceptar y en la ventana de resultados aparecerá: Analicemos algunos de los resultados obtenidos: La estimación del valor del parámetro β0 (intercept) es 7,5214. Hipotéticamente, se interpretaría como que para alguien que obtenga un puntaje de 0 puntos en los exámenes parciales podemos predecir que su puntaje en el examen final será de 7,52 puntos. A continuación lo que aparece es: el error estándar de esa estimación (14,2349), el valor del estadístico de contraste (0,528) y el p-valor del contraste de H0: β0= 0 vs. H1: β0≠0 que en este caso es 0,60230. La estimación de β1 es 1,7543, con un error estándar de la estimación de 0,3826. El contraste de H0: β1= 0 vs. H1: β1≠0 arroja un valor del estadístico de 4,586 y un p-valor 0,000131. La recta ajustada aparece, por tanto, especificada a través de sus dos coeficientes: el término independiente o intercept y la pendiente de la recta: Y=7,5214+1,7543X El error estándar del ajuste tiene un valor de 14,02. El coeficiente R2, aunque es obvio de calcular, aparece en la penúltima línea. Su valor, 0,4776, indica que casi el 48% de toda la variabilidad que tiene el fenómeno relativo a los puntajes finales puede ser explicado por los puntajes parciales. Predicciones Para realizar predicciones para cualquier valor de X, se necesita crear previamente un nuevo conjunto de datos, que en este caso se ha llamado pred y que contendrá el nombre de la variable independiente (Nota.parcial) del modelo. Una vez que se ha importado desde Excel este nuevo conjunto de datos, editaremos el conjunto de datos, “agregando” una nueva variable de tipo numérico llamada predicNota.final (que guardará las predicciones de las notas finales en función del modelo lineal y de la variable Nota.parcial). Dejaremos los espacios correspondientes a los valores de esta nueva variable sin asignar, es decir colocando en cada celda NA. Si se reemplazan los valores de las notas parciales en la ecuación de la recta de regresión obtenida anteriormente podrán verificar los valores obtenidos en la columna predicNota.final Interpolaciones y Extrapolaciones En las predicciones anteriores se han cometido 3 extrapolaciones, es decir, usar la ecuación de la recta de regresión para predecir 3 valores que se encuentran fuera del rango de valores de la variable Nota.parcial; y una interpolación, o sea, se utilizó la ecuación de la recta para predecir el valor que se encuentra dentro del rango de valores de las observaciones pero no es un valor de las mismas. Intervalos de Confianza Aparte del propio ajuste de los parámetros β0 y β1, podemos también obtener intervalos de confianza al nivel que deseemos de los mismos, sin más que clickear en Modelos -> Intervalos de confianza. En la ventana emergente sólo tenemos que elegir el nivel de confianza deseado. En nuestro caso, el resultado que aparece es el siguiente: Los intervalos que se proporcionan son aquellos en los cuales se mueven los parámetros estimados a un 95% de confianza. Análisis de la Varianza (ANOVA) Para obtener la tabla ANOVA del análisis de la varianza seleccionamos: Modelos -> Test de Hipótesis ->Tabla ANOVA Seleccionamos el test de Tipo I, es decir de tipo Secuencial En la ventana de resultados aparecerá la siguiente tabla: La tabla del análisis de la varianza nos da un estadístico F =21,029 que no es significativo (p-valor=0,0001307). Como p<α entonces rechazamos la Hipótesis Nula (X e Y no están relacionadas linealmente) y aceptamos la Hipótesis Alternativa, concluyendo por el análisis de la varianza que X e Y están relacionadas linealmente, es decir que las notas parciales y finales están relacionadas. Valores Ajustados y Residuos Para obtener los valores ajustados por el modelo se selecciona: Modelos->Añadir las estadísticas de las observaciones a los datos Se marcan las opciones deseadas, en este caso Valores ajustados y residuos. R añade al conjunto de datos activos dos nuevas columnas llamadas: fitted.NotasAlumModelo residuals.NotasAlumModelo con los correspondientes valores ajustados y residuos del modelo activo. Haciendo click en Visualizar conjunto de Datos podremos ver el conjunto de datos con las dos nuevas columnas que se han creado: Gráfica de los residuos Para obtener la gráfica de los residuos correspondiente se selecciona: Modelos->Gráficas ->Gráficas Básicas de Diagnóstico En la ventana del RGui aparecerán las siguientes gráficas: Puesto que este gráfico muestra que los residuos se centran alrededor del 0 podemos concluir que un modelo de regresión lineal es apropiado.

R - Probabilidades y Estadística

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a R - Probabilidades y Estadística

Similar a R - Probabilidades y Estadística (20)

R - Probabilidades y Estadística