ESCUELA SUPERIOR  POLITÉCNICA DE   CHIMBORAZO“ESPOCH” ESCUELA DE INGENIERIA DE    EMPRESAS,    MODALIDAD FORMACIÓN DUAL IN...
INTRODUCCION                              INICIAR R COMMANDERUna vez que R se está ejecutando, simplemente cargando el paq...
DEDICATORIAEl momento en que el ser humano culmina una meta, es cuando se detiene a hacer un recuento detodas las ayudas r...
AGRADECIMIENTOHacemos llegar nuestro profundo agradecimiento primero a Dios por darnos fortaleza y laconstancia para cumpl...
EL ENTORNO R-COMMANDERGENERALIDADESR-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John Fox, qu...
Lenguaje de comandos de R, simplemente observando lo que va apareciendo en la ventana scriptse irá familiarizando (y con u...
El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando elratón para seleccionar, den...
Para leer estos datos con R commander, una vez situados en la ventana de este programa hay quepicar con el ratón en la opc...
Una vez introducida esta información, picando en OK, nos aparece la ventana para abrir ficheros deWindows. Buscamos el dir...
En la pantalla de R-commander ha aparecido un comando en la ventana superior (script) y el mismocomando repetido en la ven...
INTERVALOS DE CONFIANZAPara poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipóte...
El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la mediamuestral, que es el más...
Cuando la σ es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario paraobtener un intervalo de con...
Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar unerror dado con un...
EJEMPLO:Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos.Vamos a ...
EJEMPLO: Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuyanormalmente,...
> Estadísticos > Proporciones >Test de proporciones para una muestra…Para hace rl intervalo bilateral, se marcaProporción ...
PROCESO CON RCOMMANDER: Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interacti...
TAMAÑO DE MUESTRA (ALEATORIA SIMPLE) PARA ESTIMAR UNA PROPORCIÓNLlamamos error E al semiancho del intervalo de confianza p...
INTERVALO DE CONFIANZA PARA LA VARIANZAR no da con un menú específico el intervalo de confianza para la varianza, aunque p...
DATOS EMPAREJADOS:Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cad...
data: Calidad by Materialt = -0.3689, df = 17.987, p-value = 0.7165alternative hypothesis:             true difference in ...
Próxima SlideShare
Cargando en…5
×

Espoch modalidad dual cristina balladares

750 visualizaciones

Publicado el

MINI MANUAL DE R COMMANDER

Publicado en: Motor
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
750
En SlideShare
0
De insertados
0
Número de insertados
3
Acciones
Compartido
0
Descargas
19
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Espoch modalidad dual cristina balladares

  1. 1. ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO“ESPOCH” ESCUELA DE INGENIERIA DE EMPRESAS, MODALIDAD FORMACIÓN DUAL INTERVALOSDE CONFIANZAY CONTRASTESDE HIPÓTESIS ANDREA CRISTINA BALLADARES CARRASQUILLO
  2. 2. INTRODUCCION INICIAR R COMMANDERUna vez que R se está ejecutando, simplemente cargando el paquete Rcmdrmediante la instrucción library(Rcmdr) en la consola de R, se inicia la interfaz grácade usuario (_GUI_) de R Commander. Para que funcione correctamente conWindows, R Commander requiere la interfaz de documento único (SDI) de R1.Después de cargar el paquete, las ventanas R Console y R Commander deberíanaparecer más o menos como en las guras ?? y ??. Éstas y otras imágenes en estedocumento fueron creadas con Windows XP; si usa otra versión de Windows (o, porsupuesto, otra plataforma informática), entonces la apariencia de la pantalla puedediferir2. Si estos paquetes no están instalados, Rcmdr ofrecerá instalarlos desdeInternet o desde archivos locales (e.g., desde un CD_ROM). Si usted instala elpaquete Rcmdr a través de Windows_R GUI_, los paquetes de los cuales Rcmdrdepende deberían ser instalados automáticamente. En general, puede instalar elpaquete Rcmdr y todos los paquetes de los que depende a través de la funcióninstall.packages, estableciendo el argumento dependencies = TRUE. Gracias a DirkEddelbuettel, los usuarios de Debian Linux sólo necesitan la instrucción apt-get installr-cran-rcmdr para instalar el paquete Rcmdr junto con todos los paquetes que ésterequiere. En cualquier caso, instalar y cargar el paquete Rcmdr en los sistemas Linuxsuele ser sencillo. La tarea puede ser más complicada con OS/X en los sistemasMacintosh, ya que el paquete tcltk del cual depende Rcmdr requiere que Tcl/Tk estéinstalado y que R se esté ejecutando con XWindows. 2
  3. 3. DEDICATORIAEl momento en que el ser humano culmina una meta, es cuando se detiene a hacer un recuento detodas las ayudas recibidas, de las voces de aliento, de las expresiones de amor y comprensión; espor eso que nosotras dedico éste triunfo manual a nuestros queridos padres quienes con su infinitaadhesión nos han brindado todo su apoyo sin escatimar sacrificio alguno. A nuestros hermanos,porque han sido los amigos, los compañeros fieles en el camino hasta aquí recorrido; y en generala toda nuestra familia que de una u otra manera contribuyeron para el logro de mi carrera.A Dios por guiar nuestros pasos y ayudarnos a superar los obstáculos que se nos presentaron a lolargo del camino; y, por último queremos dedicar este logro a todos nuestros amigos testigos denuestros triunfos y fracasos. 3
  4. 4. AGRADECIMIENTOHacemos llegar nuestro profundo agradecimiento primero a Dios por darnos fortaleza y laconstancia para cumplir nuestros objetivos propuestos, a nuestros padres por estar siempre anuestro lado brindándonos su apoyo, a nuestra universidad y especialmente a la Facultad deAdministración de empresas , que mediante sus autoridades y docentes nos brindaron una sólidaformación universitaria y lograron que culminemos con éxito una más de nuestras etapasacadémicas. 4
  5. 5. EL ENTORNO R-COMMANDERGENERALIDADESR-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John Fox, que permiteacceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer ellenguaje de comandos propio de este entorno. Al arrancar R-Commander, se nos presentan dosventanas: Figura 1: La ventana R Console tras cargar el paquete Rcmdr. 5
  6. 6. Lenguaje de comandos de R, simplemente observando lo que va apareciendo en la ventana scriptse irá familiarizando (y con un poco de interés, también aprendiendo) con dicho lenguaje. Es más, elusuario puede introducir comandos directamente en dicha ventana, y tras pulsar el botón Submitdichos comandos serán ejecutados1 y su resultado mostrado en la ventana Output. El script puedeguardarse y volver a ser ejecutado directamente otras veces con otros conjuntos de datosdiferentes, sin que el usuario tenga que desplazarse por todo el sistema de menús para volver arealizar las mismas tareas. 6
  7. 7. El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando elratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando bastacon situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varioscomandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit.Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramosacceder. Las opciones son: • − File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos, resultados, sintaxis, etc. • − Edit: las típicas opciones para cortar, pegar, borrar, etc. • − Data: Utilidades para la gestión de datos (creación de datos, importación desde otros programas, recodificación de variables, etc.) • − Statistics: ejecución de procedimientos propiamente estadísticos • − Graphs: gráficos • − Models: definición y uso de modelos específicos para el análisis de datos. • − Distribution: probabilidades, cuantiles y gráficos de las distribuciones de probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.) • − Tools: carga de librerías y definición del entorno. • − Help: ayuda sobre R-commander (en inglés). LECTURA DE DATOS DESDE UN FICHERO EXTERNOSupongamos que hemos creado los datos con EXCEL (o equivalente), y que los hemos guardadodesde EXCEL en formato CSV (Comma Separated Values). Este formato es simplemente unformato de texto en el que los datos se guardan tal como se han introducido en EXCEL, separadospor punto y coma, y sin que se añada ninguna información adicional (negritas, cursivas, colores delas letras, etc.). Para que R (y cualquier otro paquete estadístico) pueda utilizar los datos, éstosdeben introducirse de modo que cada variable figure en una columna, y cada fila represente uncaso. Asimismo, es conveniente que cada columna esté encabezada con el nombre de la variable.A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cadauno de los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) ysexo (1 = hembra, 2 = macho), midiéndose además su longitud y peso. Como se ve, cada columnacorresponde a una variable, y cada fila corresponde a un sujeto (un pez en este caso).A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Porejemplo, pudiera haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuyalongitud o peso se haya podido. En EXCEL al guardar el fichero hay que seleccionar “guardarcomo” y elegir como tipo de fichero CSV (delimitado por comas). EXCEL nos informará de que sólose guardará la hoja activa (deberemos aceptar), y a continuación nos avisará que el libro puedetener características no compatibles con CSV Deberemos elegir la opción SI, para queguardedefinitivamente el fichero en ese formato. Medir cuando falte algún dato, conviene introducirel valor NA, que R interpretará como Not Assigned (valor no asignado). En el ejemplo que semuestra a continuación vemos que hay valores perdidos en varias variables y varios casos, quehan sido consignados con el valor NA. 7
  8. 8. Para leer estos datos con R commander, una vez situados en la ventana de este programa hay quepicar con el ratón en la opción Data, luego Import data y por último from text file Data > Import data > from text file ...Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay queespecificar: Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Estenombre no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamarpeces a nuestro conjunto de datos. Como en el fichero están los nombres de las variables en la primera fila, marcamos la casillaVariable names in file. 8
  9. 9. Una vez introducida esta información, picando en OK, nos aparece la ventana para abrir ficheros deWindows. Buscamos el directorio en que hemos guardado nuestro fichero de datos y loseleccionamos: 9
  10. 10. En la pantalla de R-commander ha aparecido un comando en la ventana superior (script) y el mismocomando repetido en la ventana inferior (Output window). Este comando es concretamente:peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE,sep=";", na.strings="NA", dec=",",strip.white=TRUE)La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos) peces seintroduce el resultado de leer (read.table) el ficheroc:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de lasvariables en la cabecera (header=TRUE), que el separador de los datos es el punto y coma(sep=”;”), que los valores perdidos se han codificado como NA (na.strings=”NA”), que elseparador de cifras decimales es la coma (dec=”,”) y que en caso de leer variables de tipocarácter (variables cuyos valores son alfanuméricos, por ejemplo, nombres de islas) se eliminen losespacios anteriores y posteriores al valor registrado en dichas variables (strip.white=TRUE).En la ventana de salida (Output) no se observa ningún resultado ya que solamente se ha procedidoa la lectura de los datos. Esto se nos indica en la ventana inferior (Messages) donde aparece unanota señalando que se ha leido el dataset peces, y que éste tiene 20 filas y 4 columnas. 10
  11. 11. INTERVALOS DE CONFIANZAPara poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesisreferentes a las distribuciones de probabilidad para representar el comportamiento estadístico depoblaciones, se supone que la muestra de datos recogida es representativa del comportamiento dela población, y una de las formas más usuales de garantizar esa representatividad es mediantemuestras aleatorias simples.INTERVALO DE CONFIANZA DE LA MEDIA POBLACIONALVamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dostipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo,pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, apartede no informar sobre el error que cometemos. Otra forma es la estimación por intervalos queconsiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel deconfianza), de contener el valor de la media poblacional, informándonos del error.EJEMPLO: Queremos estudiar la altura media de todos los individuos con un nivel deconfianza de =0.05. αUtilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.DESCONOCIDA:Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:>Estadísticos >Medias >Test t para una muestra…Para el intervalo de confianza bilateral hay que marcarEn Hipótesis alternativa >Media poblacional = 0,Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%La instrucción R generada: > t.test(Pulsea1$Height, alternative=two.sided, mu=0.0, conf.level=.95) One Sample t-test data: Pulsea1$Height t = 180.1207, df = 91, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: (67.95957 69.47521)Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemosalternative=two.sided (Bilateral). 11
  12. 12. El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la mediamuestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianzabilateral se formula: xm t(n-1, 1-α/2) s/ ± , nCon s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1<= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertadque deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1-α/2) de la t de Student con (n-1) g.l.La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia deinstrucciones R , los extremos del intervalo de confianza buscado:> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))> s=sd(Pulsea1$Height, na.rm = TRUE)>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)>extrIzq;extrDer[1] 67.95957[1] 69.47521Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Esmuy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor“NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con losdatos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.framede Pulsos:> sum(is.na(Pulsea1$Activity))[1] 1La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Alaplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos),da la suma de los 1’s, que es 1.CONOCIDA:Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianzabilateral basándose en la distribución normal: σRecuérdese que el intervalo de confianza al 95% es xm ± z1−α / 2 n , con xm la media muestral yel cuantil 1-α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975).Con el mismo ejemplo, suponiendo que la desviación típica poblacional es σ =3.7, la siguientesecuencia de instruccions R nos da los extremos del intervalo de confianza:> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1,lower.tail=TRUE)*sigma/sqrt(n)> extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1,lower.tail=TRUE)*sigma/sqrt(n)> extrIzq;extrDer[1] 67.96133[1] 69.47345Tamaño de la muestra para estimar µ cuando σ es conocida. 12
  13. 13. Cuando la σ es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario paraobtener un intervalo de confianza con un margen de error dado.Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza. σPara el intervalo de confianza bilateral de la media, el margen de error es: E= z 1− α n , y despejando 2 z 2 α *σ 2de aquí el tamaño muestral: n= 1− 2 E2Vamos a hacer una pequeña tabla que recoja la variación del tamaño de la muestra para unconjunto de valores del margen de error , cuando sigma=3.7. Considerando un nivel de confianzadel 95%, z1-α/2 = z0,975 = 1,96 .Recordemos cómo obtener con R el valor z0.975 =aprox 1.96:> qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)[1] 1.959964Calcularemos una pequeña tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 aincrementos de 0.5, estarán contenidos en un vector de nombre EvectorUna secuencia de valores equidistantes se puede hacer con R:> 2.3:8[1] 2.3 3.3 4.3 5.3 6.3 7.3> Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0> Elongi=seq(length=12,from=0.5, by=0.2);Elongi [1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7La siguiente secuencia de instrucciones da la tabla de tamaños de muestra buscada:> sigma=3.7;> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil[1] 1.959964> Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector) [1] 210.358285 52.589571 23.373143 13.147393 8.414331 5.843286 4.293026 [8] 3.286848 2.597016 2.103583 [1] 211 53 24 14 9 6 5 4 3 3Los últimos valores son los enteros para n en correspondencia con las componentes del vector Evector (lafunción ceiling () da el entero mayor inmediato al valor del argumento.Así obtenemos cada Tamaño de la muestra con su correspondiente Margen de Error. Para tener menor Margende error se ha de aumentar la muestra, como es natural.TAMAÑO DE LA MUESTRA PARA ESTIMAR µ CUANDO σ ES DESCONOCIDA.El Margen de error o semiamplitud del intervalo de confianza es en el caso de σ es desconocida : E= t(n-1, 1-α/2) s/ n . 13
  14. 14. Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar unerror dado con un cierto nivel de confianza, pues s, cuasi desviación típica muestral. no es conocida a priori dela extracción de la muestra. Pero se podría hacer una tabla relacionando n y E, para diversos valores de sconsiderando estimaciones de s que seas sensatas.EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTARHIPÓTESISEJEMPLO:Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente,por medio de un intervalo de confianza al nivel de significación =0.05, o de confianza del 95%, y αutilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos agenerar un conjunto de datos con las alturas de los hombres.En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con lasecuencia::>Datos >Conjunto de datos activos>Filtrar datos.Como marcamos Incluir todas las variables, va a generar unData.frame con todos los datos referidossólo a Hombres: Gender==”Male”El nuevo conjunto de datos activo, que tiene siempre el tipodata.frame, se llamará AlturahombresEl intervalo de confianza para la media de altiras ,Emplando el R Commander, lo producen los menús:>Estadísticos > Medias >Test para una muestra….Resultando en la Ventana de resultados de R CommanderOne Sample t-testdata: Alturahombres$Heightt = 206.8254, df = 56, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 095 percent confidence interval: 70.06908 71.43969sample estimates:mean of x 70.75439Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969)consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media apulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas no está contenido en el intervalo de confianza calculado. 14
  15. 15. EJEMPLO:Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos.Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1 con larestricción de que se refiera a Hombres (“Male”) que Fuman.(“Smoke”) . La secuencia de filtrado_> Datos >Conjunto de datos activo > Filtrar conjunto de datos activo…Llamamos al conjunto de dato activo resultante:Pulso1HombresFuman,que tiene 1 sola Variable (columna) con Pulse1,con tantos datos como hombres fumadores.La instrucción R asociada al filtrado:> Pulso1HombresFuman <-subset(Pulsea1,subset=(Gender=="Male")&(Smokes=="Smoke"),select=c(Pulse1))Con el menu. > Estadísticos > Medias > Test t para una muestra…se genera la instrución R y el resultado con el intervalo de confianza bilateral de lamedia de pulsos con el 95% de confianza::> t.test(Pulso1HombresFuman$Pulse1, alternative=two.sided, mu=0.0, conf.level=.95)Ventana de resultados de R Commander:data: Pulso1HombresFuman$Pulse1t = 25.777, df = 19, p-value = 3.026e-16alternative hypothesis: true mean is not equal to 095 percent confidence interval: 65.41875 76.98125sample estimates:mean of x 71.2 15
  16. 16. EJEMPLO: Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuyanormalmente, con media 220 y desviación típica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203,229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media ycontrastar la hipótesis de µ=220, sin considerar conocida la desviación típica poblacional..Vamos a interpretar el resultado del test de hipótesis conhipótesis nula mu=220, y alternativa que mu<> 220Las instrucciones R asociadas:> t.test(Resistencia$Resis,alternative=two.sided, mu=220,conf.level=.95) One Sample t-testdata: Resistencia$Resist = -0.3801, df = 8, p-value = 0.7138alternative hypothesis: true mean is not95 percent confidence interval: (210.5774 226.7560)sample estimates:mean of x: 218.6667Como el valor p-value=0.7138 es mayor que α=0.05, nivel de significación, no rechazamos la hipótesis nula.Observando por otro lado el intervalo de confianza al 95%, como el valor 220 está en el intervalo, norechazamos que la resistencia media es 220. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓNEJEMPLO:En los datos de Pulsos, calcular el intervalo de confianza para la proporción de los individuos que no fuman,con un nivel de confianza del 95%, (nivel de significación α =0.05)El programa realiza el intervalo de la proporción de los individuos con un valor del factor atendiendo al ordenalfabético de la denominación de los niveles del factor. Aquí realizará el análisis sobre los NonSmoker y nosobre los Smoke. Si quisiéramos calcular el intervalo de los fumadores, tendríamos que cambiar el nombre alos campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de menús es: 16
  17. 17. > Estadísticos > Proporciones >Test de proporciones para una muestra…Para hace rl intervalo bilateral, se marcaProporción de la población=p0,(R debería escribir <> (distinto) en vez de = (igual)El valor para la Hipótesis nula: p=0.5 por defecto,no importa para intervalo de confianza, pero sí para test.Se elige Aproximación normal si se considera admisible. Se generan las siguientes instrucciones y respuestasen que incluimos nuestros comentarios:#Genera una tabla de frecuencias> .Table <- xtabs(~ Smokes , data= Pulsea1 )> .TableSmokesNonSmoker Smoke 64 28# La function rbind agrupa la fila numérica 64 28 como iun vector fila para aplicarle la# función prop.test para test de proporciones.> prop.test(rbind(.Table), alternative=two.sided, p=.5, conf.level=.95, correct=FALSE) 1-sample proportions test without continuity correctiondata: rbind(.Table), null probability 0.5X-squared = 14.087, df = 1, p-value = 0.0001746alternative hypothesis: true p is not equal to 0.595 percent confidence interval: 0.5953573 0.7802631sample estimates: p 0.6956522 estimador puntual- Con corrección de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303> prop.test(rbind(.Table), alternative=two.sided, p=.5, conf.level=.95, correct=TRUE)- Con la distribución binomial exacta, con el 95% de confianza: 0.5909669 0.7873276> binom.test(rbind(.Table), alternative=two.sided, p=.5, conf.level=.95) 17
  18. 18. PROCESO CON RCOMMANDER: Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interactivo de tablasde RCommander o mediante:ResiProp=data.frame(Resis)Y seleccionando dede el botón Conjunto de datos el data.frame Resiprop, Añadimos una columna a esta tabla:>Datos>Modificar variables del conjunto de datos activo>Recodificar variables…Y ya en esta situación:> Estadísticos >Proporciones >Test de proporciones para una muestra…con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%> .Table <- xtabs(~ Resis350 , data= ResiProp )> .TableResis350Grande Peque 6 4> binom.test(rbind(.Table), alternative=two.sided, p=.5, conf.level=.95) Exact binomial testdata: rbind(.Table)number of successes = 6, number of trials = 10, p-value = 0.7539alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval: 0.2623781 0.8784477sample estimates:probability of success 0.6Al nivel del factor que se considera “éxito” y cuya proporción se estudia, debe dársele un valor quealfabéticamente esté antes que el no deseado, para que R haga el cálculo adecuado. Aquí se ha elegido“Grande”, que está antes que “Peque”. 18
  19. 19. TAMAÑO DE MUESTRA (ALEATORIA SIMPLE) PARA ESTIMAR UNA PROPORCIÓNLlamamos error E al semiancho del intervalo de confianza para la proporción. Basándose en la validez de laaproximación normal de la variable binomial, si se tiene idea del posible valor de la proporción poblacional p z 2 α ·p(1 − p) 1−(con base en un muestreo previo, por ejemplo), el tamaño de la muestra es: n = 2 E2Si no se sabe nada de la magnitud de p, se elige una muestra de tamaño: z2 α 1− n = 2 4 * E2puesto que el valor p(1-p) es siempre no mayor que 1/4 .Obsérvese que a menor error E que se desee, el tamaño de la muestra debe ser mayor. Y a mayor nivel deconfianza ( o menor nivel de significación), el tamaño también crece.EJEMPLO:Qué tamaño de muestra hay que elegir para estimar una proporción de modo que el error en la estimación seamenor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximación normal con el criteriomás desfavorable).> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z[1] 1.959964> E=0.05; n=ceiling(z^2/(4*E^2));n[1] 385¿Qué tamaño resultaría en el caso de que se emplee una primera estimación de la proporción de valor 0.17 ?> p=0.17> n=ceiling(z^2*p*(1-p)/E^2);n[1] 217Naturalmente, con más información, se reduce el tamaño de la muestra necesaria. 19
  20. 20. INTERVALO DE CONFIANZA PARA LA VARIANZAR no da con un menú específico el intervalo de confianza para la varianza, aunque permite comparar varianzasde dos poblaciones a partir de sendas muestras de cada una.Admitiendo la hipótesis de normalidad en la población de partida, se puede calcular el intervalo de confianzapara la varianza: [(n-1)*s2/χ2(n-1, 1-α/2) ; (n-1)*s2/χ2(n-1, α/2) ], calculando cada componente de las fórmulas.EJEMPLO.-Para el caso de las 10 probetas de hormigón sometidas a un ensayo de rotura, con los datos de resistencia en elvector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel 95% para lavarianza y el de la desviación típica (los extremos son raíz cuadrada de los de la varianza), como sigue:> n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s[1] 18.11387> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der[1] 155.2355[1] 1093.549> izDtipica=sqrt(iz);> derDtipica=sqrt(der);izDtipica;derDtipica[1] 12.45935[1] 33.06886> print(c(iz,der));print(c(izDtipica,derDtipica))[1] 155.2355 1093.5493[1] 12.45935 33.06886Para valorar la normalidad de los datos,podemos utilizar la gráfica de comparación decuantiles con el modelo normal, al 95% deconfianza, que nos señala que es admisible.También´podemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk:>Estadísticos > Resúmenes > Test de normalidad de Shapiro-Wilk…> shapiro.test(ResiProp$Resis) Shapiro-Wilk normality testdata: ResiProp$ResisW = 0.8833, p-value = 0.1425Como el valor de p-value es mayor que el nivel de significación 0.05 por ejemplo, se puede admitir lanormalidad de los datos con un nivel de confianza del 95%. 20
  21. 21. DATOS EMPAREJADOS:Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cada unose le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A finde eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignación deorden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una característica en cada zapato querefleja su comportamiento ante el uso, que se interpreta con que si la característica medida tiene mayor valores porque ese tipo de material ofrece mejor calidad. Así resulta:Niño MatA MatB1 13,2 14,02 8,2 8,83 10,9 11,24 14,3 14,25 10,7 11,86 6,6 6,47 9,5 9,88 10,8 11,39 8,8 9,310 13,3 13,6Considerando los datos de los desgastes en 10 pares de zapatos según el material A y B, efectuamos lacomparación.> t.test(Zapatillas$MatA, Zapatillas$MatB, alternative=two.sided, conf.level=.95, paired=TRUE) Paired t-testdata: Zapatillas$MatA and Zapatillas$MatBt = -3.3489, df = 9, p-value = 0.008539alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -0.6869539 -0.1330461sample estimates:mean of the differences -0.41El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es (-0,687; -0,133),lo que indica que el valor de la característica de uso (por tanto la satisfacción) es mayor con el Material B quecon el A. Desde la visión de contraste de hipótesis, el reducido valor del p-valor: 0,009, indica que la hipótesisde igualdad de medias se rechazaría con un nivel de significación del 5%, frente a la hipótesis de que los dosmateriales son igualmente satisfactorios.Vamos a tratar los datos, erróneamente respecto al diseño del experimento, comparando como si fuesenindependientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna ovariable, e introducir otra columna que indica el tipo de Material. Se opera con los menús,>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo…, con instrucciones R:> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])> names(ZapatillasApilados) <- c("Calidad", "Material")Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta:> t.test(Calidad~Material, alternative=two.sided,conf.level=.95, var.equal=FALSE, data=ZapatillasApilados) Welch Two Sample t-test 21
  22. 22. data: Calidad by Materialt = -0.3689, df = 17.987, p-value = 0.7165alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -2.745046 1.925046sample estimates:mean in group MatA mean in group MatB 10.63 11.04Obsérvese que el intervalo de confianza del 95%, (-2.745046 1.925046)Incluye el valor ‘cero’, es decir, no se puede afirmar queun material es de más calidad que el otro.El realizar el experimento con datos apareados aumenta la sensibilidaddel contraste, detectando mejor las diferencias entre los datos. 22

×