SlideShare una empresa de Scribd logo
1 de 22
ESCUELA SUPERIOR
  POLITÉCNICA DE
   CHIMBORAZO
“ESPOCH” ESCUELA
 DE INGENIERIA DE
    EMPRESAS,
    MODALIDAD
 FORMACIÓN DUAL




 INTERVALOS
DE CONFIANZA
Y CONTRASTES
DE HIPÓTESIS
  ANDREA CRISTINA
    BALLADARES
   CARRASQUILLO
INTRODUCCION




                              INICIAR R COMMANDER

Una vez que R se está ejecutando, simplemente cargando el paquete Rcmdr
mediante la instrucción library(Rcmdr) en la consola de R, se inicia la interfaz gráca
de usuario (_GUI_) de R Commander. Para que funcione correctamente con
Windows, R Commander requiere la interfaz de documento único (SDI) de R1.
Después de cargar el paquete, las ventanas R Console y R Commander deberían
aparecer más o menos como en las guras ?? y ??. Éstas y otras imágenes en este
documento fueron creadas con Windows XP; si usa otra versión de Windows (o, por
supuesto, otra plataforma informática), entonces la apariencia de la pantalla puede
diferir2. Si estos paquetes no están instalados, Rcmdr ofrecerá instalarlos desde
Internet o desde archivos locales (e.g., desde un CD_ROM). Si usted instala el
paquete Rcmdr a través de Windows_R GUI_, los paquetes de los cuales Rcmdr
depende deberían ser instalados automáticamente. En general, puede instalar el
paquete Rcmdr y todos los paquetes de los que depende a través de la función
install.packages, estableciendo el argumento dependencies = TRUE. Gracias a Dirk
Eddelbuettel, los usuarios de Debian Linux sólo necesitan la instrucción apt-get install
r-cran-rcmdr para instalar el paquete Rcmdr junto con todos los paquetes que éste
requiere. En cualquier caso, instalar y cargar el paquete Rcmdr en los sistemas Linux
suele ser sencillo. La tarea puede ser más complicada con OS/X en los sistemas
Macintosh, ya que el paquete tcltk del cual depende Rcmdr requiere que Tcl/Tk esté
instalado y que R se esté ejecutando con XWindows.




      2
DEDICATORIA




El momento en que el ser humano culmina una meta, es cuando se detiene a hacer un recuento de

todas las ayudas recibidas, de las voces de aliento, de las expresiones de amor y comprensión; es

por eso que nosotras dedico éste triunfo manual a nuestros queridos padres quienes con su infinita

adhesión nos han brindado todo su apoyo sin escatimar sacrificio alguno. A nuestros hermanos,

porque han sido los amigos, los compañeros fieles en el camino hasta aquí recorrido; y en general

a toda nuestra familia que de una u otra manera contribuyeron para el logro de mi carrera.



A Dios por guiar nuestros pasos y ayudarnos a superar los obstáculos que se nos presentaron a lo

largo del camino; y, por último queremos dedicar este logro a todos nuestros amigos testigos de

nuestros triunfos y fracasos.




       3
AGRADECIMIENTO




Hacemos llegar nuestro profundo agradecimiento primero a Dios por darnos fortaleza y la

constancia para cumplir nuestros objetivos propuestos, a nuestros padres por estar siempre a

nuestro lado brindándonos su apoyo, a nuestra universidad y especialmente a la Facultad de

Administración de empresas , que mediante sus autoridades y docentes nos brindaron una sólida

formación universitaria y lograron que culminemos con éxito una más de nuestras etapas

académicas.




       4
EL ENTORNO R-COMMANDER


GENERALIDADES


R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John Fox, que permite
acceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer el
lenguaje de comandos propio de este entorno. Al arrancar R-Commander, se nos presentan dos
ventanas:




                  Figura 1: La ventana R Console tras cargar el paquete Rcmdr.




       5
Lenguaje de comandos de R, simplemente observando lo que va apareciendo en la ventana script
se irá familiarizando (y con un poco de interés, también aprendiendo) con dicho lenguaje. Es más, el
usuario puede introducir comandos directamente en dicha ventana, y tras pulsar el botón Submit
dichos comandos serán ejecutados1 y su resultado mostrado en la ventana Output. El script puede
guardarse y volver a ser ejecutado directamente otras veces con otros conjuntos de datos
diferentes, sin que el usuario tenga que desplazarse por todo el sistema de menús para volver a
realizar las mismas tareas.




       6
El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando el
ratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando basta
con situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varios
comandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit
.Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramos
acceder. Las opciones son:


   •   − File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos,
       resultados, sintaxis, etc.
   •   − Edit: las típicas opciones para cortar, pegar, borrar, etc.
   •   − Data: Utilidades para la gestión de datos (creación de datos, importación desde
       otros programas, recodificación de variables, etc.)
   •   − Statistics: ejecución de procedimientos propiamente estadísticos
   •   − Graphs: gráficos
   •   − Models: definición y uso de modelos específicos para el análisis de datos.
   •   − Distribution: probabilidades, cuantiles y gráficos de las distribuciones de
       probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.)
   •   − Tools: carga de librerías y definición del entorno.
   •   − Help: ayuda sobre R-commander (en inglés).



                LECTURA DE DATOS DESDE UN FICHERO EXTERNO


Supongamos que hemos creado los datos con EXCEL (o equivalente), y que los hemos guardado
desde EXCEL en formato CSV (Comma Separated Values). Este formato es simplemente un
formato de texto en el que los datos se guardan tal como se han introducido en EXCEL, separados
por punto y coma, y sin que se añada ninguna información adicional (negritas, cursivas, colores de
las letras, etc.). Para que R (y cualquier otro paquete estadístico) pueda utilizar los datos, éstos
deben introducirse de modo que cada variable figure en una columna, y cada fila represente un
caso. Asimismo, es conveniente que cada columna esté encabezada con el nombre de la variable.
A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cada
uno de los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) y
sexo (1 = hembra, 2 = macho), midiéndose además su longitud y peso. Como se ve, cada columna
corresponde a una variable, y cada fila corresponde a un sujeto (un pez en este caso).
A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Por
ejemplo, pudiera haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya
longitud o peso se haya podido. En EXCEL al guardar el fichero hay que seleccionar “guardar
como” y elegir como tipo de fichero CSV (delimitado por comas). EXCEL nos informará de que sólo
se guardará la hoja activa (deberemos aceptar), y a continuación nos avisará que el libro puede
tener características no compatibles con CSV Deberemos elegir la opción SI, para que
guardedefinitivamente el fichero en ese formato. Medir cuando falte algún dato, conviene introducir
el valor NA, que R interpretará como Not Assigned (valor no asignado). En el ejemplo que se
muestra a continuación vemos que hay valores perdidos en varias variables y varios casos, que
han sido consignados con el valor NA.




       7
Para leer estos datos con R commander, una vez situados en la ventana de este programa hay que
picar con el ratón en la opción Data, luego Import data y por último from text file



                              Data > Import data > from text file ...




Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay que
especificar:
 Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Este
nombre no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamar
peces a nuestro conjunto de datos.
 Como en el fichero están los nombres de las variables en la primera fila, marcamos la casilla
Variable names in file.




       8
Una vez introducida esta información, picando en OK, nos aparece la ventana para abrir ficheros de
Windows. Buscamos el directorio en que hemos guardado nuestro fichero de datos y lo
seleccionamos:




       9
En la pantalla de R-commander ha aparecido un comando en la ventana superior (script) y el mismo
comando repetido en la ventana inferior (Output window). Este comando es concretamente:
peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE,
sep=";", na.strings="NA", dec=",",strip.white=TRUE)




La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos) peces se
introduce el resultado de leer (read.table) el fichero
c:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de las
variables en la cabecera (header=TRUE), que el separador de los datos es el punto y coma
(sep=”;”), que los valores perdidos se han codificado como NA (na.strings=”NA”), que el
separador de cifras decimales es la coma (dec=”,”) y que en caso de leer variables de tipo
carácter (variables cuyos valores son alfanuméricos, por ejemplo, nombres de islas) se eliminen los
espacios anteriores y posteriores al valor registrado en dichas variables (strip.white=TRUE).
En la ventana de salida (Output) no se observa ningún resultado ya que solamente se ha procedido
a la lectura de los datos. Esto se nos indica en la ventana inferior (Messages) donde aparece una
nota señalando que se ha leido el dataset peces, y que éste tiene 20 filas y 4 columnas.




      10
INTERVALOS DE CONFIANZA
Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis
referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de
poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de
la población, y una de las formas más usuales de garantizar esa representatividad es mediante
muestras aleatorias simples.

INTERVALO DE CONFIANZA DE LA MEDIA POBLACIONAL
Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos
tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo,
pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte
de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que
consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de
confianza), de contener el valor de la media poblacional, informándonos del error.

EJEMPLO:         Queremos estudiar la altura media de todos los individuos con un nivel de
confianza de   =0.05.
                α




Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.
DESCONOCIDA:
Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:
>Estadísticos >Medias >Test t para una muestra…




Para el intervalo de confianza bilateral hay que marcar
En Hipótesis alternativa >Media poblacional = 0,
Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.
Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%
La instrucción R generada:
           > t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)
                                        One Sample t-test
                                      data: Pulsea1$Height
                            t = 180.1207, df = 91, p-value < 2.2e-16
                      alternative hypothesis: true mean is not equal to 0
                                 95 percent confidence interval:
                                       (67.95957 69.47521)


Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos
alternative='two.sided' (Bilateral).

      11
El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la media
muestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianza
bilateral se formula:
                                      xm     t(n-1, 1-α/2) s/
                                             ±
                                                              ,  n




Con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1
<= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad
que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1-
α/2) de la t de Student con (n-1) g.l.
La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia de
instrucciones R , los extremos del intervalo de confianza buscado:


> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> s=sd(Pulsea1$Height, na.rm = TRUE)
>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrIzq;extrDer
[1] 67.95957
[1] 69.47521



Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es
muy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor
“NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con los
datos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame
de Pulsos:
> sum(is.na(Pulsea1$Activity))
[1] 1
La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Al
aplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos),
da la suma de los 1’s, que es 1.

CONOCIDA:
Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianza
bilateral basándose en la distribución normal:
                                                                           σ
Recuérdese que el intervalo de confianza al 95% es         xm ± z1−α / 2
                                                                           n   , con xm la media muestral y
el cuantil 1-α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975).
Con el mismo ejemplo, suponiendo que la desviación típica poblacional es σ =3.7, la siguiente
secuencia de instruccions R nos da los extremos del intervalo de confianza:

> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1,
lower.tail=TRUE)*sigma/sqrt(n)
> extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1,
lower.tail=TRUE)*sigma/sqrt(n)
> extrIzq;extrDer
[1] 67.96133
[1] 69.47345



Tamaño de la muestra para estimar µ cuando σ es conocida.



       12
Cuando la σ es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario para
obtener un intervalo de confianza con un margen de error dado.
Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza.
                                                                                                       σ
Para el intervalo de confianza bilateral de la media, el margen de error es: E=              z
                                                                                              1−
                                                                                                   α
                                                                                                        n
                                                                                                            , y despejando
                                                                                                   2



                                        z 2 α *σ 2
de aquí el tamaño muestral:        n=
                                         1−
                                              2

                                              E2
Vamos a hacer una pequeña tabla que recoja la variación del tamaño de la muestra para un
conjunto de valores del margen de error , cuando sigma=3.7. Considerando un nivel de confianza
del 95%, z1-α/2 = z0,975 = 1,96 .
Recordemos cómo obtener con R el valor z0.975 =aprox 1.96:
> qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)
[1] 1.959964
Calcularemos una pequeña tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a
incrementos de 0.5, estarán contenidos en un vector de nombre Evector
Una secuencia de valores equidistantes se puede hacer con R:

> 2.3:8
[1] 2.3 3.3 4.3 5.3 6.3 7.3
> Evector=seq(0.5,5, by=0.5);Evector
 [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> Elongi=seq(length=12,from=0.5, by=0.2);Elongi
 [1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7

La siguiente secuencia de instrucciones da la tabla de tamaños de muestra buscada:
> sigma=3.7;
> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil
[1] 1.959964
> Evector=seq(0.5,5, by=0.5);Evector
 [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector)
 [1] 210.358285 52.589571 23.373143 13.147393      8.414331    5.843286                                4.293026
 [8]   3.286848   2.597016   2.103583
 [1] 211 53 24 14      9   6   5   4   3   3


Los últimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la
función ceiling () da el entero mayor inmediato al valor del argumento.
Así obtenemos cada Tamaño de la muestra con su correspondiente Margen de Error. Para tener menor Margen
de error se ha de aumentar la muestra, como es natural.


TAMAÑO DE LA MUESTRA PARA ESTIMAR µ CUANDO σ ES DESCONOCIDA.

El Margen de error o semiamplitud del intervalo de confianza es en el caso de σ es desconocida :

                                                     E= t(n-1, 1-α/2) s/   n
                                                                               .




       13
Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar un
error dado con un cierto nivel de confianza, pues s, cuasi desviación típica muestral. no es conocida a priori de
la extracción de la muestra. Pero se podría hacer una tabla relacionando n y E, para diversos valores de s
considerando estimaciones de s que seas sensatas.


EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTAR
HIPÓTESIS


EJEMPLO:

Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente,
por medio de un intervalo de confianza al nivel de significación       =0.05, o de confianza del 95%, y
                                                                         α




utilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a
generar un conjunto de datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la
secuencia::

>Datos >Conjunto de datos activos>Filtrar datos.

Como marcamos Incluir todas las variables, va a generar un
Data.frame con todos los datos referidos
sólo a Hombres: Gender==”Male”

El nuevo conjunto de datos activo, que tiene siempre el tipo
data.frame, se llamará Alturahombres

El intervalo de confianza para la media de altiras ,
Emplando el R Commander, lo producen los menús:

>Estadísticos > Medias >Test para una muestra….
Resultando en la Ventana de resultados de R Commander




One Sample t-test

data: Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative hypothesis:
 true mean is not equal to 0
95 percent confidence interval:
 70.06908 71.43969
sample estimates:
mean of x
 70.75439

Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969)
consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media a
pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.

Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas
                       no está contenido en el intervalo de confianza calculado.

       14
EJEMPLO:

Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos.
Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1 con la
restricción de que se refiera a Hombres (“Male”) que Fuman.(“Smoke”) . La secuencia de filtrado_
> Datos >Conjunto de datos activo > Filtrar conjunto de datos activo…

Llamamos al conjunto de dato activo resultante:
Pulso1HombresFuman,
que tiene 1 sola Variable (columna) con Pulse1,
con tantos datos como hombres fumadores.

La instrucción R asociada al filtrado:
> Pulso1HombresFuman <-
subset(Pulsea1,
subset=(Gender=="Male")&(Smokes=="Smoke"),
select=c(Pulse1))




Con el menu. > Estadísticos > Medias > Test t para una muestra…
se genera la instrución R y el resultado con el intervalo de confianza bilateral de la
media de pulsos con el 95% de confianza::
> t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95)

Ventana de resultados de R Commander:
data: Pulso1HombresFuman$Pulse1
t = 25.777, df = 19, p-value = 3.026e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 65.41875 76.98125
sample estimates:
mean of x
     71.2




       15
EJEMPLO:


 Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya
normalmente, con media 220 y desviación típica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203,
229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y
contrastar la hipótesis de µ=220, sin considerar conocida la desviación típica poblacional..
Vamos a interpretar el resultado del test de hipótesis con
hipótesis nula mu=220, y alternativa que mu<> 220

Las instrucciones R asociadas:
> t.test(Resistencia$Resis,
alternative='two.sided', mu=220,
conf.level=.95)
      One Sample t-test
data: Resistencia$Resis
t = -0.3801, df = 8, p-value = 0.7138
alternative hypothesis: true mean is not
95 percent confidence interval:
 (210.5774   226.7560)
sample estimates:
mean of x:   218.6667



Como el valor p-value=0.7138 es mayor que α=0.05, nivel de significación, no rechazamos la hipótesis nula.
Observando por otro lado el intervalo de confianza al 95%, como el valor 220 está en el intervalo, no
rechazamos que la resistencia media es 220.



                 INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN



EJEMPLO:


En los datos de Pulsos, calcular el intervalo de confianza para la proporción de los individuos que no fuman,
con un nivel de confianza del 95%, (nivel de significación   α
                                                              =0.05)
El programa realiza el intervalo de la proporción de los individuos con un valor del factor atendiendo al orden
alfabético de la denominación de los niveles del factor. Aquí realizará el análisis sobre los NonSmoker y no
sobre los Smoke. Si quisiéramos calcular el intervalo de los fumadores, tendríamos que cambiar el nombre a
los campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de menús es:




       16
> Estadísticos > Proporciones >Test de proporciones para una muestra…




Para hace rl intervalo bilateral, se marca
Proporción de la población=p0,
(R debería escribir <> (distinto) en vez de = (igual)
El valor para la Hipótesis nula: p=0.5 por defecto,
no importa para intervalo de confianza, pero sí para test.

Se elige Aproximación normal si se considera admisible. Se generan las siguientes instrucciones y respuestas
en que incluimos nuestros comentarios:
#Genera una tabla de frecuencias
> .Table <- xtabs(~ Smokes , data= Pulsea1 )
> .Table

Smokes
NonSmoker         Smoke
       64            28

# La function rbind agrupa la fila numérica 64 28 como iun vector fila para aplicarle la
# función prop.test para test de proporciones.

> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)

       1-sample proportions test without continuity correction

data: rbind(.Table), null probability 0.5
X-squared = 14.087, df = 1, p-value = 0.0001746
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.5953573 0.7802631
sample estimates:
        p            0.6956522      estimador puntual

- Con corrección de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303
> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)

- Con la distribución binomial exacta, con el 95% de confianza: 0.5909669 0.7873276
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)




       17
PROCESO CON RCOMMANDER:



 Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interactivo de tablas
de RCommander o mediante:
ResiProp=data.frame(Resis)

Y seleccionando dede el botón Conjunto de datos el data.frame Resiprop, Añadimos una columna a esta tabla:
>Datos>Modificar variables del conjunto de datos activo>Recodificar variables…




Y ya en esta situación:
> Estadísticos >Proporciones >Test de proporciones para una muestra…
con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%
> .Table <- xtabs(~ Resis350 , data= ResiProp )
> .Table
Resis350
Grande Peque
     6      4
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

                              Exact binomial test
data: rbind(.Table)
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.2623781 0.8784477
sample estimates:
probability of success
                   0.6

Al nivel del factor que se considera “éxito” y cuya proporción se estudia, debe dársele un valor que
alfabéticamente esté antes que el no deseado, para que R haga el cálculo adecuado. Aquí se ha elegido
“Grande”, que está antes que “Peque”.




       18
TAMAÑO DE MUESTRA (ALEATORIA SIMPLE) PARA ESTIMAR UNA PROPORCIÓN



Llamamos error E al semiancho del intervalo de confianza para la proporción. Basándose en la validez de la
aproximación normal de la variable binomial, si se tiene idea del posible valor de la proporción poblacional p
                                                                                 z 2 α ·p(1 − p)
                                                                                  1−
(con base en un muestreo previo, por ejemplo), el tamaño de la muestra es: n =         2

                                                                                           E2
Si no se sabe nada de la magnitud de p, se elige una muestra de tamaño:

                                                          z2    α
                                                           1−
                                                  n   =         2
                                                          4 * E2

puesto que el valor p(1-p) es siempre no mayor que 1/4 .
Obsérvese que a menor error E que se desee, el tamaño de la muestra debe ser mayor. Y a mayor nivel de
confianza ( o menor nivel de significación), el tamaño también crece.

EJEMPLO:


Qué tamaño de muestra hay que elegir para estimar una proporción de modo que el error en la estimación sea
menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximación normal con el criterio
más desfavorable).
> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z
[1] 1.959964
> E=0.05; n=ceiling(z^2/(4*E^2));n
[1] 385

¿Qué tamaño resultaría en el caso de que se emplee una primera estimación de la proporción de valor 0.17 ?
> p=0.17
> n=ceiling(z^2*p*(1-p)/E^2);n
[1] 217



Naturalmente, con más información, se reduce el tamaño de la muestra necesaria.




       19
INTERVALO DE CONFIANZA PARA LA VARIANZA



R no da con un menú específico el intervalo de confianza para la varianza, aunque permite comparar varianzas
de dos poblaciones a partir de sendas muestras de cada una.
Admitiendo la hipótesis de normalidad en la población de partida, se puede calcular el intervalo de confianza
para la varianza:



       [(n-1)*s2/χ2(n-1, 1-α/2) ; (n-1)*s2/χ2(n-1, α/2) ], calculando cada componente de las fórmulas.



EJEMPLO.-


Para el caso de las 10 probetas de hormigón sometidas a un ensayo de rotura, con los datos de resistencia en el
vector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel 95% para la
varianza y el de la desviación típica (los extremos son raíz cuadrada de los de la varianza), como sigue:
> n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s
[1] 18.11387
> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)
> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)
> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der
[1] 155.2355
[1] 1093.549
> izDtipica=sqrt(iz);
> derDtipica=sqrt(der);izDtipica;derDtipica
[1] 12.45935
[1] 33.06886
> print(c(iz,der));print(c(izDtipica,derDtipica))
[1] 155.2355 1093.5493
[1] 12.45935 33.06886

Para valorar la normalidad de los datos,
podemos utilizar la gráfica de comparación de
cuantiles con el modelo normal, al 95% de
confianza, que nos señala que es admisible.


También´podemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk:

>Estadísticos > Resúmenes > Test de normalidad de Shapiro-Wilk…
> shapiro.test(ResiProp$Resis)
      Shapiro-Wilk normality test
data: ResiProp$Resis
W = 0.8833, p-value = 0.1425

Como el valor de p-value es mayor que el nivel de significación 0.05 por ejemplo, se puede admitir la
normalidad de los datos con un nivel de confianza del 95%.

       20
DATOS EMPAREJADOS:

Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cada uno
se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin
de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignación de
orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una característica en cada zapato que
refleja su comportamiento ante el uso, que se interpreta con que si la característica medida tiene mayor valor
es porque ese tipo de material ofrece mejor calidad. Así resulta:

Niño   MatA    MatB
1      13,2    14,0
2      8,2     8,8
3      10,9    11,2
4      14,3    14,2
5      10,7    11,8
6      6,6     6,4
7      9,5     9,8
8      10,8    11,3
9      8,8     9,3
10     13,3    13,6


Considerando los datos de los desgastes en 10 pares de zapatos según el material A y B, efectuamos la
comparación.
> t.test(Zapatillas$MatA, Zapatillas$MatB,
   alternative='two.sided',
       conf.level=.95, paired=TRUE)

  Paired t-test

data: Zapatillas$MatA and Zapatillas$MatB
t = -3.3489, df = 9, p-value = 0.008539
alternative hypothesis:
 true difference in means is not equal to 0
95 percent confidence interval:
 -0.6869539 -0.1330461
sample estimates:
mean of the differences
                  -0.41

El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es
                                                 (-0,687; -0,133),
lo que indica que el valor de la característica de uso (por tanto la satisfacción) es mayor con el Material B que
con el A. Desde la visión de contraste de hipótesis, el reducido valor del p-valor: 0,009, indica que la hipótesis
de igualdad de medias se rechazaría con un nivel de significación del 5%, frente a la hipótesis de que los dos
materiales son igualmente satisfactorios.
Vamos a tratar los datos, erróneamente respecto al diseño del experimento, comparando como si fuesen
independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o
variable, e introducir otra columna que indica el tipo de Material. Se opera con los menús,
>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo…, con instrucciones R:
> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])
> names(ZapatillasApilados) <- c("Calidad", "Material")

Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta:
> t.test(Calidad~Material, alternative='two.sided',
conf.level=.95, var.equal=FALSE, data=ZapatillasApilados)
      Welch Two Sample t-test

       21
data: Calidad by Material
t = -0.3689, df = 17.987, p-value = 0.7165
alternative hypothesis:
             true difference in means is not equal to 0
95 percent confidence interval:
 -2.745046 1.925046
sample estimates:
mean in group MatA mean in group MatB
             10.63              11.04

Obsérvese que el intervalo de confianza del 95%, (-2.745046 1.925046)
Incluye el valor ‘cero’, es decir, no se puede afirmar que
un material es de más calidad que el otro.
El realizar el experimento con datos apareados aumenta la sensibilidad
del contraste, detectando mejor las diferencias entre los datos.




       22

Más contenido relacionado

La actualidad más candente

Codigo para crear la base de datos
Codigo para crear la base de datosCodigo para crear la base de datos
Codigo para crear la base de datosAlvaro Cardona
 
Comandos de configuracion vfp
Comandos de configuracion vfpComandos de configuracion vfp
Comandos de configuracion vfphmosquera
 
Manual de programacion LaTeX
Manual de programacion LaTeXManual de programacion LaTeX
Manual de programacion LaTeXMoisés Toledo
 
Linux ud3 - redireccionamiento y tuberias
Linux   ud3 - redireccionamiento y tuberiasLinux   ud3 - redireccionamiento y tuberias
Linux ud3 - redireccionamiento y tuberiasJavier Muñoz
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del bloogerLUISLEMY
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del bloogerCHONGOMS
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del bloogeryacque-1992
 
Primer trabajo de sistemas de informacion empresarial
Primer trabajo de sistemas de informacion empresarialPrimer trabajo de sistemas de informacion empresarial
Primer trabajo de sistemas de informacion empresarialPamela Quintuprai Muñoz
 
estructura_de_un_programa_en_lenguaje_ensamblador
estructura_de_un_programa_en_lenguaje_ensambladorestructura_de_un_programa_en_lenguaje_ensamblador
estructura_de_un_programa_en_lenguaje_ensambladorGloria Azúa
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del bloogerpatochongo
 
Programacinenshell linux
Programacinenshell linuxProgramacinenshell linux
Programacinenshell linuxusupr2014
 
Visual_foxpro 9.0
Visual_foxpro 9.0Visual_foxpro 9.0
Visual_foxpro 9.0Ernes 28
 

La actualidad más candente (17)

Codigo para crear la base de datos
Codigo para crear la base de datosCodigo para crear la base de datos
Codigo para crear la base de datos
 
Comandos de configuracion vfp
Comandos de configuracion vfpComandos de configuracion vfp
Comandos de configuracion vfp
 
Manual practicosql
Manual practicosqlManual practicosql
Manual practicosql
 
Manual de programacion LaTeX
Manual de programacion LaTeXManual de programacion LaTeX
Manual de programacion LaTeX
 
Belen carrillo
Belen carrilloBelen carrillo
Belen carrillo
 
Linux ud3 - redireccionamiento y tuberias
Linux   ud3 - redireccionamiento y tuberiasLinux   ud3 - redireccionamiento y tuberias
Linux ud3 - redireccionamiento y tuberias
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del blooger
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del blooger
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del blooger
 
Primer trabajo de sistemas de informacion empresarial
Primer trabajo de sistemas de informacion empresarialPrimer trabajo de sistemas de informacion empresarial
Primer trabajo de sistemas de informacion empresarial
 
David freire
David freireDavid freire
David freire
 
estructura_de_un_programa_en_lenguaje_ensamblador
estructura_de_un_programa_en_lenguaje_ensambladorestructura_de_un_programa_en_lenguaje_ensamblador
estructura_de_un_programa_en_lenguaje_ensamblador
 
Introducion del blooger
Introducion del bloogerIntroducion del blooger
Introducion del blooger
 
Truquillos LaTeX
Truquillos LaTeXTruquillos LaTeX
Truquillos LaTeX
 
Programacinenshell linux
Programacinenshell linuxProgramacinenshell linux
Programacinenshell linux
 
Comandos linux
Comandos linuxComandos linux
Comandos linux
 
Visual_foxpro 9.0
Visual_foxpro 9.0Visual_foxpro 9.0
Visual_foxpro 9.0
 

Destacado

8 Balanced Scorecard
8 Balanced Scorecard8 Balanced Scorecard
8 Balanced ScorecardMario Veloz
 
Manejo del lugar de los hechos
Manejo del lugar de los hechosManejo del lugar de los hechos
Manejo del lugar de los hechosjoshito23
 
Guia informaticabasica
Guia informaticabasicaGuia informaticabasica
Guia informaticabasicalinda31
 
Manual de cadena de custodia
Manual de cadena de custodiaManual de cadena de custodia
Manual de cadena de custodiaMona Beautifull
 
Sims 2 100 Baby Challenge
Sims 2 100 Baby ChallengeSims 2 100 Baby Challenge
Sims 2 100 Baby Challengeguestc83ec0
 
Curso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar Serrano
Curso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar SerranoCurso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar Serrano
Curso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar SerranoMiguel Aguilar
 
Estrategias competitivas básicas
Estrategias competitivas básicasEstrategias competitivas básicas
Estrategias competitivas básicasLarryJimenez
 
Liderazgo y cultura organizacional
Liderazgo y cultura organizacionalLiderazgo y cultura organizacional
Liderazgo y cultura organizacionalericagonzales1991
 
Registra información contable de diversas entidades fabriles
Registra información contable de diversas entidades fabrilesRegistra información contable de diversas entidades fabriles
Registra información contable de diversas entidades fabrileskarenandree
 
Emociones - denifición y clasificaciones -
Emociones - denifición y clasificaciones -Emociones - denifición y clasificaciones -
Emociones - denifición y clasificaciones -Alternativa Abierta
 
07. el ejercicio físico contra la obesidad infantil
07.  el ejercicio físico contra la obesidad infantil07.  el ejercicio físico contra la obesidad infantil
07. el ejercicio físico contra la obesidad infantilEduardoLlobet
 
La distinci�n entre ciencias sociales y ciencias naturales
La distinci�n entre ciencias sociales y ciencias naturalesLa distinci�n entre ciencias sociales y ciencias naturales
La distinci�n entre ciencias sociales y ciencias naturalesMagali Gutierrez Rosa
 
Estrategias de la cadena de suministros
Estrategias de la cadena de suministrosEstrategias de la cadena de suministros
Estrategias de la cadena de suministrosDiego Caicedo
 
Uft sociologia politica
Uft sociologia politicaUft sociologia politica
Uft sociologia politicaGabriel
 

Destacado (20)

8 Balanced Scorecard
8 Balanced Scorecard8 Balanced Scorecard
8 Balanced Scorecard
 
Manejo del lugar de los hechos
Manejo del lugar de los hechosManejo del lugar de los hechos
Manejo del lugar de los hechos
 
redaccion universitaria
redaccion universitariaredaccion universitaria
redaccion universitaria
 
Fijación de precios
Fijación de preciosFijación de precios
Fijación de precios
 
Guia informaticabasica
Guia informaticabasicaGuia informaticabasica
Guia informaticabasica
 
Manual de cadena de custodia
Manual de cadena de custodiaManual de cadena de custodia
Manual de cadena de custodia
 
Sims 2 100 Baby Challenge
Sims 2 100 Baby ChallengeSims 2 100 Baby Challenge
Sims 2 100 Baby Challenge
 
Cápsula 1. estudios de mercado
Cápsula 1. estudios de mercadoCápsula 1. estudios de mercado
Cápsula 1. estudios de mercado
 
C:\Fakepath\Christie
C:\Fakepath\ChristieC:\Fakepath\Christie
C:\Fakepath\Christie
 
Curso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar Serrano
Curso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar SerranoCurso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar Serrano
Curso Gestión de Procesos FEB.2014 - Dr. Miguel Aguilar Serrano
 
Estrategias competitivas básicas
Estrategias competitivas básicasEstrategias competitivas básicas
Estrategias competitivas básicas
 
Liderazgo y cultura organizacional
Liderazgo y cultura organizacionalLiderazgo y cultura organizacional
Liderazgo y cultura organizacional
 
Registra información contable de diversas entidades fabriles
Registra información contable de diversas entidades fabrilesRegistra información contable de diversas entidades fabriles
Registra información contable de diversas entidades fabriles
 
Emociones - denifición y clasificaciones -
Emociones - denifición y clasificaciones -Emociones - denifición y clasificaciones -
Emociones - denifición y clasificaciones -
 
07. el ejercicio físico contra la obesidad infantil
07.  el ejercicio físico contra la obesidad infantil07.  el ejercicio físico contra la obesidad infantil
07. el ejercicio físico contra la obesidad infantil
 
La distinci�n entre ciencias sociales y ciencias naturales
La distinci�n entre ciencias sociales y ciencias naturalesLa distinci�n entre ciencias sociales y ciencias naturales
La distinci�n entre ciencias sociales y ciencias naturales
 
Estrategias de la cadena de suministros
Estrategias de la cadena de suministrosEstrategias de la cadena de suministros
Estrategias de la cadena de suministros
 
Uft sociologia politica
Uft sociologia politicaUft sociologia politica
Uft sociologia politica
 
Manual MinitaB.
Manual MinitaB.Manual MinitaB.
Manual MinitaB.
 
MANUAL
MANUAL MANUAL
MANUAL
 

Similar a Espoch modalidad dual cristina balladares

Minimanualrcomander
MinimanualrcomanderMinimanualrcomander
Minimanualrcomanderxavier-1990
 
Mini manual R commander kathy moya dual
Mini manual R commander kathy moya dualMini manual R commander kathy moya dual
Mini manual R commander kathy moya dualJean Hidalgo Bourgeat
 
Manual de r commander
Manual de r commanderManual de r commander
Manual de r commanderLenin Medina
 
Mini manual de rcomander
Mini manual de rcomanderMini manual de rcomander
Mini manual de rcomanderJhony Tacuri
 
Mini manual R commander
Mini manual R commanderMini manual R commander
Mini manual R commanderAndrés M-g
 
Presentacion_de_R_para_el_Congreso.ppt
Presentacion_de_R_para_el_Congreso.pptPresentacion_de_R_para_el_Congreso.ppt
Presentacion_de_R_para_el_Congreso.pptRobertoMarciano6
 
Manual de R-Commander
Manual de R-CommanderManual de R-Commander
Manual de R-CommanderJordan Huilca
 
Cristian vasquez manual de r comander en prueba de hipotesis
Cristian vasquez manual de r comander en prueba de hipotesisCristian vasquez manual de r comander en prueba de hipotesis
Cristian vasquez manual de r comander en prueba de hipotesisChristian Vasquez
 
LENGUAJE DE PROGRAMACION R
LENGUAJE DE PROGRAMACION RLENGUAJE DE PROGRAMACION R
LENGUAJE DE PROGRAMACION RShirley Armas
 
CREACION DE DLL Y USO (Ejemplo desarrollado)
CREACION DE DLL Y USO (Ejemplo desarrollado)CREACION DE DLL Y USO (Ejemplo desarrollado)
CREACION DE DLL Y USO (Ejemplo desarrollado)Darwin Durand
 
Practica integradora1 identifica los sistemas operativos para instalar y conf...
Practica integradora1 identifica los sistemas operativos para instalar y conf...Practica integradora1 identifica los sistemas operativos para instalar y conf...
Practica integradora1 identifica los sistemas operativos para instalar y conf...Noemi Jara
 
Minimanual r commander
Minimanual r commanderMinimanual r commander
Minimanual r commanderJavito Ramirez
 
Generalidades de la programacion
Generalidades de la programacionGeneralidades de la programacion
Generalidades de la programacionDiego Rojas
 
Openmeetings+En+Xp
Openmeetings+En+XpOpenmeetings+En+Xp
Openmeetings+En+Xpguestad4dd2f
 

Similar a Espoch modalidad dual cristina balladares (20)

Minimanualrcomander
MinimanualrcomanderMinimanualrcomander
Minimanualrcomander
 
Mini manual R commander kathy moya dual
Mini manual R commander kathy moya dualMini manual R commander kathy moya dual
Mini manual R commander kathy moya dual
 
Manual de r commander
Manual de r commanderManual de r commander
Manual de r commander
 
Mini manual de rcomander
Mini manual de rcomanderMini manual de rcomander
Mini manual de rcomander
 
Minimanual r espoch
Minimanual r espochMinimanual r espoch
Minimanual r espoch
 
Mini manual R commander
Mini manual R commanderMini manual R commander
Mini manual R commander
 
Presentacion_de_R_para_el_Congreso.ppt
Presentacion_de_R_para_el_Congreso.pptPresentacion_de_R_para_el_Congreso.ppt
Presentacion_de_R_para_el_Congreso.ppt
 
Manual de R-Commander
Manual de R-CommanderManual de R-Commander
Manual de R-Commander
 
Cristian vasquez manual de r comander en prueba de hipotesis
Cristian vasquez manual de r comander en prueba de hipotesisCristian vasquez manual de r comander en prueba de hipotesis
Cristian vasquez manual de r comander en prueba de hipotesis
 
Introducción al R Commander
Introducción al R CommanderIntroducción al R Commander
Introducción al R Commander
 
LENGUAJE DE PROGRAMACION R
LENGUAJE DE PROGRAMACION RLENGUAJE DE PROGRAMACION R
LENGUAJE DE PROGRAMACION R
 
CREACION DE DLL Y USO (Ejemplo desarrollado)
CREACION DE DLL Y USO (Ejemplo desarrollado)CREACION DE DLL Y USO (Ejemplo desarrollado)
CREACION DE DLL Y USO (Ejemplo desarrollado)
 
Practica integradora1 identifica los sistemas operativos para instalar y conf...
Practica integradora1 identifica los sistemas operativos para instalar y conf...Practica integradora1 identifica los sistemas operativos para instalar y conf...
Practica integradora1 identifica los sistemas operativos para instalar y conf...
 
Minimanual r commander
Minimanual r commanderMinimanual r commander
Minimanual r commander
 
Manual rcmdr
Manual rcmdrManual rcmdr
Manual rcmdr
 
Manual r comander
Manual r comanderManual r comander
Manual r comander
 
Programazion
ProgramazionProgramazion
Programazion
 
Generalidades de la programacion
Generalidades de la programacionGeneralidades de la programacion
Generalidades de la programacion
 
Comandoslinux
ComandoslinuxComandoslinux
Comandoslinux
 
Openmeetings+En+Xp
Openmeetings+En+XpOpenmeetings+En+Xp
Openmeetings+En+Xp
 

Espoch modalidad dual cristina balladares

  • 1. ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO “ESPOCH” ESCUELA DE INGENIERIA DE EMPRESAS, MODALIDAD FORMACIÓN DUAL INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS ANDREA CRISTINA BALLADARES CARRASQUILLO
  • 2. INTRODUCCION INICIAR R COMMANDER Una vez que R se está ejecutando, simplemente cargando el paquete Rcmdr mediante la instrucción library(Rcmdr) en la consola de R, se inicia la interfaz gráca de usuario (_GUI_) de R Commander. Para que funcione correctamente con Windows, R Commander requiere la interfaz de documento único (SDI) de R1. Después de cargar el paquete, las ventanas R Console y R Commander deberían aparecer más o menos como en las guras ?? y ??. Éstas y otras imágenes en este documento fueron creadas con Windows XP; si usa otra versión de Windows (o, por supuesto, otra plataforma informática), entonces la apariencia de la pantalla puede diferir2. Si estos paquetes no están instalados, Rcmdr ofrecerá instalarlos desde Internet o desde archivos locales (e.g., desde un CD_ROM). Si usted instala el paquete Rcmdr a través de Windows_R GUI_, los paquetes de los cuales Rcmdr depende deberían ser instalados automáticamente. En general, puede instalar el paquete Rcmdr y todos los paquetes de los que depende a través de la función install.packages, estableciendo el argumento dependencies = TRUE. Gracias a Dirk Eddelbuettel, los usuarios de Debian Linux sólo necesitan la instrucción apt-get install r-cran-rcmdr para instalar el paquete Rcmdr junto con todos los paquetes que éste requiere. En cualquier caso, instalar y cargar el paquete Rcmdr en los sistemas Linux suele ser sencillo. La tarea puede ser más complicada con OS/X en los sistemas Macintosh, ya que el paquete tcltk del cual depende Rcmdr requiere que Tcl/Tk esté instalado y que R se esté ejecutando con XWindows. 2
  • 3. DEDICATORIA El momento en que el ser humano culmina una meta, es cuando se detiene a hacer un recuento de todas las ayudas recibidas, de las voces de aliento, de las expresiones de amor y comprensión; es por eso que nosotras dedico éste triunfo manual a nuestros queridos padres quienes con su infinita adhesión nos han brindado todo su apoyo sin escatimar sacrificio alguno. A nuestros hermanos, porque han sido los amigos, los compañeros fieles en el camino hasta aquí recorrido; y en general a toda nuestra familia que de una u otra manera contribuyeron para el logro de mi carrera. A Dios por guiar nuestros pasos y ayudarnos a superar los obstáculos que se nos presentaron a lo largo del camino; y, por último queremos dedicar este logro a todos nuestros amigos testigos de nuestros triunfos y fracasos. 3
  • 4. AGRADECIMIENTO Hacemos llegar nuestro profundo agradecimiento primero a Dios por darnos fortaleza y la constancia para cumplir nuestros objetivos propuestos, a nuestros padres por estar siempre a nuestro lado brindándonos su apoyo, a nuestra universidad y especialmente a la Facultad de Administración de empresas , que mediante sus autoridades y docentes nos brindaron una sólida formación universitaria y lograron que culminemos con éxito una más de nuestras etapas académicas. 4
  • 5. EL ENTORNO R-COMMANDER GENERALIDADES R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John Fox, que permite acceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer el lenguaje de comandos propio de este entorno. Al arrancar R-Commander, se nos presentan dos ventanas: Figura 1: La ventana R Console tras cargar el paquete Rcmdr. 5
  • 6. Lenguaje de comandos de R, simplemente observando lo que va apareciendo en la ventana script se irá familiarizando (y con un poco de interés, también aprendiendo) con dicho lenguaje. Es más, el usuario puede introducir comandos directamente en dicha ventana, y tras pulsar el botón Submit dichos comandos serán ejecutados1 y su resultado mostrado en la ventana Output. El script puede guardarse y volver a ser ejecutado directamente otras veces con otros conjuntos de datos diferentes, sin que el usuario tenga que desplazarse por todo el sistema de menús para volver a realizar las mismas tareas. 6
  • 7. El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando el ratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando basta con situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varios comandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit .Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramos acceder. Las opciones son: • − File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos, resultados, sintaxis, etc. • − Edit: las típicas opciones para cortar, pegar, borrar, etc. • − Data: Utilidades para la gestión de datos (creación de datos, importación desde otros programas, recodificación de variables, etc.) • − Statistics: ejecución de procedimientos propiamente estadísticos • − Graphs: gráficos • − Models: definición y uso de modelos específicos para el análisis de datos. • − Distribution: probabilidades, cuantiles y gráficos de las distribuciones de probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.) • − Tools: carga de librerías y definición del entorno. • − Help: ayuda sobre R-commander (en inglés). LECTURA DE DATOS DESDE UN FICHERO EXTERNO Supongamos que hemos creado los datos con EXCEL (o equivalente), y que los hemos guardado desde EXCEL en formato CSV (Comma Separated Values). Este formato es simplemente un formato de texto en el que los datos se guardan tal como se han introducido en EXCEL, separados por punto y coma, y sin que se añada ninguna información adicional (negritas, cursivas, colores de las letras, etc.). Para que R (y cualquier otro paquete estadístico) pueda utilizar los datos, éstos deben introducirse de modo que cada variable figure en una columna, y cada fila represente un caso. Asimismo, es conveniente que cada columna esté encabezada con el nombre de la variable. A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cada uno de los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) y sexo (1 = hembra, 2 = macho), midiéndose además su longitud y peso. Como se ve, cada columna corresponde a una variable, y cada fila corresponde a un sujeto (un pez en este caso). A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Por ejemplo, pudiera haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya longitud o peso se haya podido. En EXCEL al guardar el fichero hay que seleccionar “guardar como” y elegir como tipo de fichero CSV (delimitado por comas). EXCEL nos informará de que sólo se guardará la hoja activa (deberemos aceptar), y a continuación nos avisará que el libro puede tener características no compatibles con CSV Deberemos elegir la opción SI, para que guardedefinitivamente el fichero en ese formato. Medir cuando falte algún dato, conviene introducir el valor NA, que R interpretará como Not Assigned (valor no asignado). En el ejemplo que se muestra a continuación vemos que hay valores perdidos en varias variables y varios casos, que han sido consignados con el valor NA. 7
  • 8. Para leer estos datos con R commander, una vez situados en la ventana de este programa hay que picar con el ratón en la opción Data, luego Import data y por último from text file Data > Import data > from text file ... Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay que especificar: Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Este nombre no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamar peces a nuestro conjunto de datos. Como en el fichero están los nombres de las variables en la primera fila, marcamos la casilla Variable names in file. 8
  • 9. Una vez introducida esta información, picando en OK, nos aparece la ventana para abrir ficheros de Windows. Buscamos el directorio en que hemos guardado nuestro fichero de datos y lo seleccionamos: 9
  • 10. En la pantalla de R-commander ha aparecido un comando en la ventana superior (script) y el mismo comando repetido en la ventana inferior (Output window). Este comando es concretamente: peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE, sep=";", na.strings="NA", dec=",",strip.white=TRUE) La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos) peces se introduce el resultado de leer (read.table) el fichero c:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de las variables en la cabecera (header=TRUE), que el separador de los datos es el punto y coma (sep=”;”), que los valores perdidos se han codificado como NA (na.strings=”NA”), que el separador de cifras decimales es la coma (dec=”,”) y que en caso de leer variables de tipo carácter (variables cuyos valores son alfanuméricos, por ejemplo, nombres de islas) se eliminen los espacios anteriores y posteriores al valor registrado en dichas variables (strip.white=TRUE). En la ventana de salida (Output) no se observa ningún resultado ya que solamente se ha procedido a la lectura de los datos. Esto se nos indica en la ventana inferior (Messages) donde aparece una nota señalando que se ha leido el dataset peces, y que éste tiene 20 filas y 4 columnas. 10
  • 11. INTERVALOS DE CONFIANZA Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de la población, y una de las formas más usuales de garantizar esa representatividad es mediante muestras aleatorias simples. INTERVALO DE CONFIANZA DE LA MEDIA POBLACIONAL Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error. EJEMPLO: Queremos estudiar la altura media de todos los individuos con un nivel de confianza de =0.05. α Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1. DESCONOCIDA: Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia: >Estadísticos >Medias >Test t para una muestra… Para el intervalo de confianza bilateral hay que marcar En Hipótesis alternativa >Media poblacional = 0, Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa. Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95% La instrucción R generada: > t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95) One Sample t-test data: Pulsea1$Height t = 180.1207, df = 91, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: (67.95957 69.47521) Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos alternative='two.sided' (Bilateral). 11
  • 12. El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la media muestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula: xm t(n-1, 1-α/2) s/ ± , n Con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1- α/2) de la t de Student con (n-1) g.l. La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia de instrucciones R , los extremos del intervalo de confianza buscado: > n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height)) > s=sd(Pulsea1$Height, na.rm = TRUE) >extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n) >extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n) >extrIzq;extrDer [1] 67.95957 [1] 69.47521 Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es muy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor “NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con los datos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame de Pulsos: > sum(is.na(Pulsea1$Activity)) [1] 1 La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Al aplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos), da la suma de los 1’s, que es 1. CONOCIDA: Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianza bilateral basándose en la distribución normal: σ Recuérdese que el intervalo de confianza al 95% es xm ± z1−α / 2 n , con xm la media muestral y el cuantil 1-α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975). Con el mismo ejemplo, suponiendo que la desviación típica poblacional es σ =3.7, la siguiente secuencia de instruccions R nos da los extremos del intervalo de confianza: > sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height)) > extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)*sigma/sqrt(n) > extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)*sigma/sqrt(n) > extrIzq;extrDer [1] 67.96133 [1] 69.47345 Tamaño de la muestra para estimar µ cuando σ es conocida. 12
  • 13. Cuando la σ es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario para obtener un intervalo de confianza con un margen de error dado. Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza. σ Para el intervalo de confianza bilateral de la media, el margen de error es: E= z 1− α n , y despejando 2 z 2 α *σ 2 de aquí el tamaño muestral: n= 1− 2 E2 Vamos a hacer una pequeña tabla que recoja la variación del tamaño de la muestra para un conjunto de valores del margen de error , cuando sigma=3.7. Considerando un nivel de confianza del 95%, z1-α/2 = z0,975 = 1,96 . Recordemos cómo obtener con R el valor z0.975 =aprox 1.96: > qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE) [1] 1.959964 Calcularemos una pequeña tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a incrementos de 0.5, estarán contenidos en un vector de nombre Evector Una secuencia de valores equidistantes se puede hacer con R: > 2.3:8 [1] 2.3 3.3 4.3 5.3 6.3 7.3 > Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 > Elongi=seq(length=12,from=0.5, by=0.2);Elongi [1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7 La siguiente secuencia de instrucciones da la tabla de tamaños de muestra buscada: > sigma=3.7; > cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil [1] 1.959964 > Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 > nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector) [1] 210.358285 52.589571 23.373143 13.147393 8.414331 5.843286 4.293026 [8] 3.286848 2.597016 2.103583 [1] 211 53 24 14 9 6 5 4 3 3 Los últimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la función ceiling () da el entero mayor inmediato al valor del argumento. Así obtenemos cada Tamaño de la muestra con su correspondiente Margen de Error. Para tener menor Margen de error se ha de aumentar la muestra, como es natural. TAMAÑO DE LA MUESTRA PARA ESTIMAR µ CUANDO σ ES DESCONOCIDA. El Margen de error o semiamplitud del intervalo de confianza es en el caso de σ es desconocida : E= t(n-1, 1-α/2) s/ n . 13
  • 14. Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar un error dado con un cierto nivel de confianza, pues s, cuasi desviación típica muestral. no es conocida a priori de la extracción de la muestra. Pero se podría hacer una tabla relacionando n y E, para diversos valores de s considerando estimaciones de s que seas sensatas. EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTAR HIPÓTESIS EJEMPLO: Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente, por medio de un intervalo de confianza al nivel de significación =0.05, o de confianza del 95%, y α utilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a generar un conjunto de datos con las alturas de los hombres. En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la secuencia:: >Datos >Conjunto de datos activos>Filtrar datos. Como marcamos Incluir todas las variables, va a generar un Data.frame con todos los datos referidos sólo a Hombres: Gender==”Male” El nuevo conjunto de datos activo, que tiene siempre el tipo data.frame, se llamará Alturahombres El intervalo de confianza para la media de altiras , Emplando el R Commander, lo producen los menús: >Estadísticos > Medias >Test para una muestra…. Resultando en la Ventana de resultados de R Commander One Sample t-test data: Alturahombres$Height t = 206.8254, df = 56, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 70.06908 71.43969 sample estimates: mean of x 70.75439 Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969) consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas. Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas no está contenido en el intervalo de confianza calculado. 14
  • 15. EJEMPLO: Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos. Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1 con la restricción de que se refiera a Hombres (“Male”) que Fuman.(“Smoke”) . La secuencia de filtrado_ > Datos >Conjunto de datos activo > Filtrar conjunto de datos activo… Llamamos al conjunto de dato activo resultante: Pulso1HombresFuman, que tiene 1 sola Variable (columna) con Pulse1, con tantos datos como hombres fumadores. La instrucción R asociada al filtrado: > Pulso1HombresFuman <- subset(Pulsea1, subset=(Gender=="Male")&(Smokes=="Smoke"), select=c(Pulse1)) Con el menu. > Estadísticos > Medias > Test t para una muestra… se genera la instrución R y el resultado con el intervalo de confianza bilateral de la media de pulsos con el 95% de confianza:: > t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95) Ventana de resultados de R Commander: data: Pulso1HombresFuman$Pulse1 t = 25.777, df = 19, p-value = 3.026e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 65.41875 76.98125 sample estimates: mean of x 71.2 15
  • 16. EJEMPLO: Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya normalmente, con media 220 y desviación típica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y contrastar la hipótesis de µ=220, sin considerar conocida la desviación típica poblacional.. Vamos a interpretar el resultado del test de hipótesis con hipótesis nula mu=220, y alternativa que mu<> 220 Las instrucciones R asociadas: > t.test(Resistencia$Resis, alternative='two.sided', mu=220, conf.level=.95) One Sample t-test data: Resistencia$Resis t = -0.3801, df = 8, p-value = 0.7138 alternative hypothesis: true mean is not 95 percent confidence interval: (210.5774 226.7560) sample estimates: mean of x: 218.6667 Como el valor p-value=0.7138 es mayor que α=0.05, nivel de significación, no rechazamos la hipótesis nula. Observando por otro lado el intervalo de confianza al 95%, como el valor 220 está en el intervalo, no rechazamos que la resistencia media es 220. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN EJEMPLO: En los datos de Pulsos, calcular el intervalo de confianza para la proporción de los individuos que no fuman, con un nivel de confianza del 95%, (nivel de significación α =0.05) El programa realiza el intervalo de la proporción de los individuos con un valor del factor atendiendo al orden alfabético de la denominación de los niveles del factor. Aquí realizará el análisis sobre los NonSmoker y no sobre los Smoke. Si quisiéramos calcular el intervalo de los fumadores, tendríamos que cambiar el nombre a los campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de menús es: 16
  • 17. > Estadísticos > Proporciones >Test de proporciones para una muestra… Para hace rl intervalo bilateral, se marca Proporción de la población=p0, (R debería escribir <> (distinto) en vez de = (igual) El valor para la Hipótesis nula: p=0.5 por defecto, no importa para intervalo de confianza, pero sí para test. Se elige Aproximación normal si se considera admisible. Se generan las siguientes instrucciones y respuestas en que incluimos nuestros comentarios: #Genera una tabla de frecuencias > .Table <- xtabs(~ Smokes , data= Pulsea1 ) > .Table Smokes NonSmoker Smoke 64 28 # La function rbind agrupa la fila numérica 64 28 como iun vector fila para aplicarle la # función prop.test para test de proporciones. > prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE) 1-sample proportions test without continuity correction data: rbind(.Table), null probability 0.5 X-squared = 14.087, df = 1, p-value = 0.0001746 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.5953573 0.7802631 sample estimates: p 0.6956522 estimador puntual - Con corrección de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303 > prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=TRUE) - Con la distribución binomial exacta, con el 95% de confianza: 0.5909669 0.7873276 > binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95) 17
  • 18. PROCESO CON RCOMMANDER: Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interactivo de tablas de RCommander o mediante: ResiProp=data.frame(Resis) Y seleccionando dede el botón Conjunto de datos el data.frame Resiprop, Añadimos una columna a esta tabla: >Datos>Modificar variables del conjunto de datos activo>Recodificar variables… Y ya en esta situación: > Estadísticos >Proporciones >Test de proporciones para una muestra… con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95% > .Table <- xtabs(~ Resis350 , data= ResiProp ) > .Table Resis350 Grande Peque 6 4 > binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95) Exact binomial test data: rbind(.Table) number of successes = 6, number of trials = 10, p-value = 0.7539 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2623781 0.8784477 sample estimates: probability of success 0.6 Al nivel del factor que se considera “éxito” y cuya proporción se estudia, debe dársele un valor que alfabéticamente esté antes que el no deseado, para que R haga el cálculo adecuado. Aquí se ha elegido “Grande”, que está antes que “Peque”. 18
  • 19. TAMAÑO DE MUESTRA (ALEATORIA SIMPLE) PARA ESTIMAR UNA PROPORCIÓN Llamamos error E al semiancho del intervalo de confianza para la proporción. Basándose en la validez de la aproximación normal de la variable binomial, si se tiene idea del posible valor de la proporción poblacional p z 2 α ·p(1 − p) 1− (con base en un muestreo previo, por ejemplo), el tamaño de la muestra es: n = 2 E2 Si no se sabe nada de la magnitud de p, se elige una muestra de tamaño: z2 α 1− n = 2 4 * E2 puesto que el valor p(1-p) es siempre no mayor que 1/4 . Obsérvese que a menor error E que se desee, el tamaño de la muestra debe ser mayor. Y a mayor nivel de confianza ( o menor nivel de significación), el tamaño también crece. EJEMPLO: Qué tamaño de muestra hay que elegir para estimar una proporción de modo que el error en la estimación sea menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximación normal con el criterio más desfavorable). > z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z [1] 1.959964 > E=0.05; n=ceiling(z^2/(4*E^2));n [1] 385 ¿Qué tamaño resultaría en el caso de que se emplee una primera estimación de la proporción de valor 0.17 ? > p=0.17 > n=ceiling(z^2*p*(1-p)/E^2);n [1] 217 Naturalmente, con más información, se reduce el tamaño de la muestra necesaria. 19
  • 20. INTERVALO DE CONFIANZA PARA LA VARIANZA R no da con un menú específico el intervalo de confianza para la varianza, aunque permite comparar varianzas de dos poblaciones a partir de sendas muestras de cada una. Admitiendo la hipótesis de normalidad en la población de partida, se puede calcular el intervalo de confianza para la varianza: [(n-1)*s2/χ2(n-1, 1-α/2) ; (n-1)*s2/χ2(n-1, α/2) ], calculando cada componente de las fórmulas. EJEMPLO.- Para el caso de las 10 probetas de hormigón sometidas a un ensayo de rotura, con los datos de resistencia en el vector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel 95% para la varianza y el de la desviación típica (los extremos son raíz cuadrada de los de la varianza), como sigue: > n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s [1] 18.11387 > chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE) > chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE) > iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der [1] 155.2355 [1] 1093.549 > izDtipica=sqrt(iz); > derDtipica=sqrt(der);izDtipica;derDtipica [1] 12.45935 [1] 33.06886 > print(c(iz,der));print(c(izDtipica,derDtipica)) [1] 155.2355 1093.5493 [1] 12.45935 33.06886 Para valorar la normalidad de los datos, podemos utilizar la gráfica de comparación de cuantiles con el modelo normal, al 95% de confianza, que nos señala que es admisible. También´podemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk: >Estadísticos > Resúmenes > Test de normalidad de Shapiro-Wilk… > shapiro.test(ResiProp$Resis) Shapiro-Wilk normality test data: ResiProp$Resis W = 0.8833, p-value = 0.1425 Como el valor de p-value es mayor que el nivel de significación 0.05 por ejemplo, se puede admitir la normalidad de los datos con un nivel de confianza del 95%. 20
  • 21. DATOS EMPAREJADOS: Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cada uno se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignación de orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una característica en cada zapato que refleja su comportamiento ante el uso, que se interpreta con que si la característica medida tiene mayor valor es porque ese tipo de material ofrece mejor calidad. Así resulta: Niño MatA MatB 1 13,2 14,0 2 8,2 8,8 3 10,9 11,2 4 14,3 14,2 5 10,7 11,8 6 6,6 6,4 7 9,5 9,8 8 10,8 11,3 9 8,8 9,3 10 13,3 13,6 Considerando los datos de los desgastes en 10 pares de zapatos según el material A y B, efectuamos la comparación. > t.test(Zapatillas$MatA, Zapatillas$MatB, alternative='two.sided', conf.level=.95, paired=TRUE) Paired t-test data: Zapatillas$MatA and Zapatillas$MatB t = -3.3489, df = 9, p-value = 0.008539 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.6869539 -0.1330461 sample estimates: mean of the differences -0.41 El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es (-0,687; -0,133), lo que indica que el valor de la característica de uso (por tanto la satisfacción) es mayor con el Material B que con el A. Desde la visión de contraste de hipótesis, el reducido valor del p-valor: 0,009, indica que la hipótesis de igualdad de medias se rechazaría con un nivel de significación del 5%, frente a la hipótesis de que los dos materiales son igualmente satisfactorios. Vamos a tratar los datos, erróneamente respecto al diseño del experimento, comparando como si fuesen independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o variable, e introducir otra columna que indica el tipo de Material. Se opera con los menús, >Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo…, con instrucciones R: > ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")]) > names(ZapatillasApilados) <- c("Calidad", "Material") Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta: > t.test(Calidad~Material, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=ZapatillasApilados) Welch Two Sample t-test 21
  • 22. data: Calidad by Material t = -0.3689, df = 17.987, p-value = 0.7165 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.745046 1.925046 sample estimates: mean in group MatA mean in group MatB 10.63 11.04 Obsérvese que el intervalo de confianza del 95%, (-2.745046 1.925046) Incluye el valor ‘cero’, es decir, no se puede afirmar que un material es de más calidad que el otro. El realizar el experimento con datos apareados aumenta la sensibilidad del contraste, detectando mejor las diferencias entre los datos. 22