1. ESCUELA SUPERIOR
POLITÉCNICA DE
CHIMBORAZO
“ESPOCH” ESCUELA
DE INGENIERIA DE
EMPRESAS,
MODALIDAD
FORMACIÓN DUAL
INTERVALOS
DE CONFIANZA
Y CONTRASTES
DE HIPÓTESIS
ANDREA CRISTINA
BALLADARES
CARRASQUILLO
2. INTRODUCCION
INICIAR R COMMANDER
Una vez que R se está ejecutando, simplemente cargando el paquete Rcmdr
mediante la instrucción library(Rcmdr) en la consola de R, se inicia la interfaz gráca
de usuario (_GUI_) de R Commander. Para que funcione correctamente con
Windows, R Commander requiere la interfaz de documento único (SDI) de R1.
Después de cargar el paquete, las ventanas R Console y R Commander deberían
aparecer más o menos como en las guras ?? y ??. Éstas y otras imágenes en este
documento fueron creadas con Windows XP; si usa otra versión de Windows (o, por
supuesto, otra plataforma informática), entonces la apariencia de la pantalla puede
diferir2. Si estos paquetes no están instalados, Rcmdr ofrecerá instalarlos desde
Internet o desde archivos locales (e.g., desde un CD_ROM). Si usted instala el
paquete Rcmdr a través de Windows_R GUI_, los paquetes de los cuales Rcmdr
depende deberían ser instalados automáticamente. En general, puede instalar el
paquete Rcmdr y todos los paquetes de los que depende a través de la función
install.packages, estableciendo el argumento dependencies = TRUE. Gracias a Dirk
Eddelbuettel, los usuarios de Debian Linux sólo necesitan la instrucción apt-get install
r-cran-rcmdr para instalar el paquete Rcmdr junto con todos los paquetes que éste
requiere. En cualquier caso, instalar y cargar el paquete Rcmdr en los sistemas Linux
suele ser sencillo. La tarea puede ser más complicada con OS/X en los sistemas
Macintosh, ya que el paquete tcltk del cual depende Rcmdr requiere que Tcl/Tk esté
instalado y que R se esté ejecutando con XWindows.
2
3. DEDICATORIA
El momento en que el ser humano culmina una meta, es cuando se detiene a hacer un recuento de
todas las ayudas recibidas, de las voces de aliento, de las expresiones de amor y comprensión; es
por eso que nosotras dedico éste triunfo manual a nuestros queridos padres quienes con su infinita
adhesión nos han brindado todo su apoyo sin escatimar sacrificio alguno. A nuestros hermanos,
porque han sido los amigos, los compañeros fieles en el camino hasta aquí recorrido; y en general
a toda nuestra familia que de una u otra manera contribuyeron para el logro de mi carrera.
A Dios por guiar nuestros pasos y ayudarnos a superar los obstáculos que se nos presentaron a lo
largo del camino; y, por último queremos dedicar este logro a todos nuestros amigos testigos de
nuestros triunfos y fracasos.
3
4. AGRADECIMIENTO
Hacemos llegar nuestro profundo agradecimiento primero a Dios por darnos fortaleza y la
constancia para cumplir nuestros objetivos propuestos, a nuestros padres por estar siempre a
nuestro lado brindándonos su apoyo, a nuestra universidad y especialmente a la Facultad de
Administración de empresas , que mediante sus autoridades y docentes nos brindaron una sólida
formación universitaria y lograron que culminemos con éxito una más de nuestras etapas
académicas.
4
5. EL ENTORNO R-COMMANDER
GENERALIDADES
R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John Fox, que permite
acceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer el
lenguaje de comandos propio de este entorno. Al arrancar R-Commander, se nos presentan dos
ventanas:
Figura 1: La ventana R Console tras cargar el paquete Rcmdr.
5
6. Lenguaje de comandos de R, simplemente observando lo que va apareciendo en la ventana script
se irá familiarizando (y con un poco de interés, también aprendiendo) con dicho lenguaje. Es más, el
usuario puede introducir comandos directamente en dicha ventana, y tras pulsar el botón Submit
dichos comandos serán ejecutados1 y su resultado mostrado en la ventana Output. El script puede
guardarse y volver a ser ejecutado directamente otras veces con otros conjuntos de datos
diferentes, sin que el usuario tenga que desplazarse por todo el sistema de menús para volver a
realizar las mismas tareas.
6
7. El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando el
ratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando basta
con situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varios
comandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit
.Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramos
acceder. Las opciones son:
• − File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos,
resultados, sintaxis, etc.
• − Edit: las típicas opciones para cortar, pegar, borrar, etc.
• − Data: Utilidades para la gestión de datos (creación de datos, importación desde
otros programas, recodificación de variables, etc.)
• − Statistics: ejecución de procedimientos propiamente estadísticos
• − Graphs: gráficos
• − Models: definición y uso de modelos específicos para el análisis de datos.
• − Distribution: probabilidades, cuantiles y gráficos de las distribuciones de
probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.)
• − Tools: carga de librerías y definición del entorno.
• − Help: ayuda sobre R-commander (en inglés).
LECTURA DE DATOS DESDE UN FICHERO EXTERNO
Supongamos que hemos creado los datos con EXCEL (o equivalente), y que los hemos guardado
desde EXCEL en formato CSV (Comma Separated Values). Este formato es simplemente un
formato de texto en el que los datos se guardan tal como se han introducido en EXCEL, separados
por punto y coma, y sin que se añada ninguna información adicional (negritas, cursivas, colores de
las letras, etc.). Para que R (y cualquier otro paquete estadístico) pueda utilizar los datos, éstos
deben introducirse de modo que cada variable figure en una columna, y cada fila represente un
caso. Asimismo, es conveniente que cada columna esté encabezada con el nombre de la variable.
A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cada
uno de los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) y
sexo (1 = hembra, 2 = macho), midiéndose además su longitud y peso. Como se ve, cada columna
corresponde a una variable, y cada fila corresponde a un sujeto (un pez en este caso).
A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Por
ejemplo, pudiera haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya
longitud o peso se haya podido. En EXCEL al guardar el fichero hay que seleccionar “guardar
como” y elegir como tipo de fichero CSV (delimitado por comas). EXCEL nos informará de que sólo
se guardará la hoja activa (deberemos aceptar), y a continuación nos avisará que el libro puede
tener características no compatibles con CSV Deberemos elegir la opción SI, para que
guardedefinitivamente el fichero en ese formato. Medir cuando falte algún dato, conviene introducir
el valor NA, que R interpretará como Not Assigned (valor no asignado). En el ejemplo que se
muestra a continuación vemos que hay valores perdidos en varias variables y varios casos, que
han sido consignados con el valor NA.
7
8. Para leer estos datos con R commander, una vez situados en la ventana de este programa hay que
picar con el ratón en la opción Data, luego Import data y por último from text file
Data > Import data > from text file ...
Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay que
especificar:
Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Este
nombre no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamar
peces a nuestro conjunto de datos.
Como en el fichero están los nombres de las variables en la primera fila, marcamos la casilla
Variable names in file.
8
9. Una vez introducida esta información, picando en OK, nos aparece la ventana para abrir ficheros de
Windows. Buscamos el directorio en que hemos guardado nuestro fichero de datos y lo
seleccionamos:
9
10. En la pantalla de R-commander ha aparecido un comando en la ventana superior (script) y el mismo
comando repetido en la ventana inferior (Output window). Este comando es concretamente:
peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE,
sep=";", na.strings="NA", dec=",",strip.white=TRUE)
La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos) peces se
introduce el resultado de leer (read.table) el fichero
c:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de las
variables en la cabecera (header=TRUE), que el separador de los datos es el punto y coma
(sep=”;”), que los valores perdidos se han codificado como NA (na.strings=”NA”), que el
separador de cifras decimales es la coma (dec=”,”) y que en caso de leer variables de tipo
carácter (variables cuyos valores son alfanuméricos, por ejemplo, nombres de islas) se eliminen los
espacios anteriores y posteriores al valor registrado en dichas variables (strip.white=TRUE).
En la ventana de salida (Output) no se observa ningún resultado ya que solamente se ha procedido
a la lectura de los datos. Esto se nos indica en la ventana inferior (Messages) donde aparece una
nota señalando que se ha leido el dataset peces, y que éste tiene 20 filas y 4 columnas.
10
11. INTERVALOS DE CONFIANZA
Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis
referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de
poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de
la población, y una de las formas más usuales de garantizar esa representatividad es mediante
muestras aleatorias simples.
INTERVALO DE CONFIANZA DE LA MEDIA POBLACIONAL
Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos
tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo,
pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte
de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que
consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de
confianza), de contener el valor de la media poblacional, informándonos del error.
EJEMPLO: Queremos estudiar la altura media de todos los individuos con un nivel de
confianza de =0.05.
α
Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.
DESCONOCIDA:
Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:
>Estadísticos >Medias >Test t para una muestra…
Para el intervalo de confianza bilateral hay que marcar
En Hipótesis alternativa >Media poblacional = 0,
Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.
Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%
La instrucción R generada:
> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)
One Sample t-test
data: Pulsea1$Height
t = 180.1207, df = 91, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
(67.95957 69.47521)
Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos
alternative='two.sided' (Bilateral).
11
12. El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la media
muestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianza
bilateral se formula:
xm t(n-1, 1-α/2) s/
±
, n
Con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1
<= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad
que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1-
α/2) de la t de Student con (n-1) g.l.
La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia de
instrucciones R , los extremos del intervalo de confianza buscado:
> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> s=sd(Pulsea1$Height, na.rm = TRUE)
>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)
>extrIzq;extrDer
[1] 67.95957
[1] 69.47521
Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es
muy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor
“NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con los
datos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame
de Pulsos:
> sum(is.na(Pulsea1$Activity))
[1] 1
La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Al
aplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos),
da la suma de los 1’s, que es 1.
CONOCIDA:
Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianza
bilateral basándose en la distribución normal:
σ
Recuérdese que el intervalo de confianza al 95% es xm ± z1−α / 2
n , con xm la media muestral y
el cuantil 1-α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975).
Con el mismo ejemplo, suponiendo que la desviación típica poblacional es σ =3.7, la siguiente
secuencia de instruccions R nos da los extremos del intervalo de confianza:
> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))
> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1,
lower.tail=TRUE)*sigma/sqrt(n)
> extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1,
lower.tail=TRUE)*sigma/sqrt(n)
> extrIzq;extrDer
[1] 67.96133
[1] 69.47345
Tamaño de la muestra para estimar µ cuando σ es conocida.
12
13. Cuando la σ es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario para
obtener un intervalo de confianza con un margen de error dado.
Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza.
σ
Para el intervalo de confianza bilateral de la media, el margen de error es: E= z
1−
α
n
, y despejando
2
z 2 α *σ 2
de aquí el tamaño muestral: n=
1−
2
E2
Vamos a hacer una pequeña tabla que recoja la variación del tamaño de la muestra para un
conjunto de valores del margen de error , cuando sigma=3.7. Considerando un nivel de confianza
del 95%, z1-α/2 = z0,975 = 1,96 .
Recordemos cómo obtener con R el valor z0.975 =aprox 1.96:
> qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)
[1] 1.959964
Calcularemos una pequeña tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a
incrementos de 0.5, estarán contenidos en un vector de nombre Evector
Una secuencia de valores equidistantes se puede hacer con R:
> 2.3:8
[1] 2.3 3.3 4.3 5.3 6.3 7.3
> Evector=seq(0.5,5, by=0.5);Evector
[1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> Elongi=seq(length=12,from=0.5, by=0.2);Elongi
[1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7
La siguiente secuencia de instrucciones da la tabla de tamaños de muestra buscada:
> sigma=3.7;
> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil
[1] 1.959964
> Evector=seq(0.5,5, by=0.5);Evector
[1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector)
[1] 210.358285 52.589571 23.373143 13.147393 8.414331 5.843286 4.293026
[8] 3.286848 2.597016 2.103583
[1] 211 53 24 14 9 6 5 4 3 3
Los últimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la
función ceiling () da el entero mayor inmediato al valor del argumento.
Así obtenemos cada Tamaño de la muestra con su correspondiente Margen de Error. Para tener menor Margen
de error se ha de aumentar la muestra, como es natural.
TAMAÑO DE LA MUESTRA PARA ESTIMAR µ CUANDO σ ES DESCONOCIDA.
El Margen de error o semiamplitud del intervalo de confianza es en el caso de σ es desconocida :
E= t(n-1, 1-α/2) s/ n
.
13
14. Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar un
error dado con un cierto nivel de confianza, pues s, cuasi desviación típica muestral. no es conocida a priori de
la extracción de la muestra. Pero se podría hacer una tabla relacionando n y E, para diversos valores de s
considerando estimaciones de s que seas sensatas.
EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTAR
HIPÓTESIS
EJEMPLO:
Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente,
por medio de un intervalo de confianza al nivel de significación =0.05, o de confianza del 95%, y
α
utilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a
generar un conjunto de datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la
secuencia::
>Datos >Conjunto de datos activos>Filtrar datos.
Como marcamos Incluir todas las variables, va a generar un
Data.frame con todos los datos referidos
sólo a Hombres: Gender==”Male”
El nuevo conjunto de datos activo, que tiene siempre el tipo
data.frame, se llamará Alturahombres
El intervalo de confianza para la media de altiras ,
Emplando el R Commander, lo producen los menús:
>Estadísticos > Medias >Test para una muestra….
Resultando en la Ventana de resultados de R Commander
One Sample t-test
data: Alturahombres$Height
t = 206.8254, df = 56, p-value < 2.2e-16
alternative hypothesis:
true mean is not equal to 0
95 percent confidence interval:
70.06908 71.43969
sample estimates:
mean of x
70.75439
Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969)
consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media a
pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.
Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas
no está contenido en el intervalo de confianza calculado.
14
15. EJEMPLO:
Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos.
Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1 con la
restricción de que se refiera a Hombres (“Male”) que Fuman.(“Smoke”) . La secuencia de filtrado_
> Datos >Conjunto de datos activo > Filtrar conjunto de datos activo…
Llamamos al conjunto de dato activo resultante:
Pulso1HombresFuman,
que tiene 1 sola Variable (columna) con Pulse1,
con tantos datos como hombres fumadores.
La instrucción R asociada al filtrado:
> Pulso1HombresFuman <-
subset(Pulsea1,
subset=(Gender=="Male")&(Smokes=="Smoke"),
select=c(Pulse1))
Con el menu. > Estadísticos > Medias > Test t para una muestra…
se genera la instrución R y el resultado con el intervalo de confianza bilateral de la
media de pulsos con el 95% de confianza::
> t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95)
Ventana de resultados de R Commander:
data: Pulso1HombresFuman$Pulse1
t = 25.777, df = 19, p-value = 3.026e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
65.41875 76.98125
sample estimates:
mean of x
71.2
15
16. EJEMPLO:
Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya
normalmente, con media 220 y desviación típica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203,
229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y
contrastar la hipótesis de µ=220, sin considerar conocida la desviación típica poblacional..
Vamos a interpretar el resultado del test de hipótesis con
hipótesis nula mu=220, y alternativa que mu<> 220
Las instrucciones R asociadas:
> t.test(Resistencia$Resis,
alternative='two.sided', mu=220,
conf.level=.95)
One Sample t-test
data: Resistencia$Resis
t = -0.3801, df = 8, p-value = 0.7138
alternative hypothesis: true mean is not
95 percent confidence interval:
(210.5774 226.7560)
sample estimates:
mean of x: 218.6667
Como el valor p-value=0.7138 es mayor que α=0.05, nivel de significación, no rechazamos la hipótesis nula.
Observando por otro lado el intervalo de confianza al 95%, como el valor 220 está en el intervalo, no
rechazamos que la resistencia media es 220.
INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN
EJEMPLO:
En los datos de Pulsos, calcular el intervalo de confianza para la proporción de los individuos que no fuman,
con un nivel de confianza del 95%, (nivel de significación α
=0.05)
El programa realiza el intervalo de la proporción de los individuos con un valor del factor atendiendo al orden
alfabético de la denominación de los niveles del factor. Aquí realizará el análisis sobre los NonSmoker y no
sobre los Smoke. Si quisiéramos calcular el intervalo de los fumadores, tendríamos que cambiar el nombre a
los campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de menús es:
16
17. > Estadísticos > Proporciones >Test de proporciones para una muestra…
Para hace rl intervalo bilateral, se marca
Proporción de la población=p0,
(R debería escribir <> (distinto) en vez de = (igual)
El valor para la Hipótesis nula: p=0.5 por defecto,
no importa para intervalo de confianza, pero sí para test.
Se elige Aproximación normal si se considera admisible. Se generan las siguientes instrucciones y respuestas
en que incluimos nuestros comentarios:
#Genera una tabla de frecuencias
> .Table <- xtabs(~ Smokes , data= Pulsea1 )
> .Table
Smokes
NonSmoker Smoke
64 28
# La function rbind agrupa la fila numérica 64 28 como iun vector fila para aplicarle la
# función prop.test para test de proporciones.
> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.5
X-squared = 14.087, df = 1, p-value = 0.0001746
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5953573 0.7802631
sample estimates:
p 0.6956522 estimador puntual
- Con corrección de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303
> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)
- Con la distribución binomial exacta, con el 95% de confianza: 0.5909669 0.7873276
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)
17
18. PROCESO CON RCOMMANDER:
Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interactivo de tablas
de RCommander o mediante:
ResiProp=data.frame(Resis)
Y seleccionando dede el botón Conjunto de datos el data.frame Resiprop, Añadimos una columna a esta tabla:
>Datos>Modificar variables del conjunto de datos activo>Recodificar variables…
Y ya en esta situación:
> Estadísticos >Proporciones >Test de proporciones para una muestra…
con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%
> .Table <- xtabs(~ Resis350 , data= ResiProp )
> .Table
Resis350
Grande Peque
6 4
> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)
Exact binomial test
data: rbind(.Table)
number of successes = 6, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2623781 0.8784477
sample estimates:
probability of success
0.6
Al nivel del factor que se considera “éxito” y cuya proporción se estudia, debe dársele un valor que
alfabéticamente esté antes que el no deseado, para que R haga el cálculo adecuado. Aquí se ha elegido
“Grande”, que está antes que “Peque”.
18
19. TAMAÑO DE MUESTRA (ALEATORIA SIMPLE) PARA ESTIMAR UNA PROPORCIÓN
Llamamos error E al semiancho del intervalo de confianza para la proporción. Basándose en la validez de la
aproximación normal de la variable binomial, si se tiene idea del posible valor de la proporción poblacional p
z 2 α ·p(1 − p)
1−
(con base en un muestreo previo, por ejemplo), el tamaño de la muestra es: n = 2
E2
Si no se sabe nada de la magnitud de p, se elige una muestra de tamaño:
z2 α
1−
n = 2
4 * E2
puesto que el valor p(1-p) es siempre no mayor que 1/4 .
Obsérvese que a menor error E que se desee, el tamaño de la muestra debe ser mayor. Y a mayor nivel de
confianza ( o menor nivel de significación), el tamaño también crece.
EJEMPLO:
Qué tamaño de muestra hay que elegir para estimar una proporción de modo que el error en la estimación sea
menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximación normal con el criterio
más desfavorable).
> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z
[1] 1.959964
> E=0.05; n=ceiling(z^2/(4*E^2));n
[1] 385
¿Qué tamaño resultaría en el caso de que se emplee una primera estimación de la proporción de valor 0.17 ?
> p=0.17
> n=ceiling(z^2*p*(1-p)/E^2);n
[1] 217
Naturalmente, con más información, se reduce el tamaño de la muestra necesaria.
19
20. INTERVALO DE CONFIANZA PARA LA VARIANZA
R no da con un menú específico el intervalo de confianza para la varianza, aunque permite comparar varianzas
de dos poblaciones a partir de sendas muestras de cada una.
Admitiendo la hipótesis de normalidad en la población de partida, se puede calcular el intervalo de confianza
para la varianza:
[(n-1)*s2/χ2(n-1, 1-α/2) ; (n-1)*s2/χ2(n-1, α/2) ], calculando cada componente de las fórmulas.
EJEMPLO.-
Para el caso de las 10 probetas de hormigón sometidas a un ensayo de rotura, con los datos de resistencia en el
vector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel 95% para la
varianza y el de la desviación típica (los extremos son raíz cuadrada de los de la varianza), como sigue:
> n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s
[1] 18.11387
> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)
> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)
> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der
[1] 155.2355
[1] 1093.549
> izDtipica=sqrt(iz);
> derDtipica=sqrt(der);izDtipica;derDtipica
[1] 12.45935
[1] 33.06886
> print(c(iz,der));print(c(izDtipica,derDtipica))
[1] 155.2355 1093.5493
[1] 12.45935 33.06886
Para valorar la normalidad de los datos,
podemos utilizar la gráfica de comparación de
cuantiles con el modelo normal, al 95% de
confianza, que nos señala que es admisible.
También´podemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk:
>Estadísticos > Resúmenes > Test de normalidad de Shapiro-Wilk…
> shapiro.test(ResiProp$Resis)
Shapiro-Wilk normality test
data: ResiProp$Resis
W = 0.8833, p-value = 0.1425
Como el valor de p-value es mayor que el nivel de significación 0.05 por ejemplo, se puede admitir la
normalidad de los datos con un nivel de confianza del 95%.
20
21. DATOS EMPAREJADOS:
Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cada uno
se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin
de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignación de
orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una característica en cada zapato que
refleja su comportamiento ante el uso, que se interpreta con que si la característica medida tiene mayor valor
es porque ese tipo de material ofrece mejor calidad. Así resulta:
Niño MatA MatB
1 13,2 14,0
2 8,2 8,8
3 10,9 11,2
4 14,3 14,2
5 10,7 11,8
6 6,6 6,4
7 9,5 9,8
8 10,8 11,3
9 8,8 9,3
10 13,3 13,6
Considerando los datos de los desgastes en 10 pares de zapatos según el material A y B, efectuamos la
comparación.
> t.test(Zapatillas$MatA, Zapatillas$MatB,
alternative='two.sided',
conf.level=.95, paired=TRUE)
Paired t-test
data: Zapatillas$MatA and Zapatillas$MatB
t = -3.3489, df = 9, p-value = 0.008539
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-0.6869539 -0.1330461
sample estimates:
mean of the differences
-0.41
El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es
(-0,687; -0,133),
lo que indica que el valor de la característica de uso (por tanto la satisfacción) es mayor con el Material B que
con el A. Desde la visión de contraste de hipótesis, el reducido valor del p-valor: 0,009, indica que la hipótesis
de igualdad de medias se rechazaría con un nivel de significación del 5%, frente a la hipótesis de que los dos
materiales son igualmente satisfactorios.
Vamos a tratar los datos, erróneamente respecto al diseño del experimento, comparando como si fuesen
independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o
variable, e introducir otra columna que indica el tipo de Material. Se opera con los menús,
>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo…, con instrucciones R:
> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])
> names(ZapatillasApilados) <- c("Calidad", "Material")
Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta:
> t.test(Calidad~Material, alternative='two.sided',
conf.level=.95, var.equal=FALSE, data=ZapatillasApilados)
Welch Two Sample t-test
21
22. data: Calidad by Material
t = -0.3689, df = 17.987, p-value = 0.7165
alternative hypothesis:
true difference in means is not equal to 0
95 percent confidence interval:
-2.745046 1.925046
sample estimates:
mean in group MatA mean in group MatB
10.63 11.04
Obsérvese que el intervalo de confianza del 95%, (-2.745046 1.925046)
Incluye el valor ‘cero’, es decir, no se puede afirmar que
un material es de más calidad que el otro.
El realizar el experimento con datos apareados aumenta la sensibilidad
del contraste, detectando mejor las diferencias entre los datos.
22