SlideShare una empresa de Scribd logo
ESTADISTICA INFERENCIAL
Uno de los propósitos de la estadística es extraer conclusiones acerca de la naturaleza de una
población. Como las poblaciones son grandes y no puede ser estudiada en su totalidad, generalmente
el estudio se basa en el examen de solo una parte de esta. La estadística inferencial nos permite
estimar las características poblacionales desconocidas, examinando la información obtenida de una
muestra, de una población. Una muestra es un subconjunto de observaciones seleccionadas de una
población. Esta muestra debe ser representativa de la población objeto de estudio. La teoría del
muestreo estudia las relaciones que existen entre la distribución de un carácter en una población y la
distribución del mismo carácter en todas las muestras que tomemos de la misma. El muestreo más
importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma
probabilidad de ser extraídos e incluidos en la muestra. Existen otros tipos de muestreo como el
muestreo por conglomerados, sistemático y estratificado.
Cuando contamos con una muestra, la aplicación de los principios de la estadística inferencial puede
hacerse en forma sistemática, dividiendo el estudio en tres partes. Estas tres aéreas de la Estadística
Inferencial son las distribuciones muestrales, la estimación y el contraste de hipótesis.
Este apunte está organizado de manera que para cada caso, sean tratados los tres aspectos
estadísticos.
DISTRIBUCIONES MUESTRALES
Si las muestras obtenidas de una población son aleatorias, no se espera que dos muestras aleatorias
del mismo tamaño y tomadas de la misma población sean completamente parecidas; puede esperarse
que cualquier estadístico, como por ejemplo la media muestral, calculado a partir de las medias en una
muestra aleatoria, cambie su valor de una muestra a otra. Por ello, lo que se busca es estudiar la
distribución de todos los valores posibles de un estadístico. Es decir, como los valores de un
estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una
variable aleatoria con su correspondiente distribución de frecuencias. La distribución de frecuencias de
un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de
un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño.
Las distribuciones muestrales pueden construirse experimentalmente a partir de poblaciones finitas y
discretas de la siguiente manera:
1. De una población finita de tamaño N, se extraen de manera
aleatoria todas las muestras posibles de tamaño n.
2. Se calcula la estadística de interés para cada muestra.
3. Se lista en una columna los distintos valores de la estadística, y en
otra columna las frecuencias correspondientes de cada valor observado.
Así, si se calcula la media muestral para cada muestra; la colección de todas estas medias muestrales
recibe el nombre de distribución muestral de medias. Si hacemos lo mismo con las desviaciones
estándares, la colección de todas estas desviaciones estándar muestrales se llama distribución
muestral de la desviación estándar.
Normalmente, para una distribución muestral, se tiene interés en conocer tres cosas: media, varianza y
forma funcional (apariencia gráfica).
ESTIMACION
El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de
una muestra de una población se quiere generalizar las conclusiones al total de la misma. Existen dos
tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único
valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador. Una
estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el
parámetro.
1
Estimación Puntual
La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de
uno o más parámetros (características poblacionales). Para ello se requiere datos muestrales de cada
una de las poblaciones en estudio. De esta manera, las conclusiones pueden estar basadas en los
valores calculados de varias cantidades muestrales. Por ejemplo, si deseamos conocer el verdadero
valor de la media poblacional para un cierto carácter µ , se puede tomar muestras de la población y
usando las medias muestrales X estimar la media poblacional. De forma similar, si σ 2
es la varianza
de la distribución de del parámetro en la población, el valor de la varianza muestral s2
se podría utilizar
para inferir algo acerca de σ 2
. Una estimación puntual de un
parámetro es un sólo número que se puede considerar como el valor más razonable de . La
estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su valor a partir de
datos de la muestra dada. La estadística seleccionada se llama estimador puntual de .
Estimación por Intervalos
Debido a la variabilidad de la muestra, nunca se tendrá el caso de que = µ . El estimador puntual
nada dice sobre lo cercano que esta de µ . Una alternativa para obtener un solo valor
del parámetro que se esté estimando es calcular e informar todo un intervalo de valores factibles, un
estimado de intervalo o intervalo de confianza (IC), en el que pueda precisarse, con una cierta
probabilidad, que el verdadero valor del parámetro se encuentre dentro de esos límites. Elegiremos
probabilidades cercanas a la unidad, que se representan por 1-α y cuyos valores más frecuentes suelen
ser 0'90, 0'95 y 0'99. Tendremos que obtener dos estadísticos que nos darán los valores extremos del
intervalo, tales que
Al valor 1-α se le llama coeficiente de confianza, y
Al valor 100 (1-α) % se le llama nivel de confianza.
Se denomina estimación confidencial o intervalo de confianza para un nivel de confianza 1-α dado, a un
intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene el parámetro
Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una
medida del grado de fiabilidad en el intervalo. La probabilidad de error (no contener el parámetro) es α y
la probabilidad de acierto (contener el parámetro) es 1-α.
Un intervalo de confianza con un nivel de confianza de 95% podría tener un límite inferior de 9162.5 y
uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de
µ entre 9162.5 y 9482.9. Un nivel de confianza de 95% (1-α= 0.95) implica que 95% de todas las
muestras daría lugar a un intervalo que incluye µ o cualquier otro parámetro que se esté estimando, y
sólo 5% (α = 0,05) de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de
confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo.
Se denomina coeficiente de confianza a la probabilidad de que un estimador por intervalos cubra el
verdadero valor del parámetro que se pretende estimar, se lo representa por 1-α.
PRUEBA DE HIPOTESIS
Otra rama de la estadística inferencial recibe el nombre de Contraste de Hipótesis. En la práctica,
muchas veces nos encontramos con casos en los que existe una teoría preconcebida relativa a la
característica de la población en estudio. El Contraste de Hipótesis, en toda investigación, implica la
existencia de dos teorías o hipótesis implícitas, que reflejan esta idea a priori que tenemos y que
pretendemos contrastar con la realidad.. Este es uno de los aspectos más útiles de la inferencia
estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en
el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.
2
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más
poblaciones.
Un contraste o test de hipótesis es una técnica de Inferencia Estadística que permite comprobar si la
información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística
formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis
formulada.
Una hipótesis estadística puede ser:
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos. Las
hipótesis paramétricas se clasifican en:
• Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'
5, = 10, X = Y ,...).
• Compuesta: si la hipótesis asigna un rango de valores a los parámetros poblacionales
desconocidos ( > 1'
5, 5 < < 10, X < Y ,...).
No Paramétrica: es una afirmación sobre alguna característica estadística de la población en estudio.
Por ejemplo, las observaciones son independientes, la distribución de la variable en estudio es normal,
la distribución es simétrica,...
En el contraste de hipótesis estadísticas siempre se acepta, provisionalmente, una hipótesis como
verdadera, que es la hipótesis nula H0, y que es sometida a comprobación experimental frente a otra
hipótesis complementaria que llamaremos hipótesis alternativa H1. Como consecuencia de la
comprobación experimental, la hipótesis nula H0 podrá seguir siendo aceptada como verdadera o, por el
contrario, tendremos que rechazarla y aceptar como verdadera la hipótesis alternativa H1. Las hipótesis
deben ser formuladas de tal manera que sean mutuamente excluyentes y complementarias.
La especificación apropiada de la hipótesis nula y alternativa depende de la naturaleza propia del
problema en cuestión. Las formas básicas de establecer las hipótesis sobre el parámetro θ son las
siguientes:
I
0:oH θ θ=
1 0:H θ θ≠
II
0:oH θ θ≥
1 0:H θ θ<
III
0:oH θ θ≤
1 0:H θ θ>
IV
1 2:oH θ θ θ≤ ≤
1 1 2: ó >H θ θ θ θ<
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución
bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población
especificado en la hipótesis nula se determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el
objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del
parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio.
En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las
especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el
objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones.
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre de
prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del empleo de la
información contenida en la muestra aleatoria de la población de interés. Si esta información es
consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es
3
inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o
falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda
examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por
tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la
probabilidad de llegar a una conclusión equivocada.
La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de
poblaciones que al inicio se supone cierta (es decir, la "creencia a priori").
La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la
hipótesis del investigador.
La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere
que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo en la validez de
la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son
rechazar Ho o no rechazar Ho.
Región crítica y región de aceptación
La región crítica está constituida por el conjunto de muestras para las cuales se rechaza la hipótesis
nula H0.
La región de aceptación está constituida por el conjunto de muestras para las cuales se acepta la
hipótesis nula H0.
El valor o valores que separan la región crítica de la región de aceptación reciben el nombre de valor o
valores críticos.
Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán del tipo de las indicadas
en el siguiente gráfico:
Región crítica Región de aceptación Región crítica
(Rechazar 0H ) (Aceptar 0H ) (Rechazar 0H )
C C C
|-----------------------|-----------------------------------------------------|-----------------------|
↑ ↑
|----- - - - - --Valores críticos---------------|
Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones serán del tipo de las
indicadas en el siguiente gráfico:
Región crítica Región de aceptación
(Rechazar 0H ) (Aceptar 0H )
C C
← |-------------------------------------|-------------------------------------------------------| →
↑
Valor crítico
Análogamente, si el contraste es de forma III, es decir, unilateral a la derecha, entonces las regiones
son del tipo a las indicadas en el gráfico siguiente:
Región de aceptación Región crítica
(Aceptar 0H ) (Rechazar 0H )
C C
←|-----------------------------------------------------------------|---------------------------------|→
↑
Valor crítico
4
Errores de Tipo I y de Tipo II
En todo problema de decisión, cuando tenemos que elegir entre varias alternativas o decisiones existe
la posibilidad o riesgo de equivocarnos cometiendo los correspondientes errores. Así pues, en el
contraste de hipótesis, basándonos en la información proporcionada por la muestra, tenemos que
decidir si aceptamos la hipótesis nula 0H o si la rechazamos. La decisión siempre la hacemos sobre la
hipótesis nula, existiendo un riesgo de equivocarnos que nos llevará a los errores de tipo I y de tipo II.
El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera. También es
conocido como α ó nivel de significancia. Si tuviéramos un nivel de confianza del 95% entonces el
nivel de significancia sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el
nivel de significancia sería del 10%.
El error tipo II ó error β se define como la aceptación de la hipótesis nula cuando ésta es falsa.
Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula, dos de ellos no nos
llevan a ningún tipo de error y los otros dos dan lugar a los errores de tipo I y de tipo II. En efecto, la
tabla siguiente nos muestra los cuatro posibles resultados:
Si la hipótesis nula H0 es verdadera, podemos aceptar H0 o rechazar H0 basándonos en la información
proporcionada por la muestra. Si aceptamos H0 cuando es verdadera, la decisión es correcta y no hay
error. Si rechazamos H0 cuando es verdadera, hemos cometido un error, que se llama error de tipo I.
Si la hipótesis nula H0 es falsa, podemos aceptar H0 o rechazar H0 basándonos en la información
muestral. Si aceptamos H0 cuando es falsa, hemos cometido un error, que se llama error de tipo II. Si
rechazamos la hipótesis nula H0 cuando es falsa, la decisión es correcta y no hay error.
Es necesario dar una medida de la posibilidad o del riesgo de cometer estos dos tipos de errores. Estas
medidas son probabilidades y las notaremos por α y β, siendo:
α = Riesgo de error de tipo I = P (Error de tipo I) = P (Rechazar 0H / 0H es cierta).
β = Riesgo de error de tipo II = P (Error de tipo II)= P (Aceptar 0H / 0H es falsa)
Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general
tiene como resultado un aumento en la probabilidad del otro. El tamaño de la región crítica, y por tanto
la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos.
Un aumento en el tamaño muestral n reducirá la probabilidad de error. Si los errores de tipo I y de tipo II
son nulos, α=β=0, entonces decimos que el test o contraste es ideal.
Cuando estudiamos los intervalos de confianza, decimos que 1-α es el nivel de confianza, y ahora
podemos decir que representa el complemento de la P (error de tipo I), siempre y cuando el test sea
bilateral, es decir:
Nivel de confianza = 1-α
=1-P(error de tipo I)= P(aceptar 0H / 0H es cierta)
Decisión 0H es verdadera 0H es falsa
Aceptamos 0H
Decisión correcta
No hay error
1-α
Nivel de confianza
Error de tipo II
β
Rechazamos 0H Error de tipo I
α
Decisión correcta
No hay error
1- β
5
Se denomina nivel de significación de un contraste a la probabilidad de cometer un error tipo I. Fijar el
nivel de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a
asumir de rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige el experimentador
y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'
05, 0'
01 o
0'
001). La
selección de un nivel de significación conduce a dividir en dos regiones el conjunto de posibles
valores del estadístico de contraste:
La región de Rechazo, con probabilidad α, bajo H0.
La región de Aceptación, con probabilidad 1 - α, bajo H0.
Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se denomina:
Contraste unilateral o contraste de una cola: es el contraste de hipótesis cuya región de rechazo está
formada por una cola de la distribución del estadístico de contraste, bajo H0.
Contraste bilateral o contraste de dos colas: es el contraste de hipótesis cuya región de rechazo está
formada por las dos colas de la distribución del estadístico de contraste, bajo H0. Es decir, la región de
rechazo se divide en dos lados o colas de la distribución de la estadística de prueba.
Estadística de prueba:
La estadística de prueba es alguna estadística que se puede calcular a partir de los datos de la
muestra. Sirve como un productor de decisiones, ya que la decisión de rechazar o no la hipótesis nula
depende de la magnitud de la estadística de prueba. La fórmula para la estadística de prueba que se
aplica en muchas de las pruebas de hipótesis es:
Estadística de prueba = estadística relevante – parámetro supuesto / error estándar
La calve para la inferencia estadística es la distribución muestral. Es necesario recordar esto en los
casos en los que se deba especificar la distribución de probabilidad de la estadística de prueba.
A continuación, se analizaran las distribuciones muestrales, estimación y prueba de hipótesis para: la
media, una proporción, la diferencia de medias y la diferencia de proporciones. Se recomienda hacer un
estudio completo de cada tema, y al final de cada uno hacer un resumen integratorio.
Distribución Muestral de Medias
El conocimiento y comprensión de las distribuciones muestrales son necesarios para entender los
conceptos de la estadística inferencial. Una de las distribuciones muestrales más importantes es la
distribución de la media de la muestra. La aplicación mas sencilla de la distribución muestral de la
media de la muestra es el cálculo de la probabilidad de obtener una muestra con una media de alguna
magnitud especifica. Este es un ejemplo de cómo elaborar esta distribución.
Se tiene una población de tamaño N=5, la cual se compone de las edades de cinco niños que son
pacientes externos de una clínica de salud mental. Las edades son las siguientes: x1=6, x2=8, x3=10,
x4=12, x5=14. La media para esta población es igual a ∑ Nx / =(6+8+10+12+14)/5 = 10. La varianza es
2
σ =
( )
N
x∑ −
2
µ
=
5
40
= 8
Otra medida de dispersión que se puede calcular es:
6
S2
=
( )
1
2
−
−∑
N
x µ
=
4
40
=10
Esta cantidad se utilizara en el los temas de inferencia estadística.
Siguiendo con el ejemplo, a partir de esta población se extraen todas las muestras posibles de tamaño
n=2. Se observa que cuando el muestreo se efectúa con reemplazos, hay 25 muestras posibles, cada
una con sus respectivas medias muestrales. Para elaborar una distribución muestral para x se listan
los diferentes valores de x en una columna y sus frecuencias de ocurrencia en otra.
Como dijimos anteriormente, para una distribución muestral se tiene interés en la forma funcional de la
distribución, su media y su varianza.
Para el cálculo de la media muestral se suman las 25 medias de las muestras y se divide entre el
número de muestras. Es interesante destacar que la media de la distribución muestral para x tiene el
mismo valor que la media para la población original. El cálculo de la varianza se calcula de la siguiente
manera:
2
xσ =
( )
n
xi
N
x
2
∑ − µ
=
25
100
= 4 =
2
8
=
n
2
σ
Se puede advertir que la varianza de la distribución muestral no es igual a la varianza de la población.
Sin embargo, la varianza de la distribución muestral es igual a la varianza de la población dividida por el
tamaño de la muestra utilizada para obtener la distribución muestral. La raíz cuadrada de la varianza de
la distribución muestral se llama error estándar y es igual a σ / n .
Se puede distinguir dos situaciones: muestreo a partir de una población que sigue una distribución
normal y muestreo a partir de una que no sigue una distribución normal. Si la población es normal se
cumplen las propiedades enunciadas anteriormente. Si la población no es normal, se utiliza un teorema
conocido como el teorema del límite central.
Teorema del límite central
Si se seleccionan muestras aleatorias de una población con media µ y desviación estándar σ ,
entonces, cuando n es grande, la distribución maestral de medias tendrá aproximadamente una
distribución normal con una media igual a µ y una desviación estándar de σ / n . La aproximación
será cada vez más exacta a medida de que n sea cada vez mayor.
Aplicando este teorema, cuando el tamaño de la muestra es grande, el muestro de x tendrá una
distribución aproximadamente normal.
Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será
normal sin importar el tamaño de la muestra. Si la población de donde se extraen las
muestras no es normal, entonces el tamaño de la muestra debe ser mayor o igual a 30, para que la
distribución muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la muestra, más
cerca estará la distribución muestral de ser normal. Para muchos propósitos, la aproximación normal se
considera buena si se cumple n=30
Cuando el muestreo se realiza sin reemplazos, la varianza de la distribución muestral no es igual a la
varianza poblacional dividida entre el tamaño de la muestra. Sin embargo existe una relación que se
obtiene al multiplicar:
σ / n . (N-n)/(N-1)
Esta es la varianza de la distribución maestral de x cuando el muestreo es sin reemplazos. El factor (N-
n)/(N-1) se llama corrección por población finita y se puede omitir cuando el tamaño de la muestra es
pequeño en comparación con el tamaño de la población. Es decir, la corrección de población finita
generalmente se ignora cuando n/N ≤ 0.5
La distribución normal es una distribución continua, en forma de campana en donde la media, la
mediana y la moda tienen un mismo valor. Con esta distribución podíamos calcular la probabilidad de
algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula:
7
z =
σ
µ−x
Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una
población normal, la distribución muestral de medias tiene un comportamiento aproximadamente
normal. Teniendo en cuanta esto y sabiendo que la desviación estándar es σ / n , se hacen los
reemplazos correspondientes. Así la formula para calcular la probabilidad del comportamiento del
estadístico, en este caso la media de la muestra, quedaría de la siguiente manera:
y para poblaciones finitas y muestro con reemplazo:
Ejemplo 1: Si la media y la desviación estándar de la concentración en suero en hombres sanos es de
120 15mg por cada 100 ml, respectivamente, ¿Cuál es la probabilidad de que una muestra aleatoria de
50 hombres normales tenga una media entre 115 y 125mg/100ml?
Solución: No se especifica la forma funcional de la población de valores de las concentraciones de
hierro en el suero, pero como el tamaño de la muestra es mayor a 30, se puede utilizar el teorema del
limite central para transformar la distribución muestral de x en aproximadamente normal con media de
120 y una desviación estándar de 15/ 50 =2.12. La probabilidad buscada es:
P (115 ≤ x ≤125) = P 

 −
12.2
120115
≤ z ≤ 

−
12.2
120125
=P (-2.36 ≤ z ≤2.36
= 0.9909 – 0.0091
=0.9818
Ejemplo 2: Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con
una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200
muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
b. El número de medias muestrales que caen por debajo de 172 centímetros.
Solución: Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo
sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el
denominador de Z para sólo sustituirlo en cada inciso.
a.
8
(0.7607)(200)=152 medias muestrales
b.
(0.0336)(200)= 7 medias muestrales
Estimación para la Media
Supongamos que un grupo de investigadores quiere estimar la media de una población que sigue una
distribución normal y que, para ello, extraen una muestra aleatoria de tamaño n de la población y
calculan el valor de x , el cual utilizan como una estimación puntual de µ . Aunque este estimador
posee todas las cualidades de un buen estimador, no se puede esperar que x sea igual a µ . Por lo
tanto, es mucho más significativo estimar µ mediante un intervalo que de alguna forma muestre el valor
de µ .
Para realizar esa estimación por intervalos, aprovechamos las distribuciones muestrales. En este caso,
como el interés está en la media de la muestra como estimador de la media de una población, es
necesario tener en cuenta la distribución muestral de la media.
En base a la distribución muestral de medias, la fórmula para el cálculo de probabilidad es la siguiente:
.
Cuando se desconoce el valor de la media poblacional lo podemos estimar por medio de la media de la
muestra, para ello sólo se despejará µ de la formula anterior, quedando lo siguiente:
Tomamos un intervalo que contenga una masa de probabilidad de1-α . La cantidad 1-α se conoce
como coeficiente de confianza y designa el área total dentro del intervalo en el que puede hallarse el
valor real de µ . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo
simétrico con respecto a la media (0), ya que allí es donde se acumula más masa. Así las dos colas de
la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de
probabilidad, .
9
El intervalo de confianza al nivel de1-α para la esperanza de una normal de varianza conocida es el
comprendido entre los valores
La forma habitual de escribir este intervalo es:
De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán.
Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Este
valor de Z se conoce como coeficiente de confiabilidad, que indica en ± cuantos errores estándar
están aproximadamente el 95% de los valores posibles de x (siempre que 1- α =0.95). El otro
componente conocido σ es el error estándar o desviación estándar de la distribución muestral de x .
Cuando 1-α = 0.95, el intervalo recibe el nombre de confianza del 95% para µ . Se dice que se tiene el
95 por ciento de confianza de que la media de la población esté dentro del intervalo calculado.
Como vemos, conociendo la ley de distribución, la media muestral y la varianza, podemos estimar el
valor de la media poblacional.
Ejemplo: Un fisioterapista desea estimar, con el 99% de confianza, la media de fuerza máxima de un
músculo particular en cierto grupo de individuos. Se inclina a suponer que los valores de dicha fuerza
muestran una distribución aproximadamente normal con una varianza de 144. Una muestra de 15
individuos que participaron en el experimento proporcionó una media de 94.3.
Solución: En la tabla de distribución normal, el valor de Z que corresponde a un coeficiente de confianza
de .99 es de 2.58. Este es el coeficiente de confiabilidad. El error estándar es de σ x=12/ 15 = 3.10.
Por lo tanto el intervalo de confianza del 99% para µ es:
84.3 ± 2.58(3.10)
84.3 ± 8.0
(76.3 ; 92.3)
Se dice que se tiene el 99% de confianza de que la media de la población esta entre 76.3 y 92.3 ya que,
al repetir el muestreo, el 99% de todos los intervalos que podrían ser construidos de esta forma,
incluirían a la media de la población.
10
Este procedimiento para obtener un intervalo de confianza para la media de la población, requiere el
conocimiento de la varianza de la población de la que se extrae la muestra. Sin embrago, la situación
más común es aquella en donde no se conoce el valor de la media ni el valor de la varianza. Esto
impide que podamos utilizar el estadístico Z para la construcción de intervalos. Aunque la estadística Z
tiene una distribución normal cuando la población es normal o aproximadamente normal cuando n es
muy grande, no se puede utilizar porque se desconoceσ . En estos casos se puede utilizar una
estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la
de la población (s=σ ). Sin embargo, en
estadística inferencial, los estadísticos para medir la dispersión más convenientes son los insesgados
como la cuasivarianza típica. Según el caso se utilizará la cuasivarianza típica o la desviación típica.
Por ejemplo si tomamos una muestra de tamaño 25 y desviación típica igual a 10, la cuasivarianza
típica será:
En los casos en los que se desconoce σ pero la población de donde provienen los datos es normal, lo
correcto es utilizar otra distribución llamada "t" de student, que no depende de σ (desconocido) sino de
su estimación puntual insesgada, es decir la cuasivarianza típica. Esta distribución se aplicara siempre
que no sean conocidos la media y varianza de la población. El calculo de la media y el intervalo de
confianza al nivel 1-α cuando los parámetros son desconocidos es:
Y se tomara como intervalo de confianza aquella región en la que
En este caso se usa la notación:
El procedimiento es básicamente el mismo, lo que es diferente es el origen del coeficiente de
confiabilidad. Este se obtiene a partir de la tabla de distribución t.
Ejemplo: Se desea estimar la concentración media de amilasa en suero de una población sana. Las
mediciones se efectuaron en una muestra de 15 individuos aparentemente saludables. La muestra
proporcionó una media de 96 unidades/100ml y una desviación estándar de 35 unidades/100ml. La
varianza se desconoce.
Solución: Podemos utilizar la media de la muestra 96 como una estimación puntual de la media de la
población. Pero al no conocer la desviación estándar, podemos suponer que la población sigue una
distribución aproximadamente normal antes de construir un intervalo de confianza para µ . Si
suponemos que esta hipótesis es razonable, podemos buscar un intervalo de confianza del 95%. Se
tiene el estimador x y el error estándar es s/ n = 35 / 15 = 9.04. Buscamos el coeficiente de
confiabilidad, es decir, el valor de t asociado a un coeficiente de confianza de .95 y n – 1 =14 grados de
libertad. Se encuentra que el valor de t, que es el coeficiente de confiabilidad, es de 2.1448. Ahora se
construye el intervalo de confianza al 95 por ciento:
96 ± 2.1448(9.04)
96 ± 19
11
( 77 ; 15 )
Este intervalo se puede interpretar desde dos puntos de vista, probabilístico y práctico. Se dice que se
tiene el 95% de confianza de que la media real de la población µ está entre 77 y 115 ya que con
muestreos repetidos, el 95% de los intervalos construidos de una forma semejante incluyen a µ .
Contrastes para la media
Los contrastes para la media son muy importantes. Cuando analizamos un carácter dentro de una
población, una de las primeras cosas que hacemos es calcular la media para dicho carácter. Muchas
veces tenemos un valor a priori de la media poblacional y es necesario determinar si coincide o se
aproxima al valor real en la población. Los contrastes de hipótesis para la media nos permiten
comprobar si el valor fijado a priori de la media coincide con el de la población. Cuando el muestreo se
realiza a partir de una población normal y se conoce la varianza de la población, la estadística de
prueba para H0 : µ = µ 0 es:
Contrastes sobre la media de una población N(μ,σ) con σ conocida:
Este contraste se aplica cuando tenemos una población que se distribuye normalmente N(μ,σ), en
donde la varianza σ 2
es conocida, y mediante una muestra aleatoria simple de tamaño n, (
1 2 3, , ,..., nx x x x ) , y un nivel de significación α dado, queremos realizar los siguientes contrastes:
1.
0 0
1 0
:
:
H
H
µ µ
µ µ
= 
 
≠ 
2.
0 0
1 0
:
:
H
H
µ µ
µ µ
≤ 
 
> 
3.
0 0
1 0
:
:
H
H
µ µ
µ µ
≥ 
 
< 
La técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con los datos
muestrales si es verdaderamente cierta o no. Para dar una forma homogénea a todos los contrastes de
hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra
como valor experimental y a los extremos de la región crítica, como valores teóricos. Definiendo
entonces para cada caso un valor teórico y uno experimental.
1. Contraste de
0 0
1 0
:
:
H
H
µ µ
µ µ
= 
 
≠ 
De dos colas
Sabemos que la población se distribuye normalmente, por lo que
El valor teórico se obtiene de la tabla de distribución normal. Si H0 es cierta, entonces esperamos que el
valor zexp obtenido sobre la muestra esté cercano a cero con una gran probabilidad. La regla de decisión
será:
- Rechazamos 0H si:
0
exp
x
z
n
µ
σ
−
= < /2zα− ó
0
exp
x
z
n
µ
σ
−
= > /2zα−
12
- Aceptamos 0H si: /2 exp /2z z zα α− ≤ ≤
La regla de decisión también la podemos formular en función de la región crítica o de la región de
aceptación, así pues, si calculamos la media x (media muestral) correspondiente a la muestra aleatoria
de tamaño n, entonces:
Si 0 /2 0 /2,x z z
n n
α α
σ σ
µ µ
 
∈ − + 
 
aceptamos 0H .
Si 0 /2 0 /2,x z z
n n
α α
σ σ
µ µ
 
∉ − + 
 
rechazamos 0H .
Por lo tanto, se rechaza la hipótesis nula si el valor calculado de la estadística de prueba cae en la
región de rechazo y no se rechaza si cae en la región de aceptación.
2. Contraste de
0 0
1 0
:
:
H
H
µ µ
µ µ
≥ 
 
< 
De una cola
Bajo la hipótesis nula la distribución de la media muestral es
y como región crítica consideraremos aquella formada por los valores extremadamente bajos de Zexp,
con probabilidad , es decir
Entonces la región de aceptación, o de modo más correcto, de no rechazo de la hipótesis nula es:
.
La regla de decisión será:
- Rechazamos 0H si:
0
exp
x
z
n
µ
σ
−
= <- / 2zα
- Aceptamos 0H si:
0
exp
x
z
n
µ
σ
−
= ≥ - / 2zα
Se rechaza la hipótesis nula, cuando uno de los estadístico Z o toma un valor en la zona sombreada
de sus gráficas respectivas.
13
3. Contraste de
0 0
1 0
:
:
H
H
µ µ
µ µ
≤ 
 
> 
Si observamos el caso anterior, podemos ver que aquí tomamos como hipótesis alternativa su contraria.
Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula es
La regla de decisión será:
- Rechazamos 0H si:
0
exp
x
z
n
µ
σ
−
= > /2zα
- Aceptamos 0H si:
0
exp
x
z
n
µ
σ
−
= ≤ / 2zα
Regiones de aceptación y rechazo para el test unilateral contrario
Ejemplo: Supóngase que un investigador está estudiando el nivel promedio de alguna enzima en cierta
población de seres humanos. El investigador toma una muestra de 10 individuos, determina el
nivel de la enzima en cada uno de ellos y calcula la media muestral igual a 22. La variable de
interés sigue una distribución aproximadamente normal con una varianza de 45. Con estos datos
y los procedimientos de prueba de hipótesis, ¿es posible concluir que el nivel medio de la enzima
en esta población es diferente de 25?
Solución: H0: µ = 25
H1: µ ≠ 25
14
Primero, es necesario especificar las regiones de rechazo y aceptación. Para ello definimos un nivel de
significación α , que es la probabilidad de cometer un error de tipo I. Supongamos que queremos que la
probabilidad de rechazar una hipótesis nula verdadera es α =0.05. Al estar la región de rechazo
formada por dos partes (contraste bilateral), parece lógico que se pueda dividir a α en partes iguales
siendo α /2=0.025. La región de aceptación será 1-α /2= 0.975. Este valor nos ayudara a encontrar el
valor de z en la tabla de distribución normal. El valor z para 1-α /2=0.975 es 1.96. Como el contraste es
bilateral, la región de rechazo consiste en todos los valores de la estadística de prueba mayores o
iguales que 1.96 o menores o iguales que -1.96. Entonces, se rechaza H0 si el valor calculado es ≥1.96
o ≤-1.96. De otra manera no se rechaza.
El valor deα y la regla de decisión deben ser establecidos antes de reunir los datos, lo cual evita que
los resultados de la muestra influyan en la decisión.
Calculo de la estadística de prueba:
zexp=
10/45
2522 −
= 1213.2
3−
= -1.41
Como -1.41 no está en la región de rechazo, no se puede rechazar la hipótesis nula. Se puede concluir
que µ puede ser igual a 25 y que las acciones del administrador o medico deben estar de
acuerdo con esta conclusión. También se puede llegar a esta misma conclusión mediante
el uso de un intervalo confianza del 10(1-α ) por ciento. El intervalo de confianza de 95% para
µ es:
22 ±1.96 10/45
22 ±1.96 (2.1213)
22 ±4.16
(17.84 ; 26.16)
Dado que este intervalo incluye a 25, se dice que 25 es un candidato para la media y por lo tanto, µ
puede ser igual a 25. H0 no se rechaza.
Contrastes sobre la media de una población N (μ,σ) con σ desconocida
Este contraste es aplicable cuando se tiene una muestra aleatoria simple ( 1 2 3, , ,..., nx x x x ) procedente de
una población N (μ,σ), en donde ni la media µ ni la varianza σ 2
son conocidos y, con un nivel de
significación α dado, queremos realizar los siguientes contrastes:
1.
0 0
1 0
:
:
H
H
µ µ
µ µ
= 
 
≠ 
2.
0 0
1 0
:
:
H
H
µ µ
µ µ
≤ 
 
> 
3.
0 0
1 0
:
:
H
H
µ µ
µ µ
≥ 
 
< 
Es decir nuevamente queremos ver si el valor fijado a priori de la media poblacional es o no el real.
Utilizando el estadístico de prueba:
0
exp
x
t
s
n
µ−
= Se tendrán los siguientes contrastes.
15
1. Contraste de
0 0
1 0
:
:
H
H
µ µ
µ µ
= 
 
≠ 
o Test de dos colas
Al no conocer σ 2
va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza
muestral, Sˆ 2
. Por ello la distribución del estimador del contraste será una t de Student, que ha perdido
un grado de libertad, y según la definición de la distribución de Student:
Definimos al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a
los extremos de la región crítica, como valores teóricos:
Entonces:
- Se rechaza 0H si: exp / 2t tα< − ó exp / 2t tα> −
- Se acepta 0H si: / 2 exp / 2t t tα α− ≤ ≤
Región crítica para el contraste bilateral de una media
Ejemplo: Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo
gaussiano. Deseamos contrastar con un nivel de significación deα =0.05 si la altura media es
diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25
personas se obtuvo:
Solución:
El contraste que se plantea es: H0: µ = 174cm
H1: µ ≠ 174cm
La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadístico
16
es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis
alternativa (y en consecuencia se rechazará la hipótesis nula) si
Para ello procedemos al cálculo de Texp:
Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una
evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95%. Es decir, no se rechaza
H0.
2. Contraste de
0 0
1 0
:
:
H
H
µ µ
µ µ
≥ 
 
< 
Tests de una cola
Por analogía con el contraste bilateral, definiremos
Entonces:
- Se rechaza 0H si: expt tα< −
- Se acepta 0H si: expt tα≥ −
Región crítica para uno de los contrastes unilaterales de una media.
3. Contraste de
0 0
1 0
:
:
H
H
µ µ
µ µ
≤ 
 
> 
17
En este caso también definimos Texp y Tteo
- Se rechaza 0H si: expt tα>
- Se acepta 0H si: expt tα≤
Región crítica para el contraste unilateral de una media contrario al anterior.
Ejemplo: Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura
media es menor de 174 cm.
Solución: Ahora el contraste es H0: µ ≥ 174cm
H1: µ < 174cm
Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis nula debe ser
rechazada o no. Este es:
De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el
estadístico
es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la hipótesis alternativa
(y en consecuencia se rechazará la hipótesis nula) si
El valor de Texp obtenido fue de
18
Texp= -1.959< t24,0.05= -t24,0.95 = -1.71
Por ello hemos de aceptar la hipótesis alternativa
Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que 174≠µ cm, el
``simple hecho" de plantearnos un contraste que parece el mismo pero en versión unilateral nos
conduce a rechazar de modo significativo que µ =174 y aceptamos que µ <174 cm. Es por ello que
podemos decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el que los tests
con H0 y H0' los consideramos equivalentes:
Distribución muestral de Proporciones
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos
investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra.
La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta
distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al
extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el
número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico
media.
Una población binomial está estrechamente relacionada con la distribución muestral de proporciones;
una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de
proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un
experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes
a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que
np 5 y
n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre
el número de intentos.
La distribución muestral de proporciones se puede obtener experimentalmente. A partir de la población,
que se supone es finita, se toman todas las muestras posibles de un tamaño dado, y para cada muestra
se calcula la proporción de la muestra pˆ . Después, se elabora una distribución de frecuencias de pˆ ,
numerando los distintos valores de pˆ junto con sus frecuencias de ocurrencias. Esta distribución de
frecuencias constituye la distribución muestral de pˆ .
La media de la distribución muestral de proporciones es el promedio de todas las proporciones posibles
de la muestra y es igual a la proporción en la población de un cierto evento p:
µ pˆ = p
La varianza de la distribución binomial es σ 2
= npq, por lo que la varianza de la distribución muestral de
proporciones es:
19
σ pˆ =
n
pq
= σ 2 pˆ =
n
pq
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones
está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para
calcular la probabilidad del comportamiento de la proporción en la muestra.
z =
n
pq
pp −ˆ
Ejemplo 1: Supóngase que en una población de seres humanos, el 0.8 son daltónicos. Si se eligen
aleatoriamente 150 individuos de esta población, ¿Cuál es la probabilidad de que una proporción de
individuos daltónicos tenga un tamaño del 0.15?
Solución: Si la proporción de la población se designa como p, se puede decir que p=0.8. Como np y
n(1-p) son mayores que 5 (150x0.8=12 y 150x0.92=138), se puede decir que, en este caso p sigue una
distribución aproximadamente normal, con una media µ pˆ = p= 0.8 y una varianza igual a p(1-p)/n =
(0.8).(0.92)/150=0.00049. La probabilidad buscada es el área bajo la curva de pˆ a la derecha de 0.15.
Esta área es igual al área bajo la curva normal estándar a la derecha de:
z =
n
pq
pp −ˆ
=
00049.0
8.015.0 −
=
0222.0
07.0
=3.15
Al utilizar la tabla de distribución normal estándar se tiene que el área a la derecha de z=3.15 es 1-
0.9992=0.0008. Se puede decir que la probabilidad de observar pˆ ≥0.15 en una muestra aleatoria de
tamaño n=150 de una población en la que p=0.08 es 0.0008. Si se extrajera una muestra de este tipo,
seria un evento muy extraño.
Ejemplo 2: Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios
pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios
tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el
medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que
realmente presentan una reacción adversa, exceda el 4%.
a. Resolverlo mediante la aproximación de la normal a la binomial
b. Resolverlo con la distribución muestral de proporciones
a. Aproximación de la distribución normal a la binomial:
Datos:
n=150 personas p=0.03
x= (0.04)(150) = 6 personas p(x>6) = ?
Media = np= (150)(0.03)= 4.5
20
p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una
muestra de 150 personas, más de 6 presentarán una reacción adversa.
b. Distribución Muestral de Proporciones
Datos:
n=150 personas P=0.03
p= 0.04 p(p>0.04) = ?
Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad del 17% de
que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una
reacción adversa.
Estimación de una Proporción
Muchas preguntas de interés para los profesionales tienen relación con las proporciones de la
población. Por ejemplo ¿Qué proporción de alguna población tienen cierta enfermedad? o ¿Qué
proporción es inmune a cierta enfermedad?
Para estimar la proporción de una población se procede de la misma manera que cuando se estima la
media de una población. Se extrae una muestra de la población de interés y se calcula la proporción pˆ
. Esta se utiliza como el estimador puntual para la proporción de la población.
Un estimador puntual de la proporción P en un experimento binomial está dado por la estadística P
=X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra p
=x/n se utilizará como estimador puntual del parámetro P.
Como vimos anteriormente, cuando np y n(1-p) son mayores que 5, se puede considerar que la
distribución muestral de pˆ se aproxima bastante a una distribución normal. En estos casos, el
coeficiente de confiabilidad es algún valor de Z de la distribución normal estándar. El error estándar es
igual npp /)ˆ1(ˆ − . Como P es el parámetro que se tarta de calcular, se desconoce, se debe utilizar pˆ
como estimación. Podemos establecer un
intervalo de confianza para P al considerar la distribución muestral de proporciones.
21
Al despejar P de esta ecuación nos queda:
En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que
queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el
tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento
del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. El error
de estimación será la diferencia absoluta entre p y P.
Para encontrar el intervalo de confianza al nivel de significación α para p se considera el intervalo que
hace que la distribución de Z~N(0,1) deje la probabilidad fuera del mismo. Es decir, se considera el
intervalo cuyos extremos son los cuantiles 2α y 1- 2α . Así se puede afirmar con una confianza de 1-
α que:
Ejemplo: Se llevo a cabo una encuesta para estudiar los hábitos y actitud hacia la salud mental de cierta
población urbana de adultos. De los 300 entrevistados, 123 de ellos dijeron que se sometían
regularmente a una revisión dental dos veces por año. Se desea construir un intervalo de
confianza de 95% para la proporción de individuos de la población muestreada que se somete a
la revisión dental dos veces al año.
Solución: La mejor estimación puntual de la proporción de la población es pˆ =123/300 = 0.41. El
tamaño de la muestra y la estimación de p son suficientes como para justificar el uso de la
distribución normal estándar para construir el intervalo de confianza. El coeficiente de
confiabilidad que corresponde a un nivel de confianza de .95 es de 1.96 y la estimación del error
estándar σ pˆ es npp /)ˆ1(ˆ − = 300/)59.0(41.0 =0.28. El intervalo de confianza del 95% para
p, con base en estos datos, es
0.41 ± 1.96(0.28)
0.41 ± 0.05
(0.36 ; 0.46)
Se puede decir que se tiene el 95% de confianza de que la proporción real p está entre 0.36 y 0.46 ya
que, al repetir el muestreo, el 95% de los intervalos construidos de esta forma incluyen a la
proporción p real.
Contrastes de una proporción
Este test se utiliza para contrastar la igualdad o desigualdad de proporciones que han sido estimadas y
las proporciones reales. Supongamos que tenemos una sucesión de observaciones independientes, de
modo que cada una de ellas se comporta como una distribución de Bernoulli de parámetro p. La v.a. X,
22
definida como el número de éxitos obtenidos en una muestra de tamaño n es por definición una v.a. de
distribución binomial:
La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es:
Nuestro contraste de significación es:
frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico (de contraste) que ya fue
considerado anteriormente en la construcción de intervalos de confianza para proporciones y que sigue
una distribución aproximadamente normal para tamaños muestrales suficientemente grandes:
Entonces, si la hipótesis H0 es cierta se tiene
Se pueden hacer pruebas unilaterales y bilaterales para rechazar o no la hipótesis nula.
1. Contraste de
0 0
1 0
:
:
H p p
H p p
= 
 
≠ 
Contraste bilateral
Extraemos una muestra y observamos el valor X=x = pˆ =
n
x
.
Entonces se define
Se acepta 0H si: /2 / 2expz z zα α− ≤ ≤
Siendo el criterio de aceptación o rechazo de la hipótesis nula el que refleja la figura para el contraste
bilateral de una proporción
23
2. Contraste de:
0 0
1 0
:
:
H p p
H p p
≥ 
 
< 
Contrastes unilaterales
El criterio de aceptación o rechazo a seguir es:
Se acepta 0H si: expz zα≥
Siendo zα [ ] [ ]ó P Z z 1P Z zα αα α> = ≤ = −
Entonces para un contraste unilateral cuando H0: p ≥p0
3. Contraste de:
0 0
1 0
:
:
H p p
H p p
≤ 
 
> 
Este es el test unilateral contrario, se tiene la expresión simétrica
Se acepta 0H si: expz zα≤ −
24
Contraste unilateral cuando se tiene H0: p ≤p0
Ejemplo: Suponer que hay interés por saber que proporción de la población de conductores de
automóviles utilizan con regularidad el cinturón de seguridad del asiento. En una encuesta de 300
conductores adultos de automóviles, 123 de ello dijeron que regularmente utilizaban el cinturón de
seguridad. ¿Es posible concluir a partir de estos datos que, en la población muestreada, la
proporción de quienes utilizan regularmente el cinturón de seguridad no es del 50?
Solución: H0: p = 0.5
H1: p ≠ 0.5
A partir de los datos se tiene que pˆ =0.41 y el error estándar es 300/)5.0)(5.0( .
El cálculo de la estadística de prueba es:
Z =
300
)5.0)(5.0(
5.041.0 −
=
0289.0
9.0−
= - 3.11
Si α =0.05, los valores críticos son ± 1.96. Se rechaza H0 a menos que -1.96<zcalculada<1.96.
Como -3.11< -1.96 se rechaza la hipótesis nula. Se concluye que la proporción de la población que usa
regularmente el cinturón de seguridad no es de 0.5.
Distribución muestral de diferencia de medias
Con frecuencia, el interés se centra en dos poblaciones. Puede ser que un investigador desee saber
algo acerca de las diferencias entre las medias de dos poblaciones. Para este y otros casos, el
conocimiento acerca de la distribución muestral de la diferencia entre dos medias es muy útil.
Se tienen dos poblaciones distintas, la primera con media µ 1 y desviación estándar σ 1, y la segunda
con media µ 2 y desviación estándar σ 2. Se elige una muestra aleatoria de tamaño n1 de la primera
población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la
media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas
diferencias junto con sus frecuencias, se llama distribución muestral de las diferencias entre medias o la
distribución muestral del estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales,
entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras.
Sabemos que cuando n es grande, la distribución muestral de medias tendrá aproximadamente una
distribución normal con una media igual a µ (la media de la población) y una desviación estándar de
n/σ . Con esto podemos deducir que la media para esta distribución muestral de diferencia de medias
es igual a las diferencia entre las medias reales de las poblaciones µ 1- µ 2. La varianza es igual a (σ
2
1/n1) + (σ 2
2/n2). Y el error estándar de la diferencia entre las medias muestrales es:
25
.
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es:
Este procedimiento es válido incluso cuando el tamaño de las muestras es diferente y cuando las
varianzas tienen valores diferentes.
Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para
niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los
niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras
que el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su
desviación estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es
el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de
los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas.
Solución: Datos:
µ 1 = 100 libras µ 2 = 85 libras
σ 1 = 14.142 libras
σ 2 = 12.247 libras
n1 = 20 niños
n2 = 25 niñas
= ?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20
libras más grande que el de la muestra de las niñas es 0.1056.
Estimación de la Diferencia entre dos Medias
En ciertos casos, se desea estimar la diferencia entre las medias de dos poblaciones. Teniendo dos
poblaciones donde el carácter que estudiamos en ambas (X1 y X2) son v.a. distribuidas según leyes
gaussianas, podemos realizar una estimación de la diferencia entre dos medias.
A partir de cada población se extrae una muestra aleatoria independiente y de los datos de cada una se
26
calculan las medias muestrales x 1 y x 2. Sabemos que el estimador x 1- x 2 proporciona una
estimación insesgada de µ 1 - µ 2, que es la diferencia entre las medias de las poblaciones. La varianza
del estimador es (σ 1
2
/n1) + (σ 2
2
/n2).
Por tanto, para obtener una estimación puntual de
µ 1- µ 2, se seleccionan dos muestras aleatorias independientes que no tienen por qué ser
necesariamente del mismo tamaño, una de cada población, de tamaño n1 y n2, se calcula la diferencia
, de las medias muestrales.
Intervalo para la diferencia de medias cuando se conoce la varianza:
Recordando a la distribución muestral de diferencia de medias:
Al despejar de esta ecuación µ 1 - µ 2 se tiene:
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean
mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.
Ejemplo: A un equipo de investigación le interesa conocer la diferencia entre las concentraciones de
acido úrico en pacientes con y sin mongolismo. En una hospital para el tratamiento del retardo
mental, una muestra de 12 individuos con mongolismo proporciona una media de x 1=
4.5mg/100ml. En un hospital general se encontró que una muestra de 15 individuos normales de
la misma edad y sexo presenta un nivel medio de x 2= 3.4. Si suponemos que las dos
poblaciones de valores muestran una distribución normal y sus varianzas son iguales a 1,
calcular el intervalo de confianza del 95% para µ 1- µ 2.
Solución: Para una estimación puntual de µ 1- µ 2 se utiliza = 4.5 - 3.4=1.1. El coeficiente de
confiabilidad correspondiente al .95, que se halla en la tabla normal, es 1.96. El error estándar
es:
15
1
12
1
+ = 0.39
Por lo tanto el intervalo de confianza del 95% es:
1.1 ± 1.96 (0.39)
1.1 ± 0.8
(0.3 ; 1.9)
Se dice que se tiene una confianza del 95% de que la diferencia real µ 1- µ 2, está entre 0.3 y 1.9
debido a que en muestreos repetidos el 95% de los intervalos construidos de esa manera
incluiría la diferencia entre las medias reales.
Intervalo para la diferencia de medias cuando se desconoce la varianza
Cuando se desconocen las varianzas de la población y se requiere estimar la diferencia entre las
medias de dos poblaciones con un intervalo de confianza, se puede utilizar la distribución t para
27
extraer el factor de confiabilidad, siempre que las poblaciones sean normales o supongamos que
lo son.
1. Intervalo para la diferencia de medias homocedáticas:
Si suponemos que las varianzas de dos poblaciones son iguales, las dos varianzas de las muestras
calculadas a partir de las muestras independientes pueden construirse como estimaciones de una sola
cosa, la varianza común. Esta varianza se obtiene calculando el promedio ponderado de las dos
varianzas de las muestras. Cada varianza de las muestras es ponderada en base a sus grados de
libertad. La estimación conjunta se obtiene con la formula:
Donde se ha definido a como la cuasivarianza muestral ponderada de Sˆ 2
1 y Sˆ 2
2.
Las varianzas se desconocen, el intervalo se distribuye entonces como una de Student con n1+n2-2
grados de libertad
Si 1-α es el nivel de significación con el que deseamos establecer el intervalo para la diferencia de las
dos medias, calculamos el valor t n1+n2-1,1-
α /2 que deja por encima de si α /2 de la masa de probabilidad
de Tn1+n2-2. El intervalo de confianza al nivel 1-α para la
diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es:
Ejemplo: Se efectuaron estudios sobre la concentración media de amilasa en suero de una población
sana. Las mediciones se efectuaron en una muestra de 15 individuos aparentemente saludables. La
muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35
unidades/100ml. Se hicieron también las determinaciones de amilasa en el suero de 22 individuos
hospitalizados que forman una muestra independiente. La media y la desviación estándar de esta
muestra son 120 y 40 unidades/ml, respectivamente. La estimación puntual de µ 1- µ 2 es de 120 – 96
=24. Se desea construir un intervalo de confianza para la diferencia entre las concentraciones medias
de amilasa del suero en individuos aparentemente sanos y la media para los pacientes hospitalizados.
Solución: Suponemos que las dos poblaciones en estudio tienen una distribución normal y que sus
varianzas son iguales. Primero, buscamos la estimación conjunta de la varianza común como sigue:
Sˆ 2
= 14(35)2
+ 21(40)2
/ 15 + 22 – 2 = 1450
El intervalo de confianza del 95% para µ 1- µ 2 es:
(120-96) ± 2.0301
22
1450
15
1450
+
24 ± (2.0301)(12.75)
24 ± 26
(-2 ; 50)
Se dice que se tiene un 95% de confianza de que la diferencia real µ 1- µ 2 esta entre -2 y 50 ya que, al
muestrear varias veces, el 95% de los intervalos así construidos incluyen a µ 1- µ 2.
Ejemplo: Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer.
Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y
otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:
28
En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de
medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las
mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo.
Solución: Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo,
podemos estimar un intervalo de confianza para µ 1-
µ 2, lo que nos dará la diferencia de peso esperado
entre un niño del primer grupo y otro del segundo. El estadístico que se ha de aplicar para esta cuestión
es:
donde
Consideramos un nivel de significación que nos parezca aceptable, por ejemplo α =0.05, y el intervalo
buscado se obtiene a partir de
95%
Con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo
de madre no fumadora al de otro de madre fumadora está comprendido con un nivel de confianza del
95% entre los 0,068 Kg y los 0,731 Kg.
Contrastes para la diferencia de medias apareadas
En el análisis de la diferencia de medias de dos poblaciones, se supone que las muestras son
independientes. Un método que se utiliza con frecuencia para averiguar la efectividad de un tratamiento
o procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de
29
muestras no independientes. Una prueba de hipótesis que se basa en este tipo de datos se conoce
como prueba de comparaciones por parejas o para muestras apareadas. Las muestras apareadas
aparecen como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de
observaciones apareadas consiste en considerar a un conjunto de n personas a las que se le aplica un
tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del
mismo (Y). No es posible considerar a X e Y como variables independientes ya que va a existir una
dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han
experimentado o no una mejoría con el tratamiento, llamemos di a la diferencia entre las observaciones
antes y después del tratamiento
di = xi-yi
El objetivo de la prueba de comparaciones por pares es eliminar al máximo las fuentes de variación por
medio de la formación de parejas similares respecto a tantas variables como sea posible. En estos
casos, en lugar de llevar a cabo el análisis con observaciones individuales, se puede utilizar como
variable de interés la diferencia entre los pares individuales de observación.
Supongamos que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a. d
que se distribuye normalmente, pero cuyas media y varianza son desconocidas.
Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto efecto
En el caso en que H0 fuese cierta tendríamos que el estadístico de contraste que nos conviene es:
Donde es la media muestral de las diferencias di y Sˆ
d es la cuasivarianza muestral de las mismas. El
tipo de contraste sería entonces del mismo tipo que el realizado para la media con varianza
desconocida.
Cuando H0 es verdadera la estadística de prueba sigue una distribución t de Student con n-1 grados de
libertad.
1. Contraste bilateral: Consideramos el contraste de tipo
Entonces se define
y se rechaza la hipótesis nula cuando:
ó .
2. Contrastes unilaterales: En los dos tipos de contrastes unilaterales o de una cola se utiliza el mismo
estadístico:
30
Si el contraste es
entonces:
Se rechaza H0 si: .
Para el test contrario
Se rechaza H0 si: Texp > t n-1 ,1-
α .
Si el contraste se realiza cuando σ 2
d es conocida, entonces el estadístico del contraste es:
y el tratamiento es análogo en los tres casos.
Contrastes de diferencia entre medias poblacionales independientes
Este tipo de contraste también es aplicado para diferencia de medias, pero en los casos en los que se
comparan medias poblacionales para un carácter determinado en dos poblaciones distintas. Sean dos
poblaciones normales ( ),x xN µ σ y ( ),y yN µ σ con xσ y yσ conocidas, de las cuales se extraen dos
muestras aleatorias e independientes de tamaño nx y ny respectivamente. Con un nivel de significación
α dado, queremos realizar los siguientes contrastes:
1.
0 0
1 0
:
:
x y
x y
H d
H d
µ µ
µ µ
− =  
 
− ≠  
2.
0 0
1 0
:
:
x y
x y
H d
H d
µ µ
µ µ
− ≤  
 
− >  
3.
0 0
1 0
:
:
x y
x y
H d
H d
µ µ
µ µ
− ≥  
 
− <  
El caso más frecuente es cuando d0=0. Sin embrago, es posible probar la hipótesis de que la diferencia
es igual que, mayor o igual que, menor o igual que algún valor distinto de cero.
31
Utilizando el estadístico
0
exp 22
yx
x y
x y d
z
n n
σσ
− −
=
+
se tienen los siguientes contrastes.
Contraste de medias con varianzas conocidas:
De manera similar al caso del contraste para una media, queremos en esta ocasión contrastar la
hipótesis de que las dos poblaciones (cuyas varianzas suponemos conocidas) sólo difieren en una
cantidad
frente a hipótesis alternativas que darán lugar a contrastes unilaterales o bilaterales. Para ello nos
basamos en la distribución del siguiente estadístico de contraste:
1. Contraste bilateral o de dos colas:
Se define entonces
Se acepta 0H si: /2 exp /2z z zα α− ≤ ≤
y el test consiste en:
2. Contrastes unilaterales o de una cola
Se utiliza en ambos caso el mismo estadístico utilizado para el contraste bilateral:
32
Para el test
Se acepta 0H si: expz zα> −
y para el contraste de significación contrario:
Se acepta 0H si: expz zα≤
Ejemplo: Un equipo de investigadores desea saber si los datos que han recolectado proporcionan la
evidencia suficiente para indicar una diferencia entre las concentraciones medias de ácido úrico en el
suero de individuos normales e individuos con síndrome de Down. Los datos presentan las
concentraciones de acido úrico en el suero de 12 individuos con síndrome de Down y 15 individuos
sanos. Las medias son x 1=4.5mg/100ml y x 2=3.4mg/100ml.
Solución: El contraste es H0: µ 1- µ 2 = 0 o µ 1= µ 2
H1: µ 1- µ 2 ≠ 0 o µ 1≠ µ 2
Si α =0.05, los valores críticos de z son ± 1.96. Se rechaza H0 a menos que -1.96<zcalculada<1.96.
Cálculo de la estadística de prueba:
Z=
15/112/1
0)4.35.4(
−
−−
=
39.0
1.1
=2.82
Como 2.82 es mayor que 1.96 se rechaza la hipótesis nula. Se concluye que, de acuerdo con estos
datos, hay indicios de que las medias de las poblaciones son diferentes.
Contraste de medias homocedáticas
Aplicable al caso en el que deseamos contrastar la diferencia de medias de dos poblaciones
independientes cuando sólo conocemos que las varianzas de ambas poblaciones son iguales, pero
desconocidas. El problema a contrastar es:
33
El estadístico que usaremos para el contraste ya lo hemos visto. Si suponemos que H0 es cierta se tiene
Donde es la cuasivarianza muestral ponderada de Sˆ 2
1 y Sˆ 2
2.
Se han perdido dos grados de libertad a causa de la estimación de σ 2
1=σ 2
2 mediante Sˆ 2
1 y Sˆ 2
2.
1. Contraste bilateral
Para el contraste de significación
Se tiene como en casos anteriores que el contraste adecuado consiste en definir
Y rechazar o admitir la hipótesis nula siguiendo el criterio
2. Contrastes unilaterales
Cuando el contraste es unilateral del modo
El contraste se realiza siguiendo el mismo proceso que en otros realizados anteriormente y utilizando el
mismo estadístico, lo que nos lleva a
Y cuando el contraste de significación es el contrario
Del mismo modo
34
Ejemplo: Un grupo de investigadores colecto datos acerca de las concentraciones de amilasa en el
suero de muestras de individuos sanos y de individuos hospitalizados. Desean saber si es posible
concluir que las medias de las poblaciones son distintas. Los datos son las mediciones de amilasa en
suero de n2= 15 individuos sanos y n1= 22 individuos hospitalizados. Las medias muestrales y sus
desviaciones estándar son las siguientes:
x 1=120 unidades/ml s1=40 unidades/ml
x 2=96 unidades/ml s2=35 unidades/ml
Solución: El contraste es: H0: µ 1- µ 2 = 0
H1: µ 1- µ 2 ≠ 0
Si definimos a α =0.05, los valores críticos de t son ± 2.0301. Se rechaza H0 a menos que
-2.0301<tcalculada<2.0301.
El cálculo de la estadística de prueba es:
Sˆ 2
=
1421
)1225(14)1600(21
+
+
=1450
t =
22
1450
15
1450
0)96120(
+
−−
=
75.12
24
=1.88
No es posible rechazar H0 porque -2.0301<1.88<2.0301. Es decir, 1.88 cae dentro de la región de
aceptación. Con base a estos datos no es posible concluir que las dos medias de la población son
diferentes.
Contraste de medias no homocedáticas
Es un tipo de contraste que se aplica en el caso más problemático, es decir cuando sólo conocemos de
las dos poblaciones que su distribución es normal, y que sus varianzas no son conocidas y
significativamente diferentes. El contraste es:
En este caso el estadístico de contraste tendrá una ley de distribución muy particular. Consistirá en una
distribución t de Student, con un número de grados de libertad que en lugar de depender de modo
determinista de la muestra (a través de su tamaño), depende de un modo aleatorio mediante las
varianzas muestrales. Concretamente, el estadístico que nos interesa es
donde f es el número de grados de libertad que se calcula mediante la fórmula de Welch
35
No desarrollamos en detalle los cálculos a realizar, pues la técnica para efectuar los contrastes es
análoga a las vistas anteriormente cuando las varianzas son desconocidas e iguales.
Nota
Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras independientes
obtenidas de poblaciones normales son idénticas, esto se reduce a los casos anteriores tomando
, es decir, realizando el contraste:
Distribución Muestral de Diferencia de Proporciones
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando
proporciones o porcentajes. Cuando el muestreo procede de dos
poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de
diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1
5, n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales,
así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal.
Cuando se estudió la distribución muestral de proporciones se comprobó que µ pˆ = p y queσ pˆ =
n
pq
por lo que se puede deducir que:
µ
pˆ
1 -
µ
pˆ
2 = p1-p2 y que .
Si tenemos dos poblaciones suficientemente pequeñas, podemos extraer de la población 1 todas las
muestras aleatorias posibles de tamaño n1 y calcular a partir de cada conjunto de datos de la muestra la
proporción de la muestra pˆ 1. Lo mismo podemos hacer con la población 2. Luego es posible calcular
las diferencias entre todos los pares posibles de proporciones muestrales, donde un miembro de cada
par tiene un valor pˆ 1 y el otro un valor pˆ 2. La distribución muestral de la diferencia ente las dos
porciones de las muestras consiste en todas las diferencias existentes acompañadas de sus
frecuencias de ocurrencias. La fórmula que se utilizará para el cálculo de probabilidad del estadístico de
diferencia de proporciones es:
Ejemplo: Los hombres y mujeres adultos de una ciudad grande en sus opiniones sobre la promulgación
de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres
adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si
se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación
36
de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor sea al menos
3% mayor que el de las mujeres.
Solución: Datos:
PH = 0.12
PM = 0.10
nH = 100
nM = 100
p(pH-pM 0.03) = ?
Hay que tener en cuanta que debe incluirse el factor de corrección de 0.5 por ser una distribución
binomial y que se está utilizando la distribución normal.
Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al
menos 3% mayor que el de mujeres es de 0.4562.
Estimación de la Diferencia de dos Proporciones
Muchas veces se tiene interés en conocer la magnitud de la diferencia entre dos poblaciones, podemos
comparar por ejemplo, entre hombres y mujeres, dos grupos de edades, dos grupos socioeconómicos.
Un estimador puntual insesgado de la diferencia de proporciones de las poblaciones se obtiene al
calcular las diferencias de las proporciones de las muestras pˆ 1 - pˆ 2. Cuando n1 y n2 son de gran
tamaño y las proporciones de la población no están muy cerca de 0 o de 1, es posible aplicar el
teorema del límite central y utilizar la teoría de la distribución normal para obtener los intervalos de
confianza.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una
v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer
muestras de tamaño n1 y n2
Si las muestras son suficientemente grandes ocurre que
Anteriormente, se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el
valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del
comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de
diferencia de proporciones para la estimación de la misma. Recordando la formula:
37
Despejando P1-P2 de esta ecuación obtenemos un intervalo de confianza del 100(1 - α ) para P1-P2 :
Donde Z se obtiene de la tabla de distribución normal al nivel 1-α/2.
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos
queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se
utilizarán las proporciones de la muestra como estimadores puntuales:
Ejemplo: Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de madres que
no la fumaban:
Usuaria No Usuaria
Tamaño Muestral 1246 11178
Número de disfunciones 42 294
Proporción muestral 0.0337 0.0263
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.
Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las
madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El valor de z
para un 99% de confianza es de 2.58.
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa.
Contrastes sobre la diferencia de proporciones
Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que
estudiamos una variable de tipo dicotómico (Bernoulli):
38
Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que cada una de
ellas se distribuye como una variable aleatoria binomial,
de modo que los estimadores de las proporciones en cada población tienen distribuciones que de un
modo aproximado son normales (cuando n1 y n2 son bastante grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada población
es una cantidad conocida
Si H0 fuese cierta se tendría que:
Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da
lugar a un error que es pequeño cuando los tamaños muestrales son importantes:
La prueba que se utiliza con más frecuencia con relación a la diferencia entre las proporciones de dos
poblaciones es aquella en la que su diferencia es cero. Sin embargo, es posible probar que dicha
diferencia es igual a algún otro valor. Se pueden hacer pruebas unilaterales y bilaterales.
Siempre que la hipótesis nula sea p1-p2=0, se supone que las proporciones de las dos poblaciones son
iguales. Esto permite combinar los resultados de las dos muestras y obtener una estimación ponderada
de la proporción común supuesta:
p = x1+x2 / n1+n2
Donde x1 y x2 son el número de la primera y segunda muestra que poseen la característica de interés.
Esta estimación ponderada se utiliza para calcular el error estándar estimado para el estimador como
sigue:
n
pp
n
pp )1()1(
ˆ
−
+
−
=σ
El estadístico de contraste se convierte en:
Z=
σˆ
)()ˆˆ( pppp −−−
1. Contraste bilateral
39
El contraste bilateral sobre la diferencia de proporciones es
Entonces se define
y se rechaza la hipótesis nula si Zexp<-z1-
α /2 o si Zexp>-z1-
α /2
2. Contrastes unilaterales
En el contraste
Se rechazará H0 si Zexp< -z1-
α .
Para el test contrario
Se rechaza H0 si Zexp> -z 1-
α .
Ejemplo: En un estudio para comparar un nuevo tratamiento para la migraña con el tratamiento habitual,
78 de los 100 individuos que recibieron el tratamiento habitual respondieron favorablemente. De los 100
individuos que recibieron el nuevo tratamiento, 90 respondieron satisfactoriamente. ¿Proporcionan
estos datos la evidencia suficiente para afirmar que el nuevo tratamiento es más efectivo que el
habitual?
Solución: Se calculan: pˆ 1= 78/100=0.78 pˆ 2=90/100=0.90
p=
100100
7890
+
+
=0.84
Las hipótesis son: H0=p2-p1 ≤0
H1= p2-p1>0
Sea α =0.05. El valor crítico de z es 1.645. Se rechaza H0 si el valor de z es mayor que 1.645.
El cálculo del estadístico de prueba es:
z=
=
+
−
100
)16.0)(84.0(
100
)16.0)(84.0(
)78.090.0(
0518.0
12.0
=2.32
40
Como 2.32>1-645, se rechaza H0. Estos datos sugieren que el tratamiento es más efectivo que el
habitual
EJERCICIOS DE DISTRIBUCION MUESTRAL:
1. Un investigador se siente inclinado a creer que los niveles de vitamina A en el hígado de dos
poblaciones de seres humanos tiene, cada una, una distribución normal. Se supone que las varianzas
de las dos poblaciones son las siguientes:
Población 1: σ 2
1=19.600
Población 2: σ 2
2=8100
¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 15 de la primer población y otra de
tamaño 10 de la segunda población proporcionen un valor de mayor o igual a 50, si no hay
diferencia entre las dos medias de la población?
2. Se cree que en una ciudad el 20% de las familias tiene por lo menos un miembro que sufre de algún
malestar debido a la contaminación atmosférica. Una muestra aleatoria de 150 familias produjo un valor
de pˆ =0.27. Si el valor del 20% es correcto, ¿Cuál es la probabilidad de obtener una proporción
muestral mayor o igual de la muestra?
3. Si las concentraciones de acido úrico en hombres adultos normales siguen una distribución
aproximadamente normal, con una media y desviación estándar de 5.7 y 1 mg por ciento,
respectivamente, encontrar la probabilidad de que una muestra aleatoria de tamaño 9 proporcione una
media:
a. Mayor que 6
b. Menor que 5.2
c. Entre 5 y 6
4. En una población de niños con retardo mental, se sabe que la proporción de los que son
hiperactivos es de 0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa población y otra de
tamaño 100 a partir de otra población con el mismo problema. Si la proporción de niños hiperactivos es
la misma en ambas poblaciones, ¿Cuál es la probabilidad de que la muestra proporcione una diferencia
pˆ 1- pˆ 2 de 0.16 o mas?
5. Supóngase que una población se compone de los siguientes valores: 1, 3, 5, 7, 9. Construir la
distribución muestral de x a partir de muestras de tamaño 2 seleccionadas sin reemplazo. Calcular la
media y la varianza.
6. Para una población de hombres jóvenes de 17 años y otra población de mujeres de 17 años, las
medias y desviaciones estándar respectivamente del grosor del pliegue subescapular son: para los
varones 9.7 y 6.0; y para las mujeres 15.6 y 9.5. Si se obtiene una muestra aleatoria simple de 40
varones y otra de 35 mujeres a partir de dicha población, ¿Cuál es la probabilidad de que la diferencia
entre las medias de las muestras (xchicas - xchicos) sea mayor que 10?
7. El resultado de una investigación sanitaria revela que el 55% de los individuos de la población A y el
35% de los de la población B no padecen enfermedades cardiovasculares. Suponer que se extrae una
muestra aleatoria de tamaño 120 a partir de la población A, y una muestra aleatoria independiente de
tamaño 130 de la población B. ¿Cuál es la probabilidad de que las diferencias entre las proporciones de
la muestras pˆ A - pˆ B esté entre 0.30 y 0.40)?
8. En una muestra al azar de 75 adultos, 35 de ellos consideran que el cáncer de mamas es curable. Si
en la población de la cual se extrajo la muestra, la probabilidad real de quienes piensan que dicho tipo
de cáncer es curable es de 0.55, ¿Cuál es la probabilidad de obtener una proporción muestral menor o
igual que la obtenida en esta muestra?
41
EJERCICIOS DE ESTIMACION:
1. En cierta comunidad se efectuó un análisis neurológico a 110 empleados de una fábrica de
herbicidas, el cual mostró que 44 tenían anormalidades neurológicas. En una muestra de 150
residentes que no eran empleados de la fábrica, 16 individuos mostraron anormalidades neurológicas.
Construir un intervalo de confianza del 95% para la diferencia entre las proporciones de las
poblaciones.
2. En un experimento diseñado para estimar el número promedio de latidos del corazón por minuto
para cierta población, se encontró que el número promedio de latidos por minutos para 49 personas era
de 90. Si resulta lógico suponer que esos 49 pacientes constituyen una muestra aleatoria y que la
población sigue una distribución normal, con una desviación estándar de 10, calcular el intervalo de
confianza de 90% y 95% para µ .
3. Se llevo a cabo un estudio para comparar las concentraciones de lipo-proteína de alta densidad en
hombres adultos con trabajos sedentarios y con trabajos manuales. Los datos de la muestra
proporcionaron los siguientes resultados:
Trabajadores sedentarios: x = 56.5, s =14.1, n=55
Trabajadores manuales: x = 51.3, s =13.5, n=50
Construir un intervalo de confianza del 95% para la diferencia entre las medias de las poblaciones.
4. A nueve pacientes que sufren la misma incapacidad física, y por lo tanto son comparables, se les
pidió que llevaran a cabo cierta tarea como parte de un experimento. El tiempo promedio necesario
para realizar la tarea fue de siete minutos con una desviación estándar de dos minutos. Suponiendo
que la distribución de datos es normal, construir intervalos de confianza del 90% y 95% para el tiempo
medio real necesario para que este tipo de pacientes efectúe la tarea.
5. En un estudio diseñado para establecer la relación entre un medicamento y cierta anomalía en los
embriones de pollo, se inyectaron con el medicamento 50 huevos fecundados al cuarto día de
incubación. En el vigésimo día de incubación se examinaron los embriones y se observó la presencia
de la anomalía en 12 de ellos. Encontrar los intervalos de confianza del 95% y 99% para p.
6. Veinticuatro animales de laboratorio con deficiencia de vitamina D fueron divididos en dos grupos
iguales. El grupo 1 recibió un tratamiento consistente en una dieta que proporcionaba la vitamina D. El
segundo grupo no fue tratado. Al término del período experimental, se midieron las concentraciones de
calcio en suero, obteniéndose los siguientes resultados:
Grupo tratado: x = 11.1mg/100ml, s = 1.5
Grupo sin tratamiento: x = 7.8mg/100ml, s = 2.0
Suponer que las poblaciones siguen una distribución normal con varianzas iguales y calcular los
intervalos de confianza del 95% para la diferencia entre las medias de las poblaciones.
7. Algunos estudios acerca de la enfermedad Alzheimer han demostrado un incremento en la
producción de 14
CO2 en pacientes con este padecimiento. Durante un estudio, se obtuvieron los
siguientes valores de a partir de 16 biopsias de neocorteza de pacientes con la enfermedad:
1009, 1280, 1180, 1255, 1547, 2352, 1956, 1080
1776, 1767, 1680, 2050, 1452, 2857, 3100, 1621
Suponer que la población de tales valores presenta una distribución normal con una desviación
estándar de 350 y construir intervalos de confianza al 95% para la media de la población.
EJERCICIOS DE CONTRASTE DE HIPOTESIS:
1. ¿Es posible concluir que los niños crónicamente enfermos tienden, en promedio, a tener menos
confianza en sí mismos que los niños sanos? Se aplicó una prueba diseñada para estimar la confianza
en sí mismos de 16 niños crónicamente enfermos y a 21 niños sanos. Los puntajes medios y
desviaciones estándar fueron:
Niños enfermos: x =22.5 s=4.1
Niños sanos: x =26.9 s=3.2
42
Sea α =0.05
2. En una muestra de 1500 residentes de un barrio de la ciudad, quienes participaron en un programa
selectivo de salud, 125 pruebas proporcionaron resultados positivos en cuanto a la anemia de células
falciformes. ¿Proporcionan estos datos la evidencia suficiente para indicar que la proporción de
individuos con anemia de células falciformes en la población muestreada es mayor que 0.06? Sea α
=0.05.
3. Setenta pacientes que sufren de epilepsia se dividieron al azar en dos grupos iguales. El grupo A
recibió un tratamiento que incluía dosis diarias de vitamina D. El grupo B recibió el mismo tratamiento
con la excepción de que a este grupo se le dio un placebo en lugar de la vitamina D. El número medio
de ataques convulsivos observados durante el periodo de tratamiento en los grupos fue x A=15 y x
B=24. Las varianzas de las muestras fueron S2
A=8 y S2
B=12. ¿Estos datos proporcionan evidencia
suficiente para indicar que la vitamina D es efectiva para disminuir el número de ataques convulsivos?
Sea α =0.05
4. En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio inmunológico,
una variable de interés fue la prueba del diámetro de reacción de la piel a un antígeno. La media de la
muestra y la desviación estándar fueron 21 y 11 mm de eritema, respectivamente. ¿Es posible concluir
a partir de estos datos que la media de la población es menor que 30? Sea α =0.05.
5. Se desea saber si los niños de dos grupos étnicos difieren con respecto a la proporción de
anémicos. De cada grupo se extrajo una muestra de niños de un año de edad atendidos en cierto grupo
de departamentos de salud locales en un periodo de un año. Se obtuvo la siguiente información
respecto a la anemia:
Grupo étnico Número de elementos Número de anémicos
1 450 105
2 375 120
¿Proporcionan estos datos la suficiente evidencia para indicar una diferencia entre las dos poblaciones
con respecto a la proporción de anémicos? Sea α =0.05.
6. Una muestra de 100 empleados de un hospital, los cuales habían estado en contacto con sangre o
sus derivados, fue examinada para averiguar si presentaban evidencia serológica de hepatitis B. Se
encontró que 23 de ellos presentaron resultados positivos. ¿Es posible concluir a partir de estos datos
que la proporción de la población de individuos que presentaron resultados positivos en la población
muestreada es mayor que 0.15? Sea α =0.05
7. Se desea saber si es posible concluir que el consumo medio diario de calorías de la población rural
de un país en desarrollo es de menos de 2000. Una muestra de 500 individuos produjo un consumo
medio de 1985 y una desviación estándar de 210. Sea α =0.05.
43

Más contenido relacionado

La actualidad más candente

Chi cuadrado propiedades
Chi cuadrado propiedadesChi cuadrado propiedades
Chi cuadrado propiedades
PABLITO Pablo
 
Pruebas de hipótesis
Pruebas de hipótesisPruebas de hipótesis
Pruebas de hipótesis
mariauparela
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
Master Posada
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesis
ug-dipa
 
Clase modelos de probabilidad
Clase modelos de probabilidadClase modelos de probabilidad
Clase modelos de probabilidad
Jorge Torres Alvarez
 
7. Análisis de Varianza (ANOVA)
7. Análisis de Varianza (ANOVA) 7. Análisis de Varianza (ANOVA)
7. Análisis de Varianza (ANOVA) Consuelo Valle
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesis
Elisa Mendoza
 
Coeficientes determinacion y correlacion
Coeficientes determinacion y correlacionCoeficientes determinacion y correlacion
Coeficientes determinacion y correlacion
Janneth Zepeda
 
Desviación estándar (ds)
Desviación estándar (ds)Desviación estándar (ds)
Desviación estándar (ds)
Moises Abel Florentino Zacatula
 
Prueba de hipotesis 2018 final
Prueba de hipotesis 2018 finalPrueba de hipotesis 2018 final
Prueba de hipotesis 2018 final
franciscoe71
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadrado
PABLITO Pablo
 
Ejercicio chi cuadrado
Ejercicio chi cuadradoEjercicio chi cuadrado
Ejercicio chi cuadrado
cristinatellezestadistica
 
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
JAVIER SOLIS NOYOLA
 
Estimación.intervalos de confianza para la media y para las proporciones
Estimación.intervalos de confianza para la media y para las proporcionesEstimación.intervalos de confianza para la media y para las proporciones
Estimación.intervalos de confianza para la media y para las proporciones
Hugo Caceres
 
Distribucion binomial ñ.ñ
Distribucion binomial ñ.ñDistribucion binomial ñ.ñ
Distribucion binomial ñ.ñ
universidad tecnológica de torreón
 
Variable aleatoria y Distribuciónes de Probabilidad
Variable aleatoria y Distribuciónes de ProbabilidadVariable aleatoria y Distribuciónes de Probabilidad
Variable aleatoria y Distribuciónes de Probabilidad
Joan Fernando Chipia Lobo
 
Prueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaPrueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieria
Hector García Cárdenas
 
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables AleatoriasEjercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables AleatoriasJaviera Huera (Temuco)
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
Alez Escandón
 
2 prueba z,prueba t student y prueba chi-cuadrado
2 prueba z,prueba t student y prueba chi-cuadrado2 prueba z,prueba t student y prueba chi-cuadrado
2 prueba z,prueba t student y prueba chi-cuadrado
Romina Gallegos Ormeño
 

La actualidad más candente (20)

Chi cuadrado propiedades
Chi cuadrado propiedadesChi cuadrado propiedades
Chi cuadrado propiedades
 
Pruebas de hipótesis
Pruebas de hipótesisPruebas de hipótesis
Pruebas de hipótesis
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesis
 
Clase modelos de probabilidad
Clase modelos de probabilidadClase modelos de probabilidad
Clase modelos de probabilidad
 
7. Análisis de Varianza (ANOVA)
7. Análisis de Varianza (ANOVA) 7. Análisis de Varianza (ANOVA)
7. Análisis de Varianza (ANOVA)
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesis
 
Coeficientes determinacion y correlacion
Coeficientes determinacion y correlacionCoeficientes determinacion y correlacion
Coeficientes determinacion y correlacion
 
Desviación estándar (ds)
Desviación estándar (ds)Desviación estándar (ds)
Desviación estándar (ds)
 
Prueba de hipotesis 2018 final
Prueba de hipotesis 2018 finalPrueba de hipotesis 2018 final
Prueba de hipotesis 2018 final
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadrado
 
Ejercicio chi cuadrado
Ejercicio chi cuadradoEjercicio chi cuadrado
Ejercicio chi cuadrado
 
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
Prueba de hipótesis para distribuciones normal, y t student. Presentación dis...
 
Estimación.intervalos de confianza para la media y para las proporciones
Estimación.intervalos de confianza para la media y para las proporcionesEstimación.intervalos de confianza para la media y para las proporciones
Estimación.intervalos de confianza para la media y para las proporciones
 
Distribucion binomial ñ.ñ
Distribucion binomial ñ.ñDistribucion binomial ñ.ñ
Distribucion binomial ñ.ñ
 
Variable aleatoria y Distribuciónes de Probabilidad
Variable aleatoria y Distribuciónes de ProbabilidadVariable aleatoria y Distribuciónes de Probabilidad
Variable aleatoria y Distribuciónes de Probabilidad
 
Prueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaPrueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieria
 
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables AleatoriasEjercicios Resueltos: Probabilidades y Variables Aleatorias
Ejercicios Resueltos: Probabilidades y Variables Aleatorias
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
2 prueba z,prueba t student y prueba chi-cuadrado
2 prueba z,prueba t student y prueba chi-cuadrado2 prueba z,prueba t student y prueba chi-cuadrado
2 prueba z,prueba t student y prueba chi-cuadrado
 

Similar a estadistica no parametrica

estadistica inferencial
estadistica inferencialestadistica inferencial
estadistica inferencial
nayibe430
 
Distribución muéstrales y estimación
Distribución muéstrales y estimaciónDistribución muéstrales y estimación
Distribución muéstrales y estimación
Jesus Plaza Aguilera
 
Doc 20170503-wa0008
Doc 20170503-wa0008Doc 20170503-wa0008
Doc 20170503-wa0008
Alberto Solis
 
Estimación estadística y contrastación de hipótesis
Estimación estadística   y contrastación de hipótesisEstimación estadística   y contrastación de hipótesis
Estimación estadística y contrastación de hipótesisdiyaselga
 
130447032 inferencia-estadistica-unidad-ii (1)
130447032 inferencia-estadistica-unidad-ii (1)130447032 inferencia-estadistica-unidad-ii (1)
130447032 inferencia-estadistica-unidad-ii (1)
EstesoyyoEmanuel Gonzalez
 
Hipotesis estadistica
Hipotesis estadisticaHipotesis estadistica
Hipotesis estadistica
erix ruiz
 
República bolivariana de venezuela
República bolivariana de venezuelaRepública bolivariana de venezuela
República bolivariana de venezuela
thomas669
 
República bolivariana de venezuela 1
República bolivariana de venezuela 1 República bolivariana de venezuela 1
República bolivariana de venezuela 1
thomas669
 
República bolivariana de venezuela
República bolivariana de venezuelaRepública bolivariana de venezuela
República bolivariana de venezuela
thomas669
 
Intervalos de confianza-1
Intervalos de confianza-1Intervalos de confianza-1
Intervalos de confianza-1Hector Funes
 
Estimación e intervalos de confianza
Estimación e intervalos de confianzaEstimación e intervalos de confianza
Estimación e intervalos de confianzaYhunary Solano
 
4. U-3. ESTIMACIÓN E INT CONFIANZA VOZ.pptx
4. U-3. ESTIMACIÓN E INT  CONFIANZA VOZ.pptx4. U-3. ESTIMACIÓN E INT  CONFIANZA VOZ.pptx
4. U-3. ESTIMACIÓN E INT CONFIANZA VOZ.pptx
ROCIOSANTANAGARDUO
 
Inferencia estadistica
Inferencia estadisticaInferencia estadistica
Inferencia estadistica
jaidelinburgos
 
El Muestreo
El MuestreoEl Muestreo
El Muestreo
Samuell Gallo
 
Prueba de hipotesis
Prueba de hipotesisPrueba de hipotesis
Prueba de hipotesis
LennysNJ
 
Presentación estadistica 2.0.pptx
Presentación estadistica 2.0.pptxPresentación estadistica 2.0.pptx
Presentación estadistica 2.0.pptx
GusEH1
 
Análisis de datosdsdsa
Análisis de datosdsdsaAnálisis de datosdsdsa
Análisis de datosdsdsa
Juan Diego Jimenez Alvizo
 

Similar a estadistica no parametrica (20)

estadistica inferencial
estadistica inferencialestadistica inferencial
estadistica inferencial
 
Pruebas de hipótesis e inferencia estadística
Pruebas de hipótesis e inferencia estadísticaPruebas de hipótesis e inferencia estadística
Pruebas de hipótesis e inferencia estadística
 
Distribución muéstrales y estimación
Distribución muéstrales y estimaciónDistribución muéstrales y estimación
Distribución muéstrales y estimación
 
Doc 20170503-wa0008
Doc 20170503-wa0008Doc 20170503-wa0008
Doc 20170503-wa0008
 
Estimación estadística y contrastación de hipótesis
Estimación estadística   y contrastación de hipótesisEstimación estadística   y contrastación de hipótesis
Estimación estadística y contrastación de hipótesis
 
Inferencia tema4
Inferencia tema4Inferencia tema4
Inferencia tema4
 
130447032 inferencia-estadistica-unidad-ii (1)
130447032 inferencia-estadistica-unidad-ii (1)130447032 inferencia-estadistica-unidad-ii (1)
130447032 inferencia-estadistica-unidad-ii (1)
 
Hipotesis estadistica
Hipotesis estadisticaHipotesis estadistica
Hipotesis estadistica
 
República bolivariana de venezuela
República bolivariana de venezuelaRepública bolivariana de venezuela
República bolivariana de venezuela
 
República bolivariana de venezuela 1
República bolivariana de venezuela 1 República bolivariana de venezuela 1
República bolivariana de venezuela 1
 
República bolivariana de venezuela
República bolivariana de venezuelaRepública bolivariana de venezuela
República bolivariana de venezuela
 
Intervalos de confianza-1
Intervalos de confianza-1Intervalos de confianza-1
Intervalos de confianza-1
 
Estimación e intervalos de confianza
Estimación e intervalos de confianzaEstimación e intervalos de confianza
Estimación e intervalos de confianza
 
Man2
Man2Man2
Man2
 
4. U-3. ESTIMACIÓN E INT CONFIANZA VOZ.pptx
4. U-3. ESTIMACIÓN E INT  CONFIANZA VOZ.pptx4. U-3. ESTIMACIÓN E INT  CONFIANZA VOZ.pptx
4. U-3. ESTIMACIÓN E INT CONFIANZA VOZ.pptx
 
Inferencia estadistica
Inferencia estadisticaInferencia estadistica
Inferencia estadistica
 
El Muestreo
El MuestreoEl Muestreo
El Muestreo
 
Prueba de hipotesis
Prueba de hipotesisPrueba de hipotesis
Prueba de hipotesis
 
Presentación estadistica 2.0.pptx
Presentación estadistica 2.0.pptxPresentación estadistica 2.0.pptx
Presentación estadistica 2.0.pptx
 
Análisis de datosdsdsa
Análisis de datosdsdsaAnálisis de datosdsdsa
Análisis de datosdsdsa
 

Último

normas de informacion financiera nif b-8 y nif b-7
normas de informacion financiera nif b-8 y nif b-7normas de informacion financiera nif b-8 y nif b-7
normas de informacion financiera nif b-8 y nif b-7
AARONULISES1
 
Circuito de Cobranza en Comex 2018-2020 en Argentina
Circuito de Cobranza en Comex 2018-2020 en ArgentinaCircuito de Cobranza en Comex 2018-2020 en Argentina
Circuito de Cobranza en Comex 2018-2020 en Argentina
GustavoGabrielAlves3
 
Economía Informal en el Perú:Situación actual y perspectivas .pdf
Economía Informal en el Perú:Situación actual y perspectivas .pdfEconomía Informal en el Perú:Situación actual y perspectivas .pdf
Economía Informal en el Perú:Situación actual y perspectivas .pdf
nelllalita3
 
Planificación de Ecuador y sus respectivas zonas
Planificación de Ecuador y sus respectivas zonasPlanificación de Ecuador y sus respectivas zonas
Planificación de Ecuador y sus respectivas zonas
MarioBenedetti13
 
Tiens internacional corporativo V-MOMENT.pptx
Tiens internacional corporativo V-MOMENT.pptxTiens internacional corporativo V-MOMENT.pptx
Tiens internacional corporativo V-MOMENT.pptx
AlexanderLlanos10
 
anualidades matemática financiera en salud
anualidades matemática financiera en saludanualidades matemática financiera en salud
anualidades matemática financiera en salud
william javier castelblanco caro
 
anualidades anticipadas y diferidas .pptx
anualidades anticipadas y diferidas .pptxanualidades anticipadas y diferidas .pptx
anualidades anticipadas y diferidas .pptx
J. ALFREDO TORRES G
 
EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.
EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.
EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.
ManfredNolte
 
cuadro comparativo de la Venezuela productiva
cuadro comparativo de la Venezuela productivacuadro comparativo de la Venezuela productiva
cuadro comparativo de la Venezuela productiva
tomas191089
 
NIF B-3.pptx. NORMAS DE INFORMACIÓN FINANCIERAS
NIF B-3.pptx.  NORMAS DE INFORMACIÓN FINANCIERASNIF B-3.pptx.  NORMAS DE INFORMACIÓN FINANCIERAS
NIF B-3.pptx. NORMAS DE INFORMACIÓN FINANCIERAS
NataliaChvez8
 
EVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privada
EVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privadaEVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privada
EVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privada
KaterinDuran4
 
Conceptos básicos del gasto de gobierno en Bolivia
Conceptos básicos del gasto de gobierno en BoliviaConceptos básicos del gasto de gobierno en Bolivia
Conceptos básicos del gasto de gobierno en Bolivia
Claudia Quisbert
 
exposición contabilidad de proyectos.pptx
exposición contabilidad de proyectos.pptxexposición contabilidad de proyectos.pptx
exposición contabilidad de proyectos.pptx
petejfra2004
 
Análisis de negocios internacionales aplicado a moda y estilo
Análisis de negocios internacionales aplicado a moda y estiloAnálisis de negocios internacionales aplicado a moda y estilo
Análisis de negocios internacionales aplicado a moda y estilo
SebastinFloresAyquip
 
SINU-153_Material de reforzamiento U5.docx
SINU-153_Material de reforzamiento U5.docxSINU-153_Material de reforzamiento U5.docx
SINU-153_Material de reforzamiento U5.docx
SamyrAntonioTafurRoj
 
ANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxx
ANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxxANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxx
ANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxx
jesus ruben Cueto Sequeira
 
Documentación comercial y contable para contadores
Documentación comercial y contable para contadoresDocumentación comercial y contable para contadores
Documentación comercial y contable para contadores
JeanpaulFredyChavezM
 
sistema de organizacion administrativa.pptx
sistema de organizacion administrativa.pptxsistema de organizacion administrativa.pptx
sistema de organizacion administrativa.pptx
benbrR
 
Teoria de la produccion, conceptos generales
Teoria de la produccion, conceptos generalesTeoria de la produccion, conceptos generales
Teoria de la produccion, conceptos generales
JimenaRamirez69
 
La Vista Coacalco Resultados 2023 2024.pdf
La Vista Coacalco Resultados 2023 2024.pdfLa Vista Coacalco Resultados 2023 2024.pdf
La Vista Coacalco Resultados 2023 2024.pdf
KanedaAkira2
 

Último (20)

normas de informacion financiera nif b-8 y nif b-7
normas de informacion financiera nif b-8 y nif b-7normas de informacion financiera nif b-8 y nif b-7
normas de informacion financiera nif b-8 y nif b-7
 
Circuito de Cobranza en Comex 2018-2020 en Argentina
Circuito de Cobranza en Comex 2018-2020 en ArgentinaCircuito de Cobranza en Comex 2018-2020 en Argentina
Circuito de Cobranza en Comex 2018-2020 en Argentina
 
Economía Informal en el Perú:Situación actual y perspectivas .pdf
Economía Informal en el Perú:Situación actual y perspectivas .pdfEconomía Informal en el Perú:Situación actual y perspectivas .pdf
Economía Informal en el Perú:Situación actual y perspectivas .pdf
 
Planificación de Ecuador y sus respectivas zonas
Planificación de Ecuador y sus respectivas zonasPlanificación de Ecuador y sus respectivas zonas
Planificación de Ecuador y sus respectivas zonas
 
Tiens internacional corporativo V-MOMENT.pptx
Tiens internacional corporativo V-MOMENT.pptxTiens internacional corporativo V-MOMENT.pptx
Tiens internacional corporativo V-MOMENT.pptx
 
anualidades matemática financiera en salud
anualidades matemática financiera en saludanualidades matemática financiera en salud
anualidades matemática financiera en salud
 
anualidades anticipadas y diferidas .pptx
anualidades anticipadas y diferidas .pptxanualidades anticipadas y diferidas .pptx
anualidades anticipadas y diferidas .pptx
 
EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.
EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.
EL MERCADO LABORAL EN EL SEMESTRE EUROPEO. COMPARATIVA.
 
cuadro comparativo de la Venezuela productiva
cuadro comparativo de la Venezuela productivacuadro comparativo de la Venezuela productiva
cuadro comparativo de la Venezuela productiva
 
NIF B-3.pptx. NORMAS DE INFORMACIÓN FINANCIERAS
NIF B-3.pptx.  NORMAS DE INFORMACIÓN FINANCIERASNIF B-3.pptx.  NORMAS DE INFORMACIÓN FINANCIERAS
NIF B-3.pptx. NORMAS DE INFORMACIÓN FINANCIERAS
 
EVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privada
EVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privadaEVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privada
EVA_Semana 10 (1).pptx evalucacion de proyectos de inversion privada
 
Conceptos básicos del gasto de gobierno en Bolivia
Conceptos básicos del gasto de gobierno en BoliviaConceptos básicos del gasto de gobierno en Bolivia
Conceptos básicos del gasto de gobierno en Bolivia
 
exposición contabilidad de proyectos.pptx
exposición contabilidad de proyectos.pptxexposición contabilidad de proyectos.pptx
exposición contabilidad de proyectos.pptx
 
Análisis de negocios internacionales aplicado a moda y estilo
Análisis de negocios internacionales aplicado a moda y estiloAnálisis de negocios internacionales aplicado a moda y estilo
Análisis de negocios internacionales aplicado a moda y estilo
 
SINU-153_Material de reforzamiento U5.docx
SINU-153_Material de reforzamiento U5.docxSINU-153_Material de reforzamiento U5.docx
SINU-153_Material de reforzamiento U5.docx
 
ANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxx
ANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxxANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxx
ANALISIS-FINANCIERO.ppt xxxxxxxxxxxxxxxxx
 
Documentación comercial y contable para contadores
Documentación comercial y contable para contadoresDocumentación comercial y contable para contadores
Documentación comercial y contable para contadores
 
sistema de organizacion administrativa.pptx
sistema de organizacion administrativa.pptxsistema de organizacion administrativa.pptx
sistema de organizacion administrativa.pptx
 
Teoria de la produccion, conceptos generales
Teoria de la produccion, conceptos generalesTeoria de la produccion, conceptos generales
Teoria de la produccion, conceptos generales
 
La Vista Coacalco Resultados 2023 2024.pdf
La Vista Coacalco Resultados 2023 2024.pdfLa Vista Coacalco Resultados 2023 2024.pdf
La Vista Coacalco Resultados 2023 2024.pdf
 

estadistica no parametrica

  • 1. ESTADISTICA INFERENCIAL Uno de los propósitos de la estadística es extraer conclusiones acerca de la naturaleza de una población. Como las poblaciones son grandes y no puede ser estudiada en su totalidad, generalmente el estudio se basa en el examen de solo una parte de esta. La estadística inferencial nos permite estimar las características poblacionales desconocidas, examinando la información obtenida de una muestra, de una población. Una muestra es un subconjunto de observaciones seleccionadas de una población. Esta muestra debe ser representativa de la población objeto de estudio. La teoría del muestreo estudia las relaciones que existen entre la distribución de un carácter en una población y la distribución del mismo carácter en todas las muestras que tomemos de la misma. El muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos e incluidos en la muestra. Existen otros tipos de muestreo como el muestreo por conglomerados, sistemático y estratificado. Cuando contamos con una muestra, la aplicación de los principios de la estadística inferencial puede hacerse en forma sistemática, dividiendo el estudio en tres partes. Estas tres aéreas de la Estadística Inferencial son las distribuciones muestrales, la estimación y el contraste de hipótesis. Este apunte está organizado de manera que para cada caso, sean tratados los tres aspectos estadísticos. DISTRIBUCIONES MUESTRALES Si las muestras obtenidas de una población son aleatorias, no se espera que dos muestras aleatorias del mismo tamaño y tomadas de la misma población sean completamente parecidas; puede esperarse que cualquier estadístico, como por ejemplo la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra. Por ello, lo que se busca es estudiar la distribución de todos los valores posibles de un estadístico. Es decir, como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribución de frecuencias. La distribución de frecuencias de un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño. Las distribuciones muestrales pueden construirse experimentalmente a partir de poblaciones finitas y discretas de la siguiente manera: 1. De una población finita de tamaño N, se extraen de manera aleatoria todas las muestras posibles de tamaño n. 2. Se calcula la estadística de interés para cada muestra. 3. Se lista en una columna los distintos valores de la estadística, y en otra columna las frecuencias correspondientes de cada valor observado. Así, si se calcula la media muestral para cada muestra; la colección de todas estas medias muestrales recibe el nombre de distribución muestral de medias. Si hacemos lo mismo con las desviaciones estándares, la colección de todas estas desviaciones estándar muestrales se llama distribución muestral de la desviación estándar. Normalmente, para una distribución muestral, se tiene interés en conocer tres cosas: media, varianza y forma funcional (apariencia gráfica). ESTIMACION El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador. Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parámetro. 1
  • 2. Estimación Puntual La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características poblacionales). Para ello se requiere datos muestrales de cada una de las poblaciones en estudio. De esta manera, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales. Por ejemplo, si deseamos conocer el verdadero valor de la media poblacional para un cierto carácter µ , se puede tomar muestras de la población y usando las medias muestrales X estimar la media poblacional. De forma similar, si σ 2 es la varianza de la distribución de del parámetro en la población, el valor de la varianza muestral s2 se podría utilizar para inferir algo acerca de σ 2 . Una estimación puntual de un parámetro es un sólo número que se puede considerar como el valor más razonable de . La estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador puntual de . Estimación por Intervalos Debido a la variabilidad de la muestra, nunca se tendrá el caso de que = µ . El estimador puntual nada dice sobre lo cercano que esta de µ . Una alternativa para obtener un solo valor del parámetro que se esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confianza (IC), en el que pueda precisarse, con una cierta probabilidad, que el verdadero valor del parámetro se encuentre dentro de esos límites. Elegiremos probabilidades cercanas a la unidad, que se representan por 1-α y cuyos valores más frecuentes suelen ser 0'90, 0'95 y 0'99. Tendremos que obtener dos estadísticos que nos darán los valores extremos del intervalo, tales que Al valor 1-α se le llama coeficiente de confianza, y Al valor 100 (1-α) % se le llama nivel de confianza. Se denomina estimación confidencial o intervalo de confianza para un nivel de confianza 1-α dado, a un intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene el parámetro Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida del grado de fiabilidad en el intervalo. La probabilidad de error (no contener el parámetro) es α y la probabilidad de acierto (contener el parámetro) es 1-α. Un intervalo de confianza con un nivel de confianza de 95% podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de µ entre 9162.5 y 9482.9. Un nivel de confianza de 95% (1-α= 0.95) implica que 95% de todas las muestras daría lugar a un intervalo que incluye µ o cualquier otro parámetro que se esté estimando, y sólo 5% (α = 0,05) de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo. Se denomina coeficiente de confianza a la probabilidad de que un estimador por intervalos cubra el verdadero valor del parámetro que se pretende estimar, se lo representa por 1-α. PRUEBA DE HIPOTESIS Otra rama de la estadística inferencial recibe el nombre de Contraste de Hipótesis. En la práctica, muchas veces nos encontramos con casos en los que existe una teoría preconcebida relativa a la característica de la población en estudio. El Contraste de Hipótesis, en toda investigación, implica la existencia de dos teorías o hipótesis implícitas, que reflejan esta idea a priori que tenemos y que pretendemos contrastar con la realidad.. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis. 2
  • 3. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Un contraste o test de hipótesis es una técnica de Inferencia Estadística que permite comprobar si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis formulada. Una hipótesis estadística puede ser: Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos. Las hipótesis paramétricas se clasifican en: • Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1' 5, = 10, X = Y ,...). • Compuesta: si la hipótesis asigna un rango de valores a los parámetros poblacionales desconocidos ( > 1' 5, 5 < < 10, X < Y ,...). No Paramétrica: es una afirmación sobre alguna característica estadística de la población en estudio. Por ejemplo, las observaciones son independientes, la distribución de la variable en estudio es normal, la distribución es simétrica,... En el contraste de hipótesis estadísticas siempre se acepta, provisionalmente, una hipótesis como verdadera, que es la hipótesis nula H0, y que es sometida a comprobación experimental frente a otra hipótesis complementaria que llamaremos hipótesis alternativa H1. Como consecuencia de la comprobación experimental, la hipótesis nula H0 podrá seguir siendo aceptada como verdadera o, por el contrario, tendremos que rechazarla y aceptar como verdadera la hipótesis alternativa H1. Las hipótesis deben ser formuladas de tal manera que sean mutuamente excluyentes y complementarias. La especificación apropiada de la hipótesis nula y alternativa depende de la naturaleza propia del problema en cuestión. Las formas básicas de establecer las hipótesis sobre el parámetro θ son las siguientes: I 0:oH θ θ= 1 0:H θ θ≠ II 0:oH θ θ≥ 1 0:H θ θ< III 0:oH θ θ≤ 1 0:H θ θ> IV 1 2:oH θ θ θ≤ ≤ 1 1 2: ó >H θ θ θ θ< Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: 1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. 2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. 3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es 3
  • 4. inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. La hipótesis nula, representada por Ho, es la afirmación sobre una o más características de poblaciones que al inicio se supone cierta (es decir, la "creencia a priori"). La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis del investigador. La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho. Región crítica y región de aceptación La región crítica está constituida por el conjunto de muestras para las cuales se rechaza la hipótesis nula H0. La región de aceptación está constituida por el conjunto de muestras para las cuales se acepta la hipótesis nula H0. El valor o valores que separan la región crítica de la región de aceptación reciben el nombre de valor o valores críticos. Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán del tipo de las indicadas en el siguiente gráfico: Región crítica Región de aceptación Región crítica (Rechazar 0H ) (Aceptar 0H ) (Rechazar 0H ) C C C |-----------------------|-----------------------------------------------------|-----------------------| ↑ ↑ |----- - - - - --Valores críticos---------------| Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones serán del tipo de las indicadas en el siguiente gráfico: Región crítica Región de aceptación (Rechazar 0H ) (Aceptar 0H ) C C ← |-------------------------------------|-------------------------------------------------------| → ↑ Valor crítico Análogamente, si el contraste es de forma III, es decir, unilateral a la derecha, entonces las regiones son del tipo a las indicadas en el gráfico siguiente: Región de aceptación Región crítica (Aceptar 0H ) (Rechazar 0H ) C C ←|-----------------------------------------------------------------|---------------------------------|→ ↑ Valor crítico 4
  • 5. Errores de Tipo I y de Tipo II En todo problema de decisión, cuando tenemos que elegir entre varias alternativas o decisiones existe la posibilidad o riesgo de equivocarnos cometiendo los correspondientes errores. Así pues, en el contraste de hipótesis, basándonos en la información proporcionada por la muestra, tenemos que decidir si aceptamos la hipótesis nula 0H o si la rechazamos. La decisión siempre la hacemos sobre la hipótesis nula, existiendo un riesgo de equivocarnos que nos llevará a los errores de tipo I y de tipo II. El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera. También es conocido como α ó nivel de significancia. Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del 5%. Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia sería del 10%. El error tipo II ó error β se define como la aceptación de la hipótesis nula cuando ésta es falsa. Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula, dos de ellos no nos llevan a ningún tipo de error y los otros dos dan lugar a los errores de tipo I y de tipo II. En efecto, la tabla siguiente nos muestra los cuatro posibles resultados: Si la hipótesis nula H0 es verdadera, podemos aceptar H0 o rechazar H0 basándonos en la información proporcionada por la muestra. Si aceptamos H0 cuando es verdadera, la decisión es correcta y no hay error. Si rechazamos H0 cuando es verdadera, hemos cometido un error, que se llama error de tipo I. Si la hipótesis nula H0 es falsa, podemos aceptar H0 o rechazar H0 basándonos en la información muestral. Si aceptamos H0 cuando es falsa, hemos cometido un error, que se llama error de tipo II. Si rechazamos la hipótesis nula H0 cuando es falsa, la decisión es correcta y no hay error. Es necesario dar una medida de la posibilidad o del riesgo de cometer estos dos tipos de errores. Estas medidas son probabilidades y las notaremos por α y β, siendo: α = Riesgo de error de tipo I = P (Error de tipo I) = P (Rechazar 0H / 0H es cierta). β = Riesgo de error de tipo II = P (Error de tipo II)= P (Aceptar 0H / 0H es falsa) Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. Un aumento en el tamaño muestral n reducirá la probabilidad de error. Si los errores de tipo I y de tipo II son nulos, α=β=0, entonces decimos que el test o contraste es ideal. Cuando estudiamos los intervalos de confianza, decimos que 1-α es el nivel de confianza, y ahora podemos decir que representa el complemento de la P (error de tipo I), siempre y cuando el test sea bilateral, es decir: Nivel de confianza = 1-α =1-P(error de tipo I)= P(aceptar 0H / 0H es cierta) Decisión 0H es verdadera 0H es falsa Aceptamos 0H Decisión correcta No hay error 1-α Nivel de confianza Error de tipo II β Rechazamos 0H Error de tipo I α Decisión correcta No hay error 1- β 5
  • 6. Se denomina nivel de significación de un contraste a la probabilidad de cometer un error tipo I. Fijar el nivel de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0' 05, 0' 01 o 0' 001). La selección de un nivel de significación conduce a dividir en dos regiones el conjunto de posibles valores del estadístico de contraste: La región de Rechazo, con probabilidad α, bajo H0. La región de Aceptación, con probabilidad 1 - α, bajo H0. Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se denomina: Contraste unilateral o contraste de una cola: es el contraste de hipótesis cuya región de rechazo está formada por una cola de la distribución del estadístico de contraste, bajo H0. Contraste bilateral o contraste de dos colas: es el contraste de hipótesis cuya región de rechazo está formada por las dos colas de la distribución del estadístico de contraste, bajo H0. Es decir, la región de rechazo se divide en dos lados o colas de la distribución de la estadística de prueba. Estadística de prueba: La estadística de prueba es alguna estadística que se puede calcular a partir de los datos de la muestra. Sirve como un productor de decisiones, ya que la decisión de rechazar o no la hipótesis nula depende de la magnitud de la estadística de prueba. La fórmula para la estadística de prueba que se aplica en muchas de las pruebas de hipótesis es: Estadística de prueba = estadística relevante – parámetro supuesto / error estándar La calve para la inferencia estadística es la distribución muestral. Es necesario recordar esto en los casos en los que se deba especificar la distribución de probabilidad de la estadística de prueba. A continuación, se analizaran las distribuciones muestrales, estimación y prueba de hipótesis para: la media, una proporción, la diferencia de medias y la diferencia de proporciones. Se recomienda hacer un estudio completo de cada tema, y al final de cada uno hacer un resumen integratorio. Distribución Muestral de Medias El conocimiento y comprensión de las distribuciones muestrales son necesarios para entender los conceptos de la estadística inferencial. Una de las distribuciones muestrales más importantes es la distribución de la media de la muestra. La aplicación mas sencilla de la distribución muestral de la media de la muestra es el cálculo de la probabilidad de obtener una muestra con una media de alguna magnitud especifica. Este es un ejemplo de cómo elaborar esta distribución. Se tiene una población de tamaño N=5, la cual se compone de las edades de cinco niños que son pacientes externos de una clínica de salud mental. Las edades son las siguientes: x1=6, x2=8, x3=10, x4=12, x5=14. La media para esta población es igual a ∑ Nx / =(6+8+10+12+14)/5 = 10. La varianza es 2 σ = ( ) N x∑ − 2 µ = 5 40 = 8 Otra medida de dispersión que se puede calcular es: 6
  • 7. S2 = ( ) 1 2 − −∑ N x µ = 4 40 =10 Esta cantidad se utilizara en el los temas de inferencia estadística. Siguiendo con el ejemplo, a partir de esta población se extraen todas las muestras posibles de tamaño n=2. Se observa que cuando el muestreo se efectúa con reemplazos, hay 25 muestras posibles, cada una con sus respectivas medias muestrales. Para elaborar una distribución muestral para x se listan los diferentes valores de x en una columna y sus frecuencias de ocurrencia en otra. Como dijimos anteriormente, para una distribución muestral se tiene interés en la forma funcional de la distribución, su media y su varianza. Para el cálculo de la media muestral se suman las 25 medias de las muestras y se divide entre el número de muestras. Es interesante destacar que la media de la distribución muestral para x tiene el mismo valor que la media para la población original. El cálculo de la varianza se calcula de la siguiente manera: 2 xσ = ( ) n xi N x 2 ∑ − µ = 25 100 = 4 = 2 8 = n 2 σ Se puede advertir que la varianza de la distribución muestral no es igual a la varianza de la población. Sin embargo, la varianza de la distribución muestral es igual a la varianza de la población dividida por el tamaño de la muestra utilizada para obtener la distribución muestral. La raíz cuadrada de la varianza de la distribución muestral se llama error estándar y es igual a σ / n . Se puede distinguir dos situaciones: muestreo a partir de una población que sigue una distribución normal y muestreo a partir de una que no sigue una distribución normal. Si la población es normal se cumplen las propiedades enunciadas anteriormente. Si la población no es normal, se utiliza un teorema conocido como el teorema del límite central. Teorema del límite central Si se seleccionan muestras aleatorias de una población con media µ y desviación estándar σ , entonces, cuando n es grande, la distribución maestral de medias tendrá aproximadamente una distribución normal con una media igual a µ y una desviación estándar de σ / n . La aproximación será cada vez más exacta a medida de que n sea cada vez mayor. Aplicando este teorema, cuando el tamaño de la muestra es grande, el muestro de x tendrá una distribución aproximadamente normal. Si la población de la que se extraen las muestras es normal, la distribución muestral de medias será normal sin importar el tamaño de la muestra. Si la población de donde se extraen las muestras no es normal, entonces el tamaño de la muestra debe ser mayor o igual a 30, para que la distribución muestral tenga una forma acampanada. Mientras mayor sea el tamaño de la muestra, más cerca estará la distribución muestral de ser normal. Para muchos propósitos, la aproximación normal se considera buena si se cumple n=30 Cuando el muestreo se realiza sin reemplazos, la varianza de la distribución muestral no es igual a la varianza poblacional dividida entre el tamaño de la muestra. Sin embargo existe una relación que se obtiene al multiplicar: σ / n . (N-n)/(N-1) Esta es la varianza de la distribución maestral de x cuando el muestreo es sin reemplazos. El factor (N- n)/(N-1) se llama corrección por población finita y se puede omitir cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la población. Es decir, la corrección de población finita generalmente se ignora cuando n/N ≤ 0.5 La distribución normal es una distribución continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor. Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula: 7
  • 8. z = σ µ−x Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal. Teniendo en cuanta esto y sabiendo que la desviación estándar es σ / n , se hacen los reemplazos correspondientes. Así la formula para calcular la probabilidad del comportamiento del estadístico, en este caso la media de la muestra, quedaría de la siguiente manera: y para poblaciones finitas y muestro con reemplazo: Ejemplo 1: Si la media y la desviación estándar de la concentración en suero en hombres sanos es de 120 15mg por cada 100 ml, respectivamente, ¿Cuál es la probabilidad de que una muestra aleatoria de 50 hombres normales tenga una media entre 115 y 125mg/100ml? Solución: No se especifica la forma funcional de la población de valores de las concentraciones de hierro en el suero, pero como el tamaño de la muestra es mayor a 30, se puede utilizar el teorema del limite central para transformar la distribución muestral de x en aproximadamente normal con media de 120 y una desviación estándar de 15/ 50 =2.12. La probabilidad buscada es: P (115 ≤ x ≤125) = P    − 12.2 120115 ≤ z ≤   − 12.2 120125 =P (-2.36 ≤ z ≤2.36 = 0.9909 – 0.0091 =0.9818 Ejemplo 2: Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine: a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros. b. El número de medias muestrales que caen por debajo de 172 centímetros. Solución: Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso. a. 8
  • 9. (0.7607)(200)=152 medias muestrales b. (0.0336)(200)= 7 medias muestrales Estimación para la Media Supongamos que un grupo de investigadores quiere estimar la media de una población que sigue una distribución normal y que, para ello, extraen una muestra aleatoria de tamaño n de la población y calculan el valor de x , el cual utilizan como una estimación puntual de µ . Aunque este estimador posee todas las cualidades de un buen estimador, no se puede esperar que x sea igual a µ . Por lo tanto, es mucho más significativo estimar µ mediante un intervalo que de alguna forma muestre el valor de µ . Para realizar esa estimación por intervalos, aprovechamos las distribuciones muestrales. En este caso, como el interés está en la media de la muestra como estimador de la media de una población, es necesario tener en cuenta la distribución muestral de la media. En base a la distribución muestral de medias, la fórmula para el cálculo de probabilidad es la siguiente: . Cuando se desconoce el valor de la media poblacional lo podemos estimar por medio de la media de la muestra, para ello sólo se despejará µ de la formula anterior, quedando lo siguiente: Tomamos un intervalo que contenga una masa de probabilidad de1-α . La cantidad 1-α se conoce como coeficiente de confianza y designa el área total dentro del intervalo en el que puede hallarse el valor real de µ . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa. Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, . 9
  • 10. El intervalo de confianza al nivel de1-α para la esperanza de una normal de varianza conocida es el comprendido entre los valores La forma habitual de escribir este intervalo es: De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Este valor de Z se conoce como coeficiente de confiabilidad, que indica en ± cuantos errores estándar están aproximadamente el 95% de los valores posibles de x (siempre que 1- α =0.95). El otro componente conocido σ es el error estándar o desviación estándar de la distribución muestral de x . Cuando 1-α = 0.95, el intervalo recibe el nombre de confianza del 95% para µ . Se dice que se tiene el 95 por ciento de confianza de que la media de la población esté dentro del intervalo calculado. Como vemos, conociendo la ley de distribución, la media muestral y la varianza, podemos estimar el valor de la media poblacional. Ejemplo: Un fisioterapista desea estimar, con el 99% de confianza, la media de fuerza máxima de un músculo particular en cierto grupo de individuos. Se inclina a suponer que los valores de dicha fuerza muestran una distribución aproximadamente normal con una varianza de 144. Una muestra de 15 individuos que participaron en el experimento proporcionó una media de 94.3. Solución: En la tabla de distribución normal, el valor de Z que corresponde a un coeficiente de confianza de .99 es de 2.58. Este es el coeficiente de confiabilidad. El error estándar es de σ x=12/ 15 = 3.10. Por lo tanto el intervalo de confianza del 99% para µ es: 84.3 ± 2.58(3.10) 84.3 ± 8.0 (76.3 ; 92.3) Se dice que se tiene el 99% de confianza de que la media de la población esta entre 76.3 y 92.3 ya que, al repetir el muestreo, el 99% de todos los intervalos que podrían ser construidos de esta forma, incluirían a la media de la población. 10
  • 11. Este procedimiento para obtener un intervalo de confianza para la media de la población, requiere el conocimiento de la varianza de la población de la que se extrae la muestra. Sin embrago, la situación más común es aquella en donde no se conoce el valor de la media ni el valor de la varianza. Esto impide que podamos utilizar el estadístico Z para la construcción de intervalos. Aunque la estadística Z tiene una distribución normal cuando la población es normal o aproximadamente normal cuando n es muy grande, no se puede utilizar porque se desconoceσ . En estos casos se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población (s=σ ). Sin embargo, en estadística inferencial, los estadísticos para medir la dispersión más convenientes son los insesgados como la cuasivarianza típica. Según el caso se utilizará la cuasivarianza típica o la desviación típica. Por ejemplo si tomamos una muestra de tamaño 25 y desviación típica igual a 10, la cuasivarianza típica será: En los casos en los que se desconoce σ pero la población de donde provienen los datos es normal, lo correcto es utilizar otra distribución llamada "t" de student, que no depende de σ (desconocido) sino de su estimación puntual insesgada, es decir la cuasivarianza típica. Esta distribución se aplicara siempre que no sean conocidos la media y varianza de la población. El calculo de la media y el intervalo de confianza al nivel 1-α cuando los parámetros son desconocidos es: Y se tomara como intervalo de confianza aquella región en la que En este caso se usa la notación: El procedimiento es básicamente el mismo, lo que es diferente es el origen del coeficiente de confiabilidad. Este se obtiene a partir de la tabla de distribución t. Ejemplo: Se desea estimar la concentración media de amilasa en suero de una población sana. Las mediciones se efectuaron en una muestra de 15 individuos aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35 unidades/100ml. La varianza se desconoce. Solución: Podemos utilizar la media de la muestra 96 como una estimación puntual de la media de la población. Pero al no conocer la desviación estándar, podemos suponer que la población sigue una distribución aproximadamente normal antes de construir un intervalo de confianza para µ . Si suponemos que esta hipótesis es razonable, podemos buscar un intervalo de confianza del 95%. Se tiene el estimador x y el error estándar es s/ n = 35 / 15 = 9.04. Buscamos el coeficiente de confiabilidad, es decir, el valor de t asociado a un coeficiente de confianza de .95 y n – 1 =14 grados de libertad. Se encuentra que el valor de t, que es el coeficiente de confiabilidad, es de 2.1448. Ahora se construye el intervalo de confianza al 95 por ciento: 96 ± 2.1448(9.04) 96 ± 19 11
  • 12. ( 77 ; 15 ) Este intervalo se puede interpretar desde dos puntos de vista, probabilístico y práctico. Se dice que se tiene el 95% de confianza de que la media real de la población µ está entre 77 y 115 ya que con muestreos repetidos, el 95% de los intervalos construidos de una forma semejante incluyen a µ . Contrastes para la media Los contrastes para la media son muy importantes. Cuando analizamos un carácter dentro de una población, una de las primeras cosas que hacemos es calcular la media para dicho carácter. Muchas veces tenemos un valor a priori de la media poblacional y es necesario determinar si coincide o se aproxima al valor real en la población. Los contrastes de hipótesis para la media nos permiten comprobar si el valor fijado a priori de la media coincide con el de la población. Cuando el muestreo se realiza a partir de una población normal y se conoce la varianza de la población, la estadística de prueba para H0 : µ = µ 0 es: Contrastes sobre la media de una población N(μ,σ) con σ conocida: Este contraste se aplica cuando tenemos una población que se distribuye normalmente N(μ,σ), en donde la varianza σ 2 es conocida, y mediante una muestra aleatoria simple de tamaño n, ( 1 2 3, , ,..., nx x x x ) , y un nivel de significación α dado, queremos realizar los siguientes contrastes: 1. 0 0 1 0 : : H H µ µ µ µ =    ≠  2. 0 0 1 0 : : H H µ µ µ µ ≤    >  3. 0 0 1 0 : : H H µ µ µ µ ≥    <  La técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con los datos muestrales si es verdaderamente cierta o no. Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos. Definiendo entonces para cada caso un valor teórico y uno experimental. 1. Contraste de 0 0 1 0 : : H H µ µ µ µ =    ≠  De dos colas Sabemos que la población se distribuye normalmente, por lo que El valor teórico se obtiene de la tabla de distribución normal. Si H0 es cierta, entonces esperamos que el valor zexp obtenido sobre la muestra esté cercano a cero con una gran probabilidad. La regla de decisión será: - Rechazamos 0H si: 0 exp x z n µ σ − = < /2zα− ó 0 exp x z n µ σ − = > /2zα− 12
  • 13. - Aceptamos 0H si: /2 exp /2z z zα α− ≤ ≤ La regla de decisión también la podemos formular en función de la región crítica o de la región de aceptación, así pues, si calculamos la media x (media muestral) correspondiente a la muestra aleatoria de tamaño n, entonces: Si 0 /2 0 /2,x z z n n α α σ σ µ µ   ∈ − +    aceptamos 0H . Si 0 /2 0 /2,x z z n n α α σ σ µ µ   ∉ − +    rechazamos 0H . Por lo tanto, se rechaza la hipótesis nula si el valor calculado de la estadística de prueba cae en la región de rechazo y no se rechaza si cae en la región de aceptación. 2. Contraste de 0 0 1 0 : : H H µ µ µ µ ≥    <  De una cola Bajo la hipótesis nula la distribución de la media muestral es y como región crítica consideraremos aquella formada por los valores extremadamente bajos de Zexp, con probabilidad , es decir Entonces la región de aceptación, o de modo más correcto, de no rechazo de la hipótesis nula es: . La regla de decisión será: - Rechazamos 0H si: 0 exp x z n µ σ − = <- / 2zα - Aceptamos 0H si: 0 exp x z n µ σ − = ≥ - / 2zα Se rechaza la hipótesis nula, cuando uno de los estadístico Z o toma un valor en la zona sombreada de sus gráficas respectivas. 13
  • 14. 3. Contraste de 0 0 1 0 : : H H µ µ µ µ ≤    >  Si observamos el caso anterior, podemos ver que aquí tomamos como hipótesis alternativa su contraria. Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula es La regla de decisión será: - Rechazamos 0H si: 0 exp x z n µ σ − = > /2zα - Aceptamos 0H si: 0 exp x z n µ σ − = ≤ / 2zα Regiones de aceptación y rechazo para el test unilateral contrario Ejemplo: Supóngase que un investigador está estudiando el nivel promedio de alguna enzima en cierta población de seres humanos. El investigador toma una muestra de 10 individuos, determina el nivel de la enzima en cada uno de ellos y calcula la media muestral igual a 22. La variable de interés sigue una distribución aproximadamente normal con una varianza de 45. Con estos datos y los procedimientos de prueba de hipótesis, ¿es posible concluir que el nivel medio de la enzima en esta población es diferente de 25? Solución: H0: µ = 25 H1: µ ≠ 25 14
  • 15. Primero, es necesario especificar las regiones de rechazo y aceptación. Para ello definimos un nivel de significación α , que es la probabilidad de cometer un error de tipo I. Supongamos que queremos que la probabilidad de rechazar una hipótesis nula verdadera es α =0.05. Al estar la región de rechazo formada por dos partes (contraste bilateral), parece lógico que se pueda dividir a α en partes iguales siendo α /2=0.025. La región de aceptación será 1-α /2= 0.975. Este valor nos ayudara a encontrar el valor de z en la tabla de distribución normal. El valor z para 1-α /2=0.975 es 1.96. Como el contraste es bilateral, la región de rechazo consiste en todos los valores de la estadística de prueba mayores o iguales que 1.96 o menores o iguales que -1.96. Entonces, se rechaza H0 si el valor calculado es ≥1.96 o ≤-1.96. De otra manera no se rechaza. El valor deα y la regla de decisión deben ser establecidos antes de reunir los datos, lo cual evita que los resultados de la muestra influyan en la decisión. Calculo de la estadística de prueba: zexp= 10/45 2522 − = 1213.2 3− = -1.41 Como -1.41 no está en la región de rechazo, no se puede rechazar la hipótesis nula. Se puede concluir que µ puede ser igual a 25 y que las acciones del administrador o medico deben estar de acuerdo con esta conclusión. También se puede llegar a esta misma conclusión mediante el uso de un intervalo confianza del 10(1-α ) por ciento. El intervalo de confianza de 95% para µ es: 22 ±1.96 10/45 22 ±1.96 (2.1213) 22 ±4.16 (17.84 ; 26.16) Dado que este intervalo incluye a 25, se dice que 25 es un candidato para la media y por lo tanto, µ puede ser igual a 25. H0 no se rechaza. Contrastes sobre la media de una población N (μ,σ) con σ desconocida Este contraste es aplicable cuando se tiene una muestra aleatoria simple ( 1 2 3, , ,..., nx x x x ) procedente de una población N (μ,σ), en donde ni la media µ ni la varianza σ 2 son conocidos y, con un nivel de significación α dado, queremos realizar los siguientes contrastes: 1. 0 0 1 0 : : H H µ µ µ µ =    ≠  2. 0 0 1 0 : : H H µ µ µ µ ≤    >  3. 0 0 1 0 : : H H µ µ µ µ ≥    <  Es decir nuevamente queremos ver si el valor fijado a priori de la media poblacional es o no el real. Utilizando el estadístico de prueba: 0 exp x t s n µ− = Se tendrán los siguientes contrastes. 15
  • 16. 1. Contraste de 0 0 1 0 : : H H µ µ µ µ =    ≠  o Test de dos colas Al no conocer σ 2 va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, Sˆ 2 . Por ello la distribución del estimador del contraste será una t de Student, que ha perdido un grado de libertad, y según la definición de la distribución de Student: Definimos al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos: Entonces: - Se rechaza 0H si: exp / 2t tα< − ó exp / 2t tα> − - Se acepta 0H si: / 2 exp / 2t t tα α− ≤ ≤ Región crítica para el contraste bilateral de una media Ejemplo: Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación deα =0.05 si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo: Solución: El contraste que se plantea es: H0: µ = 174cm H1: µ ≠ 174cm La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadístico 16
  • 17. es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si Para ello procedemos al cálculo de Texp: Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95%. Es decir, no se rechaza H0. 2. Contraste de 0 0 1 0 : : H H µ µ µ µ ≥    <  Tests de una cola Por analogía con el contraste bilateral, definiremos Entonces: - Se rechaza 0H si: expt tα< − - Se acepta 0H si: expt tα≥ − Región crítica para uno de los contrastes unilaterales de una media. 3. Contraste de 0 0 1 0 : : H H µ µ µ µ ≤    >  17
  • 18. En este caso también definimos Texp y Tteo - Se rechaza 0H si: expt tα> - Se acepta 0H si: expt tα≤ Región crítica para el contraste unilateral de una media contrario al anterior. Ejemplo: Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm. Solución: Ahora el contraste es H0: µ ≥ 174cm H1: µ < 174cm Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis nula debe ser rechazada o no. Este es: De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el estadístico es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si El valor de Texp obtenido fue de 18
  • 19. Texp= -1.959< t24,0.05= -t24,0.95 = -1.71 Por ello hemos de aceptar la hipótesis alternativa Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que 174≠µ cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que µ =174 y aceptamos que µ <174 cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos equivalentes: Distribución muestral de Proporciones Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media. Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos. La distribución muestral de proporciones se puede obtener experimentalmente. A partir de la población, que se supone es finita, se toman todas las muestras posibles de un tamaño dado, y para cada muestra se calcula la proporción de la muestra pˆ . Después, se elabora una distribución de frecuencias de pˆ , numerando los distintos valores de pˆ junto con sus frecuencias de ocurrencias. Esta distribución de frecuencias constituye la distribución muestral de pˆ . La media de la distribución muestral de proporciones es el promedio de todas las proporciones posibles de la muestra y es igual a la proporción en la población de un cierto evento p: µ pˆ = p La varianza de la distribución binomial es σ 2 = npq, por lo que la varianza de la distribución muestral de proporciones es: 19
  • 20. σ pˆ = n pq = σ 2 pˆ = n pq La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra. z = n pq pp −ˆ Ejemplo 1: Supóngase que en una población de seres humanos, el 0.8 son daltónicos. Si se eligen aleatoriamente 150 individuos de esta población, ¿Cuál es la probabilidad de que una proporción de individuos daltónicos tenga un tamaño del 0.15? Solución: Si la proporción de la población se designa como p, se puede decir que p=0.8. Como np y n(1-p) son mayores que 5 (150x0.8=12 y 150x0.92=138), se puede decir que, en este caso p sigue una distribución aproximadamente normal, con una media µ pˆ = p= 0.8 y una varianza igual a p(1-p)/n = (0.8).(0.92)/150=0.00049. La probabilidad buscada es el área bajo la curva de pˆ a la derecha de 0.15. Esta área es igual al área bajo la curva normal estándar a la derecha de: z = n pq pp −ˆ = 00049.0 8.015.0 − = 0222.0 07.0 =3.15 Al utilizar la tabla de distribución normal estándar se tiene que el área a la derecha de z=3.15 es 1- 0.9992=0.0008. Se puede decir que la probabilidad de observar pˆ ≥0.15 en una muestra aleatoria de tamaño n=150 de una población en la que p=0.08 es 0.0008. Si se extrajera una muestra de este tipo, seria un evento muy extraño. Ejemplo 2: Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%. a. Resolverlo mediante la aproximación de la normal a la binomial b. Resolverlo con la distribución muestral de proporciones a. Aproximación de la distribución normal a la binomial: Datos: n=150 personas p=0.03 x= (0.04)(150) = 6 personas p(x>6) = ? Media = np= (150)(0.03)= 4.5 20
  • 21. p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una muestra de 150 personas, más de 6 presentarán una reacción adversa. b. Distribución Muestral de Proporciones Datos: n=150 personas P=0.03 p= 0.04 p(p>0.04) = ? Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una reacción adversa. Estimación de una Proporción Muchas preguntas de interés para los profesionales tienen relación con las proporciones de la población. Por ejemplo ¿Qué proporción de alguna población tienen cierta enfermedad? o ¿Qué proporción es inmune a cierta enfermedad? Para estimar la proporción de una población se procede de la misma manera que cuando se estima la media de una población. Se extrae una muestra de la población de interés y se calcula la proporción pˆ . Esta se utiliza como el estimador puntual para la proporción de la población. Un estimador puntual de la proporción P en un experimento binomial está dado por la estadística P =X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P. Como vimos anteriormente, cuando np y n(1-p) son mayores que 5, se puede considerar que la distribución muestral de pˆ se aproxima bastante a una distribución normal. En estos casos, el coeficiente de confiabilidad es algún valor de Z de la distribución normal estándar. El error estándar es igual npp /)ˆ1(ˆ − . Como P es el parámetro que se tarta de calcular, se desconoce, se debe utilizar pˆ como estimación. Podemos establecer un intervalo de confianza para P al considerar la distribución muestral de proporciones. 21
  • 22. Al despejar P de esta ecuación nos queda: En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el tamaño de muestra no sea pequeño. Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. El error de estimación será la diferencia absoluta entre p y P. Para encontrar el intervalo de confianza al nivel de significación α para p se considera el intervalo que hace que la distribución de Z~N(0,1) deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles 2α y 1- 2α . Así se puede afirmar con una confianza de 1- α que: Ejemplo: Se llevo a cabo una encuesta para estudiar los hábitos y actitud hacia la salud mental de cierta población urbana de adultos. De los 300 entrevistados, 123 de ellos dijeron que se sometían regularmente a una revisión dental dos veces por año. Se desea construir un intervalo de confianza de 95% para la proporción de individuos de la población muestreada que se somete a la revisión dental dos veces al año. Solución: La mejor estimación puntual de la proporción de la población es pˆ =123/300 = 0.41. El tamaño de la muestra y la estimación de p son suficientes como para justificar el uso de la distribución normal estándar para construir el intervalo de confianza. El coeficiente de confiabilidad que corresponde a un nivel de confianza de .95 es de 1.96 y la estimación del error estándar σ pˆ es npp /)ˆ1(ˆ − = 300/)59.0(41.0 =0.28. El intervalo de confianza del 95% para p, con base en estos datos, es 0.41 ± 1.96(0.28) 0.41 ± 0.05 (0.36 ; 0.46) Se puede decir que se tiene el 95% de confianza de que la proporción real p está entre 0.36 y 0.46 ya que, al repetir el muestreo, el 95% de los intervalos construidos de esta forma incluyen a la proporción p real. Contrastes de una proporción Este test se utiliza para contrastar la igualdad o desigualdad de proporciones que han sido estimadas y las proporciones reales. Supongamos que tenemos una sucesión de observaciones independientes, de modo que cada una de ellas se comporta como una distribución de Bernoulli de parámetro p. La v.a. X, 22
  • 23. definida como el número de éxitos obtenidos en una muestra de tamaño n es por definición una v.a. de distribución binomial: La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es: Nuestro contraste de significación es: frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico (de contraste) que ya fue considerado anteriormente en la construcción de intervalos de confianza para proporciones y que sigue una distribución aproximadamente normal para tamaños muestrales suficientemente grandes: Entonces, si la hipótesis H0 es cierta se tiene Se pueden hacer pruebas unilaterales y bilaterales para rechazar o no la hipótesis nula. 1. Contraste de 0 0 1 0 : : H p p H p p =    ≠  Contraste bilateral Extraemos una muestra y observamos el valor X=x = pˆ = n x . Entonces se define Se acepta 0H si: /2 / 2expz z zα α− ≤ ≤ Siendo el criterio de aceptación o rechazo de la hipótesis nula el que refleja la figura para el contraste bilateral de una proporción 23
  • 24. 2. Contraste de: 0 0 1 0 : : H p p H p p ≥    <  Contrastes unilaterales El criterio de aceptación o rechazo a seguir es: Se acepta 0H si: expz zα≥ Siendo zα [ ] [ ]ó P Z z 1P Z zα αα α> = ≤ = − Entonces para un contraste unilateral cuando H0: p ≥p0 3. Contraste de: 0 0 1 0 : : H p p H p p ≤    >  Este es el test unilateral contrario, se tiene la expresión simétrica Se acepta 0H si: expz zα≤ − 24
  • 25. Contraste unilateral cuando se tiene H0: p ≤p0 Ejemplo: Suponer que hay interés por saber que proporción de la población de conductores de automóviles utilizan con regularidad el cinturón de seguridad del asiento. En una encuesta de 300 conductores adultos de automóviles, 123 de ello dijeron que regularmente utilizaban el cinturón de seguridad. ¿Es posible concluir a partir de estos datos que, en la población muestreada, la proporción de quienes utilizan regularmente el cinturón de seguridad no es del 50? Solución: H0: p = 0.5 H1: p ≠ 0.5 A partir de los datos se tiene que pˆ =0.41 y el error estándar es 300/)5.0)(5.0( . El cálculo de la estadística de prueba es: Z = 300 )5.0)(5.0( 5.041.0 − = 0289.0 9.0− = - 3.11 Si α =0.05, los valores críticos son ± 1.96. Se rechaza H0 a menos que -1.96<zcalculada<1.96. Como -3.11< -1.96 se rechaza la hipótesis nula. Se concluye que la proporción de la población que usa regularmente el cinturón de seguridad no es de 0.5. Distribución muestral de diferencia de medias Con frecuencia, el interés se centra en dos poblaciones. Puede ser que un investigador desee saber algo acerca de las diferencias entre las medias de dos poblaciones. Para este y otros casos, el conocimiento acerca de la distribución muestral de la diferencia entre dos medias es muy útil. Se tienen dos poblaciones distintas, la primera con media µ 1 y desviación estándar σ 1, y la segunda con media µ 2 y desviación estándar σ 2. Se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias junto con sus frecuencias, se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras. Sabemos que cuando n es grande, la distribución muestral de medias tendrá aproximadamente una distribución normal con una media igual a µ (la media de la población) y una desviación estándar de n/σ . Con esto podemos deducir que la media para esta distribución muestral de diferencia de medias es igual a las diferencia entre las medias reales de las poblaciones µ 1- µ 2. La varianza es igual a (σ 2 1/n1) + (σ 2 2/n2). Y el error estándar de la diferencia entre las medias muestrales es: 25
  • 26. . La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es: Este procedimiento es válido incluso cuando el tamaño de las muestras es diferente y cuando las varianzas tienen valores diferentes. Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas. Solución: Datos: µ 1 = 100 libras µ 2 = 85 libras σ 1 = 14.142 libras σ 2 = 12.247 libras n1 = 20 niños n2 = 25 niñas = ? Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20 libras más grande que el de la muestra de las niñas es 0.1056. Estimación de la Diferencia entre dos Medias En ciertos casos, se desea estimar la diferencia entre las medias de dos poblaciones. Teniendo dos poblaciones donde el carácter que estudiamos en ambas (X1 y X2) son v.a. distribuidas según leyes gaussianas, podemos realizar una estimación de la diferencia entre dos medias. A partir de cada población se extrae una muestra aleatoria independiente y de los datos de cada una se 26
  • 27. calculan las medias muestrales x 1 y x 2. Sabemos que el estimador x 1- x 2 proporciona una estimación insesgada de µ 1 - µ 2, que es la diferencia entre las medias de las poblaciones. La varianza del estimador es (σ 1 2 /n1) + (σ 2 2 /n2). Por tanto, para obtener una estimación puntual de µ 1- µ 2, se seleccionan dos muestras aleatorias independientes que no tienen por qué ser necesariamente del mismo tamaño, una de cada población, de tamaño n1 y n2, se calcula la diferencia , de las medias muestrales. Intervalo para la diferencia de medias cuando se conoce la varianza: Recordando a la distribución muestral de diferencia de medias: Al despejar de esta ecuación µ 1 - µ 2 se tiene: En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual. Ejemplo: A un equipo de investigación le interesa conocer la diferencia entre las concentraciones de acido úrico en pacientes con y sin mongolismo. En una hospital para el tratamiento del retardo mental, una muestra de 12 individuos con mongolismo proporciona una media de x 1= 4.5mg/100ml. En un hospital general se encontró que una muestra de 15 individuos normales de la misma edad y sexo presenta un nivel medio de x 2= 3.4. Si suponemos que las dos poblaciones de valores muestran una distribución normal y sus varianzas son iguales a 1, calcular el intervalo de confianza del 95% para µ 1- µ 2. Solución: Para una estimación puntual de µ 1- µ 2 se utiliza = 4.5 - 3.4=1.1. El coeficiente de confiabilidad correspondiente al .95, que se halla en la tabla normal, es 1.96. El error estándar es: 15 1 12 1 + = 0.39 Por lo tanto el intervalo de confianza del 95% es: 1.1 ± 1.96 (0.39) 1.1 ± 0.8 (0.3 ; 1.9) Se dice que se tiene una confianza del 95% de que la diferencia real µ 1- µ 2, está entre 0.3 y 1.9 debido a que en muestreos repetidos el 95% de los intervalos construidos de esa manera incluiría la diferencia entre las medias reales. Intervalo para la diferencia de medias cuando se desconoce la varianza Cuando se desconocen las varianzas de la población y se requiere estimar la diferencia entre las medias de dos poblaciones con un intervalo de confianza, se puede utilizar la distribución t para 27
  • 28. extraer el factor de confiabilidad, siempre que las poblaciones sean normales o supongamos que lo son. 1. Intervalo para la diferencia de medias homocedáticas: Si suponemos que las varianzas de dos poblaciones son iguales, las dos varianzas de las muestras calculadas a partir de las muestras independientes pueden construirse como estimaciones de una sola cosa, la varianza común. Esta varianza se obtiene calculando el promedio ponderado de las dos varianzas de las muestras. Cada varianza de las muestras es ponderada en base a sus grados de libertad. La estimación conjunta se obtiene con la formula: Donde se ha definido a como la cuasivarianza muestral ponderada de Sˆ 2 1 y Sˆ 2 2. Las varianzas se desconocen, el intervalo se distribuye entonces como una de Student con n1+n2-2 grados de libertad Si 1-α es el nivel de significación con el que deseamos establecer el intervalo para la diferencia de las dos medias, calculamos el valor t n1+n2-1,1- α /2 que deja por encima de si α /2 de la masa de probabilidad de Tn1+n2-2. El intervalo de confianza al nivel 1-α para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: Ejemplo: Se efectuaron estudios sobre la concentración media de amilasa en suero de una población sana. Las mediciones se efectuaron en una muestra de 15 individuos aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y una desviación estándar de 35 unidades/100ml. Se hicieron también las determinaciones de amilasa en el suero de 22 individuos hospitalizados que forman una muestra independiente. La media y la desviación estándar de esta muestra son 120 y 40 unidades/ml, respectivamente. La estimación puntual de µ 1- µ 2 es de 120 – 96 =24. Se desea construir un intervalo de confianza para la diferencia entre las concentraciones medias de amilasa del suero en individuos aparentemente sanos y la media para los pacientes hospitalizados. Solución: Suponemos que las dos poblaciones en estudio tienen una distribución normal y que sus varianzas son iguales. Primero, buscamos la estimación conjunta de la varianza común como sigue: Sˆ 2 = 14(35)2 + 21(40)2 / 15 + 22 – 2 = 1450 El intervalo de confianza del 95% para µ 1- µ 2 es: (120-96) ± 2.0301 22 1450 15 1450 + 24 ± (2.0301)(12.75) 24 ± 26 (-2 ; 50) Se dice que se tiene un 95% de confianza de que la diferencia real µ 1- µ 2 esta entre -2 y 50 ya que, al muestrear varias veces, el 95% de los intervalos así construidos incluyen a µ 1- µ 2. Ejemplo: Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos: 28
  • 29. En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo. Solución: Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo de confianza para µ 1- µ 2, lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y otro del segundo. El estadístico que se ha de aplicar para esta cuestión es: donde Consideramos un nivel de significación que nos parezca aceptable, por ejemplo α =0.05, y el intervalo buscado se obtiene a partir de 95% Con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg. Contrastes para la diferencia de medias apareadas En el análisis de la diferencia de medias de dos poblaciones, se supone que las muestras son independientes. Un método que se utiliza con frecuencia para averiguar la efectividad de un tratamiento o procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de 29
  • 30. muestras no independientes. Una prueba de hipótesis que se basa en este tipo de datos se conoce como prueba de comparaciones por parejas o para muestras apareadas. Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y). No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han experimentado o no una mejoría con el tratamiento, llamemos di a la diferencia entre las observaciones antes y después del tratamiento di = xi-yi El objetivo de la prueba de comparaciones por pares es eliminar al máximo las fuentes de variación por medio de la formación de parejas similares respecto a tantas variables como sea posible. En estos casos, en lugar de llevar a cabo el análisis con observaciones individuales, se puede utilizar como variable de interés la diferencia entre los pares individuales de observación. Supongamos que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas. Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto efecto En el caso en que H0 fuese cierta tendríamos que el estadístico de contraste que nos conviene es: Donde es la media muestral de las diferencias di y Sˆ d es la cuasivarianza muestral de las mismas. El tipo de contraste sería entonces del mismo tipo que el realizado para la media con varianza desconocida. Cuando H0 es verdadera la estadística de prueba sigue una distribución t de Student con n-1 grados de libertad. 1. Contraste bilateral: Consideramos el contraste de tipo Entonces se define y se rechaza la hipótesis nula cuando: ó . 2. Contrastes unilaterales: En los dos tipos de contrastes unilaterales o de una cola se utiliza el mismo estadístico: 30
  • 31. Si el contraste es entonces: Se rechaza H0 si: . Para el test contrario Se rechaza H0 si: Texp > t n-1 ,1- α . Si el contraste se realiza cuando σ 2 d es conocida, entonces el estadístico del contraste es: y el tratamiento es análogo en los tres casos. Contrastes de diferencia entre medias poblacionales independientes Este tipo de contraste también es aplicado para diferencia de medias, pero en los casos en los que se comparan medias poblacionales para un carácter determinado en dos poblaciones distintas. Sean dos poblaciones normales ( ),x xN µ σ y ( ),y yN µ σ con xσ y yσ conocidas, de las cuales se extraen dos muestras aleatorias e independientes de tamaño nx y ny respectivamente. Con un nivel de significación α dado, queremos realizar los siguientes contrastes: 1. 0 0 1 0 : : x y x y H d H d µ µ µ µ − =     − ≠   2. 0 0 1 0 : : x y x y H d H d µ µ µ µ − ≤     − >   3. 0 0 1 0 : : x y x y H d H d µ µ µ µ − ≥     − <   El caso más frecuente es cuando d0=0. Sin embrago, es posible probar la hipótesis de que la diferencia es igual que, mayor o igual que, menor o igual que algún valor distinto de cero. 31
  • 32. Utilizando el estadístico 0 exp 22 yx x y x y d z n n σσ − − = + se tienen los siguientes contrastes. Contraste de medias con varianzas conocidas: De manera similar al caso del contraste para una media, queremos en esta ocasión contrastar la hipótesis de que las dos poblaciones (cuyas varianzas suponemos conocidas) sólo difieren en una cantidad frente a hipótesis alternativas que darán lugar a contrastes unilaterales o bilaterales. Para ello nos basamos en la distribución del siguiente estadístico de contraste: 1. Contraste bilateral o de dos colas: Se define entonces Se acepta 0H si: /2 exp /2z z zα α− ≤ ≤ y el test consiste en: 2. Contrastes unilaterales o de una cola Se utiliza en ambos caso el mismo estadístico utilizado para el contraste bilateral: 32
  • 33. Para el test Se acepta 0H si: expz zα> − y para el contraste de significación contrario: Se acepta 0H si: expz zα≤ Ejemplo: Un equipo de investigadores desea saber si los datos que han recolectado proporcionan la evidencia suficiente para indicar una diferencia entre las concentraciones medias de ácido úrico en el suero de individuos normales e individuos con síndrome de Down. Los datos presentan las concentraciones de acido úrico en el suero de 12 individuos con síndrome de Down y 15 individuos sanos. Las medias son x 1=4.5mg/100ml y x 2=3.4mg/100ml. Solución: El contraste es H0: µ 1- µ 2 = 0 o µ 1= µ 2 H1: µ 1- µ 2 ≠ 0 o µ 1≠ µ 2 Si α =0.05, los valores críticos de z son ± 1.96. Se rechaza H0 a menos que -1.96<zcalculada<1.96. Cálculo de la estadística de prueba: Z= 15/112/1 0)4.35.4( − −− = 39.0 1.1 =2.82 Como 2.82 es mayor que 1.96 se rechaza la hipótesis nula. Se concluye que, de acuerdo con estos datos, hay indicios de que las medias de las poblaciones son diferentes. Contraste de medias homocedáticas Aplicable al caso en el que deseamos contrastar la diferencia de medias de dos poblaciones independientes cuando sólo conocemos que las varianzas de ambas poblaciones son iguales, pero desconocidas. El problema a contrastar es: 33
  • 34. El estadístico que usaremos para el contraste ya lo hemos visto. Si suponemos que H0 es cierta se tiene Donde es la cuasivarianza muestral ponderada de Sˆ 2 1 y Sˆ 2 2. Se han perdido dos grados de libertad a causa de la estimación de σ 2 1=σ 2 2 mediante Sˆ 2 1 y Sˆ 2 2. 1. Contraste bilateral Para el contraste de significación Se tiene como en casos anteriores que el contraste adecuado consiste en definir Y rechazar o admitir la hipótesis nula siguiendo el criterio 2. Contrastes unilaterales Cuando el contraste es unilateral del modo El contraste se realiza siguiendo el mismo proceso que en otros realizados anteriormente y utilizando el mismo estadístico, lo que nos lleva a Y cuando el contraste de significación es el contrario Del mismo modo 34
  • 35. Ejemplo: Un grupo de investigadores colecto datos acerca de las concentraciones de amilasa en el suero de muestras de individuos sanos y de individuos hospitalizados. Desean saber si es posible concluir que las medias de las poblaciones son distintas. Los datos son las mediciones de amilasa en suero de n2= 15 individuos sanos y n1= 22 individuos hospitalizados. Las medias muestrales y sus desviaciones estándar son las siguientes: x 1=120 unidades/ml s1=40 unidades/ml x 2=96 unidades/ml s2=35 unidades/ml Solución: El contraste es: H0: µ 1- µ 2 = 0 H1: µ 1- µ 2 ≠ 0 Si definimos a α =0.05, los valores críticos de t son ± 2.0301. Se rechaza H0 a menos que -2.0301<tcalculada<2.0301. El cálculo de la estadística de prueba es: Sˆ 2 = 1421 )1225(14)1600(21 + + =1450 t = 22 1450 15 1450 0)96120( + −− = 75.12 24 =1.88 No es posible rechazar H0 porque -2.0301<1.88<2.0301. Es decir, 1.88 cae dentro de la región de aceptación. Con base a estos datos no es posible concluir que las dos medias de la población son diferentes. Contraste de medias no homocedáticas Es un tipo de contraste que se aplica en el caso más problemático, es decir cuando sólo conocemos de las dos poblaciones que su distribución es normal, y que sus varianzas no son conocidas y significativamente diferentes. El contraste es: En este caso el estadístico de contraste tendrá una ley de distribución muy particular. Consistirá en una distribución t de Student, con un número de grados de libertad que en lugar de depender de modo determinista de la muestra (a través de su tamaño), depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el estadístico que nos interesa es donde f es el número de grados de libertad que se calcula mediante la fórmula de Welch 35
  • 36. No desarrollamos en detalle los cálculos a realizar, pues la técnica para efectuar los contrastes es análoga a las vistas anteriormente cuando las varianzas son desconocidas e iguales. Nota Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras independientes obtenidas de poblaciones normales son idénticas, esto se reduce a los casos anteriores tomando , es decir, realizando el contraste: Distribución Muestral de Diferencia de Proporciones Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes. Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5, n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal. Cuando se estudió la distribución muestral de proporciones se comprobó que µ pˆ = p y queσ pˆ = n pq por lo que se puede deducir que: µ pˆ 1 - µ pˆ 2 = p1-p2 y que . Si tenemos dos poblaciones suficientemente pequeñas, podemos extraer de la población 1 todas las muestras aleatorias posibles de tamaño n1 y calcular a partir de cada conjunto de datos de la muestra la proporción de la muestra pˆ 1. Lo mismo podemos hacer con la población 2. Luego es posible calcular las diferencias entre todos los pares posibles de proporciones muestrales, donde un miembro de cada par tiene un valor pˆ 1 y el otro un valor pˆ 2. La distribución muestral de la diferencia ente las dos porciones de las muestras consiste en todas las diferencias existentes acompañadas de sus frecuencias de ocurrencias. La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de proporciones es: Ejemplo: Los hombres y mujeres adultos de una ciudad grande en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación 36
  • 37. de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de las mujeres. Solución: Datos: PH = 0.12 PM = 0.10 nH = 100 nM = 100 p(pH-pM 0.03) = ? Hay que tener en cuanta que debe incluirse el factor de corrección de 0.5 por ser una distribución binomial y que se está utilizando la distribución normal. Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres es de 0.4562. Estimación de la Diferencia de dos Proporciones Muchas veces se tiene interés en conocer la magnitud de la diferencia entre dos poblaciones, podemos comparar por ejemplo, entre hombres y mujeres, dos grupos de edades, dos grupos socioeconómicos. Un estimador puntual insesgado de la diferencia de proporciones de las poblaciones se obtiene al calcular las diferencias de las proporciones de las muestras pˆ 1 - pˆ 2. Cuando n1 y n2 son de gran tamaño y las proporciones de la población no están muy cerca de 0 o de 1, es posible aplicar el teorema del límite central y utilizar la teoría de la distribución normal para obtener los intervalos de confianza. Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2 Si las muestras son suficientemente grandes ocurre que Anteriormente, se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de la misma. Recordando la formula: 37
  • 38. Despejando P1-P2 de esta ecuación obtenemos un intervalo de confianza del 100(1 - α ) para P1-P2 : Donde Z se obtiene de la tabla de distribución normal al nivel 1-α/2. Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales: Ejemplo: Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de madres que no la fumaban: Usuaria No Usuaria Tamaño Muestral 1246 11178 Número de disfunciones 42 294 Proporción muestral 0.0337 0.0263 Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El valor de z para un 99% de confianza es de 2.58. -0.0064<P1-P2<0.0212 Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa. Contrastes sobre la diferencia de proporciones Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli): 38
  • 39. Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que cada una de ellas se distribuye como una variable aleatoria binomial, de modo que los estimadores de las proporciones en cada población tienen distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes) El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada población es una cantidad conocida Si H0 fuese cierta se tendría que: Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales son importantes: La prueba que se utiliza con más frecuencia con relación a la diferencia entre las proporciones de dos poblaciones es aquella en la que su diferencia es cero. Sin embargo, es posible probar que dicha diferencia es igual a algún otro valor. Se pueden hacer pruebas unilaterales y bilaterales. Siempre que la hipótesis nula sea p1-p2=0, se supone que las proporciones de las dos poblaciones son iguales. Esto permite combinar los resultados de las dos muestras y obtener una estimación ponderada de la proporción común supuesta: p = x1+x2 / n1+n2 Donde x1 y x2 son el número de la primera y segunda muestra que poseen la característica de interés. Esta estimación ponderada se utiliza para calcular el error estándar estimado para el estimador como sigue: n pp n pp )1()1( ˆ − + − =σ El estadístico de contraste se convierte en: Z= σˆ )()ˆˆ( pppp −−− 1. Contraste bilateral 39
  • 40. El contraste bilateral sobre la diferencia de proporciones es Entonces se define y se rechaza la hipótesis nula si Zexp<-z1- α /2 o si Zexp>-z1- α /2 2. Contrastes unilaterales En el contraste Se rechazará H0 si Zexp< -z1- α . Para el test contrario Se rechaza H0 si Zexp> -z 1- α . Ejemplo: En un estudio para comparar un nuevo tratamiento para la migraña con el tratamiento habitual, 78 de los 100 individuos que recibieron el tratamiento habitual respondieron favorablemente. De los 100 individuos que recibieron el nuevo tratamiento, 90 respondieron satisfactoriamente. ¿Proporcionan estos datos la evidencia suficiente para afirmar que el nuevo tratamiento es más efectivo que el habitual? Solución: Se calculan: pˆ 1= 78/100=0.78 pˆ 2=90/100=0.90 p= 100100 7890 + + =0.84 Las hipótesis son: H0=p2-p1 ≤0 H1= p2-p1>0 Sea α =0.05. El valor crítico de z es 1.645. Se rechaza H0 si el valor de z es mayor que 1.645. El cálculo del estadístico de prueba es: z= = + − 100 )16.0)(84.0( 100 )16.0)(84.0( )78.090.0( 0518.0 12.0 =2.32 40
  • 41. Como 2.32>1-645, se rechaza H0. Estos datos sugieren que el tratamiento es más efectivo que el habitual EJERCICIOS DE DISTRIBUCION MUESTRAL: 1. Un investigador se siente inclinado a creer que los niveles de vitamina A en el hígado de dos poblaciones de seres humanos tiene, cada una, una distribución normal. Se supone que las varianzas de las dos poblaciones son las siguientes: Población 1: σ 2 1=19.600 Población 2: σ 2 2=8100 ¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 15 de la primer población y otra de tamaño 10 de la segunda población proporcionen un valor de mayor o igual a 50, si no hay diferencia entre las dos medias de la población? 2. Se cree que en una ciudad el 20% de las familias tiene por lo menos un miembro que sufre de algún malestar debido a la contaminación atmosférica. Una muestra aleatoria de 150 familias produjo un valor de pˆ =0.27. Si el valor del 20% es correcto, ¿Cuál es la probabilidad de obtener una proporción muestral mayor o igual de la muestra? 3. Si las concentraciones de acido úrico en hombres adultos normales siguen una distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1 mg por ciento, respectivamente, encontrar la probabilidad de que una muestra aleatoria de tamaño 9 proporcione una media: a. Mayor que 6 b. Menor que 5.2 c. Entre 5 y 6 4. En una población de niños con retardo mental, se sabe que la proporción de los que son hiperactivos es de 0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa población y otra de tamaño 100 a partir de otra población con el mismo problema. Si la proporción de niños hiperactivos es la misma en ambas poblaciones, ¿Cuál es la probabilidad de que la muestra proporcione una diferencia pˆ 1- pˆ 2 de 0.16 o mas? 5. Supóngase que una población se compone de los siguientes valores: 1, 3, 5, 7, 9. Construir la distribución muestral de x a partir de muestras de tamaño 2 seleccionadas sin reemplazo. Calcular la media y la varianza. 6. Para una población de hombres jóvenes de 17 años y otra población de mujeres de 17 años, las medias y desviaciones estándar respectivamente del grosor del pliegue subescapular son: para los varones 9.7 y 6.0; y para las mujeres 15.6 y 9.5. Si se obtiene una muestra aleatoria simple de 40 varones y otra de 35 mujeres a partir de dicha población, ¿Cuál es la probabilidad de que la diferencia entre las medias de las muestras (xchicas - xchicos) sea mayor que 10? 7. El resultado de una investigación sanitaria revela que el 55% de los individuos de la población A y el 35% de los de la población B no padecen enfermedades cardiovasculares. Suponer que se extrae una muestra aleatoria de tamaño 120 a partir de la población A, y una muestra aleatoria independiente de tamaño 130 de la población B. ¿Cuál es la probabilidad de que las diferencias entre las proporciones de la muestras pˆ A - pˆ B esté entre 0.30 y 0.40)? 8. En una muestra al azar de 75 adultos, 35 de ellos consideran que el cáncer de mamas es curable. Si en la población de la cual se extrajo la muestra, la probabilidad real de quienes piensan que dicho tipo de cáncer es curable es de 0.55, ¿Cuál es la probabilidad de obtener una proporción muestral menor o igual que la obtenida en esta muestra? 41
  • 42. EJERCICIOS DE ESTIMACION: 1. En cierta comunidad se efectuó un análisis neurológico a 110 empleados de una fábrica de herbicidas, el cual mostró que 44 tenían anormalidades neurológicas. En una muestra de 150 residentes que no eran empleados de la fábrica, 16 individuos mostraron anormalidades neurológicas. Construir un intervalo de confianza del 95% para la diferencia entre las proporciones de las poblaciones. 2. En un experimento diseñado para estimar el número promedio de latidos del corazón por minuto para cierta población, se encontró que el número promedio de latidos por minutos para 49 personas era de 90. Si resulta lógico suponer que esos 49 pacientes constituyen una muestra aleatoria y que la población sigue una distribución normal, con una desviación estándar de 10, calcular el intervalo de confianza de 90% y 95% para µ . 3. Se llevo a cabo un estudio para comparar las concentraciones de lipo-proteína de alta densidad en hombres adultos con trabajos sedentarios y con trabajos manuales. Los datos de la muestra proporcionaron los siguientes resultados: Trabajadores sedentarios: x = 56.5, s =14.1, n=55 Trabajadores manuales: x = 51.3, s =13.5, n=50 Construir un intervalo de confianza del 95% para la diferencia entre las medias de las poblaciones. 4. A nueve pacientes que sufren la misma incapacidad física, y por lo tanto son comparables, se les pidió que llevaran a cabo cierta tarea como parte de un experimento. El tiempo promedio necesario para realizar la tarea fue de siete minutos con una desviación estándar de dos minutos. Suponiendo que la distribución de datos es normal, construir intervalos de confianza del 90% y 95% para el tiempo medio real necesario para que este tipo de pacientes efectúe la tarea. 5. En un estudio diseñado para establecer la relación entre un medicamento y cierta anomalía en los embriones de pollo, se inyectaron con el medicamento 50 huevos fecundados al cuarto día de incubación. En el vigésimo día de incubación se examinaron los embriones y se observó la presencia de la anomalía en 12 de ellos. Encontrar los intervalos de confianza del 95% y 99% para p. 6. Veinticuatro animales de laboratorio con deficiencia de vitamina D fueron divididos en dos grupos iguales. El grupo 1 recibió un tratamiento consistente en una dieta que proporcionaba la vitamina D. El segundo grupo no fue tratado. Al término del período experimental, se midieron las concentraciones de calcio en suero, obteniéndose los siguientes resultados: Grupo tratado: x = 11.1mg/100ml, s = 1.5 Grupo sin tratamiento: x = 7.8mg/100ml, s = 2.0 Suponer que las poblaciones siguen una distribución normal con varianzas iguales y calcular los intervalos de confianza del 95% para la diferencia entre las medias de las poblaciones. 7. Algunos estudios acerca de la enfermedad Alzheimer han demostrado un incremento en la producción de 14 CO2 en pacientes con este padecimiento. Durante un estudio, se obtuvieron los siguientes valores de a partir de 16 biopsias de neocorteza de pacientes con la enfermedad: 1009, 1280, 1180, 1255, 1547, 2352, 1956, 1080 1776, 1767, 1680, 2050, 1452, 2857, 3100, 1621 Suponer que la población de tales valores presenta una distribución normal con una desviación estándar de 350 y construir intervalos de confianza al 95% para la media de la población. EJERCICIOS DE CONTRASTE DE HIPOTESIS: 1. ¿Es posible concluir que los niños crónicamente enfermos tienden, en promedio, a tener menos confianza en sí mismos que los niños sanos? Se aplicó una prueba diseñada para estimar la confianza en sí mismos de 16 niños crónicamente enfermos y a 21 niños sanos. Los puntajes medios y desviaciones estándar fueron: Niños enfermos: x =22.5 s=4.1 Niños sanos: x =26.9 s=3.2 42
  • 43. Sea α =0.05 2. En una muestra de 1500 residentes de un barrio de la ciudad, quienes participaron en un programa selectivo de salud, 125 pruebas proporcionaron resultados positivos en cuanto a la anemia de células falciformes. ¿Proporcionan estos datos la evidencia suficiente para indicar que la proporción de individuos con anemia de células falciformes en la población muestreada es mayor que 0.06? Sea α =0.05. 3. Setenta pacientes que sufren de epilepsia se dividieron al azar en dos grupos iguales. El grupo A recibió un tratamiento que incluía dosis diarias de vitamina D. El grupo B recibió el mismo tratamiento con la excepción de que a este grupo se le dio un placebo en lugar de la vitamina D. El número medio de ataques convulsivos observados durante el periodo de tratamiento en los grupos fue x A=15 y x B=24. Las varianzas de las muestras fueron S2 A=8 y S2 B=12. ¿Estos datos proporcionan evidencia suficiente para indicar que la vitamina D es efectiva para disminuir el número de ataques convulsivos? Sea α =0.05 4. En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio inmunológico, una variable de interés fue la prueba del diámetro de reacción de la piel a un antígeno. La media de la muestra y la desviación estándar fueron 21 y 11 mm de eritema, respectivamente. ¿Es posible concluir a partir de estos datos que la media de la población es menor que 30? Sea α =0.05. 5. Se desea saber si los niños de dos grupos étnicos difieren con respecto a la proporción de anémicos. De cada grupo se extrajo una muestra de niños de un año de edad atendidos en cierto grupo de departamentos de salud locales en un periodo de un año. Se obtuvo la siguiente información respecto a la anemia: Grupo étnico Número de elementos Número de anémicos 1 450 105 2 375 120 ¿Proporcionan estos datos la suficiente evidencia para indicar una diferencia entre las dos poblaciones con respecto a la proporción de anémicos? Sea α =0.05. 6. Una muestra de 100 empleados de un hospital, los cuales habían estado en contacto con sangre o sus derivados, fue examinada para averiguar si presentaban evidencia serológica de hepatitis B. Se encontró que 23 de ellos presentaron resultados positivos. ¿Es posible concluir a partir de estos datos que la proporción de la población de individuos que presentaron resultados positivos en la población muestreada es mayor que 0.15? Sea α =0.05 7. Se desea saber si es posible concluir que el consumo medio diario de calorías de la población rural de un país en desarrollo es de menos de 2000. Una muestra de 500 individuos produjo un consumo medio de 1985 y una desviación estándar de 210. Sea α =0.05. 43