Estimación estadística y contrastación de hipótesis
1. ESTIMACIÓN ESTADÍSTICA Y CONTRASTACIÓN DE HIPÓTESIS.
Estimacion estadística es la estimación de técnicas que permiten dar un valor aproximado
de un parámetro de una población a partir de los datos proporcionados por una muestra.
Por ejemplo, una estimación de la media de una determinada característica de
una población de tamaño N podría ser la media de esa misma característica para
una muestra de tamaño n.
Esta se divide en:
Estimación puntual.
Estimación por intervalos.
Estimación puntual
Es la estimación del valor del parámetro mediante un solo valor, este se obtiene mediante
una formula determinada.
Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos,
puede extraerse una muestra y ofrecer como estimación puntual la talla media de los
individuos. Lo más importante de un estimador, es que sea un estimador eficiente. Es
decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo o eficiente
(varianza mínima) Estimación puntual Sea X una variable poblacional con distribución Fθ ,
siendo θ desconocido. El problema de estimación puntual consiste en, seleccionada una
muestra X1, ..., Xn, encontrar el estadístico T(X1, ..., Xn) que mejor estime el parámetro θ.
Una vez observada o realizada la muestra, con valores x1, ..., xn, se obtiene la estimación
puntual de θ, T(x1, ..., xn) = ˆ θ .
Existen dos métodos para obtener la estimación puntual de un parámetro:
Método de los momentos
Método de máxima verosimilitud.
Método de los momentos: Consiste en igualar momentos poblacionales a momentos
muestrales. Debemos tener tantas igualdades como parámetros a estimar. Momento
poblacional de orden r αr = E(Xr ) Momento muestral de orden r ar = Xn i=1 Xr i n
Método de máxima verosimilitud: Consiste en tomar como valor del parámetro aquel que
maximice la probabilidad de que ocurra la muestra observada. Si X1, ..., Xn es una muestra
seleccionada de una población con distribución Fθ o densidad fθ(x), la probabilidad de que
ocurra una realización x1, ..., xn viene dada por: Lθ(x1, ..., xn) = Yn i=1 fθ(xi ) A Lθ(x1, ...,
xn) se le llama función de verosimilitud.(credibilidad de la muestra observada). Buscamos
2. entonces el valor de θ que maximice la función de verosimilud, y al valor obtenido se le
llama estimación por máxima verosimilitud de θ. Nota: si la variable X es discreta, en lugar
de fθ(xi ) consideramos la función masa de probabilidad pθ(xi ).
Estimación por intervalo
La estimación se representa mediante dos números que determinan un intervalo sobre la
recta. Es decir se obtiene dos valores numéricos entre los cuales se dice que esta el valor
del parámetro estimado..
Se toma una muestra de tamaño n y se determina con los datos de la muestra un intervalo
[a1, b1]. Se espera que [a1, b1
Se toma otra muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a2, b2]. Se también en este caso que [a2, b2 ntes
puede suceder que esto no ocurra.
Se espera que el estimador por intervalo, es decir, el procedimiento que se está usando
para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos
El razonamiento anterior se pued
Cada uno de estos intervalos se llama intervalo de confianza y la probabilidad de que el
Ahora veremos cómo se determinan los intervalos de confianza y el coeficiente de
confianza.
Sea
aproximadamente normal. Se tiene
Error de estimación. |
|
Cota para el error de estimación. 1.96
(se expresa en términos de la desviación
estándar).
P(|
| < 1.96
) = 0.95 (para obtener este valor de P se tiene en cuenta que la
distribución de
es normal y se usa la tabla 4)
Como P(|
| < 1.96
) = 0.95 puede escribirse como
P( [
1.96
,
+ 1.96
]) = 0.95,
podemos decir que la probabilidad de que
[
1.96
,
+ 1.96
3. De este modo, si
[
1.96
,
+ 1.96
]
con un coeficiente de confianza de 95%, más
brevemente intervalo de confianza de 95%. Además
límite inferior de confianza: LIC =
1.96
límite superior de confianza: LSC =
+ 1.96
Más general, para establecer el intervalo de confianza con nivel de confianza (1 , sea
z la normal estandarizada correspondiente a
: z =
.
P(|
| < c
) = 1 P(| z | < c ) = 1
P(c < z < c) = 1 2 P(0 < z < c) = 1 P(0 < z < c) = (1
1/2 P( c < z ) = (1
Hipótesis estadística
Estas hipótesis consisten en las nulas, alternativas o de investigación transformadas en
símbolos estadísticos, se pueden realizar cuando los datos a estudiar son mensurables.
Dentro de estas hipótesis existen distintas clases:
De estimación: Estas suponen el valor de alguna característica de la muestra que fue
seleccionada y de la población en su conjunto. Para formularlas se tienen en cuenta datos
adquiridos previamente.
Estadísticas de correlación: Buscan establecer estadísticamente las relaciones
existentes entre dos o más variables.
Definiciones básicas:
Un contraste o prueba de hipótesis es una técnica de Inferencia Estadística
que permite comprobar si la información que proporciona una muestra observada concuerda (o
no) con la hipótesisestadística formuladasobre el modelode probabilidadenestudioy,portanto,
se puede aceptar (o no) la hipótesis formulada.
Una hipótesis estadística es cualquier conjetura sobre una o varias características de interés de
un modelo de probabilidad.
Una hipótesis estadística puede ser:
4. Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales
desconocidos. Las hipótesis paramétricas se clasifican en
Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5, = 10, X = Y ,...).
Compuesta: si la hipótesis asigna un rango de valores a los parámetros poblacionales
desconocidos ( > 1'5, 5 < < 10, X < Y,...).
No Paramétrica:esunaafirmaciónsobre algunacaracterísticaestadísticade la población
en estudio. Por ejemplo, las observaciones son independientes, la distribución de la
variable en estudio es normal, la distribución es simétrica,...
La hipótesisque se contrastase denomina hipótesis nula y,normalmente,se denotapor H0. Si se
rechaza lahipótesisnulaesporque se asume comocorrectauna hipótesiscomplementaria que se
denomina hipótesis alternativa y se denota por H1.
Pasos a seguir en la realización de un contraste de hipótesis.
Al realizar cualquier contraste de hipótesis estadístico se deben seguir las siguientes etapas:
1. Plantearel contraste de hipótesis,definiendolahipótesisnula(H0,hipótesis que se desea
contrastar), y la hipótesis alternativa (H1, cualquier forma de negación de la hipótesis
nula).
2. Definirunamedidade discrepanciaentre lainformación que proporciona la muestra ( )
y la hipótesis H0. Esta medida de discrepancia
se denomina estadístico del contraste y será cualquier función de los datos
muestrales y de la información de la hipótesis nula .
La medidade discrepanciadebe seguirunadistribución conocida cuando H0 sea cierta, de forma
que se pueda distinguir entre:
Una discrepancia grande, la que tiene una probabilidad muy pequeña de ocurrir
cuando H0 es cierto.
Una discrepanciapequeña,laque tieneunaprobabilidad grande de ocurrir cuando H0 es
cierta.
3. Decidirque valores de d se consideran muy grandes, cuando H0 es cierto, para que sean
atribuibles al azar. Ésto es, decidir que discrepancias se consideran inadmisibles
5. cuando H0 escorrecto,lo que equivale a indicarel valordel nivel de significación,que se
denota por .
4. Tomar la muestra ( ), calcular el valor del estadistico asociado a la muestra
(valor crítico del contraste) y analizar:
Si es pequeño (pertenece a la región de aceptación), entonces se acepta la hipótesis H0.
Si es grande (pertenece a la región de rechazo), entonces se rechaza la hipótesis H0.
Tipos de Error en un contraste de hipótesis.
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.
Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.
Situación real:
H0 es cierta H0 es falsa
Decisión:
ACEPTAR H0 CORRECTO ERROR II
RECHAZAR H0 ERROR I CORRECTO
Tabla 1.1: Situaciones posibles en un contraste de hipótesis.
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error, en la
mayoría de las situaciones, se desea controlar la probabilidad de cometer un error de tipo
I.
Se denomina nivel de significación de un contraste a la probabilidad de cometer un error
tipo I, se denota por y, por tanto,
Fijar el nivel de significación equivale a decidir de antemano la probabilidad máxima
que se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de
6. significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño
como desee (normalmente se toma = 0'05, 0'01 o 0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el conjunto
de posibles valores del estadístico de contraste:
La región de Rechazo, con probabilidad , bajo H0.
La región de Aceptación, con probabilidad 1 - ,bajo H0.
Figura 1.1. Tipos de errores. Contraste unilateral, P = 0'05, P = 0'36,
Si el estadístico de contraste toma un valor perteneciente a la región de aceptación,
entonces no existen evidencias suficientes para rechazar la hipótesis nula con un nivel de
significación y el contraste se dice que estadísticamente no es significativo. Si, por el
contrario, el estadístico cae en la región de rechazo entonces se asume que los datos no
son compatibles con la hipótesis nula y se rechaza a un nivel de significación . En este
supuesto se dice que el contraste es estadísticamente significativo.
Por tanto, resolver un contraste estadístico es calcular la región de aceptación y la región
de rechazo y actuar según la siguiente regla de decisión:
Se obtiene la muestra = y se calcula el estadístico del contraste .
R. Aceptación R.Rechazo
f.densidaddeD
1.65
D/H_0 D/H_1
E_i
E_ii
-4 -2 0 2 4 6
0
0,1
0,2
0,3
0,4
7. Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se
denomina
Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya
región de rechazo está formada por una cola de la distribución del estadístico de
contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya
región de rechazo está formada por las dos colas de la distribución del estadístico
de contraste, bajo H0.