SlideShare una empresa de Scribd logo
1 de 122
Descargar para leer sin conexión
CUADERNO DE APUNTES
INFERENCIA ESTADÍSTICA
Ernesto Canizales
22 de octubre de 2012
1
ÍNDICE ÍNDICE
Índice
1. PROBABILIDAD Y ESTADÍSTICA 6
1.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Función Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2. Distribución Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.4. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2. Razones que justifican un estudio inferencial . . . . . . . . . . . . . . . . . . 13
1.4.3. Conceptos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.4. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. DISTRIBUCIONES MUESTRALES 17
2.1. Distribución conjunta de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Estadı́sticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Distribución muestral de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Distribución muestral de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5. Distribución muestral de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7. Distribución muestral de la diferencia de dos medias . . . . . . . . . . . . . . . . . . 39
2.8. Distribución muestral de la diferencia de dos proporciones . . . . . . . . . . . . . . 42
2.9. Distribución muestral del cociente de dos varianzas . . . . . . . . . . . . . . . . . . 43
2.10. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3. ESTIMACIÓN DE PARÁMETROS 50
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2
ÍNDICE ÍNDICE
3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3. Cota para la varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.1. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . . . . . . 59
3.4.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5. Estimación por Intervalos de confianza en una población . . . . . . . . . . . . . . . 61
3.5.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . . . 63
3.5.2. Intervalo de confianza para una proproción . . . . . . . . . . . . . . . . . . . 65
3.5.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . . . . . 66
3.6. Intervalo de confianza en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.1. Intervalo de confianza para la diferencia de dos medias, cuando las muestras
son independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.2. Intervalo de confianza para la diferencia de dos medias, cuando las muestras
son dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.3. Intervalo de confianza para la diferencia de dos proporciones . . . . . . . . . 72
3.6.4. Intervalo para el cociente de dos varianzas . . . . . . . . . . . . . . . . . . . 73
3.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.7.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.7.2. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4. PRUEBA DE HIPÓTESIS ESTADÍSTICAS 84
4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2. Tipos de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.1. Hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.2. Hipótesis alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3. Tipos de regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5. Metodologı́a de un contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 89
4.6. Prueba de hipótesis en una población . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3
ÍNDICE ÍNDICE
4.6.1. Prueba de hipótesis sobre una media . . . . . . . . . . . . . . . . . . . . . . 91
4.6.2. Prueba de hipótesis sobre una proporción . . . . . . . . . . . . . . . . . . . . 96
4.6.3. Prueba de hipótesis sobre una varianza . . . . . . . . . . . . . . . . . . . . . 98
4.7. Prueba de hipótesis en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.7.1. Prueba de hipótesis sobre igualdad de medias, muestras independientes . . . 100
4.7.2. Prueba de hipótesis sobre igualdad de medias, muestras dependientes . . . . 104
4.7.3. Prueba de hipótesis sobre igualdad de proporciones . . . . . . . . . . . . . . 106
4.7.4. Prueba de hipótesis sobre igualdad de varianzas . . . . . . . . . . . . . . . . 108
4.8. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.8.1. Contraste en una población . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.8.2. Comparación de dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 115
4
ÍNDICE ÍNDICE
Prefacio
El objetivo de este documento es ayudar a los estudiantes en su proceso de aprendizaje en el
curso de Inferencia Estadı́stica. Muchos de los obstáculos que todo estudiante debe enfrentarse
en el transcurso de su carrera, es la falta de bibliografı́a. Además se dificulta el hecho de prestar
atención a la clase y de tomar apuntes de la misma. Por esa razón, he considerado conveniente
el tomarme tiempo para digitar en L
A
TEXun documento que trate sobre los temas que deben ser
visto en el curso de Inferencia Estadı́stica; este material no tiene por objeto reemplazar en ningún
momento a los libros clásicos sobre inferencia; sino más bien el de presentar de manera breve pero
elegante un resumen de dichos libros en un solo documento que contenga toda la sencillez pero a
la vez el rigor matemático necesario.
Se ha considerado conveniente incorporar un apartado sobre probabilidad, con el objetivo de pre-
sentar los conocimientos previos que el estudiante debe poseer para una comprensión adecuada del
material que se presenta en el documento.
Hago resaltar que todo el documento es de mi absoluta responsabilidad, por lo que agradeceré al
lector comunicarme de cualquier falta ortográfica, gramatical o de cualquier errata que contenga
el documento, e inclusive cualquier sugerencia para mejorar la redacción y la presentación del
documento a la siguiente dirección electrónica canizales1985@gmail.com
5
1 PROBABILIDAD Y ESTADÍSTICA
1. PROBABILIDAD Y ESTADÍSTICA
1.1. Esperanza matemática
Si X es una variable aleatoria con función de probabilidad P(X) (densidad f(X)), se define la
esperanza matemática por:
E[X] =
n
X
i=1
xiP(X = xi); cuando X es discreta
E[X] =
Z ∞
∞
xf(x)dx; cuando X continua
La esperanza matemática es una función lineal y cumple las siguientes propiedades:
1. E[aX] = aE[X]
2. E[X ± b] = E[X] ± b
3. E[aX ± b] = aE[X] ± b
4. E[X ± Y ] = E[X] ± E[Y ]
Además,
1. var(X) = E[X2
] − E[X]2
2. cov(X; Y ) = E[XY ] − E[X]E[Y ]
También si X e Y son variables aleatorias se cumple lo siguiente:
E[XY ] = E[X]E[Y ]
1.2. Función Caracterı́stica
Sea X una variable aleatoria con función de distribución F(X). Se llama función caracterı́stica de
la variable aleatoria X y se le representa por φX(t), a la esperanza matemática de exp(itX) (la
cual es también variable aleatoria).
6
1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA
Es decir,
φX(t) = E [exp(itX)]
=
Z ∞
∞
exp(itX)dF(x) Continua
=
n
X
i=1
exp(itxi)P(X = xi) Discreto
Teorema 1.1. Sean X1, X2, . . . , Xn, un conjunto de variables aleatorias independientes cada una
con función caracterı́stica φX1 (t), φX2 (t), . . . , φXn (t). Entonces la variable aleatoria:
Y = a1X1 + a2X2 + · · · + anXn
tiene la siguiente función caracterı́stica
φY (t) = φX1 (a1t)φX2 (a2t) . . . φXn (ant) (1)
Demostración.
φY (t) = E [exp (t (a1X1 + a2X2 + · · · + anXn))]
= E [exp (ta1X1) exp (ta2X2) · · · exp (tanXn)]
= E [exp (ta1X1)] E [exp (ta2X2)] · · · E [exp (tanXn)]
= φX1 (a1t)φX2 (a2t) . . . φXn (ant)
1.3. Distribuciones de probabilidad
Si X es una variable aleatoria que puede tomar los valores (x1, x2, . . . , xk), se llama distribución
de probabilidad de X al siguiente cuadro:
X P(X)
x1 P(x1)
x2 P(x2)
.
.
.
.
.
.
xk P(xk)
1
7
1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA
A continuación se presentan las principales distribuciones de probabilidad que son necesarias para
el desarrollo del curso.
1.3.1. Distribución normal
Una variable aleatoria X se dice que tiene una distribución normal de parámetros µ (media) y σ2
(varianza) si función de densidad es la siguiente:
f(x) =
1
σ
√
2Π
exp

−
(x − µ)2
2σ2

(2)
la cual se abrevia por X ∼ N(µ; σ2
).
Su función caracterı́stica es:
φX(t) = exp

itµ −
t2
σ2
2

Una variable aleatoria X se dice que tiene una distribución normal estándar N(0; 1) si función de
densidad es la siguiente:
f(x) =
1
√
2Π
exp

−
x2
2

(3)
Su función caracterı́stica es:
φX(t) = exp

−
t2
2

Teorema 1.2. Sean X1, X2, . . . , Xn, n variables aleatorias independientes cada una con Xi ∼
N(µi; σ2
i ). Entonces la variable aleatoria
Z = a1X1 + a2X2 + · · · + anXn
es una variable con distribución normal de parámetros µ =
Pn
i=1 aiµi y σ2
=
Pn
i=1 a2
i σ2
i
Demostración. Si Xi ∼ N(µi; σ2
i ) entonces aiXi ∼ N(aiµi; a2
i σ2
i ), y
φaiXi
(t) = exp

it (aiµi) −
1
2
t2
a2
i σ2
i


8
1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA
Puesto que las Xi son independientes,
φX(t) = φa1X1 (t)φa2X2 (t) · · · φanXn (t)
=

exp

ita1µ1 −
1
2
t2
a2
1σ2
1
 
exp

it (a2µ2) −
1
2
t2
a2
2σ2
2

· · ·

exp

itanµn −
1
2
t2
a2
nσ2
n

= exp it
n
X
i=1
aiµi −
1
2
t2
n
X
i=1
a2
i σ2
i
!
La cual es precisamente la función caracterı́stica de una distribución normal de parámetros µ =
Pn
i=1 aiµi y σ2
=
Pn
i=1 a2
i σ2
i
1.3.2. Distribución Chi-Cuadrado
Sean X1, X2, . . . , Xn, n variables aleatorias independientes e idénticamente distribuidas con Xi ∼
N(0; 1).
Llamaremos χ2
n de Pearson a la variable aleatoria
χ2
n = X2
1 + X2
2 + · · · + X2
n (4)
El subı́ndice n corresponde al número de variables aleatorias independientes, y se suele llamar
grados de libertad.
Su función caracterı́stica es:
φχ2
n
(t) = (1 − 2it)
−
n
2 (5)
Teorema 1.3. Sean χ2
n1
, χ2
n2
, . . . , χ2
nk
, k variables aleatorias independientes con distribución Chi-
Cuadrada con grados de libertad respectivos n1, n2, . . . , nk. Entonces la variable aleatoria
η = χ2
n1
+ χ2
n2
+ . . . + χ2
nk
Sigue una distribución Chi-cuadrado con grados n1 + n2 + . . . + nk de libertad.
Demostración.
φη(t) = φχ2
n1
(t)φχ2
n2
(t) · · · φχ2
nk
(t)
= (1 − 2it)
−
n1
2 (1 − 2it)
−
n2
2 · · · (1 − 2it)
−
nk
2
= (1 − 2it)
−
Pk
i=1 ni
2
9
1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA
La cual es precisamente la función caracterı́stica de una distribución Chi-cuadrado con grados
Pk
i=1 ni de libertad.
En una distribución Chi-cuadrado se cumple:
1. E [χ2
n] = n
2. var (χ2
n) = 2n
1.3.3. Distribución t de Student
Sean X, X1, X2, . . . , Xn, n + 1 variables aleatorias independientes e idénticamente distribuidas con
Xi ∼ N(0; 1).
Llamaremos t de Student a la variable aleatoria siguiente:
T =
X
r
1
n
Pn
i=1 X2
i
(6)
Teorema 1.4. La distribución t de Student es ası́ntoticamente N(0; 1). Es decir, si n → ∞,
entonces t ∼ N(0; 1).
1.3.4. Distribución F de Snedecor
Sean χ2
m y χ2
n, dos variables aleatorias independientes con distribución Chi-cuadrado con grados
de libertad respectivos m y n.
Llamaremos F de Snedecor con (m, n) grados de libertad, y la representaremos por F(m, n) a la
variable aleatoria:
F =
1
m
χ2
m
1
n
χ2
n
(7)
Propiedades de la distribución F.
1. Si X ∼ F(m, n), entonces 1
X
∼ F(n, m)
2. Si representamos por F(m, n, α) al valor en el distribución F de Snedecor tal que P{F(m, n) 
F(m, n, α)} = α. Entonces F(m, n, 1 − α) =
1
F(n, m, α)
10
1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA
3. Si t ∼ tn, entonces la variable aleatoria t2
∼ F(1, n).
1.4. Inferencia Estadı́stica
1.4.1. Introducción
Estadı́stica Descriptiva
Permite organizar y presentar un conjunto de datos de manera que describan en forma precisa
las variables analizadas haciendo rápida su lectura e interpretación. Su materia prima la
constituyen los datos, que son el resultado de las observaciones y/o experimentos.
Ejemplo; Durante los últimos dı́as se ha informado de un total de 13 homicidios diarios. La
encuesta Gallup informa que una ventaja del 20 % para el candidato de izquierda.
Estadı́stica Inferencial
Generaliza los resultados de una muestra a los de una población total; es cuando de los
datos estadı́sticos obtenidos de una muestra se deduce o infiere una observación la cual se
generaliza sobre la población total. Para determinar la confiabilidad de la inferencia de los
datos estadı́sticos de una muestra, se hace necesario comprobar la misma para poder asegurar
que lo que se observa en una muestra también se observará en la población.
Generalmente el análisis inferencial se lleva a cabo para mostrar relaciones de causa y efecto,
ası́ como para probar hipótesis y teorı́as cientı́ficas.
El curso de Inferencia Estadı́stica se divide en: Estimación de parámetros y prueba de hipótesis.
Existen dos tipos de estimaciones para parámetros: Puntuales y por intervalo.
Técnicamente la Inferencia, consiste en, una vez estudiada la muestra, proyectar las conclusiones
obtenidas al conjunto de la población. Por motivos obvios, la calidad de estudio, que se realice
depende, por una parte, de la calidad de la muestra y, por otra, del uso que de ella se haga.
Se supondrá que la muestra ha sido seleccionada con algún tipo de muestreo probabilı́stico.
En primer lugar, se ha de hacer notar que la pobación va a venir representada por una variable alea-
toria con una determinada distribución de probabilidad. Dependiendo del grado de conocimiento
de ésta se distinguen dos métodos para realizar el proceso inferencial.
11
1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA
1. Inferencia paramétrica.
Es aquella en la que se admite que la distribución de la población pertenece a cierta familia
paramétrica de distribuciones conocidas, siendo necesario únicamente precisar el valor de los
parámetros para determinar la distribución poblacional.
2. Inferencia no paramétrica.
No supone ninguna distribución de probabilidad de la población, exigiendo sólo hipótesis
muy generales, como puede ser la simetrı́a.
EJEMPLO 1.1
Se realiza un estudio para comprobar tres métodos de compresión lectora a niños de segundo grado,
como son:
Intrucción directa.
Enseñanza recı́proca.
Combinación de los dos métodos.
Las preguntas a resolver son:
¿Cuál de los métodos mejora la compresión lectora?
¿Para el próximo año el método identificado como el mejor, dará buenos resultados para el
alumno “Juan Pérez”, quien cursará el segundo grado?
La primera pregunta es un caso de incertidumbre porque, basándonos en el estudio de los tres
métodos a cada muestra de manera independientemente; con el apoyo de la Inferencia Estadı́stica
contestamos esta pregunta, eligiendo a la que mejora significativamente la compresión lectora, para
el tipo de alumnos en la muestra.
La segunda pregunta es un caso de toma de desiciones, porque “Juan Pérez” no ha participado en
el estudio, pero se le aplicará el mejor método que resulte de la investigación realizada, claro está
con un cierto nivel de confianza y margen de error admisible.
12
1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA
Los casos de incertidumbre y toma de desiciones son resueltos por la estadı́stica inferencial, apo-
yando por supuesto de la probabilidad.
Ası́, por ejemplo, nos puede interesar tener información sobre:
La renta media de todas las familias de una ciudad.
El tiempo medio de espera en la caja de un supermercado.
La proporción de automóviles que se averı́an durante el primer año de garantı́a.
etc.
Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de dos
maneras:
1. En la estimación, basta seleccionar un estadı́stico muestral cuyo valor es utilizará como
estimador del valor del parámetro poblacional.
2. En la contrastación de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se
utiliza la información proporcionada por una muestra para decidir si la hipótesis se acepta o
se rechaza.
1.4.2. Razones que justifican un estudio inferencial
La realización de un estudio inferencial se justifica por distintas circunstancias, algunas de ellas
son las siguientes:
Por motivos presupuestarios. La realización de un estudio a través de muestras supone un
ahorro tanto de dinero como de tiempo.
En ocasiones la población tiene un gran número de elementos, pudiendo ser éstos potencial-
mente infinitos (número de clientes demandando un servicio).
No todos los elementos de la población están localizados o no son localizables.
Existe situaciones en la que cuando se analiza un elemento éste es destruido.
13
1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA
Por motivos de precisión. Aunque parezca contradictorio, a veces un análisis total, implica
que se comentan errores graves en la medición, codificación, resumen, etc., cuestiones que
pueden ser mucho mejor controladas utilizando un estudio a partir de una muestra.
1.4.3. Conceptos de muestreo
Las estadı́sticas de por si no tienen sentido si no se consideran o se relacionan dentro del contexto
con que se trabaja.
Población. Es el conjunto total de individuos, objetos, elementos que poseen algunas carac-
terı́sticas observables en un lugar y en un momento determinado. La población por su parte
debe contener las siguientes caracterı́sticas:
1. Homogeneidad. Que todos los elementos de la población tenga las mismas caracterı́sticas
según las variables que se vayan a considerar. Por ejemplo, si se fuera a investigar la inci-
dencia de la drogadicción entre jóvenes mujeres adolescentes hay que definir claramente
las edades que comprenden la adolescencia.
2. Tiempo. Se refiere al perı́odo de tiempo donde se ubicarı́a la población de interés.
3. Espacio. Se refiere al lugar geográfico donde se ubica la población de interés.
4. Cantidad. Se refiere al tamaño (número de elementos) de la población de interés.
Muestra. Es un subconjunto (por lo regular fielmente) de la población.
Parámetros. Caracterı́stica que se desea conocer en la población, tales como: una proporción,
una media; suelen denotarse por letras griegas θ.
Estimador. Función matemática (aplicada a una muestra (X1, X2, . . . , Xn)) para predecir
(estimar) el valor de un parámetro, θ̂ = f(X1, X2, . . . , Xn)
Estimación. Valor que toma el estimador para una muestra concreta.
Marco muestral. Es el listado fı́sico de todos los elementos de la población y con el cual se
elegi la muestra.
14
1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA
Muestra aleatoria. Dada una población X se llama muestra aleatoria de tamaño n a la repeti-
ción de X1, X2, . . . , Xn variables aleatorias independientes con ditribución igual, y denotada
por (X1, X2, . . . , Xn).
1.4.4. Tipos de muestreo
Hay diferentes tipos de muestreo.
No probabilı́sticos: Intencional, y sin norma.
En el primero es la persona que selecciona la muestra la que procura que sea representativa;
por consiguiente, la representatividad depende de su intención al seleccionar la muestra.
En el muestreo sin norma se toma la muestra de cualquier manera, a la aventura, por razones
de comodidad o circunstancias.
Estos tipos de muestreo no serán considerados.
Probabilı́stico:
Decimos que el muestreo es probabilı́stico cuando puede calcularse de antemano cuál es la
probabilidad de obtener cada una de las muestras que sea posible seleccionar, con lo cual es
posible conocer la probabilidad de que un elemento pertenezca a una muestra.
Entre los muestreos probabilı́sticos, los más ampliamente utilizados son los siguientes:
1. Muestreo Aleatorio Simple.
Decimos que una muestra es aleatoria simple cuando:
Cada elemento de la población tiene la misma probabilidad de ser seleccionado en la
muestra.
Todas las muestras posibles tienen igual probabilidad.
2. Muestreo Estratificado.
Se denomina muestreo estratificado a aquel en que los elementos de la población se dividen en
clases o estratos. En cada estrado, los elementos son homogéneos respecto a la caracterı́stica
a estudiar, y entre estratos son heterogéneos.
15
1.5 Problemas propuestos 1 PROBABILIDAD Y ESTADÍSTICA
3. Muestreo por Conglomerado.
Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son aplicables, ya
que no disponemos de una lista con el número de elementos de la población ni de los posibles
estratos.
En estos casos tı́picamente los elementos de la población se encuentran de manera natu-
ral agrupados en conglomerados, cuyo número si se conoce. Usualmente los conglomerados
representan zonas geográficas tales como: municipios, provincias, distritos, etc.
Puede suponerse que cada conglomerado es una muestra representativa de la población.
Las ideas de estratificación y de conglomerados son opuestas: la estratificación funciona tanto
mejor cuánto mayores sean las diferencias entre los estratos y más homogéneos sean éstos inter-
namente; los conglomerados funcionan si hay pocas diferencias entre ellos y son muy heterogéneos
internamente (incluyen toda la variabilidad de la población dentro de cada uno).
En lo que resta se supondra una muestra aleatoria seleccionada con reposición a no ser que se diga
lo contrario.
1.5. Problemas propuestos
1. Demuestre que si X tiene una distribución de Student Tn con n grados de libertad, entonces
si n  2
E[X] = 0 V [X] =
n
n − 2
2. Demuestre que si X es una variable aleatoria con distribución de Snedecor Fm,n, entonces si
n  4
E[X] =
n
n − 2
V [X] =
2n2
(n + m − 2)
m(n − 2)2(n − 4)
16
2 DISTRIBUCIONES MUESTRALES
2. DISTRIBUCIONES MUESTRALES
2.1. Distribución conjunta de la muestra
La probabilidad de extracción de una muestra aleatoria simple concreta (X1, X2, . . . , Xn), si la
variable poblacional es discreta con función de masa P(X = x), se calcula de la siguiente manera:
El suceso final es {X1 = x1}
T
{X2 = x2}
T
· · ·
T
{Xn = xn}; (Xi = xi) significa que el elemento i-
ésimo de la muestra es xi. Y como la muestra es aleatoria simple sus elementos son independientes,
por lo cual;
P(x1, x2, . . . , xn) = P ({X1 = x1} ∩ {X2 = x2} ∩ · · · ∩ {Xn = xn})
= P ({X1 = x1}) P ({X2 = x2}) · · · P ({Xn = xn})
Siendo P ({Xk = xk}) la probabilidad de obtener (observar) en la población un elemento cuyo
valor sea xk y P(x1, x2, . . . , xn) es la función de probabilidad conjunta de la muestra.
En el caso de que la variable aleatoria poblacional sea continua, con función de densidad f(x),
la probabilidad elemental de obtener un resultado concreto (X1, X2, . . . , Xn), por ser la muestra
aleatoria es:
f(x1, x2, . . . , xn)
donde f(x1, x2, . . . , xn) es la función conjunta de la muestra, verficándose que:
f(x1, x2, . . . , xn) = f(x1)f(x2) · · · f(xn)
por ser independientes cada uno de sus elementos.
En una muestra aleatoria simple (X1, X2, . . . , Xn) se verifican las siguientes relaciones entre sus
elementos:
1. F(X1) = F(X2) = · · · = F(Xn)
2. F(X1, X2, . . . , Xn) = F(X1)F(X2) · · · F(Xn)
Es decir, las variables Xi son independientes e idénticamente distribuidas con la misma distribución
de probabilidad que tenga la población.
Si la muestra no fuera aleatoria (es decir, la selección fuése sin reemplazamiento)
17
2.2 Estadı́sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES
P(X1, X2, . . . , Xn) = ΠP(Xi = xi/X1 = x1, X2 = x2, . . . , Xi−1 = xi−1)
f(X1, X2, . . . , Xn) = Πf(Xi/X1, X2, . . . , Xi−1)
2.2. Estadı́sticos y distribuciones muestrales
Definición 2.1. La distribución de muestreo de un estadı́stico θ̂ es la distribución de probabilidad
de θ̂ que puede obtenerse como resultado de un número infinito de muestras aleatorias indepen-
dientes, cada una de tamaño n, provenientes de la población de interés.
Dado que se supone que las muestras son aleatorias, la distribución de un estadı́stico es un tipo de
modelo de probabilidad conjunta para variables aleatorias independientes, en donde cada variable
posee una función de densidad de probabilidad igual a la de las demás. De manera general, la
distribución de muestreo de un estadı́stico no tiene la misma forma que la función de densidad de
probabilidad en la distribución de la población.
EJEMPLO 2.1
Una urna contiene 1000 bolas, todas de igual tamaño, y marcadas con 4 números distintos: 400
con el número 1, 100 con el 2, 300 con el 3 y las 200 restantes con el 4.
La distribución de probabilidad de la población es:
P(X = 1) = 0.4 P(X = 2) = 0.1
P(X = 3) = 0.3 P(X = 4) = 0.2
Tomamos una muestra aleatoria de tamaño 100, siendo el resultado: 43 bolas con el número 1, 6
con el 2, 28 con el 3 y 23 con el 4.
La distribución de frecuencias de la muestra obtenida es:
n1
n
= 0.43
n2
n
= 0.06
n3
n
= 0.28
n4
n
= 0.23
En la figura (1) se muestra graficamente la comparación de las frecuencias relativas en la muestra
en comparación con los de la población. Los cı́rculos de color azul corresponde a la distribución
poblacional, mientras que las barras corresponden a la distribución muestral.
18
2.2 Estadı́sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES
Figura 1: Distribución de frecuencia en la muestra
Si comparamos ambas distribuciones se aprecia que son muy parecidas pero no coinciden, pues
la muestra no reproduce exactamente la estructura de la población, debiéndose esta diferencia a
la variabilidad introducida en la estricta aleatoriedad de la muestra. Si más muestras, cada una
de ellas tendrá su propia distribución, que se aproximará tanto más a la población cuanto “más
aleatorio” haya sido el proceso de selección, es decir, “más objetivo”.
En general, en una muestra concreta, sus caracterı́sticas (momentos, etc.) no tienen por qué coin-
cidir exactamente con las correspondientes de la población a cuasa de la aleatoriedad del procedi-
miento de extracción de los elementos, pero sı́ la muestra ha sido tomada con las máximas garantı́as
de aleatoriedad, con máxima objetividad, es de esperar que los valores de las caracterı́sticas mues-
trales no se alejen demasiado de los poblaciones, lo que proporciona a la muestra sus posibilidades
inductivas.
En el caso de que la caracterı́stica fuese la media:
19
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
En la población,
µ = 1 × 0.4 + 2 × 0.1 + 3 × 0.3 + 4 × 0.2
= 2.3
Mientras que en la muestra
X̄ = 1 × 0.43 + 2 × 0.06 + 3 × 0.28 + 4 × 0.23
= 2.31
Claramente no coinciden, sin embargo, son muy parecidos.
Muestra aleatoria, significa de ahora en adelante que la muestra ha sido seleccionada de manera
aleatoria y con reposición (un elemento puede estar incluido más de una vez en la muestra).
2.3. Distribución muestral de la media
EJEMPLO 2.2
Una variable aleatoria X tomo los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y 0.7. Tomamos mues-
tras aleatorias simples de tamaño 3 y consideramos como estadı́stico la media muestral. Encontrar
la distibución en el muestreo para X̄.
Solución. En el cuadro 1 se muestra todas las muestras de tamaño 3 que pueden obtenerse de la
población. En la columna identificada como tipo, se muestra los elementos que conforman a cada
una de las muestras (sin considerar el orden de aparición); en la columna muestra se enumeran
todas las muestras posibles; en las restantes columnas se muestra el valor de la media muestra (X̄)
y la probabilidad asociada para cada una de las muestras (P(muestras)).
La distribución en el muestreo de X̄ se muestra en el cuadro 2.
EJEMPLO 2.3
Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la
distribución en el muestreo para la media en el caso que el tamaño de la muestra sea 2.
Solución. En el cuadro 3 se presentan las muestras obtenidas de tamaño 2 que pueden obtenerse de
la población. En la columna etiqueta como “Tipo” se muestran las muestras que pueden obtenerse
20
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuadro 1: Muestras obtenidas para el ejemplo 2
Tipo Muestras X̄ P(Muestra) Tipo Muestras X̄ P(Muestra)
{1, 1, 1} {1, 1, 1} 1 0.13
{1, 1, 2} 4
3
0.12
× 0.2 {1, 1, 3} 5
3
0.12
× 0.7
{1, 1, 2 } {1, 2, 1 } 4
3
0.12
× 0.2 {1, 1, 3 } {1, 3, 1 } 5
3
0.12
× 0.7
{2, 1, 1} 4
3
0.12
× 0.2 {3, 1, 1} 5
3
0.12
× 0.7
{2, 2, 2} {2, 2, 2} 2 0.23
{1, 2, 2} 5
3
0.22
× 0.1 {3, 2, 2} 7
3
0.22
× 0.7
{1, 2, 2 } {2, 2, 1 } 5
3
0.22
× 0.1 {3, 2, 2 } {2, 2, 3 } 7
3
0.22
× 0.7
{2, 1, 2} 5
3
0.22
× 0.1 {2, 3, 2} 7
3
0.22
× 0.7
{3, 3, 3} {3, 3, 3} 3 0.73
{1, 3, 3} 7
3
0.72
× 0.1 {2, 3, 3} 8
3
0.72
× 0.2
{1, 3, 3 } {3, 3, 1 } 7
3
0.72
× 0.1 {2, 3, 3 } {3, 3, 2 } 8
3
0.72
× 0.2
{3, 1, 3} 7
3
0.72
× 0.1 {3, 2, 3} 8
3
0.72
× 0.2
{1, 2, 3} 2 0.1 × 0.2 × 0.7 {1, 3, 2} 2 0.1 × 0.2 × 0.7
{1, 2, 3 } {2, 1, 3 } 2 0.1 × 0.2 × 0.7 {1, 2, 3 } {2, 3, 1} 2 0.1 × 0.2 × 0.7
{3, 1, 2} 2 0.1 × 0.2 × 0.7 {3, 2, 1} 2 0.1 × 0.2 × 0.7
(sin considerar el orden de los elementos en la misma); en la columna “Cantidad” se presenta
el número de muestras diferentes que pueden considerarse para cada tipo; mientras que en las
columnas restantes se muestra la media muestral para cada tipo de muestra.
En el cuadro 4 se muestra la distribución muestral de la media para todas las muestras posibles
de tamaño 2.
EJEMPLO 2.4
Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la
distribución en el muestreo para la media en el caso que el tamaño de la muestra sea 3.
Solución. En el cuadro 5 se presentan las muestras obtenidas de tamaño 3 que pueden obtenerse de
21
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuadro 2: Distribución en el muestreo de la media muestral, datos del ejemplo 2
X̄ P(X̄)
1 0.13
= 0.001
4
3
3 × 0.12
× 0.2 = 0.006
5
3
3 × 0.12
× 0.7 + 3 × 0.1 × 0.22
= 0.033
2 6 × 0.1 × 0.2 × 0.7 + 0.23
+ 0.092
7
3
3 × 0.22
× 0.7 + 3 × 0.1 × 0.72
= 0.231
8
3
3 × 0.2 × 0.72
= 0.294
3 0.73
= 0.343
la población. En la columna etiqueta como “Tipo” se muestran las muestras que pueden obtenerse
(sin considerar el orden de los elementos en la misma); en la columna “Cantidad” se presenta
el número de muestras diferentes que pueden considerarse para cada tipo; mientras que en las
columnas restantes se muestra la media muestral para cada tipo de muestra.
En el cuadro 6 se muestra la distribución muestral de la media para todas las muestras posibles
de tamaño 3.
En la figura 2 se representación gráfica de la distribución de la media muestral para los ejemplos
3 y 4. La distribución en el caso de muestras de tamaño 2 se muestra en 3a; mientras que la
distribución para muestras de tamaño 3 se presenta en 3b. Puede observarse que al aumentar el
tamaño de la muestra mejora la precisión de las estimaciones, pues la curva correspondiente para
n = 3 muestra menor dispersión. Estudiaremos el efecto del tamaño de la muestra más adelante.
22
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuadro 3: Muestras obtenidas de tamaño 2 para el ejemplo 3
Tipo Cantidad X̄ Tipo Cantidad X̄
{1 , 2 } 2 1.5 {1 , 3 } 2 2
{1 , 4 } 2 2.5 {1 , 5 } 2 3
{2 , 3 } 2 2.5 {2 , 4 } 2 3
{2 , 5 } 2 3.5 {3 , 4 } 2 3.5
{3 , 4 } 2 1.5 {3 , 5 } 2 4
{4 , 5 } 2 4.5 {1 , 1 } 1 1
{2 , 2 } 1 2 {3 , 3 } 1 3
{4 , 4 } 1 4 {5 , 5 } 1 5
Figura 2: Distribución muestral de la media para los ejemplos 3 y 4
(a) Muestras de tamaño 2 (b) Muestras de tamaño 3
Denotemos por X̄i a la media muestral para una muestra de tamaño i. De los resultados anteriores
podemos verificar que se cumple que:
E

X̄2

= 1

1
25

+ 1.5

2
25

+ · · · + 4.5

2
25

+ 5

1
25

= 3
23
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuadro 4: Distribución en el muestreo de la media para el ejemplo 3
X̄ P(X̄)
1 1
25
1.5 2
25
2 3
25
2.5 4
25
3 1
5
3.5 4
25
4 3
25
4.5 2
25
5 1
25
E

X̄3

= 1

1
125

+
4
3

3
125

+ · · · +
14
3

3
125

+ 5

1
125

= 3
Además;
var X̄2

= 1
var X̄3

= 0.667
De lo anterior se observa que el valor esperado de la media muestral siempre coincide con el valor de
la media poblacional. Por otra parte, la varianza de la media muestral parece disminuir a medida
que el tamaño de la media muestra aumenta.
Hagamos ahora un análisis geneneral sobre el comportamiento de la media muestral para cualquier
tamaño, recordemos únicamente que:
X̄ =
1
n
n
X
i=1
Xi
y utilicemos el hecho que son muestras aleatorias y apoyándonos en las propiedades de valor
24
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuadro 5: Muestras obtenidas de tamaño 3 para el ejemplo 4
Tipo Cantidad X̄ Tipo Cantidad X̄
{1 , 2, 3 } 6 2 {2 , 3, 4 } 6 3
{1 , 2, 4 } 6 7
3
{2 , 3, 5 } 6 10
3
{1 , 2, 5 } 6 8
3
{2 , 4, 5 } 6 11
3
{1 , 3, 4 } 6 8
3
{3 , 4, 5 } 6 4
{1 , 3, 5 } 6 3 {1 , 4, 5 } 6 10
3
{1 , 1, 2 } 3 4
3
{2 , 2, 1 } 3 5
3
{1 , 1, 3 } 3 5
3
{2 , 2, 3 } 3 7
3
{1 , 1, 4 } 3 2 {2 , 2, 4 } 3 8
3
{1 , 1, 5 } 3 7
3
{2 , 2, 5 } 3 3
{3 , 3, 1 } 3 7
3
{4 , 4, 1 } 3 3
{3 , 3, 2 } 3 8
3
{4 , 4, 2 } 3 10
3
{3 , 3, 4 } 3 10
3
{4 , 4, 3 } 3 11
3
{3 , 3, 5 } 3 11
3
{4 , 4, 5 } 3 13
3
{5 , 5, 1 } 3 11
3
{5 , 5, 2 } 3 4
{5 , 5, 3 } 3 13
3
{5 , 5, 4 } 3 14
3
{1 , 1, 1 } 1 1 {2 , 2, 2 } 1 2
{3 , 3, 3 } 1 3 {4 , 4, 4 } 1 4
{5 , 5, 5 } 1 5
esperado.
E

X̄

= E

1
n
n
X
i=1
Xi
#
=
1
n
n
X
i=1
E [Xi]
=
1
n
n
X
i=1
µ
=
nµ
n
= µ
25
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuadro 6: Distribución en el muestreo de la media para el ejemplo 4
X̄ P(X̄)
1 1
125
4
3
3
125
5
3
6
125
2 2
25
7
3
3
25
8
3
18
125
3 19
125
10
3
18
125
11
3
3
25
4 2
25
13
3
6
125
14
3
3
125
5 1
125
Mientras que:
var X̄

= var
1
n
n
X
i=1
Xi
!
=
1
n2
n
X
i=1
var(Xi)
=
1
n2
n
X
i=1
σ2
=
nσ2
n2
=
σ2
n
y qué pasarı́a si el muestreo se realiza sin reposición? Se sigue cumpliendo lo anterior?
Sı́ se obtienen muestras sin reemplazamiento de una población de tamaño N, y cada una muestra
es de tamaño n, por principios de conteo se sabe que en total habrá N
n

muestras distintas.
26
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Si se fija un elemento en la muestra, digamos Xi, en total habrá N−1
n−1

muestras que contenga a
Xi.
De este modo;
E

X̄

=
1
N
n

(N
n )
X
j=1
1
n
n
X
i=1
Xi
!
j
=
1
n N
n

N
X
i=1
Xi

N − 1
n − 1

=
N−1
n−1

n N
n

N
X
i=1
Xi
=
N−1
n−1

n
N
n
N−1
n−1

N
X
i=1
Xi
=
1
N
N
X
i=1
Xi
= µ
Veamos ahora que sucede con la varianza de la media muestral, note que ahora Xi y Xj si están
relacionadas entre sı́, y ya no son independientes como en el caso anterior. La probabilidad de Xi
y Xj pertenezcan a una muestra es de 1
N(N−1)
.
27
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
1. Primera forma:
var X̄

= var
1
n
n
X
i=1
Xi
!
=
1
n2
var
n
X
i=1
Xi
!
=
1
n2
 n
X
i=1
var(Xi) + 2
n
X
ij
cov(Xi; Xj)
#
=
1
n2

nσ2
+ 2
n
X
ij

−
σ2
N − 1
#
=
1
n2

nσ2
− 2
σ2
N − 1

n(n − 1)
2

=
σ2
n2

n −
n(n − 1)
N − 1

=
σ2
n2

nN − n − n2
+ n
N − 1

=
σ2
n

N − n
N − 1

28
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Puesto que:
Cov(Xi; Xj) = E[XiXj] − µ2
=
N
X
i6=j
XiXj

1
N(N − 1)

−
1
N2
N
X
i=1
Xi
!2
=
1
N


N
X
i6=j
XiXj
N − 1
−
1
N
N
X
i=1
Xi
!2


=
1
N



PN
i=1 Xi
2
−
PN
i=1 X2
i
N − 1
−
1
N
N
X
i=1
Xi
!2



=
−1
N


PN
i=1 X2
i
N − 1
+
1
N
N
X
i=1
Xi
!2
−
1
N − 1
N
X
i=1
Xi
!2


=
−1
N


PN
i=1 X2
i
N − 1
−
1
N(N − 1)
N
X
i=1
Xi
!2


=
−1
N(N − 1)


N
X
i=1
X2
i −
1
N
N
X
i=1
Xi
!2


=
−1
N(N − 1)
N
X
i=1
X2
i − µ
2
=
−1
N − 1
σ2
2. Segunda forma: Se verifica que:
n X̄ − µ

= (X1 − µ) + (X2 − µ) + · · · + (Xn − µ)
=
n
X
i=1
(Xi − µ)
Por consiguiente
n2
X̄ − µ
2
= (X1 − µ)2
+ (X2 − µ)2
+ · · · + (Xn − µ)2
+ 2 (X1 − µ) (X2 − µ) + · · · + 2 (Xn−1 − µ) (Xn − µ)
=
n
X
i=1
(Xi − µ)2
+ 2
n
X
ij
(Xi − µ) (Xj − µ) (8)
En muestreo aleatorio debe cumplirse que E[nX̄] debe ser un múltiplo del total poblacional,
29
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
es decir;
E[X1 + X2 + · · · + Xn] = θ(X1 + X2 + · · · + XN )
Resulta que θ = n
N
, pues en la expresión anterior. En la izquierda hay n términos, mientras
que en la derecha hay N.
Bajo un razonamiento análogo se deduce que
E
 n
X
i=1
(Xi − µ)2
#
=
n
N
 N
X
i=1
(Xi − µ)2
#
y también
E

2
n
X
ij
(Xi − µ) (Xj − µ)
#
=
n(n − 1)
N(N − 1)

2
N
X
ij
(Xi − µ) (Xj − µ)
#
(la suma de los productos se extiende sobre todas las parejas de elementos en la muestra
(izquierda) y en la pobación (derecha)).
La suma del lado izquierdo contiene n(n−1)
2
términos, mientras que la suma de la derecha
contiene N(N−1)
2
términos.
aplicando esperanza a la ecuación (8) y en base a los resultados anteriores,
n2
E
h
X̄ − µ
2
i
=
n
N
 N
X
i=1
(Xi − µ)2
#
+ 2
n(n − 1)
N(N − 1)
 N
X
ij
(Xi − µ) (Xj − µ)
#
Reescribiendo esta última expresión, resulta que:
n2
E
h
X̄ − µ
2
i
=
n
N

1 −
n − 1
N − 1
 N
X
i=1
(Xi − µ)2
+
n − 1
N − 1
N
X
ij
(Xi − µ) (Xj − µ)
#
Observe que,
N
X
i=1
(Xi − µ) = 0
(una propiedad elemental de la media aritmética)
Finalmente,
var X̄

=
1
nN

1 −
n − 1
N − 1
 N
X
i=1
(Xi − µ)2
=
N − n
n(N − 1)
σ2
30
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
Cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la población el
término N−n
N−1
puede omitirse en el cálculo de la varianza, dicho término recibe el nombre de “co-
rrección debida a poblaciones finitas” o “corrección por finitud”. Siempre y cuando n
N
sea pequeño.
En la práctica puede ignorarse siempre y cuando la fracción en el muestreo n
N
no exceda el 5 %,
y para muchos própositos aún cuando n
N
no exceda el 10 %. El efecto de ignorar la corrección es
sobreestimar el error estándar en la estimación de X̄.
Por ejemplo, si σ2
es la misma en dos poblaciones, una muestra de 500 de una poblacion de 200,000
da una estimación de la media de la población, casi tan precisa como una muestra de 500 de una
población de 10,000.
Teorema 2.2. En el caso de que la caracterı́stica poblacional de interés, tenga distribución normal,
se cumplirá, no importando el tamaño de la muestra (siempre y cuando se trate de muestras
aleatorias) que:
X̄ ∼ N

µ;
σ2
n

(9)
Demostración. Recordemos que si:
X ∼ N(µ; σ)
Entonces su función generatriz es:
φX(t) = exp

itµ −
t2
σ2
2

(10)
Por consiguiente, la función generatriz de la media muestral es:
φX̄(t) = E

exp itX̄

= E

exp

it

X1 + X2 + · · · + Xn
n

= E

exp

it
X1
n

exp

it
X2
n

· · · exp

it
Xn
n

Al ser muestra aleatoria se cumple,
φX̄(t) = E

exp

it
X1
n

E

exp

it
X2
n

· · · E

exp

it
Xn
n

= φX1

t
n

φX2

t
n

· · · φXn

t
n

Al ser las Xi normales
φXi

t
n

= exp

itµ
n
−
it2
σ2
2n2

∀ i
31
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
⇒ φX̄(t) =

exp

itµ
n
−
it2
σ2
2n2
n
= exp

itµ −
t2
σ2
2n

La cual es una función generatriz de una distribución normal de parámetros µ y σ2
n
Observación: el resultado anterior sigue siendo válido en muestreo sin reemplazamiento (hay que
reemplazar la varianza correspondiente).
En el caso de que la distribución de la población sea normal pero se deconozca el valor de σ2
(muy común en la práctica). Más adelante veremos que una buena estimación de σ2
, será S2
n−1, la
cuasivarianza muestral:
S2
n−1 =
1
n − 1
X
i=1
Xi − X̄
2
Se sabe que,
(n − 1)S2
n−1
σ2
∼ χ2
n−1
La suma de n − 1 variables N(0; 1)2
independientes.
De este modo
t =
X̄ − µ
σ
√
n
s
(n − 1)S2
n−1
(n − 1)σ2
=
X̄ − µ
r
S2
n−1σ2
nσ2
=
X̄ − µ
Sn−1
√
n
Es decir, la variable aleatoria
t =
X̄ − µ
Sn−1
√
n
∼ tn−1
32
2.4 Distribución muestral de la proporción 2 DISTRIBUCIONES MUESTRALES
(Resultado también válido para muestras no aleatorias)
Para muestras grandes (n  30), se cumplirá que S2
n−1
∼
= S2
n
∼
= σ2
, y por consiguiente:
X̄ − µ
Sn−1
√
n
≈ N(0; 1)
Es decir, X̄ tendrá aproximadamente una distribución normal, como veremos más adelante Teo-
rema Central del Lı́mite (TLC).
2.4. Distribución muestral de la proporción
La proporción muestral, es la media muestral cuando las observaciones Xi sólo pueden tomar dos
valores 0 y 1 (ausencia o presencia de la caracterı́stica o propiedad de interés).
Puede asumirse que cada Xi sigue una distribución de Bernoulli de parámetro p (Xi ∼ B(p)).
Sabemos que en la distribución de Bernoulli la media es p, mientras que la varianza es p(1 − p).
En una muestra aleatoria, sea π la proporción muestral (estimador de p).
Entonces;
E [π] = E

1
n
n
X
i=1
Xi
#
=
1
n
n
X
i=1
E [Xi]
=
1
n
n
X
i=1
p
=
1
n
(np)
= p
33
2.4 Distribución muestral de la proporción 2 DISTRIBUCIONES MUESTRALES
Mientras que para la varianza,
var (π) = var
1
n
n
X
i=1
Xi
!
=
1
n2
n
X
i=1
var (Xi)
=
1
n2
n
X
i=1
p(1 − p)
=
1
n2
(np(1 − p))
=
p(1 − p)
n
Note que son expresiones parecidas al caso de X̄, donde σ2
ha sido reemplazada por p(1 − p).
De una forma análoga puede verificarse que en muestras sin reposición, se verifica que:
E [π] = p
var (π) =
N − n
N − 1
p(1 − p)
n
Además, de manera equivalente puede verificarse que para n grande (muestras grandes) se cumple,
π ∼ N

p;
p(1 − p)
n

La distribución en el muestreo de π, proporción observada en la muestra, se obtiene inmediatamente
de la distribución Binomial. En efecto:
P

π =
r
n

= PB(r)
=

n
r

pr
(1 − p)n−r
donde r es el número de elementos en la muestra que presentan la caracterı́stica de interés. LA
SUMA DE n VARIABLES CON DISTRIBUCIÓN DE BERNOULLI DE PARÁMETRO p ES
UNA NUEVA VARIABLE CON DISTRIBUCIÓN BINOMIAL.
Es decir, la probabilidad de que la porporción en la muestra sea
r
n
es igual a la probabilidad de
obtener r elementos con esta caracterı́stica en una muestra de tamaño n; la cual es la distribución
Binomial:
π ∼ B (n; p)
34
2.5 Distribución muestral de la varianza 2 DISTRIBUCIONES MUESTRALES
2.5. Distribución muestral de la varianza
La varianza muestral viene definida por la siguiente expresión:
S2
n =
1
n
n
X
i=1
Xi − X̄
2
Mientras que la cuasivarianza muestral por,
S2
n−1 =
1
n − 1
n
X
i=1
Xi − X̄
2
Calculemos la esperanza para cada una de las estimaciones de la varianza poblacional.
1. Empezemos con la varianza muestral,
E

S2
n

= E

1
n
n
X
i=1
Xi − X̄
2
#
= E

1
n
n
X
i=1
Xi − µ + µ − X̄
2
#
= E

1
n
n
X
i=1
(Xi − µ)2
+
1
n
n
X
i=1
µ − X̄
2
+ 2
1
n
n
X
i=1
(Xi − µ) µ − X̄

#
Puesto que:
1
n
n
X
i=1
(Xi − µ) µ − X̄

=
1
n
µ − X̄
 n
X
i=1
(Xi − µ)
=
1
n
µ − X̄

nX̄ − nµ

= − µ − X̄
2
35
2.5 Distribución muestral de la varianza 2 DISTRIBUCIONES MUESTRALES
⇒ E

S2
n

= E

1
n
n
X
i=1
(Xi − µ)2
+ µ − X̄
2
− 2 µ − X̄
2
#
= E

1
n
n
X
i=1
(Xi − µ)2
− µ − X̄
2
#
=
1
n
n
X
i=1
E

(Xi − µ)2
− E
h
µ − X̄
2
i
=
1
n
n
X
i=1
var(Xi) −
σ2
n
= σ2
−
σ2
n
=

n − 1
n

σ2
La varianza muestral no es centrada.
2. Veamos que sucede con la cuasivarianza muestral.
Se sabe que:
nS2
n = (n − 1)S2
n−1
⇒ S2
n−1 =
n
n − 1
S2
n
De este modo resulta;
E

S2
n−1

= E

n
n − 1
S2
n

=
n
n − 1
E

S2
n

=
n
n − 1

n − 1
n

σ2
= σ2
La cuasivarianza muestral es un estimador centrado para σ2
.
Sı́ la caracterı́stica de interés poblacional X sigue una distribución normal de parámetros µ y σ2
,
entonces la variable:
χ2
=
(n − 1)
σ2
S2
n−1 (11)
36
2.6 Teorema Central del Lı́mite 2 DISTRIBUCIONES MUESTRALES
Sigue una distribución Chi-Cuadrado con n − 1 grados de libertad. Es decir, si X ∼ N (µ; σ2
),
entonces X̄ ∼ N

µ; σ2
n

.
Verifiquemos que efectivamente sigue tal distribución.
Demostración. Primero observemos que,
(n − 1)S2
n−1 =
n
X
i=1
Xi − X̄
2
=
n
X
i=1
Xi − µ + µ − X̄
2
=
n
X
i=1
(Xi − µ)2
+
n
X
i=1
µ − X̄
2
+ 2
n
X
i=1
(Xi − µ) µ − X̄

=
n
X
i=1
(Xi − µ)2
+ n µ − X̄
2
− 2n µ − X̄
2
=
n
X
i=1
(Xi − µ)2
− n µ − X̄
2
Por consiguiente;
(n − 1)S2
n−1
σ2
=
n
X
i=1
(Xi − µ)2
σ2
− n
µ − X̄
2
σ2
=
n
X
i=1

Xi − µ
σ
2
−
µ − X̄
σ
√
n
!2
⇒
(n − 1)S2
n−1
σ2
∼ χ2
n − χ2
1
∼ χ2
n−1
Pues cada uno de los n sumandos del primer término de la derecha de la ecuación sigue una
distribución normal estándar elevada al cuadrado, lo mismo sucede para el segundo término; y
como además se cumple que la suma (diferencia) de dos variables Chi-Cuadrado siguen también
una distribución con grados de libertad igual a la suma (resta) de ambas variables.
2.6. Teorema Central del Lı́mite
En muchos casos prácticos la distribución de la caracterı́stica de interés X no será siempre normal.
El Problema Central del lı́mite expresa que la distribución de la suma de un número muy grande
de variables aleatorias indenpendientes, en condiciones muy generales, se aproxima a la normal.
37
2.6 Teorema Central del Lı́mite 2 DISTRIBUCIONES MUESTRALES
Estos teoremas revelan las razones por la cual, en muchos campos de aplicación, se encuentran
distribuciones normales.
Si X1, X2, . . . , Xn son variables aleatorias independientes e idénticamente distribuidas (iid), enton-
ces:
n
X
i=1
Xi ∼ N E
 n
X
i=1
Xi
#
; var
n
X
i=1
Xi
!!
y por consiguiente
Pn
i=1 Xi − E [
Pn
i=1 Xi]
p
var (
Pn
i=1 Xi)
∼ N(0; 1)
cuando el tamaño de la muestra sea lo suficientemente grande, es decir, cuando n → ∞.
Del resultado anterior, se deducen los siguientes teoremas:
Teorema 2.3 (Levy-Lindeberg). Sean {Xn}n∈N variables aleatorias iid con E[Xi] = µ (finita)
y var(Xi) = σ2
(finita) ∀i. Entonces
Pn
i=1 Xi − nµ
σ
√
n
∼ N(0; 1)
Demostración. Debemos demostrar que
φZn (t) → exp

−
t2
2

; cuando n → ∞
con
Zn =
Pn
i=1 Xi − nµ
σ
√
n
Al ser las Xi variables aleatorias independientes e idénticamente distribuidas, todas tendrán la
misma media µ, y la misma varianza σ2
(las cuales suponemos que son valores finitos).
Será pues que ∀i ∈ N, E[Xi − µ] = 0
Haciendo Sn =
Pn
i=1 Xi, resulta que E[Sn] = µ y var(Sn) = nσ2
.
Entonces ∀n ∈ N, se tiene:
Zn =
Sn − nµ
√
nσ
=
Pn
i=1 Xi − nµ
√
nσ
=
n
X
i=1
Xi − µ
√
nσ
38
2.7 Distribución muestral de la diferencia de dos medias
2 DISTRIBUCIONES MUESTRALES
y
φZn (t) = E

exp

it
Pn
i=1(Xi − µ)
σ
√
n

=
n
Y
i=1
E

exp

it(Xi − µ)
σ
√
n

=
n
Y
i=1
φXi−µ

t
σ
√
n

En vista que, E[Xi − µ] = 0, el segundo momento de Xi − µ coincide con su varianza, y utilizando
además un desarrollo en serie de Taylor para φZn (t), con ε(t) → 0, cuando t → 0 (0  ε(t)  t).
Se tendrá que ∀n ∈ N
φXi−µ(t) = 1 −
σ2
2
t2
+
ε(t)
6
t3
⇒ φZn (t) =
n
Y
i=1
φXi−µ

t
σ
√
n

=
n
Y
i=1

1 −
σ2
2

t2
σ2n

+
ε(t)
6
t3

= 1 −
t2
2
n
+
ε(t)
6
t3
!n
→ exp

−
t2
2

Que es justo lo que querı́amos demostrar.
Teorema 2.4 (Moivre). Sean {Xn}n∈N variables aleatorias iid con Xn ∼ Bin(n; p) ∀n. Entonces
Xn − np
p
np(1 − p)
∼ N(0; 1)
La demostración se deja como ejercicio para el estudiante.
2.7. Distribución muestral de la diferencia de dos medias
Si en lugar de una población se consideran dos, y de cada una de ellas se selecciona una muestra
aleatoria, la primera de tamaño n1 (X1, X2, . . . , Xn1 ); y la segunda de de tamaño n2 (Y1, Y2, . . . , Yn2 )
de manera independiente de la primera.
Es decir;
39
2.7 Distribución muestral de la diferencia de dos medias
2 DISTRIBUCIONES MUESTRALES
En la primera población X es la caracterı́stica de interés tal que E[X] = µ1 y var(X) = σ2
1,
y sea (X1, X2, . . . , Xn1 ) una muestra aleatoria de ella.
En la segunda población la caracterı́stica de interés Y (la misma que se mide en la primera
población) tal que E[Y ] = µ2 y var(Y ) = σ2
2, y sea (Y1, Y2, . . . , Yn2 ) una muestra aleatoria
de ella.
Entonces para el estadı́stico, diferencia de media muestrales X̄ − Ȳ , se cumple que:
E

X̄ − Ȳ

= E

X̄

− E

Ȳ

= µ1 − µ2
Mientras que,
var X̄ − Ȳ

= var X̄

+ var Ȳ

=
σ2
1
n1
+
σ2
2
n2
1. En el caso de que las poblaciones sean normales, es decir;
X ∼ N µ1; σ2
1

⇒ X̄ ∼ N

µ1;
σ2
1
n1

Y ∼ N µ2; σ2
2

⇒ Ȳ ∼ N

µ2;
σ2
2
n2

Sucederá que:
X̄ − Ȳ ∼ N

µ1 − µ2;
σ2
1
n1
+
σ2
2
n2

Demostración. La variable X̄ − Ȳ , tiene la función caracterı́stica:
φX̄−Ȳ (t) = E

exp it(X̄ − Ȳ )

= E

exp itX̄

exp −itȲ

= E

exp itX̄

E

exp −itȲ

= φX̄(t)φȲ (−t)
= exp

itµ1 −
it2
σ2
1
2n1

exp

−itµ2 −
it2
σ2
2
2n2

= exp

it(µ1 − µ2) −
t2
2

σ2
1
n1
+
σ2
2
n2

40
2.7 Distribución muestral de la diferencia de dos medias
2 DISTRIBUCIONES MUESTRALES
La última expresión es, precisamente la función caracterı́stica de una distribución normal
N

µ1 − µ2;
σ2
1
n1
+
σ2
2
n2

2. En caso que las poblaciones sean normales, pero se desconozcan σ2
1 y σ2
2.
Para simplificar suponga que σ2
1 = σ2
2 = σ2
X̄ − Ȳ ∼ N

µ1 − µ2;
σ2
(n1 + n2)
n1n2

Note que
σ2
(n1 + n2)
n1n2
es una varianza combinada de las dos poblaciones, de este modo:
Z =
X̄ − Ȳ

− (µ1 − µ2)
σ
r
(n1 + n2)
n1n2
∼ N(0; 1)
Del mismo modo que se combinan las varianzas poblacionales podemos calcular las cuasiva-
rianzas muestrales, sean S2
n1−1 y S2
n2−1
Por argumento similar al presentado para una población, puede verificarse que,
(n1 − 1)S2
n1−1 + (n2 − 1)S2
n2−1
σ2
∼ χ2
n1+n2−2
De este modo el estadı́stico t,
t =
(X̄−Ȳ )−(µ1−µ2)
σ
r
(n1+n2)
n1n2
s
(n1 − 1)S2
n1−1 + (n2 − 1)S2
n2−1
σ2(n1 + n2 − 2)
=
q
(n1n2)
n1+n2

X̄ − Ȳ

− (µ1 − µ2)

s
(n1 − 1)S2
n1−1 + (n2 − 1)S2
n2−1
(n1 + n2 − 2)
∼ tn1+n2−2
41
2.8 Distribución muestral de la diferencia de dos proporciones
2 DISTRIBUCIONES MUESTRALES
3. Cuando los tamaños de muestras sean grandes, digamos n1, n2  30
S2
n1−1 ≈ S2
n1
≈ σ2
1
S2
n2−1 ≈ S2
n2
≈ σ2
2
Por lo que el estadı́stico:
Z =
X̄ − Ȳ

− (µ1 − µ2)
s
S2
n1−1
n1
+
S2
n2−1
n2
≈ N(0; 1)
2.8. Distribución muestral de la diferencia de dos proporciones
Al igual que en el caso de una muestra partimos del hecho que la proporción muestral es la media
aritmética de una variable que toma los valores 0 y 1 (ausencia o presencia de la caracterı́stica de
interés).
En la primera muestra de tamaño n1 las observaciones (X1, X2, . . . , Xn1 ), son variables aleatorias
con distribución de Bernoulli de parámetro p1, es decir,
Xi ∼ B(p1)∀ i = 1, . . . , n1
En la segunda muestra de tamaño n2 las observaciones (Y1, Y2, . . . , Yn2 ) (la cual es totalmente
independiente de la primera),
Yi ∼ B(p2)∀ i = 1, . . . , n2
p1 y p2 son respectivamente las proporciones poblacionales. Combinando entonces los resultados
para la diferencia de medias (y el de una proporción) se tiene que:
Sean Π1 y Π2 las proporciones de ambas muestras.
⇒ Π1 ∼ Bin(n1; p1)
y Π2 ∼ Bin(n2; p2)
⇒ E [Π1 − Π2] = E [Π1] − E [Π2]
= p1 − p2
42
2.9 Distribución muestral del cociente de dos varianzas
2 DISTRIBUCIONES MUESTRALES
y
⇒ var (Π1 − Π2) = var (Π1) + var (Π2)
=
p1(1 − p1)
n1
+
p2(1 − p2)
n2
Cuando los tamaños de ambas muestras sean relativamente grandes (n1, n2  30), se tendrá por
el TLC.
Π1 − Π2 ∼ N

p̂1 − p̂2;
p̂1(1 − p̂1)
n1
+
p̂2(1 − p̂2)
n2

(12)
donde p̂1 y p̂2 representan valores concretos de las estimaciones de las proporciones en ambas
muestras, es decir, para una muestra concreta.
2.9. Distribución muestral del cociente de dos varianzas
Dada una muestra aleatoria (X1, X2, . . . , Xn1 ) de una población N(µ1; σ2
1) y (Y1, Y2, . . . , Yn2 ) de
una población N(µ2; σ2
2), ambas muestras independientes entre si.
Por una parte de los resultados previos, se tendrá que:
χ1 =
(n1 − 1)S2
n1−1
σ2
1
∼ χ2
n1−1
χ2 =
(n2 − 1)S2
n2−1
σ2
2
∼ χ2
n2−1
son variables aleatorias independientes (al ser las muestras independientes entre si).
Resulta entonces, que la distribución en el muestreo del estadı́stico,
F =
(n1 − 1)S2
n1−1
(n1 − 1)σ2
1
(n2 − 1)S2
n2−1
(n1 − 1)σ2
2
=
S2
n1−1
σ2
1
S2
n2−1
σ2
2
(13)
sigue una distribución F de Snedecor con n1 −1 grados de libertad en el numerador y n2 −1 grados
de libertad en el denominador.
43
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
2.10. Problemas propuestos
1. Una variable aleatoria Xtoma los valores 1, 2, 3, 4 y 5. Estudiar la distribución en el muestreo
para la media muestral X̄, en los casos que el tamaño de la muestra aleatoria sea:
a) 2 b) 3 c) 4 d) 5
2. Repetir el problema anterio, pero considerando que las muestras no son aleatorias (es decir,
muestras se seleccionan sin reemplazamiento).
3. Sea (X1, X2, . . . , Xn) una muestra aleatoria de una población N(µ; σ2
) y Xn+1 una varia-
ble aleatoria independiente de la muestra anterior. Calcúlese la distribución de la variable
aleatoria
Y =
r
n
n + 1
Xn+1 − X̄
S
Siendo S2
, la cuasivarianza muestral.
4. Demuéstrese que dada una muestra aleatoria (X1, X2, . . . , Xn) de una población N(µ; σ2
),
las variables aleatorias X̄ y Xi − X̄ son independientes para todo i.
5. Sea X una población de Bernoulli de parámetro 1
2
y se consideran todas las muestras aleato-
rias posibles de tamaño 3. Para cada muestra calcúlese X̄ y S2
, la media y la cuasivarianza
muestrales y determı́nense sus distribuciones en el muestreo.
6. Dada una muestra aleatoria (X1, X2, . . . , Xn) de una población N(µ; σ2
) se construyen:
X̄k =
1
k
k
X
i=1
Xi X̄n−k =
1
n − k
n
X
i=k+1
Xi
S2
k−1 =
1
k − 1
k
X
i=1
(Xi − X̄k)2
S2
n−k−1 =
1
n − k − 1
n
X
i=k+1
(Xi − X̄k)2
Calcúlese la distribución de las variables aleatorias:
a)
(k − 1)S2
k−1 + (n − k − 1)S2
n−k−1
σ2
44
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
b)
S2
k−1
S2
n−k−1
7. Dada dos muestras aleatorias independientes (X1, X2, . . . , Xm) de una población N(µ1; σ2
1)
e (Y1, Y2, . . . , Yn) de una población N(µ2; σ2
2) respectivamente, y dos números reales α y β,
hállese la distribución de la variable aleatoria
α(X̄ − µ1) + β(Ȳ − µ2)
Sp
q
1
m
+ 1
n
Donde
S2
p =
(m − 1)S2
1 + (n − 1)S2
2
n + m − 2
siendo S2
1 y S2
2 las cuasivarianzas muestrales.
8. Dada una muestra aleatoria de tamaño n, calcule la distribución de la media muestral X̄,
cuando la población es:
a) Bernoulli.
b) Gamma.
c) Exponencial.
d) Cauchy.
9. Demostrar que para una muestra aleatoria de tamaño n de una población N(µ; σ2
) se tiene
que el segundo momento muestral respecto de la media (la varianza muestral) y la media
muestral, son variables aleatorias independientes.
10. Dada una muestra aleatoria de tamaño n, de una población con momento poblacional de
cuarto orden finito, demostrar que:
E

S2

=
n
n − 1
σ2
var S2

=
β4 − β2
2
n
− 2
β4 − 2β2
2
n2
− 4
β4 + 3β2
2
n3
Donde βk = E

(X − µ)k

, el momento poblacional de orden k respecto al centro de los datos.
S2
denota la varianza muestral.
45
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
11. De una población binomial de parámetro n = 3 y p =
1
2
; se extraen muestras aleatorias de
tamaño 2. Determine:
a) Distribución de la muestra.
b) Distribución de la media muestral.
c) Esperanza y varianza de la media muestral.
d) Distribución de la varianza muestral.
e) Esperanza de la varianza muestral.
12. Sea una urna con 100 bolas de las cuales 20 están marcadas con el número uno, 30 con el dos y
50 con el tres. Se extraen dos bolas al azar. Determine, primero suponiendo reemplazamiento
en la extracción de las bolas y después no:
a) Distribución de probabilidad de la muestra.
b) Distribución de probabilidad, esperanza y varianza de la media.
c) Comente los resultados obtenidos con y sin reemplazamiento.
13. Se lanza dos veces un dado ideal (todas las caras tienen igual probabilidad de ocurrencia).
Determine:
a) Distribución de probabilidad de la puntuación máxima obtenida.
b) Probabilidad de que la puntuación máxima sea superior a 4.
c) Si apuesta un millón de dólares a que la puntuación máxima en el lanzamiento de dos
dados es superior a 4, ¿cuál es su ganancia esperada?
14. Los salarios mensuales de dos trabajadores de dos sectores económicos A y B se distribuyen
independientemente según las leyes de probabilidad.
Salarios en el sector A ∼ N(125; 30)
Salarios en el sector B ∼ N(125; 60)
Para muestras independientes de tamaño 100 en el sector A y de tamaño 90 en el sector B,
determine:
46
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
a) Distribución de probabilidad de la media muestral en el sector A.
b) Distribución de probabilidad de la media muestral en el sector B.
c) Distribución de probabilidad de la media muestral en el sector A menos la media mues-
tral en el sector B.
15. De una población normal se toman dos muestras: la primera de tamaño 10 es tal que la su
varianza es igual a 9; en la segunda de tamaño 8 se tiene que su varianza muestral es 20.
¿Cuál es la probabilidad de la diferencia de medias sea menor que 3?
16. El tiempo en minutos que un cliente debe esperar hasta ser atendido en una pastelerı́a de
moda sigue una distribución exponencial, de modo que:
F(x) = P(X ≤ x) = 1 − exp

−
x
2

Se elige una muestra de 100 clientes, y se miden los tiempos de espera. A partir de esta
muestra se pide:
a) Esperanza de la media muestral.
b) Varianza de la media muestral.
c) Esperanza de la varianza muestral.
17. Consideremos una muestra de tamaño 4 de una población normal N(µ, σ2
), donde se desea
estimar la media. Para ello se consideran los estimadores:
T1 =
1
4
(X1 + X2 + X3 + X4)
T2 =
1
2
X1 +
1
4
X2 +
1
8
(X3 + X4)
a) Encuentre la esperanza de ambos estimadores.
b) Encuentre la varianza de ambos estimadores.
c) ¿Cuáles son las distribuciones de ambos estimadores?
18. Sea X una variable aleatoria con distribución de Poisson de parámetro λ. Dada una muestra
aleatoria de tamaño n, encontrar la función de densidad conjunta de la muestra.
47
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
19. Sean (X1, X2, . . . , X25) e (Y1, Y2, . . . , Y25) dos muestras aleatorias independientes de dos po-
blaciones N(0; 42
) y N(1; 32
). Determine:
a) La distribución de muestreo de la diferencia de medias.
b) Calcule P(X̄  Ȳ ).
20. Una población consiste en cuatro números 1, 2, 3 y 4. Se extraen dos elementos sin reempla-
zamiento y se nota por (X1, X2) los valores obtenidos. Se pide
a) Distribución conjunta de (X1, X2).
b) Distribución de la media muestral.
21. La duración media de una muestra aleatoria de 10 bombillas de una población de desviación
tı́pica 425 horas, fue de 1327 horas. Una muestra aleatoria independiente de la anterior
de tamaño 6 de una población con desviación tı́pica de 375 horas, arrojó una duración
media muestral de 1215 horas. Si las medias de las dos poblaciones se supones iguales, ¿qué
probabilidad se tiene de obtener una desviación de las muestrales menor que la que se ha
obtenido?
22. Una población se compone de los cinco números 2, 3, 6, 8, 11. Considerar todas las mues-
tras posibles de tamaño dos que se puedan extraer con reemplazamiento de esta pobla-
ción.Encontrar:
a) La distribución de la media muestral.
b) Distribución de la varianza muestral.
c) Distribución de la cuasivarianza muestral.
23. Repetir el problema anterior pero considerando el caso que las muestras se eligen sin reem-
plazamiento.
24. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media 22.4 onzas y
desviación tı́pica 0.048 onzas. Si se extraen 300 muestras de tamaño 36 de esta población,
determinar la esperanza y la desviación tı́pica de la distribución muestral de medias si el
muestreo se hace con reemplazamiento, ¿y si se hace sin reemplazamiento?
48
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
25. Una población de 7 números tiene una media de 40 y una desviación tı́pica de 3. Si se extraen
muestras de tamaño 5 de esta población y se calcula la cuasivarianza de cada muestra, hallar
la media de la distribución muestral de cuasivarianzas si el muestreo es con reemplazamiento,
¿y en el caso de ser muestras sin reemplazamiento?
26. Tenemos una variable aleatoria que toma los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y
0.7, respectivamente. Encuentre la distribución muestral de la cuasivarianza muestral y en
base a ella encuentre la esperanza de la cuasivarianza en los siguientes casos:
a) Tamaño de muestra dos y con reemplazamiento.
b) Tamaño de muestra dos y sin reemplazamiento.
c) Tamaño de muestra tres y con reemplazamiento.
d) Tamaño de muestra tres y sin reemplazamiento.
27. Para muestras aleatorias de tamaño 10, encuentre la media y la varianza de la media muestral
en el caso que:
a) Si la población es Poisson con parámetro igual a 1.
b) Si la población es Bernoulli de parámetro 0.3.
c) Si la población es normal con media igual a varianza e iguales a 1.
28. Sea una población Poisson de parámetro igual 0.1 de la cual se toma una muestra aleatoria
de tamaño 2. Determine la distribución de probabilidad, esperanza y varianza de la media
muestral. Considere únicamente los primeros cuatro valores que puede tomar la variable.
29. Encuentre la distribución en el muestreo de la media para muestras aleatorias de tamaño
n las cuales proceden de una población con distribución gamma de parámetros p + 1 y θ
(G(p + 1, θ)) ası́ como la esperanza y varianza de la media muestral, utilizando la función
caracterı́stica de esta última.
30. Demuestre el Teorema de Moivre.
49
3 ESTIMACIÓN DE PARÁMETROS
3. ESTIMACIÓN DE PARÁMETROS
3.1. Introducción
La estimación de un parámetro involucra el uso de datos muestrales en conjunción con algún
estimador. Existen dos formas de llevar a cabo lo anterior: la estimación puntual y la estimación por
intervalos de confianza. En la primera se busca un estimador, que con base en los datos muestrales,
dé origen a un único valor del parámetro y que recibe el nombre de estimación (estimado) puntual.
Para la segunda, se determina un intervalo en el que, en forma probable, se encuentre el valor del
parámetro. Este recibe el nombre de intervalo de confianza estimado.
Denotaremos de aquı́ en adelante como f(X; θ) a la función de densidad (probabilidad), de la
caracterı́stica de interés, donde la función depende de un parámetro arbitrario θ (el cual es desco-
nocido pero constante). Nuestro principal objetivo es presentar los criterios convenientes para la
determinación de los estimadores de θ.
f(X; θ) depende del valor de θ, pero será siempre de la misma familia (normal, binomial, beta,
etc.)
Estimación puntual
θ̂ = f(X1, X2, . . . , Xn)
Estimación por intervalo
P(θ̂1 ≤ θ ≤ θ̂2) = α
donde
θ̂i = fi(X1, X2, . . . , Xn)
El estimador θ̂ será una variable aleatoria (función de variables aleatorias muestrales) (X1, X2, . . . , Xn),
y se transformará en una estimación del parámetro θ, un valor concreto, cuando las variables mues-
trales (X1, X2, . . . , Xn) se conviertan en datos observados al obtenerse una muestra determinada.
3.2. Propiedades de los estimadores
Es posible definir muchos estimadores para tratar de estimar un parámetro desconocido θ. Enton-
ces, ¿cómo seleccionar un buen estimador de θ?, ¿cuáles son los criterios para juzgar cuando un
50
3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS
estimador de θ es “bueno” o “malo”?, ¿qué es un buen estimador?
Suponga para esto que θ̂1, θ̂2 y θ̂3 son tres estimadores distintos para θ, y que construimos la
distribución de frecuencias para cada uno de ellos tal y como se muestra en la figura 3.
Figura 3: Comparación de estimadores
La intuición sugiere que θ̂3 podrı́a considerarse como el mejor estimador de θ, no solo porque se
concentra alrededor del valor de θ, sino porque además su variabilidad es pequeña. θ̂2 no serı́a
tan bueno porque tiene una mayor variabilidad que la de θ̂23 a pesar que también se concentra
alrededor de θ. Mientras que θ̂1 serı́a el peor de todos pues apesar que tiene aproximadamente la
misma variabilidad que θ̂3, no se encuentra concentrado alrededor de θ, por lo que es poco probable
acertar con una muestra el verdadero valor.
Es de recalcar que en la práctica, sólo tendremos acceso a la información contenida por una sola
muestra, por lo que debe tomarse el “mejor” estimador posible para el parámetro de interés.
De los comentarios anteriores surgen dos propiedades deseables que un estimador θ̂ debe tener una
distribución en el muestreo concentrada alrededor del valor de θ, y la varianza de θ̂ debe ser la
menor posible.
Sea θ̂ = T(X1, X2, . . . , Xn) un estimador, y (X1, X2, . . . , Xn) una muestra aleatoria.
Al ser desconocido el parámetro θ nunca sabemos exactamente hasta qué punto cada estimación
se encuentra lejos o cerca del valor del parámetro. Para establecer la bondad de un estimador,
partimos del hecho de conocer si la estimación se encuentra lejos o cerca del verdadero valor
51
3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS
siempre desconocido.
El error que podemos cometer, es la diferencia entre θ̂ y θ, para eliminar signo se toma el cua-
drado,

θ̂ − θ
2
. Si fuera posible obtener todas las muestras posibles y para cada una de ellas su
estimación, un medida global de los errores es el Error Cuadrático Medio, el cual se presenta en la
siguiente definición.
Definición 3.1. Sea θ̂ cualquier estimador de un parámetro desconocido θ, se define el Error
Cuadrático Medio de θ̂ como la esperanza matemática del cuadrado de la diferencia entre θ̂ y θ, se
denotará por ECM(θ̂), es decir;
ECM(θ̂) = E
h
θ̂ − θ
i2
(14)
Un valor pequeño de ECM(θ̂) indicará que, en media, el estimador no se encuentra lejos lejos de
θ, inversamente, cuánto mayor sea ECM(θ̂), θ̂ estará más alejado de θ, también en media.
Para un mejor cálculo de E(θ̂), se puede escribir como:
ECM

θ̂

= E
h
θ̂ − θ
i2
= E
h
θ̂ − E
h
θ̂
i
+ E
h
θ̂
i
− θ
i2
= E
h
θ̂ − E
h
θ̂
ii2
+
h
E
h
θ̂
i
− θ
i2
= var

θ̂

+ sesgo

θ̂
2
El Error Cuadrático Medio de cualquier estimador θ̂ es la suma de dos cantidades no negativas,
una es la varianza del estimador y la otra es el cuadrado del sesgo (diferencia entre la esperanza
del estimador y el parámetro a estimar) del estimador. Deducimos entonces que un alto valor de
ECM(θ̂) puede deberse a un valor alto de la varianza, a un alto valor del sesgo, o ambos a la vez.
En principio el problema (seleccionar estimadores) visto de manera superficial parece bastante
sencillo; esto es, seleccionar, como mejor estimador de θ, el que tenga menor ECM(θ̂) de entre
todos los estimadores posibles y factibles de θ. Sin embargo, un estimador puede tener un Error
Cuadrático Medio mı́nimo para algunos valores de θ, mientras que otro estimador tendrá la misma
52
3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS
propiedad, pero para otros valores de θ.
EJEMPLO 3.1
Sea X1, X2, . . . , Xn una muestra aleatoria tal que E[Xi] = µ y var(Xi) = σ2
, y consideremos los
estimadores siguientes para µ:
θ̂1 =
1
n
n
X
i=1
Xi
θ̂2 =
1
n + 1
n
X
i=1
Xi
Entonces,
ECM

θ̂1

= var

θ̂1

+ sesgo

θ̂1
2
=
σ2
n
Mientras que
ECM

θ̂2

= var

θ̂2

+ sesgo

θ̂2
2
= var

n
n + 1
θ̂1

+

n
n + 1
µ − µ
2
=
n2
(n + 1)2
σ2
n
+
µ2
(n + 1)2
=
1
(n + 1)2
nσ2
+ µ2

Para un tamaño de muestra n = 10 y σ2
= 100, tendrı́amos
ECM

θ̂1

= 10
ECM

θ̂2

=
1000 + µ2
121
y se cumplirá que para µ 
√
210 que ECM

θ̂1

 ECM

θ̂2

; mientras que para que para
µ 
√
210 que ECM

θ̂2

 ECM

θ̂1

.
Sin embargo, a partir del Error Cuadrático Medio construiremos una buena parte de las propiedades
que es razonable exigir a un estimador para ser considerado como “bueno”.
Para que ECM

θ̂

sea mı́nimo es necesario que los dos sumandos sean mı́nimos. El sesgo de θ̂
será mı́nimo cuando valga 0, los cual no lleva a la primera propiedad.
53
3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS
Definición 3.2. Se dice que un estimador θ̂ es un estimador insesgado del parámetro θ, si para
todos los posibles valores de θ se cumple que E[θ̂] = θ. De este modo la distribución en el muestreo
de θ̂ se encuentra centrada alrededor de θ y ECM(θ̂) = var(θ̂).
La media muestral X̄ es un estimador insesgado de µ (media poblacional); mientras que la cuasi-
varianza muestral S2
n−1 es un estimador insesgado de la varianza poblacional σ2
, no ası́, la varianza
muestral S2
n.
Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece
el tamaño de la muestra. Esto es conforme la información en una muestra se vuelve más completa,
la distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor
del párametro θ. Se tendrá una mejor estimación de θ si se base en 30 observaciones que si lo hace
sólo con 5.
Definición 3.3. Sea θ̂ el estimador de un parámetro θ, y sea θ̂1, θ̂2, . . . , θ̂n una sucesión de esti-
madores que representan a θ̂ con base a muestras de tamaño 1, 2, . . . , n, respectivamente. Se dice
que θ̂ es un estimador consistente para θ si:
lı́m
n→∞
p

|θ̂ − θ| ≤ ε

= 1 (15)
para todos los valores de θ y ε  0
o de manera equivalente
lı́m
n→∞
E
h
θ̂
i
= 0 (16)
El requisito de que lı́m
n→∞
P

|θ̂ − θ| ≤ ε

= 1 para todo θ constituye lo que se denomina convergencia
en probabilidad. Es decir, si un estimador es consistente, converge en propabilidad al valor del
parámetro que está intentando estimar conforme el tamaño de la muestra crece.
EJEMPLO 3.2
La media muestral X̄, es un estimador consistenta para µ, es decir:
lı́m
n→∞
P |X̄ − µ| ≤ ε

= 1
Demostración.
E

X̄n

= µ
var X̄n

=
σ2
n
54
3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS
Según el Teorema de Tchebysheff
P

|X̄ − µ|  k

σ
√
n

≤
1
k2
Tomemos k = ε
√
n
σ
, entonces
P |X̄ − µ|  ε

≤
σ2
ε2n
⇒ lı́m
n→∞
P |X̄ − µ|  ε

= 0
Por tanto se concluye que
lı́m
n→∞
P |X̄ − µ|  ε

= 1
Es decir, X̄ es consistente.
Definición 3.4. Un estimador θ̂ se dice que es eficiente para el parámetro θ, si entre todos los
posibles estimadores insesgados que pueden obtenerse para θ es el que tenga la menor varianza
posible. Es decir, θ̂ si
var(θ̂) = min{var(θ̂s)} (17)
donde θ̂s es la familia de estimadores insesgados para θ.
En otras palabras, si θ̂1 y θ̂2 son estimadores de θ, θ̂1 será eficiente siempre y cuando var(θ̂1) ≤
var(θ̂2). Si son sesgados se utiliza el Error Cuadrático Medio.
Esta propiedad exige que el estimador que se utilice genere estimaciones parecidas para las dife-
rentes muestras que puedan obtenerse de la población.
Definición 3.5. Un estimador θ̂ de un parámetro θ se dice que es un estimador suficiente cuando
utiliza toda la información contenida en la muestra. En otras palabras, se dice que un estimador
θ̂ es suficiente, si la distribución conjunta de la muestra aleatoria (X1, X2, . . . , Xn) dado θ̂, se
encuentra libre de θ (no depende de θ). Es decir,
f(X1, X2, . . . , Xn/θ̂; θ) = h(θ̂; θ)g(X1, X2, . . . , Xn) (18)
donde g(X1, X2, . . . , Xn) no depende de θ.
55
3.3 Cota para la varianza de un estimador 3 ESTIMACIÓN DE PARÁMETROS
3.3. Cota para la varianza de un estimador
Sea una población definida por la función de densidad f(X; θ) que contiene al parámetro descono-
cido, estimado mediante, θ̂.
La función de verosimilitud es simplemente la distribución conjunta de la muestra
L(X1, X2, . . . , Xn; θ) = f(X1, X2, . . . , Xn; θ)
con lo que resulta que:
var

θ̂

≥
1 +
∂sesgo

θ̂

∂θ
E

∂ ln L(X1, X2, . . . , Xn; θ)
∂θ
2 (19)
La expresión (19) es conocida como la cota de Cramer-Rao, que indica que la varianza de un
estimador, para un tamaño de muestra dado, no puede ser menor que ésta.
Si la muestra con la que se trabaja es aleatoria sucede que:
L(X1, X2, . . . , Xn; θ) = f(X; θ)n
Entonces,
ln L(X1, X2, . . . , Xn; θ) = n ln f(X; θ)
Por lo que la cota de Cramer es:
var

θ̂

≥
1 +
∂sesgo

θ̂

∂θ
nE

∂ ln f(X; θ)
∂θ
2 (20)
Si el estimado fuese insesgado, la cota se convierte en:
var

θ̂

≥
1
nE

∂ ln f(X; θ)
∂θ
2 (21)
Puede apreciarse que la cota depende únicamente del tamaño muestral y de la función de densidad.
La cota también podrı́a utilizarse para saber si un estimador es eficiente (si la cota coincide con
la varianza del estimador).
56
3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS
3.4. Métodos de estimación
Anteriormente hemos visto las propiedades deseables de un buen estimador. Ahora nos concentra-
remos en la forma de cómo obtener esos estimadores, de manera que tengan buenas propiedades.
Trataremos únicamente con los más utilizados y que cumplen la mayorı́a de las propieades.
3.4.1. Máxima verosimilitud
El método de máxima verosimilitud se fundamenta en el supuesto intuitivo siguiente: de varios
sucesos que pueden tener lugar, admitimos que aparecerá el más probable, o si ha aparecido uno
concreto será razonable suponer que, entre todos los posibles, era el más probable.
El método consiste en lo siguiente:
Tenemos una variable aleatoria X, con función de densidad f(X; θ), siendo θ el parámetro
desconocido que se desea estimar.
Seleccionar una muestra aleatoria de tamaño n, (X1, X2, . . . , Xn) de dicha población.
Construimos la función de verosimilitud de la muestra, que no es más que la función de
densidad conjunta de la muestra.
L(X1, X2, . . . , Xn; θ)
Para la selección del estimador θ̂ del parámetro θ, de entre todos los posibles valores que
puede tomar, se toma θ̂ de manera que:
L(X1, X2, . . . , Xn; θ̂) = max{L(X1, X2, . . . , Xn; θ)}
Para encontrar el valor que maximiza la función conjunta de la muestra (el estimador θ̂),
se deriva con respecto al parámetro θ y se iguala a cero (se obtiene una ecuación con una
incógnita). La solución (θ̂), será únicamente una función que depende de los elementos en
la muestra (y no del parámetro), será el estimador de máxima verosimilitud del parámetro,
siempre y cuando se verifique la condición de máximo. En la mayorı́a de los casos es más
conveniente trabajar con el logaritmo de la función conjunta, a dicho logaritmo se le da el
nombre de función soporte.
57
3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS
EJEMPLO 3.3
Sea X1, X2, . . . , Xn una muestra aleatoria de una distribución normal µ y σ2
(X ∼ N(µ; σ2
)) con
función de densidad,
f(X; µ, σ2
) =
1
√
2Πσ2
exp

−
(x − µ)2
2σ2

Determine los estimadores de µ y σ2
por el método de máxima verosimilitud.
Solución. La función de verosimilitud es
L(X1, X2, . . . , Xn; µ, σ2
) =
n
Y
i=1
f(Xi; µ, σ2
)
=
n
Y
i=1
1
√
2Πσ2
exp

−
(Xi − µ)2
2σ2

=

1
√
2Πσ2
n
exp

−
n
X
i=1
(Xi − µ)2
2σ2
#
La función soporte es:
ln L(X1, X2, . . . , Xn; µ, σ2
) = −
n
2
ln(2Π) −
n
2
ln(σ2
) −
1
2σ2
n
X
i=1
(Xi − µ)2
Para obtener el estimador de µ se deriva con respecto a µ y se iguala a 0,
∂ ln L(X1, X2, . . . , Xn; µ, σ2
)
∂µ
= −
1
2σ2
n
X
i=1
(Xi − µ) = 0
lo cual implica que µ̂ = X̄.
Mientras que el estimador de σ2
∂ ln L(X1, X2, . . . , Xn; µ, σ2
)
∂σ2
= −
n
2
1
σ2
+
1
2(σ2)2
n
X
i=1
(Xi − µ)2
= 0
⇒ σ2
=
1
n
n
X
i=1
(Xi − µ)2
de donde deducimos que
σ̂2
=
1
n
n
X
i=1
(Xi − X̄)2
El método de máxima verosimilitud, selecciona como estimador a aquel valor del parámetro que
tiene la propiedad de maximizar el valor de la probabilidad de la muestra observada. Consiste más
bien en encontrar el valor del parámetro que maximiza la función de verosimilitud.
58
3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS
3.4.2. Propiedades de los estimadores de máxima verosimilitud
Insesgadez:
Los estimadores son por lo general sesgados, sin embargo, son insesgados asintóticamente, es
decir, si θ̂ es un estimador por máxima verosimilitud del parámetro θ, entonces:
lı́m
n→∞
E
h
θ̂
i
= θ
Consistencia:
Bajo condiciones generales, los estimadores son consistentes.
Eficiencia:
Si existe un estimador cuya varianza es igual a la cota de Cramer-Rao, entonces es el obte-
nido por máxima verosimilitud. No todo estimador de máxima verosimilitud es eficiente, sin
embargo, si existe un estimador eficiente es el obtenido por máxima verosimilitud.
Normalidad
Los estimadores son asintóticamente normales con esperanza θ y asintóticamente eficientes
lı́m
n→∞
θ̂ ∼ N





θ;
1
E

∂ ln L(X1, X1, . . . , Xn; θ)
∂θ
2





Suficiencia
Si T es un estimador suficiente de θ, el estimador θ̂ (máxima verosimilitud) es función de T,
θ̂ = g(T).
Invarianza
Si θ̂ es un estimador de θ, g(θ̂) será un estimador de g(θ). Los estimadores son invariantes
ante transformaciones de θ.
59
3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS
3.4.3. Método de los momentos
Quizá el método más antiguo para la estimación de parámetros es el método de los momentos.
Este consiste en igualar los momentos apropiados de la distribución de la población con los corres-
pondientes momentos en la muestra para estimar el parámetro desconocido. Los momentos son
con respecto al origen.
Si ak es el momento de orden k con respecto al origen el la muestra y αk lo es en la población.
Entonces:
E [ak] = αk (22)
ak es un estimador insesgado de αk.
El procedimiento consiste en:
Seleccionar una muestra aleatoria de tamaño n, (X1, X2, . . . , Xn).
Calculamos los primeros k momentos muestrales con respecto al origen dependiendo del
número k de parámetros a estimar,
ak =
1
n
n
X
i=1
Xk
i
Igualamos cada momento muestral con su correspondiente momento poblacional obteniendo
ası́, un sistema de ecuaciones con k incógnitas (k variables) muchos de ellos son lineales.
a1 = α1
a2 = α2
.
.
.
.
.
.
ak = αk
La solución del sistema proporciona los estimadores de los parámetros
θ̂1 = f1(a1, a2, . . . , ak)
θ̂2 = f2(a1, a2, . . . , ak)
.
.
.
.
.
.
θ̂k = fk(a1, a2, . . . , ak)
60
3.5 Estimación por Intervalos de confianza en una población
3 ESTIMACIÓN DE PARÁMETROS
En condiciones generales, los estimadores obtenidos son consistentes. Pueden tener otras propie-
dades pero no se cumplirán siempre.
EJEMPLO 3.4
En una población N(µ; σ2
) determinar los estimadores para µ y σ2
por el método de los momentos.
Solución. Para una muestra aleatoria de tamaño n (X1, X2, . . . , Xn),
a1 =
1
n
n
X
i=1
Xi = X̄
a2 =
1
n
n
X
i=1
X2
i
Mientras que en la población
α1 = µ
α2 = σ2
+ µ2
El esistema es:
µ = X̄
σ2
+ µ2
=
1
n
n
X
i=1
X2
i
La solución es:
µ̂ = X̄
σ̂2
=
1
n
n
X
i=1
X2
i − X̄2
=
1
n
n
X
i=1
(Xi − X̄)2
= S2
Es decir, las estimaciones para µ y σ2
, son respectivamente la media muestral y la varianza
muestral.
3.5. Estimación por Intervalos de confianza en una población
Cuando se toma una muestra aleatoria se obtiene un único valor para el estimador θ̂, a ciencia
cierta si desconocemos totalmente el valor del parámetro θ, no podemos saber si θ̂ se encuentra
61
3.5 Estimación por Intervalos de confianza en una población
3 ESTIMACIÓN DE PARÁMETROS
cerca o lejos de θ (debido a la aleatoriedad de la muestra). Otra forma de estimar un parámetro
es mediante un intervalo de valores, en el cual confiamos que se encuentre el verdadero valor del
parámetro θ. Dicho intervalo recibe el nombre de intervalo de confianza.
El problema que abordaremos de aquı́ en adelante es que se desea estimar un parámetro poblacional
θ mediante el estimador θ̂, para esto debemos encontrar números reales inf(X; θ̂) y sup(X; θ̂) tales
que:
θ ∈
h
inf(X; θ̂), sup(X; θ̂)
i
(23)
ocurra con probabilidada alta, digamos 1 − α.
Es decir,
P

inf(X; θ̂) ≤ θ ≤ sup(X; θ̂)

= 1 − α (24)
y donde inf(X; θ̂) y sup(X; θ̂) dependan únicamente de θ̂ y de valores que puedan conocerse.
a 1 − α se le da el nombre de nivel de confianza. Mientras que a α nivel de significancia.
Téngase en cuenta que, el intervalo de confianza es un intervalo aleatorio, pues depende de los
elementos seleccionados en la muestra.
El intervalo de confianza no representa la probabilidad de que el parámetro θ se encuentre en el
intervalo es igual a 1 − α, pues:
θ será un parámetro desconocido, lo que impide verificar la afirmación.
En P

inf(X; θ̂) ≤ θ ≤ sup(X; θ̂)

las variables aleatorias son inf(X; θ̂) y sup(X; θ̂) y no el
parámetro θ.
1 − α es la probabilidad que el intervalo aleatorio
h
inf(X; θ̂), sup(X; θ̂)
i
incluya el verdadero
valor del parámetro antes de extraer la muestra. Una vez seleccionada la muestra, la probabilidad
de que el parámetro θ se encuentre en el intervalo es 1 ó 0, dependiendo de si el parámetro se
encuentra en el intervalo o no de la muestra seleccionada. En esta situación no se puede hablar
de probabilidad del intervalo al nivel 1 − α sino de la confianza puesto que, una vez extraı́da la
muestra, la probabilidad será 1 ó 0, y no la inicial 1 − α que se transforma en confianza.
El concepto de confianza también puede interpretarse como: si se repitiera el experimento muestral
(se tomarán varias muestras) muchas veces, en el 100(1 − α) % de los casos se confiarı́a que el
parámetro θ pertenecerá al intervalo.
62
3.5 Estimación por Intervalos de confianza en una población
3 ESTIMACIÓN DE PARÁMETROS
Los intervalos anteriores son bilaterales, pues se especifica tanto inf(X; θ̂) como sup(X; θ̂), en
algunos casos el intervalo se deja abierto dejando a inf(X; θ̂) = −∞ o sup(X; θ̂) = ∞ , se habla
en ese caso de intervalos unilaterales:
P

θ ≥ inf(X; θ̂)

= 1 − α
P

θ ≤ sup(X; θ̂)

= 1 − α
La interpretación de dicho intervalos es la misma al del caso bilateral.
3.5.1. Intervalo de confianza para la media
Supongamos que la caracterı́stica de interés X sigue una distribución N(µ; σ2
), siendo únicamente
desconocido el valor de µ. De dicha población seleccionamos una muestra aleatoria de tamaño n.
Lo que deseamos es encontrar valores reales, digamos k1 y k2, tales que
P(k1 ≤ µ ≤ k2) = 1 − α
Puesto que:
si X ∼ N(µ; σ2
)
⇒ X̄ ∼ N

µ;
σ2
n

1. Suponiendo que la varianza poblacional sea conocida.
De este modo la variable aleatoria,
Z =
X̄ − µ
σ
√
n
∼ N(0; 1)
Tomenos Zα
2
y Z1−α
2
como los valores tabulares de la distribución N(0; 1) tales que entre
ellos se encuentra contenida un área igual a 1 − α. Como la distribución N(0; 1) es simétrica
resulta que Z1−α
2
= −Zα
2
(valor que deja por encima de el un área igual a α
2
).
De este modo el intervalo buscado será simétrico y a la vez tendrá longitud mı́nima, resulta
entonces;
63
3.5 Estimación por Intervalos de confianza en una población
3 ESTIMACIÓN DE PARÁMETROS
P −Zα
2
≤ Z ≤ Zα
2

= 1 − α
P −Zα
2
≤
X̄ − µ
σ
√
n
≤ Zα
2
!
= 1 − α
P

−
σ
√
n
Zα
2
≤ X̄ − µ ≤
σ
√
n
Zα
2

= 1 − α
P

X̄ −
σ
√
n
Zα
2
≤ µ ≤ X̄ +
σ
√
n
Zα
2

= 1 − α
Con lo que los valores buscados son:
k1 = X̄ −
σ
√
n
Zα
2
k2 = X̄ +
σ
√
n
Zα
2
Por lo que el intervalo de confianza para la media poblacional µ es:
µ ∈

X̄ −
σ
√
n
Zα
2
, X̄ +
σ
√
n
Zα
2

2. En el caso de que la varianza poblacional σ2
sea desconocida, para encontrar el intervalo de
confianza para µ no podemos proseguir como en el caso anterior, sin embargo, se sabe que
la variable aleatoria,
T =
X̄ − µ
Sn−1
√
n
∼ tn−1 (25)
La distribución t de Student ya se encuentra tabulada, por lo que para encontrar el intervalo
de confianza procedemos como en el caso anterior, sustituimos la distribución N(0; 1) por la
t de Student para n − 1 grados de libertad.
Tomemos t
α
2
n−1 como el valor que deja por encima de el un área igual a α
2
en la distribución
t de Student con n − 1 grados de libertad (por consiguiente −t
α
2
n−1 será el valor que deje por
debajo esa misma área).
64
3.5 Estimación por Intervalos de confianza en una población
3 ESTIMACIÓN DE PARÁMETROS
Resulta que:
P

−t
α
2
n−1 ≤ T ≤ t
α
2
n−1

= 1 − α
P −t
α
2
n−1 ≤
X̄ − µ
Sn−1
√
n
≤ t
α
2
n−1
!
= 1 − α
P

−
Sn−1
√
n
t
α
2
n−1 ≤ X̄ − µ ≤
Sn−1
√
n
t
α
2
n−1

= 1 − α
P

X̄ −
Sn−1
√
n
t
α
2
n−1 ≤ µ ≤ X̄ +
Sn−1
√
n
t
α
2
n−1

= 1 − α
Por lo que el intervalo de confianza para la media poblacional µ (cuando la varianza pobla-
cional es desconocida) es:
µ ∈

X̄ −
Sn−1
√
n
t
α
2
n−1, X̄ +
Sn−1
√
n
t
α
2
n−1

En caso de que la población no fuese normal, para encontrar el intervalo de confianza se usará la
desigualdad de Tchebyssheff, el intervalo será sólo aproximado en cuanto a confianza (la confianza
será mayor a la propuesta). Sin embargo, sólo puede usarse cuando σ2
es conocida.
3.5.2. Intervalo de confianza para una proproción
Si X ∼ B(p) y se toman muestras aleatorias de tamaño n se tendrá por lo visto anteriormente
que:
Π ∼ Bin(n; p)
y por el Teorema de Moivre
Π ∼ N

p;
p(1 − p)
n

Puesto que p no se conocerá (pues de lo contrario no habrı́a nada que hacer), se estimará mediante
una muestra, al estandarizar para esa muestra en particular se tendrá que;
Z =
p̂ − p
r
p̂(1 − p̂)
n
donde p̂ es el valor de la proporción muestral para esa muestra en particular.
65
3.5 Estimación por Intervalos de confianza en una población
3 ESTIMACIÓN DE PARÁMETROS
El intervalo de confianza será entonces (utilizando una lógica similar para el caso de la media).
P −Zα
2
≤ Z ≤ Zα
2

= 1 − α
P

−Zα
2
≤
p̂ − p
q
p̂(1−p̂)
n
≤ Zα
2

 = 1 − α
P −Zα
2
r
p̂(1 − p̂)
n
≤ p̂ − p ≤ Zα
2
r
p̂(1 − p̂)
n
!
= 1 − α
P p̂ −
r
p̂(1 − p̂)
n
Zα
2
≤ p ≤ p̂ +
r
p̂(1 − p̂)
n
r
p̂(1 − p̂)
n
!
= 1 − α
Por lo que el intervalo de confianza es:
p ∈

p̂ − Zα
2
r
p̂(1 − p̂)
n
, p̂ + Zα
2
r
p̂(1 − p̂)
n
#
3.5.3. Intervalo de confianza para la varianza
Supongamos que la caracterı́stica de interés X sigue una distribución N(µ; σ2
). De dicha población
seleccionamos una muestra aleatoria de tamaño n. Se sabe por lo visto que antes, que la variable
aleatoria,
χ2
=
(n − 1)S2
n−1
σ2
∼ χ2
n−1 (26)
La distribución Chi-cuadrado no es simétrica, por lo que el intervalo más pequeño que se puede
encontrar es aquel donde se reparte un área igual a α
2
para valores que sean mayores o menores al
de la ditribución, es decir, sean χ2
1−α
2
y χ2
α
2
los valores tabulares de la distribución Chi-cuadrado
(para n − 1 grados de libertad) que dejan comprendida un área igual 1 − α entre ellos.
De este modo el intervalo puede obtenerse por;
P

χ2
1−α
2
≤ χ2
≤ χ2
α
2

= 1 − α
P

χ2
1−α
2
≤
(n − 1)S2
n−1
σ2
≤ χ2
α
2

= 1 − α
P
(n − 1)S2
n−1
χ2
α
2
≤ σ2
≤
(n − 1)S2
n−1
χ2
1−α
2
!
= 1 − α
66
3.6 Intervalo de confianza en dos poblaciones
3 ESTIMACIÓN DE PARÁMETROS
Con lo que el intervalo de confianza para la varianza poblacional σ2
es:
σ2
∈

(n − 1)S2
n−1
χ2
α
2
,
(n − 1)S2
n−1
χ2
1−α
2
#
3.6. Intervalo de confianza en dos poblaciones
3.6.1. Intervalo de confianza para la diferencia de dos medias, cuando las muestras
son independientes
Si X ∼ N(µ1; σ2
1) y extraemos una muestra aleatoria de tamaño n1, se tendrá que,
X̄ ∼ N

µ1;
σ2
1
n1

Si Y ∼ N(µ2; σ2
2) y extraemos una muestra aleatoria de tamaño n2 independiente de la primera
muestra, se tendrá que:
Ȳ ∼ N

µ2;
σ2
2
n2

y por consiguiente
X̄ − Ȳ ∼ N

µ1 − µ2;
σ2
1
n1
+
σ2
2
n2

Primer caso: σ2
1 y σ2
2 conocidas.
En base a los resultados previos, sabemos que la variable aleatoria
Z =
X̄ − Ȳ

− (µ1 − µ2)
q
σ2
1
n1
+
σ2
2
n2
∼ N(0; 1) (27)
Basando en la misma lógica aplicada para el caso de una población, resulta que el intervalo,
P −Zα
2
≤ Z ≤ Zα
2

= 1 − α
P

−Zα
2
≤
X̄ − Ȳ

− (µ1 − µ2)
q
σ2
1
n1
+
σ2
2
n2
≤ Zα
2

 = 1 − α
P

−Zα
2
s
σ2
1
n1
+
σ2
2
n2
≤ X̄ − Ȳ

− (µ1 − µ2) ≤ Zα
2
s
σ2
1
n1
+
σ2
2
n2

 = 1 − α
P

 X̄ − Ȳ

− Zα
2
s
σ2
1
n1
+
σ2
2
n2
≤ (µ1 − µ2) ≤ X̄ − Ȳ

+ Zα
2
s
σ2
1
n1
+
σ2
2
n2

 = 1 − α
67
3.6 Intervalo de confianza en dos poblaciones
3 ESTIMACIÓN DE PARÁMETROS
Con lo que el intervalo de confianza para la diferencia de medias es:
µ1 − µ2 ∈

 X̄ − Ȳ

− Zα
2
s
σ2
1
n1
+
σ2
2
n2
, X̄ − Ȳ

+ Zα
2
s
σ2
1
n1
+
σ2
2
n2


Segundo caso: σ2
1 y σ2
2 desconocidas pero iguales.
De los resultados previos sabemos que la variable aleatoria :
T =
q
(n1n2)
n1+n2

X̄ − Ȳ

− (µ1 − µ2)

r
(n1−1)S2
n1−1+(n2−1)S2
n2−1
(n1+n2−2)
∼ tn1+n2−2 (28)
Haciendo
S2
p =
s
(n1 − 1)S2
n1−1 + (n2 − 1)S2
n2−1
n1 + n2 − 2
resulta que,
T =
X̄ − Ȳ

− (µ1 − µ2)
Sp
q
1
n1
+ 1
n2
∼ tn1+n2−2
El intervalo de confianza es:
P

−t
α
2
n1+n2−2 ≤ T ≤ t
α
2
n1+n2−2

= 1 − α
P

−t
α
2
n1+n2−2 ≤
X̄ − Ȳ

− (µ1 − µ2)
Sp
q
1
n1
+ 1
n2
≤ t
α
2
n1+n2−2

 = 1 − α
P

−Sp
r
1
n1
+
1
n2
t
α
2
n1+n2−2 ≤ X̄ − Ȳ

− (µ1 − µ2) ≤ Sp
r
1
n1
+
1
n2
t
α
2
n1+n2−2

= 1 − α
P

X̄ − Ȳ − Sp
r
1
n1
+
1
n2
t
α
2
n1+n2−2 ≤ µ1 − µ2 ≤ X̄ − Ȳ + Sp
r
1
n1
+
1
n2
t
α
2
n1+n2−2

= 1 − α
Con lo que el intervalo de confianza para la diferencia de medias es:
µ1 − µ2 ∈

X̄ − Ȳ

− Sp
r
1
n1
+
1
n2
t
α
2
n1+n2−2, X̄ − Ȳ

+ Sp
r
1
n1
+
1
n2
t
α
2
n1+n2−2

Tercer caso: σ2
1 y σ2
2 desconocidas y distintas.
En este caso la distribución de la variable aleatoria definida en la ecuación (27) depende de
σ2
1
σ2
2
, a esta distribución se le conoce con el nombre de Bebrens-Fisher.
Existen diferentes soluciones:
68
3.6 Intervalo de confianza en dos poblaciones
3 ESTIMACIÓN DE PARÁMETROS
ˆ Solución debida Hsu.
Quien aproxima la distribución de (27) por una distribución t de Student con v =
mı́n{n1, n2} − 1 grados de libertad.
ˆ Solución de Welch.
Quien aproxima la distribución de (27) por una distribución t de Student con v =
n1 + n2 − 2 − δ grados de libertad.
donde δ es la parte de entera de:
δ =

[(n2 − 1)ψ1 − (n1 − 1)ψ2]2
(n2 − 1)ψ2
1 + (n1 − 1)ψ2
2
#
(29)
con
ψ1 =
S2
n1−1
n1
y ψ2 =
S2
n2−1
n2
ˆ Autor desconocido.
Quien aproxima la distribución de (27) por una distribución t de Student con v grados
de libertad.
donde v es la parte entera de:
v =
hS2
n1−1
n1
+
S2
n2−1
n2
i2
S2
n1−1
n1
!2
n1−1
+
S2
n2−1
n2
!2
n2−1
(30)
La solución consiste entonces en definir la nueva variable aleatoria,
T =
X̄ − Ȳ

− (µ1 − µ2)
q
S2
n1−1
n1
+
S2
n2−1
n2
∼ tv (31)
los grados de libertad dependerán de cualquiera de las soluciones elegidas anteriores. Por lo
69
3.6 Intervalo de confianza en dos poblaciones
3 ESTIMACIÓN DE PARÁMETROS
que el intervalo de confianza será:
P

−t
α
2
v ≤ T ≤ t
α
2
v

= 1 − α
P

−t
α
2
v ≤
X̄ − Ȳ

− (µ1 − µ2)
q
S2
n1−1
n1
+
S2
n2−1
n2
≤ t
α
2
v

 = 1 − α
P

−
s
S2
n1−1
n1
+
S2
n2−1
n2
t
α
2
v ≤ X̄ − Ȳ

− (µ1 − µ2) ≤
s
S2
n1−1
n1
+
S2
n2−1
n2
t
α
2
v

 = 1 − α
P

X̄ − Ȳ − t
α
2
v
s
S2
n1−1
n1
+
S2
n2−1
n2
≤ µ1 − µ2) ≤ X̄ − Ȳ + t
α
2
v
s
S2
n1−1
n1
+
S2
n2−1
n2

 = 1 − α
Con lo que el intervalo de confianza para la diferencia de medias es:
µ1 − µ2 ∈

 X̄ − Ȳ

− t
α
2
v
s
S2
n1−1
n1
+
S2
n2−1
n2
, X̄ − Ȳ

+ t
α
2
v
s
S2
n1−1
n1
+
S2
n2−1
n2


Cuarto caso: cuando n1, n2  30
En este caso la variable aleatoria,
Z =
X̄ − Ȳ

− (µ1 − µ2)
q
S2
n1−1
n1
+
S2
n2−1
n2
∼ N(0; 1) (32)
Puede verificarse fácilmente que el intervalo de confianza resultante es:
µ1 − µ2 ∈

 X̄ − Ȳ

− Zα
2
s
S2
n1−1
n1
+
S2
n2−1
n2
, X̄ − Ȳ

+ Zα
2
s
S2
n1−1
n1
+
S2
n2−1
n2


Resulta que como ya se comentó anteriormente, para muestras grandes
S2
n1−1 ≈ S2
n1
y n1 − 1 ≈ n1
S2
n2−1 ≈ S2
n2
y n2 − 1 ≈ n2
por lo que pueden combinarse para el cálculo del intervalo de confianza.
70
3.6 Intervalo de confianza en dos poblaciones
3 ESTIMACIÓN DE PARÁMETROS
3.6.2. Intervalo de confianza para la diferencia de dos medias, cuando las muestras
son dependientes
Cuando las muestras son dependientes entre si, sucede que:
var X̄ − Ȳ

= var X̄

+ var Ȳ

− 2var X̄; Ȳ

con lo que si consideramos las muestras como independientes y nos olvidamos de la covarianza, la
variable,
Z =
X̄ − Ȳ

− (µ1 − µ2)
q
var X̄ − Ȳ

puede ser equivocadamente grande o pequeña dependiendo de la magnitud y signo de cov X̄; Ȳ

.
La solución para esto es definir una nueva variable D = X − Y y utilizar la varianza de la nueva
variable como estimación directa de var X̄ − Ȳ

(para esto ambas muestran deben tener igual
número de elementos, es decir, los tamaños deben coincider). En este caso asumiendo normalidad
en ambas poblaciones, se tendrá que D también es normal con media µD = µ1 − µ2 y varianza
σ2
D = var X̄ − Ȳ

.
De este modo construir un intervalo de confianza para µ1 − µ2 será equivalente a construirlo para
µD. Es de mencionar que para que tenga sentido D = X − Y , se trabajan con observaciones de un
mismo individuo o elemento (por lo regular X denota las observaciones antes de realizar o aplicar
algún tratamiento, mientras que Y es despúes de aplicarlo).
Definiendo la variable aleatoria,
T =
D̄ − µD
SD
√
n
∼ tn−1 (33)
Siguiendo el procedimiento descrito para encontrar el intervalo de confianza para la media cuando
la varianza es desconocida se tiene que el intervalo es:
P

−t
α
2
n−1 ≤ T ≤ t
α
2
n−1

= 1 − α
P −t
α
2
n−1 ≤
D̄ − µD
SD
√
n
≤ t
α
2
n−1
!
= 1 − α
P

−
SD
√
n
t
α
2
n−1 ≤ D̄ − µD ≤
SD
√
n
t
α
2
n−1

= 1 − α
P

D̄ −
SD
√
n
t
α
2
n−1 ≤ µD ≤ D̄ +
SD
√
n
t
α
2
n−1

= 1 − α
71
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1
411681131 inferencia-estadistica-1

Más contenido relacionado

La actualidad más candente

La actualidad más candente (16)

Apuntes de estadistica basica
Apuntes de estadistica basicaApuntes de estadistica basica
Apuntes de estadistica basica
 
Metodos
MetodosMetodos
Metodos
 
Matematicas dos primer parte
Matematicas dos primer parteMatematicas dos primer parte
Matematicas dos primer parte
 
Grupos
GruposGrupos
Grupos
 
Ud 08
Ud 08Ud 08
Ud 08
 
notas de análisis numerico
notas de análisis numericonotas de análisis numerico
notas de análisis numerico
 
Callen thermodynamics and an introduction to thermostatistics, 2 ed.
Callen   thermodynamics and an introduction to thermostatistics, 2 ed.Callen   thermodynamics and an introduction to thermostatistics, 2 ed.
Callen thermodynamics and an introduction to thermostatistics, 2 ed.
 
Refuerzo 6
Refuerzo 6Refuerzo 6
Refuerzo 6
 
*
**
*
 
Matematicas tres parte uno
Matematicas tres parte unoMatematicas tres parte uno
Matematicas tres parte uno
 
Epidemiologia clinica
Epidemiologia clinicaEpidemiologia clinica
Epidemiologia clinica
 
Manual abreviado de_analisis_multivarian
Manual abreviado de_analisis_multivarianManual abreviado de_analisis_multivarian
Manual abreviado de_analisis_multivarian
 
algebra ecuaciones
algebra ecuacionesalgebra ecuaciones
algebra ecuaciones
 
Psu Matematica
Psu MatematicaPsu Matematica
Psu Matematica
 
Algebra[ufro]
Algebra[ufro]Algebra[ufro]
Algebra[ufro]
 
EL DESISTIMIENTO DE LA TENTATIVA.Repercusiones prácticas del fundamento de su...
EL DESISTIMIENTO DE LA TENTATIVA.Repercusiones prácticas del fundamento de su...EL DESISTIMIENTO DE LA TENTATIVA.Repercusiones prácticas del fundamento de su...
EL DESISTIMIENTO DE LA TENTATIVA.Repercusiones prácticas del fundamento de su...
 

Similar a 411681131 inferencia-estadistica-1

06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...MarioRivera243377
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementalesPaul Alexander
 
Fundamentos conceptuales de estadística - Oscar F soto B
Fundamentos conceptuales de estadística  - Oscar F soto BFundamentos conceptuales de estadística  - Oscar F soto B
Fundamentos conceptuales de estadística - Oscar F soto BCristian C
 
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSistemadeEstudiosMed
 
Sucesiones y series
Sucesiones y seriesSucesiones y series
Sucesiones y seriesulde quispe
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4JCASTINI
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementalesChristian Infante
 
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...L Méndez
 
Metodos de la fisica matematica
Metodos de la fisica matematicaMetodos de la fisica matematica
Metodos de la fisica matematicaFabian Romero
 
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIAApuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIAAlejandro Feliz
 
39702397 matematicas-discretas
39702397 matematicas-discretas39702397 matematicas-discretas
39702397 matematicas-discretasGil Robles
 
Inferencia estadistica.para.economia.y.administracion.de.empresas
Inferencia estadistica.para.economia.y.administracion.de.empresasInferencia estadistica.para.economia.y.administracion.de.empresas
Inferencia estadistica.para.economia.y.administracion.de.empresasNirka Mora Mejia
 
Inferencia estadistica para economia y administracion de empresas
Inferencia estadistica para economia y administracion de empresasInferencia estadistica para economia y administracion de empresas
Inferencia estadistica para economia y administracion de empresasFreddy Rojas Rojas
 

Similar a 411681131 inferencia-estadistica-1 (20)

EstadisticaIngenieros.pdf
EstadisticaIngenieros.pdfEstadisticaIngenieros.pdf
EstadisticaIngenieros.pdf
 
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementales
 
Inferencia estadística y análisis de datos
Inferencia estadística y análisis de datosInferencia estadística y análisis de datos
Inferencia estadística y análisis de datos
 
Fundamentos conceptuales de estadística - Oscar F soto B
Fundamentos conceptuales de estadística  - Oscar F soto BFundamentos conceptuales de estadística  - Oscar F soto B
Fundamentos conceptuales de estadística - Oscar F soto B
 
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
 
Aa i modulo 4
Aa i modulo 4Aa i modulo 4
Aa i modulo 4
 
Sucesiones y series
Sucesiones y seriesSucesiones y series
Sucesiones y series
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementales
 
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
 
Metodos de la fisica matematica
Metodos de la fisica matematicaMetodos de la fisica matematica
Metodos de la fisica matematica
 
Calculo tensorial bueno
Calculo tensorial buenoCalculo tensorial bueno
Calculo tensorial bueno
 
Libro psu matematicas
Libro psu matematicasLibro psu matematicas
Libro psu matematicas
 
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIAApuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
Apuntes de preparación para la PRUEBA DE SELECCIÓN UNIVERSITARIA
 
Apuntes de estadistica basica.pdf
Apuntes de estadistica basica.pdfApuntes de estadistica basica.pdf
Apuntes de estadistica basica.pdf
 
39702397 matematicas-discretas
39702397 matematicas-discretas39702397 matematicas-discretas
39702397 matematicas-discretas
 
Algebra
AlgebraAlgebra
Algebra
 
Inferencia estadistica.para.economia.y.administracion.de.empresas
Inferencia estadistica.para.economia.y.administracion.de.empresasInferencia estadistica.para.economia.y.administracion.de.empresas
Inferencia estadistica.para.economia.y.administracion.de.empresas
 
Inferencia estadistica para economia y administracion de empresas
Inferencia estadistica para economia y administracion de empresasInferencia estadistica para economia y administracion de empresas
Inferencia estadistica para economia y administracion de empresas
 

Último

Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfMikkaelNicolae
 
Reporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpacaReporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpacajeremiasnifla
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)ssuser563c56
 
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUSesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUMarcosAlvarezSalinas
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdfevin1703e
 
TALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaTALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaSantiagoSanchez353883
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxClaudiaPerez86192
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfyoseka196
 
Linealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfLinealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfrolandolazartep
 
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENSMANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENSLuisLobatoingaruca
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdfEdwinAlexanderSnchez2
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
Diapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestaDiapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestajeffsalazarpuente
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdfFernandaGarca788912
 
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.ariannytrading
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IILauraFernandaValdovi
 
CICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaCICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaSHERELYNSAMANTHAPALO1
 

Último (20)

VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
 
Reporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpacaReporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpaca
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
 
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUSesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdf
 
TALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaTALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación pública
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptx
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdf
 
Linealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfLinealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdf
 
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENSMANIOBRA Y CONTROL INNOVATIVO LOGO PLC  SIEMENS
MANIOBRA Y CONTROL INNOVATIVO LOGO PLC SIEMENS
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
Diapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestaDiapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuesta
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdf
 
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
SOLICITUD-PARA-LOS-EGRESADOS-UNEFA-2022.
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo II
 
CICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaCICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresa
 

411681131 inferencia-estadistica-1

  • 1. CUADERNO DE APUNTES INFERENCIA ESTADÍSTICA Ernesto Canizales 22 de octubre de 2012 1
  • 2. ÍNDICE ÍNDICE Índice 1. PROBABILIDAD Y ESTADÍSTICA 6 1.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2. Función Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.1. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.2. Distribución Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.3. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.4. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.2. Razones que justifican un estudio inferencial . . . . . . . . . . . . . . . . . . 13 1.4.3. Conceptos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.4.4. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2. DISTRIBUCIONES MUESTRALES 17 2.1. Distribución conjunta de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Estadı́sticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3. Distribución muestral de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4. Distribución muestral de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.5. Distribución muestral de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7. Distribución muestral de la diferencia de dos medias . . . . . . . . . . . . . . . . . . 39 2.8. Distribución muestral de la diferencia de dos proporciones . . . . . . . . . . . . . . 42 2.9. Distribución muestral del cociente de dos varianzas . . . . . . . . . . . . . . . . . . 43 2.10. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3. ESTIMACIÓN DE PARÁMETROS 50 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2
  • 3. ÍNDICE ÍNDICE 3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.3. Cota para la varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.4.1. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.4.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . . . . . . 59 3.4.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.5. Estimación por Intervalos de confianza en una población . . . . . . . . . . . . . . . 61 3.5.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . . . 63 3.5.2. Intervalo de confianza para una proproción . . . . . . . . . . . . . . . . . . . 65 3.5.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . . . . . 66 3.6. Intervalo de confianza en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . 67 3.6.1. Intervalo de confianza para la diferencia de dos medias, cuando las muestras son independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.6.2. Intervalo de confianza para la diferencia de dos medias, cuando las muestras son dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.6.3. Intervalo de confianza para la diferencia de dos proporciones . . . . . . . . . 72 3.6.4. Intervalo para el cociente de dos varianzas . . . . . . . . . . . . . . . . . . . 73 3.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.7.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.7.2. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4. PRUEBA DE HIPÓTESIS ESTADÍSTICAS 84 4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2. Tipos de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2.1. Hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.2.2. Hipótesis alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3. Tipos de regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.4. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.5. Metodologı́a de un contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 89 4.6. Prueba de hipótesis en una población . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3
  • 4. ÍNDICE ÍNDICE 4.6.1. Prueba de hipótesis sobre una media . . . . . . . . . . . . . . . . . . . . . . 91 4.6.2. Prueba de hipótesis sobre una proporción . . . . . . . . . . . . . . . . . . . . 96 4.6.3. Prueba de hipótesis sobre una varianza . . . . . . . . . . . . . . . . . . . . . 98 4.7. Prueba de hipótesis en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.7.1. Prueba de hipótesis sobre igualdad de medias, muestras independientes . . . 100 4.7.2. Prueba de hipótesis sobre igualdad de medias, muestras dependientes . . . . 104 4.7.3. Prueba de hipótesis sobre igualdad de proporciones . . . . . . . . . . . . . . 106 4.7.4. Prueba de hipótesis sobre igualdad de varianzas . . . . . . . . . . . . . . . . 108 4.8. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.8.1. Contraste en una población . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.8.2. Comparación de dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 115 4
  • 5. ÍNDICE ÍNDICE Prefacio El objetivo de este documento es ayudar a los estudiantes en su proceso de aprendizaje en el curso de Inferencia Estadı́stica. Muchos de los obstáculos que todo estudiante debe enfrentarse en el transcurso de su carrera, es la falta de bibliografı́a. Además se dificulta el hecho de prestar atención a la clase y de tomar apuntes de la misma. Por esa razón, he considerado conveniente el tomarme tiempo para digitar en L A TEXun documento que trate sobre los temas que deben ser visto en el curso de Inferencia Estadı́stica; este material no tiene por objeto reemplazar en ningún momento a los libros clásicos sobre inferencia; sino más bien el de presentar de manera breve pero elegante un resumen de dichos libros en un solo documento que contenga toda la sencillez pero a la vez el rigor matemático necesario. Se ha considerado conveniente incorporar un apartado sobre probabilidad, con el objetivo de pre- sentar los conocimientos previos que el estudiante debe poseer para una comprensión adecuada del material que se presenta en el documento. Hago resaltar que todo el documento es de mi absoluta responsabilidad, por lo que agradeceré al lector comunicarme de cualquier falta ortográfica, gramatical o de cualquier errata que contenga el documento, e inclusive cualquier sugerencia para mejorar la redacción y la presentación del documento a la siguiente dirección electrónica canizales1985@gmail.com 5
  • 6. 1 PROBABILIDAD Y ESTADÍSTICA 1. PROBABILIDAD Y ESTADÍSTICA 1.1. Esperanza matemática Si X es una variable aleatoria con función de probabilidad P(X) (densidad f(X)), se define la esperanza matemática por: E[X] = n X i=1 xiP(X = xi); cuando X es discreta E[X] = Z ∞ ∞ xf(x)dx; cuando X continua La esperanza matemática es una función lineal y cumple las siguientes propiedades: 1. E[aX] = aE[X] 2. E[X ± b] = E[X] ± b 3. E[aX ± b] = aE[X] ± b 4. E[X ± Y ] = E[X] ± E[Y ] Además, 1. var(X) = E[X2 ] − E[X]2 2. cov(X; Y ) = E[XY ] − E[X]E[Y ] También si X e Y son variables aleatorias se cumple lo siguiente: E[XY ] = E[X]E[Y ] 1.2. Función Caracterı́stica Sea X una variable aleatoria con función de distribución F(X). Se llama función caracterı́stica de la variable aleatoria X y se le representa por φX(t), a la esperanza matemática de exp(itX) (la cual es también variable aleatoria). 6
  • 7. 1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA Es decir, φX(t) = E [exp(itX)] = Z ∞ ∞ exp(itX)dF(x) Continua = n X i=1 exp(itxi)P(X = xi) Discreto Teorema 1.1. Sean X1, X2, . . . , Xn, un conjunto de variables aleatorias independientes cada una con función caracterı́stica φX1 (t), φX2 (t), . . . , φXn (t). Entonces la variable aleatoria: Y = a1X1 + a2X2 + · · · + anXn tiene la siguiente función caracterı́stica φY (t) = φX1 (a1t)φX2 (a2t) . . . φXn (ant) (1) Demostración. φY (t) = E [exp (t (a1X1 + a2X2 + · · · + anXn))] = E [exp (ta1X1) exp (ta2X2) · · · exp (tanXn)] = E [exp (ta1X1)] E [exp (ta2X2)] · · · E [exp (tanXn)] = φX1 (a1t)φX2 (a2t) . . . φXn (ant) 1.3. Distribuciones de probabilidad Si X es una variable aleatoria que puede tomar los valores (x1, x2, . . . , xk), se llama distribución de probabilidad de X al siguiente cuadro: X P(X) x1 P(x1) x2 P(x2) . . . . . . xk P(xk) 1 7
  • 8. 1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA A continuación se presentan las principales distribuciones de probabilidad que son necesarias para el desarrollo del curso. 1.3.1. Distribución normal Una variable aleatoria X se dice que tiene una distribución normal de parámetros µ (media) y σ2 (varianza) si función de densidad es la siguiente: f(x) = 1 σ √ 2Π exp − (x − µ)2 2σ2 (2) la cual se abrevia por X ∼ N(µ; σ2 ). Su función caracterı́stica es: φX(t) = exp itµ − t2 σ2 2 Una variable aleatoria X se dice que tiene una distribución normal estándar N(0; 1) si función de densidad es la siguiente: f(x) = 1 √ 2Π exp − x2 2 (3) Su función caracterı́stica es: φX(t) = exp − t2 2 Teorema 1.2. Sean X1, X2, . . . , Xn, n variables aleatorias independientes cada una con Xi ∼ N(µi; σ2 i ). Entonces la variable aleatoria Z = a1X1 + a2X2 + · · · + anXn es una variable con distribución normal de parámetros µ = Pn i=1 aiµi y σ2 = Pn i=1 a2 i σ2 i Demostración. Si Xi ∼ N(µi; σ2 i ) entonces aiXi ∼ N(aiµi; a2 i σ2 i ), y φaiXi (t) = exp it (aiµi) − 1 2 t2 a2 i σ2 i 8
  • 9. 1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA Puesto que las Xi son independientes, φX(t) = φa1X1 (t)φa2X2 (t) · · · φanXn (t) = exp ita1µ1 − 1 2 t2 a2 1σ2 1 exp it (a2µ2) − 1 2 t2 a2 2σ2 2 · · · exp itanµn − 1 2 t2 a2 nσ2 n = exp it n X i=1 aiµi − 1 2 t2 n X i=1 a2 i σ2 i ! La cual es precisamente la función caracterı́stica de una distribución normal de parámetros µ = Pn i=1 aiµi y σ2 = Pn i=1 a2 i σ2 i 1.3.2. Distribución Chi-Cuadrado Sean X1, X2, . . . , Xn, n variables aleatorias independientes e idénticamente distribuidas con Xi ∼ N(0; 1). Llamaremos χ2 n de Pearson a la variable aleatoria χ2 n = X2 1 + X2 2 + · · · + X2 n (4) El subı́ndice n corresponde al número de variables aleatorias independientes, y se suele llamar grados de libertad. Su función caracterı́stica es: φχ2 n (t) = (1 − 2it) − n 2 (5) Teorema 1.3. Sean χ2 n1 , χ2 n2 , . . . , χ2 nk , k variables aleatorias independientes con distribución Chi- Cuadrada con grados de libertad respectivos n1, n2, . . . , nk. Entonces la variable aleatoria η = χ2 n1 + χ2 n2 + . . . + χ2 nk Sigue una distribución Chi-cuadrado con grados n1 + n2 + . . . + nk de libertad. Demostración. φη(t) = φχ2 n1 (t)φχ2 n2 (t) · · · φχ2 nk (t) = (1 − 2it) − n1 2 (1 − 2it) − n2 2 · · · (1 − 2it) − nk 2 = (1 − 2it) − Pk i=1 ni 2 9
  • 10. 1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA La cual es precisamente la función caracterı́stica de una distribución Chi-cuadrado con grados Pk i=1 ni de libertad. En una distribución Chi-cuadrado se cumple: 1. E [χ2 n] = n 2. var (χ2 n) = 2n 1.3.3. Distribución t de Student Sean X, X1, X2, . . . , Xn, n + 1 variables aleatorias independientes e idénticamente distribuidas con Xi ∼ N(0; 1). Llamaremos t de Student a la variable aleatoria siguiente: T = X r 1 n Pn i=1 X2 i (6) Teorema 1.4. La distribución t de Student es ası́ntoticamente N(0; 1). Es decir, si n → ∞, entonces t ∼ N(0; 1). 1.3.4. Distribución F de Snedecor Sean χ2 m y χ2 n, dos variables aleatorias independientes con distribución Chi-cuadrado con grados de libertad respectivos m y n. Llamaremos F de Snedecor con (m, n) grados de libertad, y la representaremos por F(m, n) a la variable aleatoria: F = 1 m χ2 m 1 n χ2 n (7) Propiedades de la distribución F. 1. Si X ∼ F(m, n), entonces 1 X ∼ F(n, m) 2. Si representamos por F(m, n, α) al valor en el distribución F de Snedecor tal que P{F(m, n) F(m, n, α)} = α. Entonces F(m, n, 1 − α) = 1 F(n, m, α) 10
  • 11. 1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA 3. Si t ∼ tn, entonces la variable aleatoria t2 ∼ F(1, n). 1.4. Inferencia Estadı́stica 1.4.1. Introducción Estadı́stica Descriptiva Permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Su materia prima la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Ejemplo; Durante los últimos dı́as se ha informado de un total de 13 homicidios diarios. La encuesta Gallup informa que una ventaja del 20 % para el candidato de izquierda. Estadı́stica Inferencial Generaliza los resultados de una muestra a los de una población total; es cuando de los datos estadı́sticos obtenidos de una muestra se deduce o infiere una observación la cual se generaliza sobre la población total. Para determinar la confiabilidad de la inferencia de los datos estadı́sticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa en una muestra también se observará en la población. Generalmente el análisis inferencial se lleva a cabo para mostrar relaciones de causa y efecto, ası́ como para probar hipótesis y teorı́as cientı́ficas. El curso de Inferencia Estadı́stica se divide en: Estimación de parámetros y prueba de hipótesis. Existen dos tipos de estimaciones para parámetros: Puntuales y por intervalo. Técnicamente la Inferencia, consiste en, una vez estudiada la muestra, proyectar las conclusiones obtenidas al conjunto de la población. Por motivos obvios, la calidad de estudio, que se realice depende, por una parte, de la calidad de la muestra y, por otra, del uso que de ella se haga. Se supondrá que la muestra ha sido seleccionada con algún tipo de muestreo probabilı́stico. En primer lugar, se ha de hacer notar que la pobación va a venir representada por una variable alea- toria con una determinada distribución de probabilidad. Dependiendo del grado de conocimiento de ésta se distinguen dos métodos para realizar el proceso inferencial. 11
  • 12. 1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA 1. Inferencia paramétrica. Es aquella en la que se admite que la distribución de la población pertenece a cierta familia paramétrica de distribuciones conocidas, siendo necesario únicamente precisar el valor de los parámetros para determinar la distribución poblacional. 2. Inferencia no paramétrica. No supone ninguna distribución de probabilidad de la población, exigiendo sólo hipótesis muy generales, como puede ser la simetrı́a. EJEMPLO 1.1 Se realiza un estudio para comprobar tres métodos de compresión lectora a niños de segundo grado, como son: Intrucción directa. Enseñanza recı́proca. Combinación de los dos métodos. Las preguntas a resolver son: ¿Cuál de los métodos mejora la compresión lectora? ¿Para el próximo año el método identificado como el mejor, dará buenos resultados para el alumno “Juan Pérez”, quien cursará el segundo grado? La primera pregunta es un caso de incertidumbre porque, basándonos en el estudio de los tres métodos a cada muestra de manera independientemente; con el apoyo de la Inferencia Estadı́stica contestamos esta pregunta, eligiendo a la que mejora significativamente la compresión lectora, para el tipo de alumnos en la muestra. La segunda pregunta es un caso de toma de desiciones, porque “Juan Pérez” no ha participado en el estudio, pero se le aplicará el mejor método que resulte de la investigación realizada, claro está con un cierto nivel de confianza y margen de error admisible. 12
  • 13. 1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA Los casos de incertidumbre y toma de desiciones son resueltos por la estadı́stica inferencial, apo- yando por supuesto de la probabilidad. Ası́, por ejemplo, nos puede interesar tener información sobre: La renta media de todas las familias de una ciudad. El tiempo medio de espera en la caja de un supermercado. La proporción de automóviles que se averı́an durante el primer año de garantı́a. etc. Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de dos maneras: 1. En la estimación, basta seleccionar un estadı́stico muestral cuyo valor es utilizará como estimador del valor del parámetro poblacional. 2. En la contrastación de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se utiliza la información proporcionada por una muestra para decidir si la hipótesis se acepta o se rechaza. 1.4.2. Razones que justifican un estudio inferencial La realización de un estudio inferencial se justifica por distintas circunstancias, algunas de ellas son las siguientes: Por motivos presupuestarios. La realización de un estudio a través de muestras supone un ahorro tanto de dinero como de tiempo. En ocasiones la población tiene un gran número de elementos, pudiendo ser éstos potencial- mente infinitos (número de clientes demandando un servicio). No todos los elementos de la población están localizados o no son localizables. Existe situaciones en la que cuando se analiza un elemento éste es destruido. 13
  • 14. 1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA Por motivos de precisión. Aunque parezca contradictorio, a veces un análisis total, implica que se comentan errores graves en la medición, codificación, resumen, etc., cuestiones que pueden ser mucho mejor controladas utilizando un estudio a partir de una muestra. 1.4.3. Conceptos de muestreo Las estadı́sticas de por si no tienen sentido si no se consideran o se relacionan dentro del contexto con que se trabaja. Población. Es el conjunto total de individuos, objetos, elementos que poseen algunas carac- terı́sticas observables en un lugar y en un momento determinado. La población por su parte debe contener las siguientes caracterı́sticas: 1. Homogeneidad. Que todos los elementos de la población tenga las mismas caracterı́sticas según las variables que se vayan a considerar. Por ejemplo, si se fuera a investigar la inci- dencia de la drogadicción entre jóvenes mujeres adolescentes hay que definir claramente las edades que comprenden la adolescencia. 2. Tiempo. Se refiere al perı́odo de tiempo donde se ubicarı́a la población de interés. 3. Espacio. Se refiere al lugar geográfico donde se ubica la población de interés. 4. Cantidad. Se refiere al tamaño (número de elementos) de la población de interés. Muestra. Es un subconjunto (por lo regular fielmente) de la población. Parámetros. Caracterı́stica que se desea conocer en la población, tales como: una proporción, una media; suelen denotarse por letras griegas θ. Estimador. Función matemática (aplicada a una muestra (X1, X2, . . . , Xn)) para predecir (estimar) el valor de un parámetro, θ̂ = f(X1, X2, . . . , Xn) Estimación. Valor que toma el estimador para una muestra concreta. Marco muestral. Es el listado fı́sico de todos los elementos de la población y con el cual se elegi la muestra. 14
  • 15. 1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA Muestra aleatoria. Dada una población X se llama muestra aleatoria de tamaño n a la repeti- ción de X1, X2, . . . , Xn variables aleatorias independientes con ditribución igual, y denotada por (X1, X2, . . . , Xn). 1.4.4. Tipos de muestreo Hay diferentes tipos de muestreo. No probabilı́sticos: Intencional, y sin norma. En el primero es la persona que selecciona la muestra la que procura que sea representativa; por consiguiente, la representatividad depende de su intención al seleccionar la muestra. En el muestreo sin norma se toma la muestra de cualquier manera, a la aventura, por razones de comodidad o circunstancias. Estos tipos de muestreo no serán considerados. Probabilı́stico: Decimos que el muestreo es probabilı́stico cuando puede calcularse de antemano cuál es la probabilidad de obtener cada una de las muestras que sea posible seleccionar, con lo cual es posible conocer la probabilidad de que un elemento pertenezca a una muestra. Entre los muestreos probabilı́sticos, los más ampliamente utilizados son los siguientes: 1. Muestreo Aleatorio Simple. Decimos que una muestra es aleatoria simple cuando: Cada elemento de la población tiene la misma probabilidad de ser seleccionado en la muestra. Todas las muestras posibles tienen igual probabilidad. 2. Muestreo Estratificado. Se denomina muestreo estratificado a aquel en que los elementos de la población se dividen en clases o estratos. En cada estrado, los elementos son homogéneos respecto a la caracterı́stica a estudiar, y entre estratos son heterogéneos. 15
  • 16. 1.5 Problemas propuestos 1 PROBABILIDAD Y ESTADÍSTICA 3. Muestreo por Conglomerado. Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son aplicables, ya que no disponemos de una lista con el número de elementos de la población ni de los posibles estratos. En estos casos tı́picamente los elementos de la población se encuentran de manera natu- ral agrupados en conglomerados, cuyo número si se conoce. Usualmente los conglomerados representan zonas geográficas tales como: municipios, provincias, distritos, etc. Puede suponerse que cada conglomerado es una muestra representativa de la población. Las ideas de estratificación y de conglomerados son opuestas: la estratificación funciona tanto mejor cuánto mayores sean las diferencias entre los estratos y más homogéneos sean éstos inter- namente; los conglomerados funcionan si hay pocas diferencias entre ellos y son muy heterogéneos internamente (incluyen toda la variabilidad de la población dentro de cada uno). En lo que resta se supondra una muestra aleatoria seleccionada con reposición a no ser que se diga lo contrario. 1.5. Problemas propuestos 1. Demuestre que si X tiene una distribución de Student Tn con n grados de libertad, entonces si n 2 E[X] = 0 V [X] = n n − 2 2. Demuestre que si X es una variable aleatoria con distribución de Snedecor Fm,n, entonces si n 4 E[X] = n n − 2 V [X] = 2n2 (n + m − 2) m(n − 2)2(n − 4) 16
  • 17. 2 DISTRIBUCIONES MUESTRALES 2. DISTRIBUCIONES MUESTRALES 2.1. Distribución conjunta de la muestra La probabilidad de extracción de una muestra aleatoria simple concreta (X1, X2, . . . , Xn), si la variable poblacional es discreta con función de masa P(X = x), se calcula de la siguiente manera: El suceso final es {X1 = x1} T {X2 = x2} T · · · T {Xn = xn}; (Xi = xi) significa que el elemento i- ésimo de la muestra es xi. Y como la muestra es aleatoria simple sus elementos son independientes, por lo cual; P(x1, x2, . . . , xn) = P ({X1 = x1} ∩ {X2 = x2} ∩ · · · ∩ {Xn = xn}) = P ({X1 = x1}) P ({X2 = x2}) · · · P ({Xn = xn}) Siendo P ({Xk = xk}) la probabilidad de obtener (observar) en la población un elemento cuyo valor sea xk y P(x1, x2, . . . , xn) es la función de probabilidad conjunta de la muestra. En el caso de que la variable aleatoria poblacional sea continua, con función de densidad f(x), la probabilidad elemental de obtener un resultado concreto (X1, X2, . . . , Xn), por ser la muestra aleatoria es: f(x1, x2, . . . , xn) donde f(x1, x2, . . . , xn) es la función conjunta de la muestra, verficándose que: f(x1, x2, . . . , xn) = f(x1)f(x2) · · · f(xn) por ser independientes cada uno de sus elementos. En una muestra aleatoria simple (X1, X2, . . . , Xn) se verifican las siguientes relaciones entre sus elementos: 1. F(X1) = F(X2) = · · · = F(Xn) 2. F(X1, X2, . . . , Xn) = F(X1)F(X2) · · · F(Xn) Es decir, las variables Xi son independientes e idénticamente distribuidas con la misma distribución de probabilidad que tenga la población. Si la muestra no fuera aleatoria (es decir, la selección fuése sin reemplazamiento) 17
  • 18. 2.2 Estadı́sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES P(X1, X2, . . . , Xn) = ΠP(Xi = xi/X1 = x1, X2 = x2, . . . , Xi−1 = xi−1) f(X1, X2, . . . , Xn) = Πf(Xi/X1, X2, . . . , Xi−1) 2.2. Estadı́sticos y distribuciones muestrales Definición 2.1. La distribución de muestreo de un estadı́stico θ̂ es la distribución de probabilidad de θ̂ que puede obtenerse como resultado de un número infinito de muestras aleatorias indepen- dientes, cada una de tamaño n, provenientes de la población de interés. Dado que se supone que las muestras son aleatorias, la distribución de un estadı́stico es un tipo de modelo de probabilidad conjunta para variables aleatorias independientes, en donde cada variable posee una función de densidad de probabilidad igual a la de las demás. De manera general, la distribución de muestreo de un estadı́stico no tiene la misma forma que la función de densidad de probabilidad en la distribución de la población. EJEMPLO 2.1 Una urna contiene 1000 bolas, todas de igual tamaño, y marcadas con 4 números distintos: 400 con el número 1, 100 con el 2, 300 con el 3 y las 200 restantes con el 4. La distribución de probabilidad de la población es: P(X = 1) = 0.4 P(X = 2) = 0.1 P(X = 3) = 0.3 P(X = 4) = 0.2 Tomamos una muestra aleatoria de tamaño 100, siendo el resultado: 43 bolas con el número 1, 6 con el 2, 28 con el 3 y 23 con el 4. La distribución de frecuencias de la muestra obtenida es: n1 n = 0.43 n2 n = 0.06 n3 n = 0.28 n4 n = 0.23 En la figura (1) se muestra graficamente la comparación de las frecuencias relativas en la muestra en comparación con los de la población. Los cı́rculos de color azul corresponde a la distribución poblacional, mientras que las barras corresponden a la distribución muestral. 18
  • 19. 2.2 Estadı́sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES Figura 1: Distribución de frecuencia en la muestra Si comparamos ambas distribuciones se aprecia que son muy parecidas pero no coinciden, pues la muestra no reproduce exactamente la estructura de la población, debiéndose esta diferencia a la variabilidad introducida en la estricta aleatoriedad de la muestra. Si más muestras, cada una de ellas tendrá su propia distribución, que se aproximará tanto más a la población cuanto “más aleatorio” haya sido el proceso de selección, es decir, “más objetivo”. En general, en una muestra concreta, sus caracterı́sticas (momentos, etc.) no tienen por qué coin- cidir exactamente con las correspondientes de la población a cuasa de la aleatoriedad del procedi- miento de extracción de los elementos, pero sı́ la muestra ha sido tomada con las máximas garantı́as de aleatoriedad, con máxima objetividad, es de esperar que los valores de las caracterı́sticas mues- trales no se alejen demasiado de los poblaciones, lo que proporciona a la muestra sus posibilidades inductivas. En el caso de que la caracterı́stica fuese la media: 19
  • 20. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES En la población, µ = 1 × 0.4 + 2 × 0.1 + 3 × 0.3 + 4 × 0.2 = 2.3 Mientras que en la muestra X̄ = 1 × 0.43 + 2 × 0.06 + 3 × 0.28 + 4 × 0.23 = 2.31 Claramente no coinciden, sin embargo, son muy parecidos. Muestra aleatoria, significa de ahora en adelante que la muestra ha sido seleccionada de manera aleatoria y con reposición (un elemento puede estar incluido más de una vez en la muestra). 2.3. Distribución muestral de la media EJEMPLO 2.2 Una variable aleatoria X tomo los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y 0.7. Tomamos mues- tras aleatorias simples de tamaño 3 y consideramos como estadı́stico la media muestral. Encontrar la distibución en el muestreo para X̄. Solución. En el cuadro 1 se muestra todas las muestras de tamaño 3 que pueden obtenerse de la población. En la columna identificada como tipo, se muestra los elementos que conforman a cada una de las muestras (sin considerar el orden de aparición); en la columna muestra se enumeran todas las muestras posibles; en las restantes columnas se muestra el valor de la media muestra (X̄) y la probabilidad asociada para cada una de las muestras (P(muestras)). La distribución en el muestreo de X̄ se muestra en el cuadro 2. EJEMPLO 2.3 Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la distribución en el muestreo para la media en el caso que el tamaño de la muestra sea 2. Solución. En el cuadro 3 se presentan las muestras obtenidas de tamaño 2 que pueden obtenerse de la población. En la columna etiqueta como “Tipo” se muestran las muestras que pueden obtenerse 20
  • 21. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuadro 1: Muestras obtenidas para el ejemplo 2 Tipo Muestras X̄ P(Muestra) Tipo Muestras X̄ P(Muestra) {1, 1, 1} {1, 1, 1} 1 0.13 {1, 1, 2} 4 3 0.12 × 0.2 {1, 1, 3} 5 3 0.12 × 0.7 {1, 1, 2 } {1, 2, 1 } 4 3 0.12 × 0.2 {1, 1, 3 } {1, 3, 1 } 5 3 0.12 × 0.7 {2, 1, 1} 4 3 0.12 × 0.2 {3, 1, 1} 5 3 0.12 × 0.7 {2, 2, 2} {2, 2, 2} 2 0.23 {1, 2, 2} 5 3 0.22 × 0.1 {3, 2, 2} 7 3 0.22 × 0.7 {1, 2, 2 } {2, 2, 1 } 5 3 0.22 × 0.1 {3, 2, 2 } {2, 2, 3 } 7 3 0.22 × 0.7 {2, 1, 2} 5 3 0.22 × 0.1 {2, 3, 2} 7 3 0.22 × 0.7 {3, 3, 3} {3, 3, 3} 3 0.73 {1, 3, 3} 7 3 0.72 × 0.1 {2, 3, 3} 8 3 0.72 × 0.2 {1, 3, 3 } {3, 3, 1 } 7 3 0.72 × 0.1 {2, 3, 3 } {3, 3, 2 } 8 3 0.72 × 0.2 {3, 1, 3} 7 3 0.72 × 0.1 {3, 2, 3} 8 3 0.72 × 0.2 {1, 2, 3} 2 0.1 × 0.2 × 0.7 {1, 3, 2} 2 0.1 × 0.2 × 0.7 {1, 2, 3 } {2, 1, 3 } 2 0.1 × 0.2 × 0.7 {1, 2, 3 } {2, 3, 1} 2 0.1 × 0.2 × 0.7 {3, 1, 2} 2 0.1 × 0.2 × 0.7 {3, 2, 1} 2 0.1 × 0.2 × 0.7 (sin considerar el orden de los elementos en la misma); en la columna “Cantidad” se presenta el número de muestras diferentes que pueden considerarse para cada tipo; mientras que en las columnas restantes se muestra la media muestral para cada tipo de muestra. En el cuadro 4 se muestra la distribución muestral de la media para todas las muestras posibles de tamaño 2. EJEMPLO 2.4 Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la distribución en el muestreo para la media en el caso que el tamaño de la muestra sea 3. Solución. En el cuadro 5 se presentan las muestras obtenidas de tamaño 3 que pueden obtenerse de 21
  • 22. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuadro 2: Distribución en el muestreo de la media muestral, datos del ejemplo 2 X̄ P(X̄) 1 0.13 = 0.001 4 3 3 × 0.12 × 0.2 = 0.006 5 3 3 × 0.12 × 0.7 + 3 × 0.1 × 0.22 = 0.033 2 6 × 0.1 × 0.2 × 0.7 + 0.23 + 0.092 7 3 3 × 0.22 × 0.7 + 3 × 0.1 × 0.72 = 0.231 8 3 3 × 0.2 × 0.72 = 0.294 3 0.73 = 0.343 la población. En la columna etiqueta como “Tipo” se muestran las muestras que pueden obtenerse (sin considerar el orden de los elementos en la misma); en la columna “Cantidad” se presenta el número de muestras diferentes que pueden considerarse para cada tipo; mientras que en las columnas restantes se muestra la media muestral para cada tipo de muestra. En el cuadro 6 se muestra la distribución muestral de la media para todas las muestras posibles de tamaño 3. En la figura 2 se representación gráfica de la distribución de la media muestral para los ejemplos 3 y 4. La distribución en el caso de muestras de tamaño 2 se muestra en 3a; mientras que la distribución para muestras de tamaño 3 se presenta en 3b. Puede observarse que al aumentar el tamaño de la muestra mejora la precisión de las estimaciones, pues la curva correspondiente para n = 3 muestra menor dispersión. Estudiaremos el efecto del tamaño de la muestra más adelante. 22
  • 23. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuadro 3: Muestras obtenidas de tamaño 2 para el ejemplo 3 Tipo Cantidad X̄ Tipo Cantidad X̄ {1 , 2 } 2 1.5 {1 , 3 } 2 2 {1 , 4 } 2 2.5 {1 , 5 } 2 3 {2 , 3 } 2 2.5 {2 , 4 } 2 3 {2 , 5 } 2 3.5 {3 , 4 } 2 3.5 {3 , 4 } 2 1.5 {3 , 5 } 2 4 {4 , 5 } 2 4.5 {1 , 1 } 1 1 {2 , 2 } 1 2 {3 , 3 } 1 3 {4 , 4 } 1 4 {5 , 5 } 1 5 Figura 2: Distribución muestral de la media para los ejemplos 3 y 4 (a) Muestras de tamaño 2 (b) Muestras de tamaño 3 Denotemos por X̄i a la media muestral para una muestra de tamaño i. De los resultados anteriores podemos verificar que se cumple que: E X̄2 = 1 1 25 + 1.5 2 25 + · · · + 4.5 2 25 + 5 1 25 = 3 23
  • 24. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuadro 4: Distribución en el muestreo de la media para el ejemplo 3 X̄ P(X̄) 1 1 25 1.5 2 25 2 3 25 2.5 4 25 3 1 5 3.5 4 25 4 3 25 4.5 2 25 5 1 25 E X̄3 = 1 1 125 + 4 3 3 125 + · · · + 14 3 3 125 + 5 1 125 = 3 Además; var X̄2 = 1 var X̄3 = 0.667 De lo anterior se observa que el valor esperado de la media muestral siempre coincide con el valor de la media poblacional. Por otra parte, la varianza de la media muestral parece disminuir a medida que el tamaño de la media muestra aumenta. Hagamos ahora un análisis geneneral sobre el comportamiento de la media muestral para cualquier tamaño, recordemos únicamente que: X̄ = 1 n n X i=1 Xi y utilicemos el hecho que son muestras aleatorias y apoyándonos en las propiedades de valor 24
  • 25. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuadro 5: Muestras obtenidas de tamaño 3 para el ejemplo 4 Tipo Cantidad X̄ Tipo Cantidad X̄ {1 , 2, 3 } 6 2 {2 , 3, 4 } 6 3 {1 , 2, 4 } 6 7 3 {2 , 3, 5 } 6 10 3 {1 , 2, 5 } 6 8 3 {2 , 4, 5 } 6 11 3 {1 , 3, 4 } 6 8 3 {3 , 4, 5 } 6 4 {1 , 3, 5 } 6 3 {1 , 4, 5 } 6 10 3 {1 , 1, 2 } 3 4 3 {2 , 2, 1 } 3 5 3 {1 , 1, 3 } 3 5 3 {2 , 2, 3 } 3 7 3 {1 , 1, 4 } 3 2 {2 , 2, 4 } 3 8 3 {1 , 1, 5 } 3 7 3 {2 , 2, 5 } 3 3 {3 , 3, 1 } 3 7 3 {4 , 4, 1 } 3 3 {3 , 3, 2 } 3 8 3 {4 , 4, 2 } 3 10 3 {3 , 3, 4 } 3 10 3 {4 , 4, 3 } 3 11 3 {3 , 3, 5 } 3 11 3 {4 , 4, 5 } 3 13 3 {5 , 5, 1 } 3 11 3 {5 , 5, 2 } 3 4 {5 , 5, 3 } 3 13 3 {5 , 5, 4 } 3 14 3 {1 , 1, 1 } 1 1 {2 , 2, 2 } 1 2 {3 , 3, 3 } 1 3 {4 , 4, 4 } 1 4 {5 , 5, 5 } 1 5 esperado. E X̄ = E 1 n n X i=1 Xi # = 1 n n X i=1 E [Xi] = 1 n n X i=1 µ = nµ n = µ 25
  • 26. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuadro 6: Distribución en el muestreo de la media para el ejemplo 4 X̄ P(X̄) 1 1 125 4 3 3 125 5 3 6 125 2 2 25 7 3 3 25 8 3 18 125 3 19 125 10 3 18 125 11 3 3 25 4 2 25 13 3 6 125 14 3 3 125 5 1 125 Mientras que: var X̄ = var 1 n n X i=1 Xi ! = 1 n2 n X i=1 var(Xi) = 1 n2 n X i=1 σ2 = nσ2 n2 = σ2 n y qué pasarı́a si el muestreo se realiza sin reposición? Se sigue cumpliendo lo anterior? Sı́ se obtienen muestras sin reemplazamiento de una población de tamaño N, y cada una muestra es de tamaño n, por principios de conteo se sabe que en total habrá N n muestras distintas. 26
  • 27. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Si se fija un elemento en la muestra, digamos Xi, en total habrá N−1 n−1 muestras que contenga a Xi. De este modo; E X̄ = 1 N n (N n ) X j=1 1 n n X i=1 Xi ! j = 1 n N n N X i=1 Xi N − 1 n − 1 = N−1 n−1 n N n N X i=1 Xi = N−1 n−1 n N n N−1 n−1 N X i=1 Xi = 1 N N X i=1 Xi = µ Veamos ahora que sucede con la varianza de la media muestral, note que ahora Xi y Xj si están relacionadas entre sı́, y ya no son independientes como en el caso anterior. La probabilidad de Xi y Xj pertenezcan a una muestra es de 1 N(N−1) . 27
  • 28. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES 1. Primera forma: var X̄ = var 1 n n X i=1 Xi ! = 1 n2 var n X i=1 Xi ! = 1 n2 n X i=1 var(Xi) + 2 n X ij cov(Xi; Xj) # = 1 n2 nσ2 + 2 n X ij − σ2 N − 1 # = 1 n2 nσ2 − 2 σ2 N − 1 n(n − 1) 2 = σ2 n2 n − n(n − 1) N − 1 = σ2 n2 nN − n − n2 + n N − 1 = σ2 n N − n N − 1 28
  • 29. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Puesto que: Cov(Xi; Xj) = E[XiXj] − µ2 = N X i6=j XiXj 1 N(N − 1) − 1 N2 N X i=1 Xi !2 = 1 N   N X i6=j XiXj N − 1 − 1 N N X i=1 Xi !2   = 1 N    PN i=1 Xi 2 − PN i=1 X2 i N − 1 − 1 N N X i=1 Xi !2    = −1 N   PN i=1 X2 i N − 1 + 1 N N X i=1 Xi !2 − 1 N − 1 N X i=1 Xi !2   = −1 N   PN i=1 X2 i N − 1 − 1 N(N − 1) N X i=1 Xi !2   = −1 N(N − 1)   N X i=1 X2 i − 1 N N X i=1 Xi !2   = −1 N(N − 1) N X i=1 X2 i − µ 2 = −1 N − 1 σ2 2. Segunda forma: Se verifica que: n X̄ − µ = (X1 − µ) + (X2 − µ) + · · · + (Xn − µ) = n X i=1 (Xi − µ) Por consiguiente n2 X̄ − µ 2 = (X1 − µ)2 + (X2 − µ)2 + · · · + (Xn − µ)2 + 2 (X1 − µ) (X2 − µ) + · · · + 2 (Xn−1 − µ) (Xn − µ) = n X i=1 (Xi − µ)2 + 2 n X ij (Xi − µ) (Xj − µ) (8) En muestreo aleatorio debe cumplirse que E[nX̄] debe ser un múltiplo del total poblacional, 29
  • 30. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES es decir; E[X1 + X2 + · · · + Xn] = θ(X1 + X2 + · · · + XN ) Resulta que θ = n N , pues en la expresión anterior. En la izquierda hay n términos, mientras que en la derecha hay N. Bajo un razonamiento análogo se deduce que E n X i=1 (Xi − µ)2 # = n N N X i=1 (Xi − µ)2 # y también E 2 n X ij (Xi − µ) (Xj − µ) # = n(n − 1) N(N − 1) 2 N X ij (Xi − µ) (Xj − µ) # (la suma de los productos se extiende sobre todas las parejas de elementos en la muestra (izquierda) y en la pobación (derecha)). La suma del lado izquierdo contiene n(n−1) 2 términos, mientras que la suma de la derecha contiene N(N−1) 2 términos. aplicando esperanza a la ecuación (8) y en base a los resultados anteriores, n2 E h X̄ − µ 2 i = n N N X i=1 (Xi − µ)2 # + 2 n(n − 1) N(N − 1) N X ij (Xi − µ) (Xj − µ) # Reescribiendo esta última expresión, resulta que: n2 E h X̄ − µ 2 i = n N 1 − n − 1 N − 1 N X i=1 (Xi − µ)2 + n − 1 N − 1 N X ij (Xi − µ) (Xj − µ) # Observe que, N X i=1 (Xi − µ) = 0 (una propiedad elemental de la media aritmética) Finalmente, var X̄ = 1 nN 1 − n − 1 N − 1 N X i=1 (Xi − µ)2 = N − n n(N − 1) σ2 30
  • 31. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES Cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la población el término N−n N−1 puede omitirse en el cálculo de la varianza, dicho término recibe el nombre de “co- rrección debida a poblaciones finitas” o “corrección por finitud”. Siempre y cuando n N sea pequeño. En la práctica puede ignorarse siempre y cuando la fracción en el muestreo n N no exceda el 5 %, y para muchos própositos aún cuando n N no exceda el 10 %. El efecto de ignorar la corrección es sobreestimar el error estándar en la estimación de X̄. Por ejemplo, si σ2 es la misma en dos poblaciones, una muestra de 500 de una poblacion de 200,000 da una estimación de la media de la población, casi tan precisa como una muestra de 500 de una población de 10,000. Teorema 2.2. En el caso de que la caracterı́stica poblacional de interés, tenga distribución normal, se cumplirá, no importando el tamaño de la muestra (siempre y cuando se trate de muestras aleatorias) que: X̄ ∼ N µ; σ2 n (9) Demostración. Recordemos que si: X ∼ N(µ; σ) Entonces su función generatriz es: φX(t) = exp itµ − t2 σ2 2 (10) Por consiguiente, la función generatriz de la media muestral es: φX̄(t) = E exp itX̄ = E exp it X1 + X2 + · · · + Xn n = E exp it X1 n exp it X2 n · · · exp it Xn n Al ser muestra aleatoria se cumple, φX̄(t) = E exp it X1 n E exp it X2 n · · · E exp it Xn n = φX1 t n φX2 t n · · · φXn t n Al ser las Xi normales φXi t n = exp itµ n − it2 σ2 2n2 ∀ i 31
  • 32. 2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES ⇒ φX̄(t) = exp itµ n − it2 σ2 2n2 n = exp itµ − t2 σ2 2n La cual es una función generatriz de una distribución normal de parámetros µ y σ2 n Observación: el resultado anterior sigue siendo válido en muestreo sin reemplazamiento (hay que reemplazar la varianza correspondiente). En el caso de que la distribución de la población sea normal pero se deconozca el valor de σ2 (muy común en la práctica). Más adelante veremos que una buena estimación de σ2 , será S2 n−1, la cuasivarianza muestral: S2 n−1 = 1 n − 1 X i=1 Xi − X̄ 2 Se sabe que, (n − 1)S2 n−1 σ2 ∼ χ2 n−1 La suma de n − 1 variables N(0; 1)2 independientes. De este modo t = X̄ − µ σ √ n s (n − 1)S2 n−1 (n − 1)σ2 = X̄ − µ r S2 n−1σ2 nσ2 = X̄ − µ Sn−1 √ n Es decir, la variable aleatoria t = X̄ − µ Sn−1 √ n ∼ tn−1 32
  • 33. 2.4 Distribución muestral de la proporción 2 DISTRIBUCIONES MUESTRALES (Resultado también válido para muestras no aleatorias) Para muestras grandes (n 30), se cumplirá que S2 n−1 ∼ = S2 n ∼ = σ2 , y por consiguiente: X̄ − µ Sn−1 √ n ≈ N(0; 1) Es decir, X̄ tendrá aproximadamente una distribución normal, como veremos más adelante Teo- rema Central del Lı́mite (TLC). 2.4. Distribución muestral de la proporción La proporción muestral, es la media muestral cuando las observaciones Xi sólo pueden tomar dos valores 0 y 1 (ausencia o presencia de la caracterı́stica o propiedad de interés). Puede asumirse que cada Xi sigue una distribución de Bernoulli de parámetro p (Xi ∼ B(p)). Sabemos que en la distribución de Bernoulli la media es p, mientras que la varianza es p(1 − p). En una muestra aleatoria, sea π la proporción muestral (estimador de p). Entonces; E [π] = E 1 n n X i=1 Xi # = 1 n n X i=1 E [Xi] = 1 n n X i=1 p = 1 n (np) = p 33
  • 34. 2.4 Distribución muestral de la proporción 2 DISTRIBUCIONES MUESTRALES Mientras que para la varianza, var (π) = var 1 n n X i=1 Xi ! = 1 n2 n X i=1 var (Xi) = 1 n2 n X i=1 p(1 − p) = 1 n2 (np(1 − p)) = p(1 − p) n Note que son expresiones parecidas al caso de X̄, donde σ2 ha sido reemplazada por p(1 − p). De una forma análoga puede verificarse que en muestras sin reposición, se verifica que: E [π] = p var (π) = N − n N − 1 p(1 − p) n Además, de manera equivalente puede verificarse que para n grande (muestras grandes) se cumple, π ∼ N p; p(1 − p) n La distribución en el muestreo de π, proporción observada en la muestra, se obtiene inmediatamente de la distribución Binomial. En efecto: P π = r n = PB(r) = n r pr (1 − p)n−r donde r es el número de elementos en la muestra que presentan la caracterı́stica de interés. LA SUMA DE n VARIABLES CON DISTRIBUCIÓN DE BERNOULLI DE PARÁMETRO p ES UNA NUEVA VARIABLE CON DISTRIBUCIÓN BINOMIAL. Es decir, la probabilidad de que la porporción en la muestra sea r n es igual a la probabilidad de obtener r elementos con esta caracterı́stica en una muestra de tamaño n; la cual es la distribución Binomial: π ∼ B (n; p) 34
  • 35. 2.5 Distribución muestral de la varianza 2 DISTRIBUCIONES MUESTRALES 2.5. Distribución muestral de la varianza La varianza muestral viene definida por la siguiente expresión: S2 n = 1 n n X i=1 Xi − X̄ 2 Mientras que la cuasivarianza muestral por, S2 n−1 = 1 n − 1 n X i=1 Xi − X̄ 2 Calculemos la esperanza para cada una de las estimaciones de la varianza poblacional. 1. Empezemos con la varianza muestral, E S2 n = E 1 n n X i=1 Xi − X̄ 2 # = E 1 n n X i=1 Xi − µ + µ − X̄ 2 # = E 1 n n X i=1 (Xi − µ)2 + 1 n n X i=1 µ − X̄ 2 + 2 1 n n X i=1 (Xi − µ) µ − X̄ # Puesto que: 1 n n X i=1 (Xi − µ) µ − X̄ = 1 n µ − X̄ n X i=1 (Xi − µ) = 1 n µ − X̄ nX̄ − nµ = − µ − X̄ 2 35
  • 36. 2.5 Distribución muestral de la varianza 2 DISTRIBUCIONES MUESTRALES ⇒ E S2 n = E 1 n n X i=1 (Xi − µ)2 + µ − X̄ 2 − 2 µ − X̄ 2 # = E 1 n n X i=1 (Xi − µ)2 − µ − X̄ 2 # = 1 n n X i=1 E (Xi − µ)2 − E h µ − X̄ 2 i = 1 n n X i=1 var(Xi) − σ2 n = σ2 − σ2 n = n − 1 n σ2 La varianza muestral no es centrada. 2. Veamos que sucede con la cuasivarianza muestral. Se sabe que: nS2 n = (n − 1)S2 n−1 ⇒ S2 n−1 = n n − 1 S2 n De este modo resulta; E S2 n−1 = E n n − 1 S2 n = n n − 1 E S2 n = n n − 1 n − 1 n σ2 = σ2 La cuasivarianza muestral es un estimador centrado para σ2 . Sı́ la caracterı́stica de interés poblacional X sigue una distribución normal de parámetros µ y σ2 , entonces la variable: χ2 = (n − 1) σ2 S2 n−1 (11) 36
  • 37. 2.6 Teorema Central del Lı́mite 2 DISTRIBUCIONES MUESTRALES Sigue una distribución Chi-Cuadrado con n − 1 grados de libertad. Es decir, si X ∼ N (µ; σ2 ), entonces X̄ ∼ N µ; σ2 n . Verifiquemos que efectivamente sigue tal distribución. Demostración. Primero observemos que, (n − 1)S2 n−1 = n X i=1 Xi − X̄ 2 = n X i=1 Xi − µ + µ − X̄ 2 = n X i=1 (Xi − µ)2 + n X i=1 µ − X̄ 2 + 2 n X i=1 (Xi − µ) µ − X̄ = n X i=1 (Xi − µ)2 + n µ − X̄ 2 − 2n µ − X̄ 2 = n X i=1 (Xi − µ)2 − n µ − X̄ 2 Por consiguiente; (n − 1)S2 n−1 σ2 = n X i=1 (Xi − µ)2 σ2 − n µ − X̄ 2 σ2 = n X i=1 Xi − µ σ 2 − µ − X̄ σ √ n !2 ⇒ (n − 1)S2 n−1 σ2 ∼ χ2 n − χ2 1 ∼ χ2 n−1 Pues cada uno de los n sumandos del primer término de la derecha de la ecuación sigue una distribución normal estándar elevada al cuadrado, lo mismo sucede para el segundo término; y como además se cumple que la suma (diferencia) de dos variables Chi-Cuadrado siguen también una distribución con grados de libertad igual a la suma (resta) de ambas variables. 2.6. Teorema Central del Lı́mite En muchos casos prácticos la distribución de la caracterı́stica de interés X no será siempre normal. El Problema Central del lı́mite expresa que la distribución de la suma de un número muy grande de variables aleatorias indenpendientes, en condiciones muy generales, se aproxima a la normal. 37
  • 38. 2.6 Teorema Central del Lı́mite 2 DISTRIBUCIONES MUESTRALES Estos teoremas revelan las razones por la cual, en muchos campos de aplicación, se encuentran distribuciones normales. Si X1, X2, . . . , Xn son variables aleatorias independientes e idénticamente distribuidas (iid), enton- ces: n X i=1 Xi ∼ N E n X i=1 Xi # ; var n X i=1 Xi !! y por consiguiente Pn i=1 Xi − E [ Pn i=1 Xi] p var ( Pn i=1 Xi) ∼ N(0; 1) cuando el tamaño de la muestra sea lo suficientemente grande, es decir, cuando n → ∞. Del resultado anterior, se deducen los siguientes teoremas: Teorema 2.3 (Levy-Lindeberg). Sean {Xn}n∈N variables aleatorias iid con E[Xi] = µ (finita) y var(Xi) = σ2 (finita) ∀i. Entonces Pn i=1 Xi − nµ σ √ n ∼ N(0; 1) Demostración. Debemos demostrar que φZn (t) → exp − t2 2 ; cuando n → ∞ con Zn = Pn i=1 Xi − nµ σ √ n Al ser las Xi variables aleatorias independientes e idénticamente distribuidas, todas tendrán la misma media µ, y la misma varianza σ2 (las cuales suponemos que son valores finitos). Será pues que ∀i ∈ N, E[Xi − µ] = 0 Haciendo Sn = Pn i=1 Xi, resulta que E[Sn] = µ y var(Sn) = nσ2 . Entonces ∀n ∈ N, se tiene: Zn = Sn − nµ √ nσ = Pn i=1 Xi − nµ √ nσ = n X i=1 Xi − µ √ nσ 38
  • 39. 2.7 Distribución muestral de la diferencia de dos medias 2 DISTRIBUCIONES MUESTRALES y φZn (t) = E exp it Pn i=1(Xi − µ) σ √ n = n Y i=1 E exp it(Xi − µ) σ √ n = n Y i=1 φXi−µ t σ √ n En vista que, E[Xi − µ] = 0, el segundo momento de Xi − µ coincide con su varianza, y utilizando además un desarrollo en serie de Taylor para φZn (t), con ε(t) → 0, cuando t → 0 (0 ε(t) t). Se tendrá que ∀n ∈ N φXi−µ(t) = 1 − σ2 2 t2 + ε(t) 6 t3 ⇒ φZn (t) = n Y i=1 φXi−µ t σ √ n = n Y i=1 1 − σ2 2 t2 σ2n + ε(t) 6 t3 = 1 − t2 2 n + ε(t) 6 t3 !n → exp − t2 2 Que es justo lo que querı́amos demostrar. Teorema 2.4 (Moivre). Sean {Xn}n∈N variables aleatorias iid con Xn ∼ Bin(n; p) ∀n. Entonces Xn − np p np(1 − p) ∼ N(0; 1) La demostración se deja como ejercicio para el estudiante. 2.7. Distribución muestral de la diferencia de dos medias Si en lugar de una población se consideran dos, y de cada una de ellas se selecciona una muestra aleatoria, la primera de tamaño n1 (X1, X2, . . . , Xn1 ); y la segunda de de tamaño n2 (Y1, Y2, . . . , Yn2 ) de manera independiente de la primera. Es decir; 39
  • 40. 2.7 Distribución muestral de la diferencia de dos medias 2 DISTRIBUCIONES MUESTRALES En la primera población X es la caracterı́stica de interés tal que E[X] = µ1 y var(X) = σ2 1, y sea (X1, X2, . . . , Xn1 ) una muestra aleatoria de ella. En la segunda población la caracterı́stica de interés Y (la misma que se mide en la primera población) tal que E[Y ] = µ2 y var(Y ) = σ2 2, y sea (Y1, Y2, . . . , Yn2 ) una muestra aleatoria de ella. Entonces para el estadı́stico, diferencia de media muestrales X̄ − Ȳ , se cumple que: E X̄ − Ȳ = E X̄ − E Ȳ = µ1 − µ2 Mientras que, var X̄ − Ȳ = var X̄ + var Ȳ = σ2 1 n1 + σ2 2 n2 1. En el caso de que las poblaciones sean normales, es decir; X ∼ N µ1; σ2 1 ⇒ X̄ ∼ N µ1; σ2 1 n1 Y ∼ N µ2; σ2 2 ⇒ Ȳ ∼ N µ2; σ2 2 n2 Sucederá que: X̄ − Ȳ ∼ N µ1 − µ2; σ2 1 n1 + σ2 2 n2 Demostración. La variable X̄ − Ȳ , tiene la función caracterı́stica: φX̄−Ȳ (t) = E exp it(X̄ − Ȳ ) = E exp itX̄ exp −itȲ = E exp itX̄ E exp −itȲ = φX̄(t)φȲ (−t) = exp itµ1 − it2 σ2 1 2n1 exp −itµ2 − it2 σ2 2 2n2 = exp it(µ1 − µ2) − t2 2 σ2 1 n1 + σ2 2 n2 40
  • 41. 2.7 Distribución muestral de la diferencia de dos medias 2 DISTRIBUCIONES MUESTRALES La última expresión es, precisamente la función caracterı́stica de una distribución normal N µ1 − µ2; σ2 1 n1 + σ2 2 n2 2. En caso que las poblaciones sean normales, pero se desconozcan σ2 1 y σ2 2. Para simplificar suponga que σ2 1 = σ2 2 = σ2 X̄ − Ȳ ∼ N µ1 − µ2; σ2 (n1 + n2) n1n2 Note que σ2 (n1 + n2) n1n2 es una varianza combinada de las dos poblaciones, de este modo: Z = X̄ − Ȳ − (µ1 − µ2) σ r (n1 + n2) n1n2 ∼ N(0; 1) Del mismo modo que se combinan las varianzas poblacionales podemos calcular las cuasiva- rianzas muestrales, sean S2 n1−1 y S2 n2−1 Por argumento similar al presentado para una población, puede verificarse que, (n1 − 1)S2 n1−1 + (n2 − 1)S2 n2−1 σ2 ∼ χ2 n1+n2−2 De este modo el estadı́stico t, t = (X̄−Ȳ )−(µ1−µ2) σ r (n1+n2) n1n2 s (n1 − 1)S2 n1−1 + (n2 − 1)S2 n2−1 σ2(n1 + n2 − 2) = q (n1n2) n1+n2 X̄ − Ȳ − (µ1 − µ2) s (n1 − 1)S2 n1−1 + (n2 − 1)S2 n2−1 (n1 + n2 − 2) ∼ tn1+n2−2 41
  • 42. 2.8 Distribución muestral de la diferencia de dos proporciones 2 DISTRIBUCIONES MUESTRALES 3. Cuando los tamaños de muestras sean grandes, digamos n1, n2 30 S2 n1−1 ≈ S2 n1 ≈ σ2 1 S2 n2−1 ≈ S2 n2 ≈ σ2 2 Por lo que el estadı́stico: Z = X̄ − Ȳ − (µ1 − µ2) s S2 n1−1 n1 + S2 n2−1 n2 ≈ N(0; 1) 2.8. Distribución muestral de la diferencia de dos proporciones Al igual que en el caso de una muestra partimos del hecho que la proporción muestral es la media aritmética de una variable que toma los valores 0 y 1 (ausencia o presencia de la caracterı́stica de interés). En la primera muestra de tamaño n1 las observaciones (X1, X2, . . . , Xn1 ), son variables aleatorias con distribución de Bernoulli de parámetro p1, es decir, Xi ∼ B(p1)∀ i = 1, . . . , n1 En la segunda muestra de tamaño n2 las observaciones (Y1, Y2, . . . , Yn2 ) (la cual es totalmente independiente de la primera), Yi ∼ B(p2)∀ i = 1, . . . , n2 p1 y p2 son respectivamente las proporciones poblacionales. Combinando entonces los resultados para la diferencia de medias (y el de una proporción) se tiene que: Sean Π1 y Π2 las proporciones de ambas muestras. ⇒ Π1 ∼ Bin(n1; p1) y Π2 ∼ Bin(n2; p2) ⇒ E [Π1 − Π2] = E [Π1] − E [Π2] = p1 − p2 42
  • 43. 2.9 Distribución muestral del cociente de dos varianzas 2 DISTRIBUCIONES MUESTRALES y ⇒ var (Π1 − Π2) = var (Π1) + var (Π2) = p1(1 − p1) n1 + p2(1 − p2) n2 Cuando los tamaños de ambas muestras sean relativamente grandes (n1, n2 30), se tendrá por el TLC. Π1 − Π2 ∼ N p̂1 − p̂2; p̂1(1 − p̂1) n1 + p̂2(1 − p̂2) n2 (12) donde p̂1 y p̂2 representan valores concretos de las estimaciones de las proporciones en ambas muestras, es decir, para una muestra concreta. 2.9. Distribución muestral del cociente de dos varianzas Dada una muestra aleatoria (X1, X2, . . . , Xn1 ) de una población N(µ1; σ2 1) y (Y1, Y2, . . . , Yn2 ) de una población N(µ2; σ2 2), ambas muestras independientes entre si. Por una parte de los resultados previos, se tendrá que: χ1 = (n1 − 1)S2 n1−1 σ2 1 ∼ χ2 n1−1 χ2 = (n2 − 1)S2 n2−1 σ2 2 ∼ χ2 n2−1 son variables aleatorias independientes (al ser las muestras independientes entre si). Resulta entonces, que la distribución en el muestreo del estadı́stico, F = (n1 − 1)S2 n1−1 (n1 − 1)σ2 1 (n2 − 1)S2 n2−1 (n1 − 1)σ2 2 = S2 n1−1 σ2 1 S2 n2−1 σ2 2 (13) sigue una distribución F de Snedecor con n1 −1 grados de libertad en el numerador y n2 −1 grados de libertad en el denominador. 43
  • 44. 2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES 2.10. Problemas propuestos 1. Una variable aleatoria Xtoma los valores 1, 2, 3, 4 y 5. Estudiar la distribución en el muestreo para la media muestral X̄, en los casos que el tamaño de la muestra aleatoria sea: a) 2 b) 3 c) 4 d) 5 2. Repetir el problema anterio, pero considerando que las muestras no son aleatorias (es decir, muestras se seleccionan sin reemplazamiento). 3. Sea (X1, X2, . . . , Xn) una muestra aleatoria de una población N(µ; σ2 ) y Xn+1 una varia- ble aleatoria independiente de la muestra anterior. Calcúlese la distribución de la variable aleatoria Y = r n n + 1 Xn+1 − X̄ S Siendo S2 , la cuasivarianza muestral. 4. Demuéstrese que dada una muestra aleatoria (X1, X2, . . . , Xn) de una población N(µ; σ2 ), las variables aleatorias X̄ y Xi − X̄ son independientes para todo i. 5. Sea X una población de Bernoulli de parámetro 1 2 y se consideran todas las muestras aleato- rias posibles de tamaño 3. Para cada muestra calcúlese X̄ y S2 , la media y la cuasivarianza muestrales y determı́nense sus distribuciones en el muestreo. 6. Dada una muestra aleatoria (X1, X2, . . . , Xn) de una población N(µ; σ2 ) se construyen: X̄k = 1 k k X i=1 Xi X̄n−k = 1 n − k n X i=k+1 Xi S2 k−1 = 1 k − 1 k X i=1 (Xi − X̄k)2 S2 n−k−1 = 1 n − k − 1 n X i=k+1 (Xi − X̄k)2 Calcúlese la distribución de las variables aleatorias: a) (k − 1)S2 k−1 + (n − k − 1)S2 n−k−1 σ2 44
  • 45. 2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES b) S2 k−1 S2 n−k−1 7. Dada dos muestras aleatorias independientes (X1, X2, . . . , Xm) de una población N(µ1; σ2 1) e (Y1, Y2, . . . , Yn) de una población N(µ2; σ2 2) respectivamente, y dos números reales α y β, hállese la distribución de la variable aleatoria α(X̄ − µ1) + β(Ȳ − µ2) Sp q 1 m + 1 n Donde S2 p = (m − 1)S2 1 + (n − 1)S2 2 n + m − 2 siendo S2 1 y S2 2 las cuasivarianzas muestrales. 8. Dada una muestra aleatoria de tamaño n, calcule la distribución de la media muestral X̄, cuando la población es: a) Bernoulli. b) Gamma. c) Exponencial. d) Cauchy. 9. Demostrar que para una muestra aleatoria de tamaño n de una población N(µ; σ2 ) se tiene que el segundo momento muestral respecto de la media (la varianza muestral) y la media muestral, son variables aleatorias independientes. 10. Dada una muestra aleatoria de tamaño n, de una población con momento poblacional de cuarto orden finito, demostrar que: E S2 = n n − 1 σ2 var S2 = β4 − β2 2 n − 2 β4 − 2β2 2 n2 − 4 β4 + 3β2 2 n3 Donde βk = E (X − µ)k , el momento poblacional de orden k respecto al centro de los datos. S2 denota la varianza muestral. 45
  • 46. 2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES 11. De una población binomial de parámetro n = 3 y p = 1 2 ; se extraen muestras aleatorias de tamaño 2. Determine: a) Distribución de la muestra. b) Distribución de la media muestral. c) Esperanza y varianza de la media muestral. d) Distribución de la varianza muestral. e) Esperanza de la varianza muestral. 12. Sea una urna con 100 bolas de las cuales 20 están marcadas con el número uno, 30 con el dos y 50 con el tres. Se extraen dos bolas al azar. Determine, primero suponiendo reemplazamiento en la extracción de las bolas y después no: a) Distribución de probabilidad de la muestra. b) Distribución de probabilidad, esperanza y varianza de la media. c) Comente los resultados obtenidos con y sin reemplazamiento. 13. Se lanza dos veces un dado ideal (todas las caras tienen igual probabilidad de ocurrencia). Determine: a) Distribución de probabilidad de la puntuación máxima obtenida. b) Probabilidad de que la puntuación máxima sea superior a 4. c) Si apuesta un millón de dólares a que la puntuación máxima en el lanzamiento de dos dados es superior a 4, ¿cuál es su ganancia esperada? 14. Los salarios mensuales de dos trabajadores de dos sectores económicos A y B se distribuyen independientemente según las leyes de probabilidad. Salarios en el sector A ∼ N(125; 30) Salarios en el sector B ∼ N(125; 60) Para muestras independientes de tamaño 100 en el sector A y de tamaño 90 en el sector B, determine: 46
  • 47. 2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES a) Distribución de probabilidad de la media muestral en el sector A. b) Distribución de probabilidad de la media muestral en el sector B. c) Distribución de probabilidad de la media muestral en el sector A menos la media mues- tral en el sector B. 15. De una población normal se toman dos muestras: la primera de tamaño 10 es tal que la su varianza es igual a 9; en la segunda de tamaño 8 se tiene que su varianza muestral es 20. ¿Cuál es la probabilidad de la diferencia de medias sea menor que 3? 16. El tiempo en minutos que un cliente debe esperar hasta ser atendido en una pastelerı́a de moda sigue una distribución exponencial, de modo que: F(x) = P(X ≤ x) = 1 − exp − x 2 Se elige una muestra de 100 clientes, y se miden los tiempos de espera. A partir de esta muestra se pide: a) Esperanza de la media muestral. b) Varianza de la media muestral. c) Esperanza de la varianza muestral. 17. Consideremos una muestra de tamaño 4 de una población normal N(µ, σ2 ), donde se desea estimar la media. Para ello se consideran los estimadores: T1 = 1 4 (X1 + X2 + X3 + X4) T2 = 1 2 X1 + 1 4 X2 + 1 8 (X3 + X4) a) Encuentre la esperanza de ambos estimadores. b) Encuentre la varianza de ambos estimadores. c) ¿Cuáles son las distribuciones de ambos estimadores? 18. Sea X una variable aleatoria con distribución de Poisson de parámetro λ. Dada una muestra aleatoria de tamaño n, encontrar la función de densidad conjunta de la muestra. 47
  • 48. 2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES 19. Sean (X1, X2, . . . , X25) e (Y1, Y2, . . . , Y25) dos muestras aleatorias independientes de dos po- blaciones N(0; 42 ) y N(1; 32 ). Determine: a) La distribución de muestreo de la diferencia de medias. b) Calcule P(X̄ Ȳ ). 20. Una población consiste en cuatro números 1, 2, 3 y 4. Se extraen dos elementos sin reempla- zamiento y se nota por (X1, X2) los valores obtenidos. Se pide a) Distribución conjunta de (X1, X2). b) Distribución de la media muestral. 21. La duración media de una muestra aleatoria de 10 bombillas de una población de desviación tı́pica 425 horas, fue de 1327 horas. Una muestra aleatoria independiente de la anterior de tamaño 6 de una población con desviación tı́pica de 375 horas, arrojó una duración media muestral de 1215 horas. Si las medias de las dos poblaciones se supones iguales, ¿qué probabilidad se tiene de obtener una desviación de las muestrales menor que la que se ha obtenido? 22. Una población se compone de los cinco números 2, 3, 6, 8, 11. Considerar todas las mues- tras posibles de tamaño dos que se puedan extraer con reemplazamiento de esta pobla- ción.Encontrar: a) La distribución de la media muestral. b) Distribución de la varianza muestral. c) Distribución de la cuasivarianza muestral. 23. Repetir el problema anterior pero considerando el caso que las muestras se eligen sin reem- plazamiento. 24. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media 22.4 onzas y desviación tı́pica 0.048 onzas. Si se extraen 300 muestras de tamaño 36 de esta población, determinar la esperanza y la desviación tı́pica de la distribución muestral de medias si el muestreo se hace con reemplazamiento, ¿y si se hace sin reemplazamiento? 48
  • 49. 2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES 25. Una población de 7 números tiene una media de 40 y una desviación tı́pica de 3. Si se extraen muestras de tamaño 5 de esta población y se calcula la cuasivarianza de cada muestra, hallar la media de la distribución muestral de cuasivarianzas si el muestreo es con reemplazamiento, ¿y en el caso de ser muestras sin reemplazamiento? 26. Tenemos una variable aleatoria que toma los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y 0.7, respectivamente. Encuentre la distribución muestral de la cuasivarianza muestral y en base a ella encuentre la esperanza de la cuasivarianza en los siguientes casos: a) Tamaño de muestra dos y con reemplazamiento. b) Tamaño de muestra dos y sin reemplazamiento. c) Tamaño de muestra tres y con reemplazamiento. d) Tamaño de muestra tres y sin reemplazamiento. 27. Para muestras aleatorias de tamaño 10, encuentre la media y la varianza de la media muestral en el caso que: a) Si la población es Poisson con parámetro igual a 1. b) Si la población es Bernoulli de parámetro 0.3. c) Si la población es normal con media igual a varianza e iguales a 1. 28. Sea una población Poisson de parámetro igual 0.1 de la cual se toma una muestra aleatoria de tamaño 2. Determine la distribución de probabilidad, esperanza y varianza de la media muestral. Considere únicamente los primeros cuatro valores que puede tomar la variable. 29. Encuentre la distribución en el muestreo de la media para muestras aleatorias de tamaño n las cuales proceden de una población con distribución gamma de parámetros p + 1 y θ (G(p + 1, θ)) ası́ como la esperanza y varianza de la media muestral, utilizando la función caracterı́stica de esta última. 30. Demuestre el Teorema de Moivre. 49
  • 50. 3 ESTIMACIÓN DE PARÁMETROS 3. ESTIMACIÓN DE PARÁMETROS 3.1. Introducción La estimación de un parámetro involucra el uso de datos muestrales en conjunción con algún estimador. Existen dos formas de llevar a cabo lo anterior: la estimación puntual y la estimación por intervalos de confianza. En la primera se busca un estimador, que con base en los datos muestrales, dé origen a un único valor del parámetro y que recibe el nombre de estimación (estimado) puntual. Para la segunda, se determina un intervalo en el que, en forma probable, se encuentre el valor del parámetro. Este recibe el nombre de intervalo de confianza estimado. Denotaremos de aquı́ en adelante como f(X; θ) a la función de densidad (probabilidad), de la caracterı́stica de interés, donde la función depende de un parámetro arbitrario θ (el cual es desco- nocido pero constante). Nuestro principal objetivo es presentar los criterios convenientes para la determinación de los estimadores de θ. f(X; θ) depende del valor de θ, pero será siempre de la misma familia (normal, binomial, beta, etc.) Estimación puntual θ̂ = f(X1, X2, . . . , Xn) Estimación por intervalo P(θ̂1 ≤ θ ≤ θ̂2) = α donde θ̂i = fi(X1, X2, . . . , Xn) El estimador θ̂ será una variable aleatoria (función de variables aleatorias muestrales) (X1, X2, . . . , Xn), y se transformará en una estimación del parámetro θ, un valor concreto, cuando las variables mues- trales (X1, X2, . . . , Xn) se conviertan en datos observados al obtenerse una muestra determinada. 3.2. Propiedades de los estimadores Es posible definir muchos estimadores para tratar de estimar un parámetro desconocido θ. Enton- ces, ¿cómo seleccionar un buen estimador de θ?, ¿cuáles son los criterios para juzgar cuando un 50
  • 51. 3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS estimador de θ es “bueno” o “malo”?, ¿qué es un buen estimador? Suponga para esto que θ̂1, θ̂2 y θ̂3 son tres estimadores distintos para θ, y que construimos la distribución de frecuencias para cada uno de ellos tal y como se muestra en la figura 3. Figura 3: Comparación de estimadores La intuición sugiere que θ̂3 podrı́a considerarse como el mejor estimador de θ, no solo porque se concentra alrededor del valor de θ, sino porque además su variabilidad es pequeña. θ̂2 no serı́a tan bueno porque tiene una mayor variabilidad que la de θ̂23 a pesar que también se concentra alrededor de θ. Mientras que θ̂1 serı́a el peor de todos pues apesar que tiene aproximadamente la misma variabilidad que θ̂3, no se encuentra concentrado alrededor de θ, por lo que es poco probable acertar con una muestra el verdadero valor. Es de recalcar que en la práctica, sólo tendremos acceso a la información contenida por una sola muestra, por lo que debe tomarse el “mejor” estimador posible para el parámetro de interés. De los comentarios anteriores surgen dos propiedades deseables que un estimador θ̂ debe tener una distribución en el muestreo concentrada alrededor del valor de θ, y la varianza de θ̂ debe ser la menor posible. Sea θ̂ = T(X1, X2, . . . , Xn) un estimador, y (X1, X2, . . . , Xn) una muestra aleatoria. Al ser desconocido el parámetro θ nunca sabemos exactamente hasta qué punto cada estimación se encuentra lejos o cerca del valor del parámetro. Para establecer la bondad de un estimador, partimos del hecho de conocer si la estimación se encuentra lejos o cerca del verdadero valor 51
  • 52. 3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS siempre desconocido. El error que podemos cometer, es la diferencia entre θ̂ y θ, para eliminar signo se toma el cua- drado, θ̂ − θ 2 . Si fuera posible obtener todas las muestras posibles y para cada una de ellas su estimación, un medida global de los errores es el Error Cuadrático Medio, el cual se presenta en la siguiente definición. Definición 3.1. Sea θ̂ cualquier estimador de un parámetro desconocido θ, se define el Error Cuadrático Medio de θ̂ como la esperanza matemática del cuadrado de la diferencia entre θ̂ y θ, se denotará por ECM(θ̂), es decir; ECM(θ̂) = E h θ̂ − θ i2 (14) Un valor pequeño de ECM(θ̂) indicará que, en media, el estimador no se encuentra lejos lejos de θ, inversamente, cuánto mayor sea ECM(θ̂), θ̂ estará más alejado de θ, también en media. Para un mejor cálculo de E(θ̂), se puede escribir como: ECM θ̂ = E h θ̂ − θ i2 = E h θ̂ − E h θ̂ i + E h θ̂ i − θ i2 = E h θ̂ − E h θ̂ ii2 + h E h θ̂ i − θ i2 = var θ̂ + sesgo θ̂ 2 El Error Cuadrático Medio de cualquier estimador θ̂ es la suma de dos cantidades no negativas, una es la varianza del estimador y la otra es el cuadrado del sesgo (diferencia entre la esperanza del estimador y el parámetro a estimar) del estimador. Deducimos entonces que un alto valor de ECM(θ̂) puede deberse a un valor alto de la varianza, a un alto valor del sesgo, o ambos a la vez. En principio el problema (seleccionar estimadores) visto de manera superficial parece bastante sencillo; esto es, seleccionar, como mejor estimador de θ, el que tenga menor ECM(θ̂) de entre todos los estimadores posibles y factibles de θ. Sin embargo, un estimador puede tener un Error Cuadrático Medio mı́nimo para algunos valores de θ, mientras que otro estimador tendrá la misma 52
  • 53. 3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS propiedad, pero para otros valores de θ. EJEMPLO 3.1 Sea X1, X2, . . . , Xn una muestra aleatoria tal que E[Xi] = µ y var(Xi) = σ2 , y consideremos los estimadores siguientes para µ: θ̂1 = 1 n n X i=1 Xi θ̂2 = 1 n + 1 n X i=1 Xi Entonces, ECM θ̂1 = var θ̂1 + sesgo θ̂1 2 = σ2 n Mientras que ECM θ̂2 = var θ̂2 + sesgo θ̂2 2 = var n n + 1 θ̂1 + n n + 1 µ − µ 2 = n2 (n + 1)2 σ2 n + µ2 (n + 1)2 = 1 (n + 1)2 nσ2 + µ2 Para un tamaño de muestra n = 10 y σ2 = 100, tendrı́amos ECM θ̂1 = 10 ECM θ̂2 = 1000 + µ2 121 y se cumplirá que para µ √ 210 que ECM θ̂1 ECM θ̂2 ; mientras que para que para µ √ 210 que ECM θ̂2 ECM θ̂1 . Sin embargo, a partir del Error Cuadrático Medio construiremos una buena parte de las propiedades que es razonable exigir a un estimador para ser considerado como “bueno”. Para que ECM θ̂ sea mı́nimo es necesario que los dos sumandos sean mı́nimos. El sesgo de θ̂ será mı́nimo cuando valga 0, los cual no lleva a la primera propiedad. 53
  • 54. 3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS Definición 3.2. Se dice que un estimador θ̂ es un estimador insesgado del parámetro θ, si para todos los posibles valores de θ se cumple que E[θ̂] = θ. De este modo la distribución en el muestreo de θ̂ se encuentra centrada alrededor de θ y ECM(θ̂) = var(θ̂). La media muestral X̄ es un estimador insesgado de µ (media poblacional); mientras que la cuasi- varianza muestral S2 n−1 es un estimador insesgado de la varianza poblacional σ2 , no ası́, la varianza muestral S2 n. Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece el tamaño de la muestra. Esto es conforme la información en una muestra se vuelve más completa, la distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del párametro θ. Se tendrá una mejor estimación de θ si se base en 30 observaciones que si lo hace sólo con 5. Definición 3.3. Sea θ̂ el estimador de un parámetro θ, y sea θ̂1, θ̂2, . . . , θ̂n una sucesión de esti- madores que representan a θ̂ con base a muestras de tamaño 1, 2, . . . , n, respectivamente. Se dice que θ̂ es un estimador consistente para θ si: lı́m n→∞ p |θ̂ − θ| ≤ ε = 1 (15) para todos los valores de θ y ε 0 o de manera equivalente lı́m n→∞ E h θ̂ i = 0 (16) El requisito de que lı́m n→∞ P |θ̂ − θ| ≤ ε = 1 para todo θ constituye lo que se denomina convergencia en probabilidad. Es decir, si un estimador es consistente, converge en propabilidad al valor del parámetro que está intentando estimar conforme el tamaño de la muestra crece. EJEMPLO 3.2 La media muestral X̄, es un estimador consistenta para µ, es decir: lı́m n→∞ P |X̄ − µ| ≤ ε = 1 Demostración. E X̄n = µ var X̄n = σ2 n 54
  • 55. 3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS Según el Teorema de Tchebysheff P |X̄ − µ| k σ √ n ≤ 1 k2 Tomemos k = ε √ n σ , entonces P |X̄ − µ| ε ≤ σ2 ε2n ⇒ lı́m n→∞ P |X̄ − µ| ε = 0 Por tanto se concluye que lı́m n→∞ P |X̄ − µ| ε = 1 Es decir, X̄ es consistente. Definición 3.4. Un estimador θ̂ se dice que es eficiente para el parámetro θ, si entre todos los posibles estimadores insesgados que pueden obtenerse para θ es el que tenga la menor varianza posible. Es decir, θ̂ si var(θ̂) = min{var(θ̂s)} (17) donde θ̂s es la familia de estimadores insesgados para θ. En otras palabras, si θ̂1 y θ̂2 son estimadores de θ, θ̂1 será eficiente siempre y cuando var(θ̂1) ≤ var(θ̂2). Si son sesgados se utiliza el Error Cuadrático Medio. Esta propiedad exige que el estimador que se utilice genere estimaciones parecidas para las dife- rentes muestras que puedan obtenerse de la población. Definición 3.5. Un estimador θ̂ de un parámetro θ se dice que es un estimador suficiente cuando utiliza toda la información contenida en la muestra. En otras palabras, se dice que un estimador θ̂ es suficiente, si la distribución conjunta de la muestra aleatoria (X1, X2, . . . , Xn) dado θ̂, se encuentra libre de θ (no depende de θ). Es decir, f(X1, X2, . . . , Xn/θ̂; θ) = h(θ̂; θ)g(X1, X2, . . . , Xn) (18) donde g(X1, X2, . . . , Xn) no depende de θ. 55
  • 56. 3.3 Cota para la varianza de un estimador 3 ESTIMACIÓN DE PARÁMETROS 3.3. Cota para la varianza de un estimador Sea una población definida por la función de densidad f(X; θ) que contiene al parámetro descono- cido, estimado mediante, θ̂. La función de verosimilitud es simplemente la distribución conjunta de la muestra L(X1, X2, . . . , Xn; θ) = f(X1, X2, . . . , Xn; θ) con lo que resulta que: var θ̂ ≥ 1 + ∂sesgo θ̂ ∂θ E ∂ ln L(X1, X2, . . . , Xn; θ) ∂θ 2 (19) La expresión (19) es conocida como la cota de Cramer-Rao, que indica que la varianza de un estimador, para un tamaño de muestra dado, no puede ser menor que ésta. Si la muestra con la que se trabaja es aleatoria sucede que: L(X1, X2, . . . , Xn; θ) = f(X; θ)n Entonces, ln L(X1, X2, . . . , Xn; θ) = n ln f(X; θ) Por lo que la cota de Cramer es: var θ̂ ≥ 1 + ∂sesgo θ̂ ∂θ nE ∂ ln f(X; θ) ∂θ 2 (20) Si el estimado fuese insesgado, la cota se convierte en: var θ̂ ≥ 1 nE ∂ ln f(X; θ) ∂θ 2 (21) Puede apreciarse que la cota depende únicamente del tamaño muestral y de la función de densidad. La cota también podrı́a utilizarse para saber si un estimador es eficiente (si la cota coincide con la varianza del estimador). 56
  • 57. 3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS 3.4. Métodos de estimación Anteriormente hemos visto las propiedades deseables de un buen estimador. Ahora nos concentra- remos en la forma de cómo obtener esos estimadores, de manera que tengan buenas propiedades. Trataremos únicamente con los más utilizados y que cumplen la mayorı́a de las propieades. 3.4.1. Máxima verosimilitud El método de máxima verosimilitud se fundamenta en el supuesto intuitivo siguiente: de varios sucesos que pueden tener lugar, admitimos que aparecerá el más probable, o si ha aparecido uno concreto será razonable suponer que, entre todos los posibles, era el más probable. El método consiste en lo siguiente: Tenemos una variable aleatoria X, con función de densidad f(X; θ), siendo θ el parámetro desconocido que se desea estimar. Seleccionar una muestra aleatoria de tamaño n, (X1, X2, . . . , Xn) de dicha población. Construimos la función de verosimilitud de la muestra, que no es más que la función de densidad conjunta de la muestra. L(X1, X2, . . . , Xn; θ) Para la selección del estimador θ̂ del parámetro θ, de entre todos los posibles valores que puede tomar, se toma θ̂ de manera que: L(X1, X2, . . . , Xn; θ̂) = max{L(X1, X2, . . . , Xn; θ)} Para encontrar el valor que maximiza la función conjunta de la muestra (el estimador θ̂), se deriva con respecto al parámetro θ y se iguala a cero (se obtiene una ecuación con una incógnita). La solución (θ̂), será únicamente una función que depende de los elementos en la muestra (y no del parámetro), será el estimador de máxima verosimilitud del parámetro, siempre y cuando se verifique la condición de máximo. En la mayorı́a de los casos es más conveniente trabajar con el logaritmo de la función conjunta, a dicho logaritmo se le da el nombre de función soporte. 57
  • 58. 3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS EJEMPLO 3.3 Sea X1, X2, . . . , Xn una muestra aleatoria de una distribución normal µ y σ2 (X ∼ N(µ; σ2 )) con función de densidad, f(X; µ, σ2 ) = 1 √ 2Πσ2 exp − (x − µ)2 2σ2 Determine los estimadores de µ y σ2 por el método de máxima verosimilitud. Solución. La función de verosimilitud es L(X1, X2, . . . , Xn; µ, σ2 ) = n Y i=1 f(Xi; µ, σ2 ) = n Y i=1 1 √ 2Πσ2 exp − (Xi − µ)2 2σ2 = 1 √ 2Πσ2 n exp − n X i=1 (Xi − µ)2 2σ2 # La función soporte es: ln L(X1, X2, . . . , Xn; µ, σ2 ) = − n 2 ln(2Π) − n 2 ln(σ2 ) − 1 2σ2 n X i=1 (Xi − µ)2 Para obtener el estimador de µ se deriva con respecto a µ y se iguala a 0, ∂ ln L(X1, X2, . . . , Xn; µ, σ2 ) ∂µ = − 1 2σ2 n X i=1 (Xi − µ) = 0 lo cual implica que µ̂ = X̄. Mientras que el estimador de σ2 ∂ ln L(X1, X2, . . . , Xn; µ, σ2 ) ∂σ2 = − n 2 1 σ2 + 1 2(σ2)2 n X i=1 (Xi − µ)2 = 0 ⇒ σ2 = 1 n n X i=1 (Xi − µ)2 de donde deducimos que σ̂2 = 1 n n X i=1 (Xi − X̄)2 El método de máxima verosimilitud, selecciona como estimador a aquel valor del parámetro que tiene la propiedad de maximizar el valor de la probabilidad de la muestra observada. Consiste más bien en encontrar el valor del parámetro que maximiza la función de verosimilitud. 58
  • 59. 3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS 3.4.2. Propiedades de los estimadores de máxima verosimilitud Insesgadez: Los estimadores son por lo general sesgados, sin embargo, son insesgados asintóticamente, es decir, si θ̂ es un estimador por máxima verosimilitud del parámetro θ, entonces: lı́m n→∞ E h θ̂ i = θ Consistencia: Bajo condiciones generales, los estimadores son consistentes. Eficiencia: Si existe un estimador cuya varianza es igual a la cota de Cramer-Rao, entonces es el obte- nido por máxima verosimilitud. No todo estimador de máxima verosimilitud es eficiente, sin embargo, si existe un estimador eficiente es el obtenido por máxima verosimilitud. Normalidad Los estimadores son asintóticamente normales con esperanza θ y asintóticamente eficientes lı́m n→∞ θ̂ ∼ N      θ; 1 E ∂ ln L(X1, X1, . . . , Xn; θ) ∂θ 2      Suficiencia Si T es un estimador suficiente de θ, el estimador θ̂ (máxima verosimilitud) es función de T, θ̂ = g(T). Invarianza Si θ̂ es un estimador de θ, g(θ̂) será un estimador de g(θ). Los estimadores son invariantes ante transformaciones de θ. 59
  • 60. 3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS 3.4.3. Método de los momentos Quizá el método más antiguo para la estimación de parámetros es el método de los momentos. Este consiste en igualar los momentos apropiados de la distribución de la población con los corres- pondientes momentos en la muestra para estimar el parámetro desconocido. Los momentos son con respecto al origen. Si ak es el momento de orden k con respecto al origen el la muestra y αk lo es en la población. Entonces: E [ak] = αk (22) ak es un estimador insesgado de αk. El procedimiento consiste en: Seleccionar una muestra aleatoria de tamaño n, (X1, X2, . . . , Xn). Calculamos los primeros k momentos muestrales con respecto al origen dependiendo del número k de parámetros a estimar, ak = 1 n n X i=1 Xk i Igualamos cada momento muestral con su correspondiente momento poblacional obteniendo ası́, un sistema de ecuaciones con k incógnitas (k variables) muchos de ellos son lineales. a1 = α1 a2 = α2 . . . . . . ak = αk La solución del sistema proporciona los estimadores de los parámetros θ̂1 = f1(a1, a2, . . . , ak) θ̂2 = f2(a1, a2, . . . , ak) . . . . . . θ̂k = fk(a1, a2, . . . , ak) 60
  • 61. 3.5 Estimación por Intervalos de confianza en una población 3 ESTIMACIÓN DE PARÁMETROS En condiciones generales, los estimadores obtenidos son consistentes. Pueden tener otras propie- dades pero no se cumplirán siempre. EJEMPLO 3.4 En una población N(µ; σ2 ) determinar los estimadores para µ y σ2 por el método de los momentos. Solución. Para una muestra aleatoria de tamaño n (X1, X2, . . . , Xn), a1 = 1 n n X i=1 Xi = X̄ a2 = 1 n n X i=1 X2 i Mientras que en la población α1 = µ α2 = σ2 + µ2 El esistema es: µ = X̄ σ2 + µ2 = 1 n n X i=1 X2 i La solución es: µ̂ = X̄ σ̂2 = 1 n n X i=1 X2 i − X̄2 = 1 n n X i=1 (Xi − X̄)2 = S2 Es decir, las estimaciones para µ y σ2 , son respectivamente la media muestral y la varianza muestral. 3.5. Estimación por Intervalos de confianza en una población Cuando se toma una muestra aleatoria se obtiene un único valor para el estimador θ̂, a ciencia cierta si desconocemos totalmente el valor del parámetro θ, no podemos saber si θ̂ se encuentra 61
  • 62. 3.5 Estimación por Intervalos de confianza en una población 3 ESTIMACIÓN DE PARÁMETROS cerca o lejos de θ (debido a la aleatoriedad de la muestra). Otra forma de estimar un parámetro es mediante un intervalo de valores, en el cual confiamos que se encuentre el verdadero valor del parámetro θ. Dicho intervalo recibe el nombre de intervalo de confianza. El problema que abordaremos de aquı́ en adelante es que se desea estimar un parámetro poblacional θ mediante el estimador θ̂, para esto debemos encontrar números reales inf(X; θ̂) y sup(X; θ̂) tales que: θ ∈ h inf(X; θ̂), sup(X; θ̂) i (23) ocurra con probabilidada alta, digamos 1 − α. Es decir, P inf(X; θ̂) ≤ θ ≤ sup(X; θ̂) = 1 − α (24) y donde inf(X; θ̂) y sup(X; θ̂) dependan únicamente de θ̂ y de valores que puedan conocerse. a 1 − α se le da el nombre de nivel de confianza. Mientras que a α nivel de significancia. Téngase en cuenta que, el intervalo de confianza es un intervalo aleatorio, pues depende de los elementos seleccionados en la muestra. El intervalo de confianza no representa la probabilidad de que el parámetro θ se encuentre en el intervalo es igual a 1 − α, pues: θ será un parámetro desconocido, lo que impide verificar la afirmación. En P inf(X; θ̂) ≤ θ ≤ sup(X; θ̂) las variables aleatorias son inf(X; θ̂) y sup(X; θ̂) y no el parámetro θ. 1 − α es la probabilidad que el intervalo aleatorio h inf(X; θ̂), sup(X; θ̂) i incluya el verdadero valor del parámetro antes de extraer la muestra. Una vez seleccionada la muestra, la probabilidad de que el parámetro θ se encuentre en el intervalo es 1 ó 0, dependiendo de si el parámetro se encuentra en el intervalo o no de la muestra seleccionada. En esta situación no se puede hablar de probabilidad del intervalo al nivel 1 − α sino de la confianza puesto que, una vez extraı́da la muestra, la probabilidad será 1 ó 0, y no la inicial 1 − α que se transforma en confianza. El concepto de confianza también puede interpretarse como: si se repitiera el experimento muestral (se tomarán varias muestras) muchas veces, en el 100(1 − α) % de los casos se confiarı́a que el parámetro θ pertenecerá al intervalo. 62
  • 63. 3.5 Estimación por Intervalos de confianza en una población 3 ESTIMACIÓN DE PARÁMETROS Los intervalos anteriores son bilaterales, pues se especifica tanto inf(X; θ̂) como sup(X; θ̂), en algunos casos el intervalo se deja abierto dejando a inf(X; θ̂) = −∞ o sup(X; θ̂) = ∞ , se habla en ese caso de intervalos unilaterales: P θ ≥ inf(X; θ̂) = 1 − α P θ ≤ sup(X; θ̂) = 1 − α La interpretación de dicho intervalos es la misma al del caso bilateral. 3.5.1. Intervalo de confianza para la media Supongamos que la caracterı́stica de interés X sigue una distribución N(µ; σ2 ), siendo únicamente desconocido el valor de µ. De dicha población seleccionamos una muestra aleatoria de tamaño n. Lo que deseamos es encontrar valores reales, digamos k1 y k2, tales que P(k1 ≤ µ ≤ k2) = 1 − α Puesto que: si X ∼ N(µ; σ2 ) ⇒ X̄ ∼ N µ; σ2 n 1. Suponiendo que la varianza poblacional sea conocida. De este modo la variable aleatoria, Z = X̄ − µ σ √ n ∼ N(0; 1) Tomenos Zα 2 y Z1−α 2 como los valores tabulares de la distribución N(0; 1) tales que entre ellos se encuentra contenida un área igual a 1 − α. Como la distribución N(0; 1) es simétrica resulta que Z1−α 2 = −Zα 2 (valor que deja por encima de el un área igual a α 2 ). De este modo el intervalo buscado será simétrico y a la vez tendrá longitud mı́nima, resulta entonces; 63
  • 64. 3.5 Estimación por Intervalos de confianza en una población 3 ESTIMACIÓN DE PARÁMETROS P −Zα 2 ≤ Z ≤ Zα 2 = 1 − α P −Zα 2 ≤ X̄ − µ σ √ n ≤ Zα 2 ! = 1 − α P − σ √ n Zα 2 ≤ X̄ − µ ≤ σ √ n Zα 2 = 1 − α P X̄ − σ √ n Zα 2 ≤ µ ≤ X̄ + σ √ n Zα 2 = 1 − α Con lo que los valores buscados son: k1 = X̄ − σ √ n Zα 2 k2 = X̄ + σ √ n Zα 2 Por lo que el intervalo de confianza para la media poblacional µ es: µ ∈ X̄ − σ √ n Zα 2 , X̄ + σ √ n Zα 2 2. En el caso de que la varianza poblacional σ2 sea desconocida, para encontrar el intervalo de confianza para µ no podemos proseguir como en el caso anterior, sin embargo, se sabe que la variable aleatoria, T = X̄ − µ Sn−1 √ n ∼ tn−1 (25) La distribución t de Student ya se encuentra tabulada, por lo que para encontrar el intervalo de confianza procedemos como en el caso anterior, sustituimos la distribución N(0; 1) por la t de Student para n − 1 grados de libertad. Tomemos t α 2 n−1 como el valor que deja por encima de el un área igual a α 2 en la distribución t de Student con n − 1 grados de libertad (por consiguiente −t α 2 n−1 será el valor que deje por debajo esa misma área). 64
  • 65. 3.5 Estimación por Intervalos de confianza en una población 3 ESTIMACIÓN DE PARÁMETROS Resulta que: P −t α 2 n−1 ≤ T ≤ t α 2 n−1 = 1 − α P −t α 2 n−1 ≤ X̄ − µ Sn−1 √ n ≤ t α 2 n−1 ! = 1 − α P − Sn−1 √ n t α 2 n−1 ≤ X̄ − µ ≤ Sn−1 √ n t α 2 n−1 = 1 − α P X̄ − Sn−1 √ n t α 2 n−1 ≤ µ ≤ X̄ + Sn−1 √ n t α 2 n−1 = 1 − α Por lo que el intervalo de confianza para la media poblacional µ (cuando la varianza pobla- cional es desconocida) es: µ ∈ X̄ − Sn−1 √ n t α 2 n−1, X̄ + Sn−1 √ n t α 2 n−1 En caso de que la población no fuese normal, para encontrar el intervalo de confianza se usará la desigualdad de Tchebyssheff, el intervalo será sólo aproximado en cuanto a confianza (la confianza será mayor a la propuesta). Sin embargo, sólo puede usarse cuando σ2 es conocida. 3.5.2. Intervalo de confianza para una proproción Si X ∼ B(p) y se toman muestras aleatorias de tamaño n se tendrá por lo visto anteriormente que: Π ∼ Bin(n; p) y por el Teorema de Moivre Π ∼ N p; p(1 − p) n Puesto que p no se conocerá (pues de lo contrario no habrı́a nada que hacer), se estimará mediante una muestra, al estandarizar para esa muestra en particular se tendrá que; Z = p̂ − p r p̂(1 − p̂) n donde p̂ es el valor de la proporción muestral para esa muestra en particular. 65
  • 66. 3.5 Estimación por Intervalos de confianza en una población 3 ESTIMACIÓN DE PARÁMETROS El intervalo de confianza será entonces (utilizando una lógica similar para el caso de la media). P −Zα 2 ≤ Z ≤ Zα 2 = 1 − α P  −Zα 2 ≤ p̂ − p q p̂(1−p̂) n ≤ Zα 2   = 1 − α P −Zα 2 r p̂(1 − p̂) n ≤ p̂ − p ≤ Zα 2 r p̂(1 − p̂) n ! = 1 − α P p̂ − r p̂(1 − p̂) n Zα 2 ≤ p ≤ p̂ + r p̂(1 − p̂) n r p̂(1 − p̂) n ! = 1 − α Por lo que el intervalo de confianza es: p ∈ p̂ − Zα 2 r p̂(1 − p̂) n , p̂ + Zα 2 r p̂(1 − p̂) n # 3.5.3. Intervalo de confianza para la varianza Supongamos que la caracterı́stica de interés X sigue una distribución N(µ; σ2 ). De dicha población seleccionamos una muestra aleatoria de tamaño n. Se sabe por lo visto que antes, que la variable aleatoria, χ2 = (n − 1)S2 n−1 σ2 ∼ χ2 n−1 (26) La distribución Chi-cuadrado no es simétrica, por lo que el intervalo más pequeño que se puede encontrar es aquel donde se reparte un área igual a α 2 para valores que sean mayores o menores al de la ditribución, es decir, sean χ2 1−α 2 y χ2 α 2 los valores tabulares de la distribución Chi-cuadrado (para n − 1 grados de libertad) que dejan comprendida un área igual 1 − α entre ellos. De este modo el intervalo puede obtenerse por; P χ2 1−α 2 ≤ χ2 ≤ χ2 α 2 = 1 − α P χ2 1−α 2 ≤ (n − 1)S2 n−1 σ2 ≤ χ2 α 2 = 1 − α P (n − 1)S2 n−1 χ2 α 2 ≤ σ2 ≤ (n − 1)S2 n−1 χ2 1−α 2 ! = 1 − α 66
  • 67. 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACIÓN DE PARÁMETROS Con lo que el intervalo de confianza para la varianza poblacional σ2 es: σ2 ∈ (n − 1)S2 n−1 χ2 α 2 , (n − 1)S2 n−1 χ2 1−α 2 # 3.6. Intervalo de confianza en dos poblaciones 3.6.1. Intervalo de confianza para la diferencia de dos medias, cuando las muestras son independientes Si X ∼ N(µ1; σ2 1) y extraemos una muestra aleatoria de tamaño n1, se tendrá que, X̄ ∼ N µ1; σ2 1 n1 Si Y ∼ N(µ2; σ2 2) y extraemos una muestra aleatoria de tamaño n2 independiente de la primera muestra, se tendrá que: Ȳ ∼ N µ2; σ2 2 n2 y por consiguiente X̄ − Ȳ ∼ N µ1 − µ2; σ2 1 n1 + σ2 2 n2 Primer caso: σ2 1 y σ2 2 conocidas. En base a los resultados previos, sabemos que la variable aleatoria Z = X̄ − Ȳ − (µ1 − µ2) q σ2 1 n1 + σ2 2 n2 ∼ N(0; 1) (27) Basando en la misma lógica aplicada para el caso de una población, resulta que el intervalo, P −Zα 2 ≤ Z ≤ Zα 2 = 1 − α P  −Zα 2 ≤ X̄ − Ȳ − (µ1 − µ2) q σ2 1 n1 + σ2 2 n2 ≤ Zα 2   = 1 − α P  −Zα 2 s σ2 1 n1 + σ2 2 n2 ≤ X̄ − Ȳ − (µ1 − µ2) ≤ Zα 2 s σ2 1 n1 + σ2 2 n2   = 1 − α P   X̄ − Ȳ − Zα 2 s σ2 1 n1 + σ2 2 n2 ≤ (µ1 − µ2) ≤ X̄ − Ȳ + Zα 2 s σ2 1 n1 + σ2 2 n2   = 1 − α 67
  • 68. 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACIÓN DE PARÁMETROS Con lo que el intervalo de confianza para la diferencia de medias es: µ1 − µ2 ∈   X̄ − Ȳ − Zα 2 s σ2 1 n1 + σ2 2 n2 , X̄ − Ȳ + Zα 2 s σ2 1 n1 + σ2 2 n2   Segundo caso: σ2 1 y σ2 2 desconocidas pero iguales. De los resultados previos sabemos que la variable aleatoria : T = q (n1n2) n1+n2 X̄ − Ȳ − (µ1 − µ2) r (n1−1)S2 n1−1+(n2−1)S2 n2−1 (n1+n2−2) ∼ tn1+n2−2 (28) Haciendo S2 p = s (n1 − 1)S2 n1−1 + (n2 − 1)S2 n2−1 n1 + n2 − 2 resulta que, T = X̄ − Ȳ − (µ1 − µ2) Sp q 1 n1 + 1 n2 ∼ tn1+n2−2 El intervalo de confianza es: P −t α 2 n1+n2−2 ≤ T ≤ t α 2 n1+n2−2 = 1 − α P  −t α 2 n1+n2−2 ≤ X̄ − Ȳ − (µ1 − µ2) Sp q 1 n1 + 1 n2 ≤ t α 2 n1+n2−2   = 1 − α P −Sp r 1 n1 + 1 n2 t α 2 n1+n2−2 ≤ X̄ − Ȳ − (µ1 − µ2) ≤ Sp r 1 n1 + 1 n2 t α 2 n1+n2−2 = 1 − α P X̄ − Ȳ − Sp r 1 n1 + 1 n2 t α 2 n1+n2−2 ≤ µ1 − µ2 ≤ X̄ − Ȳ + Sp r 1 n1 + 1 n2 t α 2 n1+n2−2 = 1 − α Con lo que el intervalo de confianza para la diferencia de medias es: µ1 − µ2 ∈ X̄ − Ȳ − Sp r 1 n1 + 1 n2 t α 2 n1+n2−2, X̄ − Ȳ + Sp r 1 n1 + 1 n2 t α 2 n1+n2−2 Tercer caso: σ2 1 y σ2 2 desconocidas y distintas. En este caso la distribución de la variable aleatoria definida en la ecuación (27) depende de σ2 1 σ2 2 , a esta distribución se le conoce con el nombre de Bebrens-Fisher. Existen diferentes soluciones: 68
  • 69. 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACIÓN DE PARÁMETROS ˆ Solución debida Hsu. Quien aproxima la distribución de (27) por una distribución t de Student con v = mı́n{n1, n2} − 1 grados de libertad. ˆ Solución de Welch. Quien aproxima la distribución de (27) por una distribución t de Student con v = n1 + n2 − 2 − δ grados de libertad. donde δ es la parte de entera de: δ = [(n2 − 1)ψ1 − (n1 − 1)ψ2]2 (n2 − 1)ψ2 1 + (n1 − 1)ψ2 2 # (29) con ψ1 = S2 n1−1 n1 y ψ2 = S2 n2−1 n2 ˆ Autor desconocido. Quien aproxima la distribución de (27) por una distribución t de Student con v grados de libertad. donde v es la parte entera de: v = hS2 n1−1 n1 + S2 n2−1 n2 i2 S2 n1−1 n1 !2 n1−1 + S2 n2−1 n2 !2 n2−1 (30) La solución consiste entonces en definir la nueva variable aleatoria, T = X̄ − Ȳ − (µ1 − µ2) q S2 n1−1 n1 + S2 n2−1 n2 ∼ tv (31) los grados de libertad dependerán de cualquiera de las soluciones elegidas anteriores. Por lo 69
  • 70. 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACIÓN DE PARÁMETROS que el intervalo de confianza será: P −t α 2 v ≤ T ≤ t α 2 v = 1 − α P  −t α 2 v ≤ X̄ − Ȳ − (µ1 − µ2) q S2 n1−1 n1 + S2 n2−1 n2 ≤ t α 2 v   = 1 − α P  − s S2 n1−1 n1 + S2 n2−1 n2 t α 2 v ≤ X̄ − Ȳ − (µ1 − µ2) ≤ s S2 n1−1 n1 + S2 n2−1 n2 t α 2 v   = 1 − α P  X̄ − Ȳ − t α 2 v s S2 n1−1 n1 + S2 n2−1 n2 ≤ µ1 − µ2) ≤ X̄ − Ȳ + t α 2 v s S2 n1−1 n1 + S2 n2−1 n2   = 1 − α Con lo que el intervalo de confianza para la diferencia de medias es: µ1 − µ2 ∈   X̄ − Ȳ − t α 2 v s S2 n1−1 n1 + S2 n2−1 n2 , X̄ − Ȳ + t α 2 v s S2 n1−1 n1 + S2 n2−1 n2   Cuarto caso: cuando n1, n2 30 En este caso la variable aleatoria, Z = X̄ − Ȳ − (µ1 − µ2) q S2 n1−1 n1 + S2 n2−1 n2 ∼ N(0; 1) (32) Puede verificarse fácilmente que el intervalo de confianza resultante es: µ1 − µ2 ∈   X̄ − Ȳ − Zα 2 s S2 n1−1 n1 + S2 n2−1 n2 , X̄ − Ȳ + Zα 2 s S2 n1−1 n1 + S2 n2−1 n2   Resulta que como ya se comentó anteriormente, para muestras grandes S2 n1−1 ≈ S2 n1 y n1 − 1 ≈ n1 S2 n2−1 ≈ S2 n2 y n2 − 1 ≈ n2 por lo que pueden combinarse para el cálculo del intervalo de confianza. 70
  • 71. 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACIÓN DE PARÁMETROS 3.6.2. Intervalo de confianza para la diferencia de dos medias, cuando las muestras son dependientes Cuando las muestras son dependientes entre si, sucede que: var X̄ − Ȳ = var X̄ + var Ȳ − 2var X̄; Ȳ con lo que si consideramos las muestras como independientes y nos olvidamos de la covarianza, la variable, Z = X̄ − Ȳ − (µ1 − µ2) q var X̄ − Ȳ puede ser equivocadamente grande o pequeña dependiendo de la magnitud y signo de cov X̄; Ȳ . La solución para esto es definir una nueva variable D = X − Y y utilizar la varianza de la nueva variable como estimación directa de var X̄ − Ȳ (para esto ambas muestran deben tener igual número de elementos, es decir, los tamaños deben coincider). En este caso asumiendo normalidad en ambas poblaciones, se tendrá que D también es normal con media µD = µ1 − µ2 y varianza σ2 D = var X̄ − Ȳ . De este modo construir un intervalo de confianza para µ1 − µ2 será equivalente a construirlo para µD. Es de mencionar que para que tenga sentido D = X − Y , se trabajan con observaciones de un mismo individuo o elemento (por lo regular X denota las observaciones antes de realizar o aplicar algún tratamiento, mientras que Y es despúes de aplicarlo). Definiendo la variable aleatoria, T = D̄ − µD SD √ n ∼ tn−1 (33) Siguiendo el procedimiento descrito para encontrar el intervalo de confianza para la media cuando la varianza es desconocida se tiene que el intervalo es: P −t α 2 n−1 ≤ T ≤ t α 2 n−1 = 1 − α P −t α 2 n−1 ≤ D̄ − µD SD √ n ≤ t α 2 n−1 ! = 1 − α P − SD √ n t α 2 n−1 ≤ D̄ − µD ≤ SD √ n t α 2 n−1 = 1 − α P D̄ − SD √ n t α 2 n−1 ≤ µD ≤ D̄ + SD √ n t α 2 n−1 = 1 − α 71