SlideShare una empresa de Scribd logo
1 de 220
Descargar para leer sin conexión
Estadística para Economistas (MA175), ciclo 2013-2
Item Type info:eu-repo/semantics/LearningObject
Authors Jaramillo Vega, Segundo Santiago
Publisher Universidad Peruana de Ciencias Aplicadas (UPC)
Download date 19/04/2022 13:09:39
Link to Item http://hdl.handle.net/10757/296207
Universidad Peruana de Ciencias Aplicadas
Separata de Estadística para Economistas
PRE GRADO
AUTORES : PROFESORES DEL CURSO
TÍTULO : GUÍA DEL ALUMNO
FECHA : AGOSTO 2013
CURSO : ESTADÍSTICA PARA ECONOMISTAS
CÓDIGO : MA175
ÁREA : CIENCIAS
CICLO : 2013 - 02
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 1
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 2
INDICE
1. Introducción. Medidas de Asimetría, Curtosis y Concentración. 04
Medidas de localización 04
Medidas de dispersión 07
Medidas de Asimetría 09
Medidas de Curtosis 10
Curva de Lorenz 12
Coeficiente de Gini 13
2. Distribuciones Multivariadas
Función de probabilidad discreta conjunta 16
Función de probabilidad marginal 18
Función de probabilidad condicional 19
Función de densidad de probabilidad conjunta 20
Función de densidad marginal 21
Función de densidad condicional 23
Esperado de funciones de dos variables aleatorias 25
Independencia de variables 27
Covarianza 29
Coeficiente de Correlación 29
3. Estimaciones puntuales e Intervalos de Confianza. Pruebas de Hipótesis
Estimación puntual 34
Intervalo de confianza para la media poblacional 35
Tamaño de muestra para estimar una media poblacional 37
Intervalo de confianza para la proporción poblacional 39
Tamaño de muestra para estimar una proporción poblacional 39
Intervalo de confianza para una varianza poblacional 41
Intervalo de confianza para el cociente de varianzas 43
Intervalo de confianza para la diferencia entre dos medias 45
Intervalo de confianza para la diferencia de proporciones 50
Prueba de hipótesis
Conceptos generales 52
Prueba de hipótesis para una media poblacional 54
Prueba de hipótesis para una varianza poblacional 55
Prueba de hipótesis para una proporción poblacional 57
Prueba de hipótesis para dos varianzas poblacionales 59
Prueba de hipótesis para dos medias poblacionales 60
Prueba de hipótesis para dos proporciones poblacionales 62
4. Estadística no paramétrica
Prueba de independencia 67
Prueba de homogeneidad de proporciones 70
Prueba de bondad de ajuste 72
Otras pruebas 78
5. Diseños Experimentales
Diseño completamente aleatorizado 82
Prueba para la diferencia de medias 85
Diseño con Bloques Completos Aleatorizados 90
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 3
Diseño Factorial 94
Tipos de modelos 95
Diseño factorial de dos factores 96
Pruebas de hipótesis 97
Descomposición de la suma de cuadrados 98
6. Análisis de Regresión
Análisis de regresión lineal simple y de Correlación 103
El diagrama de dispersión 103
EL método de mínimos cuadrados 104
La línea recta estimada 105
Descomposición de la varianza total 106
Coeficiente de determinación y de no determinación 107
Error estándar de la estimación 107
Coeficiente de correlación 108
Inferencia sobre los coeficientes de regresión 108
Inferencia sobre el coeficiente de correlación 109
Pronósticos 109
Regresión no lineal 112
Regresión Múltiple
Elección de las variables de predicción 122
El modelo de regresión múltiple 122
Supuestos del análisis de regresión múltiple 122
Ecuación de regresión muestral 122
Coeficiente de regresión 123
El error estándar de la estimación 124
Coeficiente de determinación múltiple 124
Pruebas de hipótesis 125
Pruebas individuales y Prueba conjunta 125
Intervalo de confianza para los coeficientes poblacionales 125
Multicolinelidad 126
7. Series de Tiempo
Modelo Multiplicativo 131
Tendencia 131
Componente Cíclica 131
Componente estacional 132
Componente irregular 132
Estudio de una serie de tiempo 132
Modelo de tendencia 132
Descomposición de una serie de tiempo 135
Método de Atenuación Exponencial 141
MISCELÁNEA 148
SÍLABO 189
PLAN CALENDARIO 194
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 4
UNIDAD 1. INTRODUCCIÓN. MEDIDAS DE ASIMETRÍA, CURTOSIS Y
CONCENTRACIÓN.
1.1. Medidas de localización
Las medidas de localización o de tendencia central se refieren al valor central que representa a los
datos de una determinada variable.
Media
La media aritmética (media o promedio) de un conjunto de valores de una variable es la suma de
dichos valores dividida entre el número de valores.
Población
N
x
N
i
i


 1

Muestra
Media de datos no
agrupados
Media de datos
agrupados
Media de datos
agrupados por intervalos
1
n
i
i
x
x
n


 1
k
i i
i
x f
x
n


 ´
1
k
i i
i
x f
x
n



donde:
xi : dato (datos no agrupados) o marca de clase (datos agrupados)
fi : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra
Características de la media
Se puede calcular para datos medidos en escala de intervalo o razón.
El valor de la media es sensible a los valores extremos (mínimo y máximo), por lo que la
presencia de valores inusuales la distorsionan.
El cálculo de la media es sencillo y fácil de entender e interpretar.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la media de los n valores yi es:
y ax b
 
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 5
Mediana
Es el percentil 50.
Características de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.
El valor de la mediana depende del número de datos observados.
La mediana es un estadístico robusto, es decir, no se ve afectada por el valor de los extremos
(mínimo y máximo). Por eso se le utiliza cuando hay datos inusuales o el polígono de
frecuencias no es simétrico.
Moda
La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor
frecuencia.
Moda de datos no agrupados
Agrupe los datos de acuerdo a sus frecuencias, el dato con mayor frecuencia es la moda.
Moda de datos agrupados en intervalos
Identifique la clase con mayor frecuencia (clase modal).
Obtenga el valor de la moda mediante la expresión:
w
d
d
d
L
Mo mo 










2
1
1
donde:
Lmo : límite inferior de la clase modal
d1 : diferencia entre las frecuencias de las clases modal y precedente
d2 : diferencia entre las frecuencias de las clases modal y siguiente
w : amplitud de clase
Características de la moda
La moda se puede calcular para cualquier escala de medición.
El valor de la moda no se ve afectada por valores extremos.
La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o
más modas (multimodal). Algunas series de datos no tienen moda.
La moda es menos importante que la mediana o la media debido a su ambigüedad.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 6
La ojiva de los ingresos mensuales, en nuevos soles, de los trabajadores de una empresa se muestra
en la siguiente gráfica:
Ojiva de ingresos
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000
Ingresos
Hi
Calcule la media, mediana y moda de los ingresos
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 7
Media ponderada
También llamada media pesada. Permite calcular el valor medio considerando la importancia o peso
de cada valor sobre el total.
1
1
n
i i
i
w
w n
i
i
x w
x
w





1.2. Medidas de dispersión
Con las medidas de tendencia central es posible determinar el valor central de una distribución,
pero no indican qué tan cercanos o lejanos están los datos de dicho valor central.
Las medidas de variabilidad indican cuán alejados están los valores de una variable del valor
que los representa y por lo tanto permiten evaluar la confiabilidad de ese valor central.
Cuando la medida de dispersión tiene un valor pequeño, los datos están concentrados alrededor
de la medida de central, en cambio si la medida de dispersión tiene un valor grande, los datos no
están concentrados alrededor de la medida central.
Varianza
La varianza es el promedio de los cuadrados de la diferencia de cada dato con la media. Las
unidades de la varianza son las unidades de los datos al cuadrado.
Población
2
2 1
( )
N
i
i
x
N


 

Muestra
Varianza de datos no
agrupados
Varianza de datos
agrupados
Varianza de datos agrupados
por intervalos
2
1
2
( )
1
n
i
i
x x
s
n




 2
1
2
( )
1
k
i i
i
f x x
s
n




 ´ 2
1
2
( )
1
k
i i
i
f x x
s
n





donde:
xi: Observación individual
wi: eso asignado a cada observación
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 8
Propiedades de la varianza
La varianza es un número real no negativo
Es expresada en unidades cuadráticas a las unidades de los datos.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la varianza de los n valores yi es:
2 2 2
y x
S a S

Depende del valor de todos los datos y es sensible a la variación de cada uno de ellos.
La varianza puede ser calculada también con datos agrupados en intervalos, inclusive de
amplitud diferente, siempre que se puedan determinar las marcas de clase.
Desviación estándar
Es la raíz cuadrada positiva de la varianza.
Las unidades de la desviación estándar son las mismas unidades de los datos.
Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos indica lo grande que es la desviación
estándar en comparación con la media.
Población 100%
CV

 

Muestra 100%
s
CV
x
 
Es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas o
iguales unidades, pero difieren a tal punto que una comparación directa de las respectivas
desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes.
Ejemplo 1
Los siguientes datos representan resúmenes del número de mediciones de resistencia de cierto
artículo que realizaron dos grupos de técnicos.
Grupo 1 Grupo 2
3
10
1
1


x
n
3
4


Moda
Me
10
,
1

s 5
15
2
2


x
n
5
4


Moda
Me
66
,
1

s
¿En cuál de los grupos el número de mediciones es más disperso?
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 9
Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados es la diferencia entre
dato mayor y el dato menor.
R = Xmax - Xmin
donde:
Xmax : valor máximo observado de la variable
Xmin : valor mínimo observado de la variable
Rango intercuartil
Es la diferencia entre el primer y tercer cuartil.
Rango intercuartil = RIC = Q3 – Q1
1.3. Medidas de asimetría
Coeficiente de Asimetría de Fisher
Mide si los datos aparecen ubicados simétricamente o no respecto de la media.
Si el coeficiente de asimetría As es
igual a cero la distribución es simétrica alrededor de la media
positivo, indica sesgo a la derecha (cola derecha)
negativo indica sesgo a la izquierda (cola izquierda)
Coeficiente de Asimetría para datos simples
  
 
3
1
3
2
1 s
x
x
n
n
n
As
n
i
i






Si n es grande la expresión anterior se simplifica a:
 
3
1
3
ns
x
x
As
n
i
i




Coeficiente de Asimetría para datos agrupados
 
3
1
3
´
ns
f
x
x
As
i
n
i
i




Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 10
Ejemplo 2
El salario, en cientos de soles, de los trabajadores una empresa se presenta a continuación:
15 13 19 14 17 16 24 21 18 22 32 24 26 27 29 23 24 15 26 18
Halle el coeficiente de Asimetría de Fisher
Solución
15
.
21
20
18
26
..
19
13
.
15







x
    38
.
5
1
20
25
.
21
18
...
25
.
21
15
2
2







s
  
   
  23
.
0
38
.
5
25
.
21
18
...
25
.
21
15
2
20
1
20
20
3
3
3








As
Por lo tanto la distribución de los datos es asimétrica positiva.
Coeficiente de Curtosis.
Tema de investigación para el alumno. Debe presentar:
1. Definición de Curtosis
2. Fórmulas de cálculo
3. Clasificación de las distribuciones de datos según el valor del coeficiente de Curtosis
4. Aplicación en datos reales propios de la carrera.
Ejercicio
A continuación se muestra la distribución de una muestra de 48 clientes morosos según el tiempo en días que
tardan en acercarse a la entidad bancaria a realizar su pago luego de ser contactados.
Tiempo Total
1 5
2 20
3 9
4 9
5 5
Total general 48
Nota. Puede utilizar la tabla para resumir y ordenar sus cálculos
a. Calcule el coeficiente de Asimetría y clasifique la distribución según su deformación horizontal.
Escriba la fórmula utilizada.
b. Calcule el coeficiente de Curtosis y clasifique la distribución según su deformación vertical
Escriba la fórmula utilizada.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 11
Medidas descriptivas para datos simples en una calculadora Casio
Apriete la tecla MODE , MODE y, luego, apriete SD (1)
Limpie la memoria siempre. Apriete SHIFT , CLR , SCL (1) y =.
Ingrese cada dato y pulse DT. La pantalla le mostrará el número de datos ingresados.
Para ver las medidas descriptivas, ingrese lo siguiente:
o SHIFT , S-SUM , 1 para calcular 2
x
 , la suma de los cuadrados de los datos
o SHIFT , S-SUM , 2 para calcular x
 , la suma de los datos
o SHIFT , S-SUM , 3 para calcular n, el número de datos
o SHIFT , S-VAR , 1 para calcular x , la media muestral
o SHIFT , S-VAR , 2 para calcular x n
 , la desviación estándar poblacional
o SHIFT , S-VAR , 3 para calcular 1
x n
  , la desviación estándar muestral
Medidas descriptivas para datos agrupados en una calculadora Casio
Apriete la tecla MODE , MODE y, luego, apriete SD (1)
Limpie la memoria siempre. Apriete SHIFT , CLR , SCL (1) y =.
Ingrese la <marca de clase> ;. <frecuencia de la clase> y pulse DT. La pantalla le mostrará el
número de datos ingresados.
Para ver las medidas descriptivas, se procede exactamente como en el caso anterior.
(edu.casio.com)
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 12
Curva de Lorenz
http://www.eumed.net/cursecon/7/Lorenz-Gini.htm
La curva de Lorenz es una representación gráfica utilizada
frecuentemente para plasmar la distribución relativa de una
variable en un dominio determinado. El dominio puede ser el
conjunto de hogares o personas de una región o país, por ejemplo.
La variable cuya distribución se estudia puede ser el ingreso de los
hogares o las personas. Utilizando como ejemplo estas variables, la
curva se trazaría considerando en el eje horizontal el porcentaje
acumulado de personas u hogares del dominio en cuestión y en el
eje vertical el porcentaje acumulado del ingreso.
Cada punto de la curva se lee como porcentaje acumulativo de los hogares o las personas. La curva
parte del origen (0,0) y termina en el punto (100,100). Si el ingreso estuviera distribuido de manera
perfectamente equitativa, la curva coincidiría con la línea de 45 grados que pasa por el origen (por
ejemplo el 30% de los hogares o de la población percibe el 30% del ingreso). Si existiera
desigualdad perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría con
el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En general la curva se
encuentra en una situación intermedia entre estos dos extremos.
Si una curva de Lorenz se encuentra siempre por encima de
otra (y, por lo tanto, está más cerca de la línea de 45 grados)
podemos decir sin ambigüedad que la primera exhibe menor
desigualdad que la segunda. Esta comparación gráfica entre
distribuciones de distintos dominios geográficos o temporales
es el principal empleo de las curvas de Lorenz.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 13
Coeficiente de Gini
http://es.wikipedia.org/wiki/Coeficiente_de_Gini
El Coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, pero puede utilizarse para
medir cualquier forma de distribución desigual. El coeficiente de Gini es un número entre 0 y 1, en
donde 0 se corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y 1 se
corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los demás ninguno).
El índice de Gini es el coeficiente de Gini expresado en porcentaje, y es igual al coeficiente de Gini
multiplicado por 100.
Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos,
también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie
disponga de una riqueza neta negativa.
El coeficiente de Gini se calcula como una razón de las áreas en el diagrama
de la curva de Lorenz. Si el área entre la línea de perfecta igualdad y la
curva de Lorenz es a, y el área por debajo de la curva de Lorenz es B,
entonces el coeficiente de Gini es a/(a+b). Esta ratio se expresa como
porcentaje o como equivalente numérico de ese porcentaje, que es siempre
un número entre 0 y 1.
El coeficiente de Gini se calcula a menudo con la Fórmula de Brown, que es más práctica:
donde:
 G: Coeficiente de Gini
 X: Proporción acumulada de la variable población
 Y: Proporción acumulada de la variable ingresos
De forma resumida, la Curva de Lorenz es una gráfica de
concentración acumulada de la distribución de la riqueza
superpuesta a la curva de la distribución de frecuencias de los
individuos que la poseen, y su expresión en porcentajes es el Índice
de Gini.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 14
Ejemplo 3
A continuación se presenta un ejemplo del cálculo del coeficiente de Gini usando los valores de la
mortalidad infantil de 5 países del área andina en 1997. Los datos para este ejemplo se presentan en
la tabla 1a y la tabla 1b. La curva de Lorenz se muestra en la Figura 2.
Los pasos a seguir para el cálculo del coeficiente de Gini son los siguientes:
 Ordenar las unidades geográficas por la variable de salud de la peor situación a la mejor
 Transformar la tasa en variable continua (calcular el número de muertes infantiles para cada
unidad geográfica)
 Calcular las proporciones para las dos variables
 Calcular las proporciones acumuladas para las dos variables
 Graficar la curva de Lorenz representando en el eje “X” la proporción acumulada de la
población y en el eje “Y” la proporción acumulada del número de eventos de la variable de
salud.
 Calcular el coeficiente de Gini utilizando la fórmula de Brown.
 Interpretación:
o Coeficiente de Gini : El valor de 0,19 no es un valor alto por estar más próximo del
cero que del uno. No obstante este coeficiente debe analizarse en términos
comparativos. Habría que comparar este valor con el de otras unidades geográficas
para el mismo indicador.
o Curva de Lorenz: Se lee en la curva que 30% de las muertes en menores de un año
ocurrieron en 20% de la población de nacidos vivos.
Tabla 1a: País, PNB per capita, tasa de mortalidad infantil (TMI), número de nacidos vivos y
número de muertes infantiles, proporción de la población de nacidos vivos y proporción de las
muertes
País
PNB per
capita
1996
TMI
(por 1,000 NV)
1997
Nacidos vivos
(1,000)
1997
Muertes
Infantiles
Proporción
nacidos
vivos
Proporción
muertes
infantiles
Bolivia 2 860 59 250 14 750 0.09 0.17
Perú 4 410 43 621 26 703 0.24 0.31
Ecuador 4 730 39 308 12 012 0.12 0.14
Colombia 6 720 24 889 21 336 0.34 0.24
Venezuela 8 130 22 568 12 496 0.22 0.14
Total 33 2 636 87 297 1 1
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 15
Tabla 1b: Proporción acumulada de la población de nacidos vivos, proporción acumulada de
las muertes infantiles y etapas para el cálculo del coeficiente de Gini
País
X: Prop, acum,
nacidos vivos
Y: Prop, acum,
muertes infantiles
A
Yi+1 + Yi
B
Xi+1 - Xi A*B
Bolivia 0,09 0,17 0,17 0,09 0,02
Perú 0,33 0,47 0,64 0,24 0,15
Ecuador 0,45 0,61 1,09 0,12 0,13
Colombia 0,78 0,86 1,47 0,34 0,50
Venezuela 1,00 1,00 1,86 0,22 0,40
Total 1,19
Coeficiciente de Gini 0,19
Figura 2: Curva de Lorenz
Proporción
acumulada
de muertes
en
menores
de 1 año
Proporción acumulada de nacidos vivos
Tema de investigación para el alumno. En base a datos reales propios de su especialidad, debe
presentar:
1. Aplicación e interpretación de la Curva de Lorenz
2. Aplicación e interpretación del Coeficiente de Gini
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 16
UNIDAD 2. Vector aleatorio
Logro de la unidad
Explica adecuadamente el concepto de vector aleatorio y modela
distribuciones de probabilidad y de densidad conjunta.
Distribuciones de probabilidad conjunta
Función de probabilidad discreta conjunta
La función de probabilidad conjunta f(x,y) para dos variables aleatorias discretas X e Y, llamada distribución
bivariable es una función que cumple:
 0 ≤ f(x,y) ≤ 1 para todos los valores de x e y.
  
y x
y
x
f 1
)
,
(
 f(x,y) = P(X = x, Y = y)
Ejercicio 1
La función de probabilidad conjunta de X e Y es
  2
,
1
,
0
3
,
2
,
1
,
0
, 


 y
x
a
y
x
y
x
f con a es constante
Calcule a y P(X > Y)
(weibull.com)
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 17
Ejercicio 2
Un inversionista posee 5 paquetes de acciones tipo A, 2 paquetes tipo B y 6 de tipo C. Se sacan al azar una muestra de
tres paquetes. Sea X el número de paquetes tipo A e Y el número de paquetes tipo B. Determine la función de
probabilidad conjunta de X e Y.
Ejercicio 3 (Aplicación para su Trabajo)
Suponga que el valor (en dólares) en la Bolsa de Valores, de las acciones de 5 empresas es:
Empresa Alfa Beta Gamma Delta Ypsilon
Valor de la acción (en dólares) 6 10 9 8 6
Si se elige al azar y sin reemplazo dos empresas, y se define:
X:= Menor valor de las acciones de las empresas elegidas
Y:= Mayor valor de las acciones de las empresas elegidas
Halle la función de probabilidad conjunta de X e Y.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 18
Función de probabilidad marginal
Sean X e Y variables aleatorias discretas y sea f(x, y) su distribución de probabilidad conjunta. Entonces, las
distribuciones de probabilidad marginales de X e Y son:
 

y
X y
x
f
x
f )
,
(
)
( 1
 

x
Y y
x
f
y
f )
,
(
)
( 2
Ejercicio 4
Un camión de entregas especiales viaja del punto A al punto B y de regreso por la misma ruta cada día. Hay tres
semáforos en esta ruta. Sea:
 X el número de semáforos en rojo que el camión encuentra en su camino al punto B
 Y el número de semáforos en rojo que el camión encuentra de regreso al punto A.
Un ingeniero de tránsito ha determinado la distribución de probabilidad conjunta de X e Y que se muestra en la tabla.
Y
X
0 1 2 3
0 0,01 0,03 0,05 0,02
1 0,02 0,06 0,12 0,09
2 0,07 0,10 0,15 0,08
3 0,01 0,06 0,08 k
Calcule las distribuciones marginales )
(
)
( 2
1 y
f
y
x
f Y
X
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 19
Función de probabilidad condicional
Sean X e Y variables aleatorias discretas y sea f(x, y) su distribución de probabilidad conjunta. Entonces, las
distribuciones de probabilidad condicionales de X e Y son respectivamente:

)
(
)
,
(
)
|
(
2
2
1
y
f
y
x
f
y
x
f 

)
(
)
,
(
)
|
(
1
1
2
x
f
y
x
f
x
y
f 
Ejercicio 5
El siguiente cuadro muestra la distribución de probabilidades conjunta de las variables:
X: antigüedad del vehículo de la persona encuestada, en años
Y: costo anual de mantenimiento.
Y
X
150 250 350 450
2 0,16 0,08 0,00 0,00
3 0,04 0,12 0,04 0,00
4 0,00 0,09 0,14 0,04
5 0,00 0,00 0,16 0,04
6 0,00 0,00 0,04 0,08
Determine e interprete el valor esperado del costo de mantenimiento cuando el vehículo tiene 4 años de antigüedad.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 20
Función de densidad de probabilidad conjunta
La función de densidad de probabilidad conjunta f(x, y) para dos variables aleatorias continuas X e Y es una función
que satisface las siguientes propiedades:
 0
)
,
( 
y
x
f para todos los valores de x e y
  






1
)
,
( dxdy
y
x
f
 d
c
b
a
dxdy
y
x
f
d
y
c
b
x
a
P
d
c
b
a
,
,
,
)
,
(
)
,
( 




  constantes
Ejercicio 6
Sea la siguiente función de probabilidad conjunta de X e Y:


 





casos
otros
en
y
x
si
y
x
y
x
f
0
1
0
:
2
1
)
,
(
Calcule la probabilidad de X + Y sea mayor a 2.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 21
Función de densidad marginal
Sea f(x, y) la función de densidad conjunta para X e Y. Entonces, las funciones de densidad marginal para X e Y son
respectivamente:









 dx
y
x
f
y
f
y
dy
y
x
f
x
f Y
X )
,
(
)
(
)
,
(
)
(
Ejercicio 7
Sea la siguiente función de probabilidad conjunta de X e Y:


 





casos
otros
en
y
x
si
y
x
y
x
f
0
1
0
:
2
1
)
,
(
Determine las funciones de probabilidad marginales de X e Y respectivamente. Demuestre que dichas funciones son
funciones de densidad.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 22
Ejercicio 8 (Aplicación para su Trabajo)
Ana y Alba han acordado reunirse para almorzar entre el mediodía (12 horas) y la 1.00 PM. Sea X la hora de llegada de
Ana e Y la hora de llegada de Alba. Suponga que las horas de llegada son independientes con las siguientes funciones
de densidad marginales
 


 


caso
otro
en
x
x
x
f
0
1
0
3 2
1
 


 


caso
otro
en
y
y
y
f
0
1
0
2
2
¿Cuál es la probabilidad de que la persona que llegue primero, espere a la otra menos de un cuarto de hora?
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 23
Función de densidad condicional
Sea f(x,y) la función de densidad conjunta para X e Y. Entonces, las funciones de densidad condicional para x e y
son respectivamente:
)
(
)
,
(
)
|
(
)
(
)
,
(
)
|
(
x
f
y
x
f
x
y
f
y
y
f
y
x
f
y
x
f 

Ejercicio 9
Sea la siguiente densidad de X e Y


 





c
c
y
x
si
cy
x
y
x
f
.
0
1
0
;
2
1
)
,
(
donde c es una constante.
 Encuentre el valor de c que convierte f (x, y) en una función de densidad de probabilidad.
 Obtenga la densidad marginal para Y, demuestre también que 



1
)
( dy
y
f
 Calcule f (x | y), la densidad condicional de X dado Y = y.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 24
Ejercicio 10
Un fabricante de refrigeradoras somete sus productos terminados a una inspección integral. Hay dos tipos de defectos:
raspadura en la porcelana y defectos mecánicos. Suponga que el tiempo que le toma en detectar un defecto de raspadura
en la porcelana se considera como una variable aleatoria X, mientras que el tiempo requerido para detectar un defecto
mecánico se considera una variable aleatoria Y. Ambas variables tienen como función de probabilidad conjunta:
.
;
0
1
0
,
0
;
)
,
(
horas
de
decenas
en
medidas
Y
e
X
casos
otros
en
y
y
x
Kxy
y
x
f


 




Determine la probabilidad de que el tiempo en detectar un defecto de raspadura sea menor a 4 horas, sabiendo que el
tiempo en detectar un defecto mecánico fue de seis horas.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 25
Esperado de funciones de dos variables aleatorias
Sea g(x,y) una función de las variables aleatorias X e Y. El esperado de g(x,y) se define como:
 








 







continuas
son
y
e
x
si
dxdy
y
x
f
y
x
g
discretas
son
y
e
x
si
y
x
p
y
x
g
y
x
g
E
y x
)
,
(
)
,
(
)
,
(
)
,
(
)
,
(
Sea c una constante, E (c) = c
Sea c una constante y sea g(x, y) una función de X e Y,    
)
,
(
)
,
( y
x
g
cE
y
x
cg
E 
Sean g1(x, y), g2(x, y), …, gk(x, y), k funciones de las variables aleatorias X e Y. Entonces, el valor esperado de la
suma de estas funciones es
     
   
   
   
 
y
x
g
E
y
x
g
E
y
x
g
E
y
x
g
y
x
g
y
x
g
E k
k ,
...
,
,
,
...
,
, 2
1
2
1 






Ejercicio 11
Sea la siguiente densidad de X e Y


 





c
c
y
x
si
y
x
y
x
f
.
0
1
0
;
2
1
)
,
(
Calcule E(X), E(Y), E(X+Y) y E(XY)
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 26
Ejercicio 12
Sea f(x, y) la función de densidad conjunta para X e Y
 


 






otrocaso
x
y
x
x
y
x
kx
y
x
f
;
0
2
0
;
)
,
(
Halle k, E(X) y E(Y)
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 27
Independencia de variables
Sean X e Y variables aleatorias discretas con distribución de probabilidad conjunta f (x, y) y distribuciones de
probabilidad marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si
)
(
).
(
)
,
( y
f
x
f
y
x
f Y
X
 , para todos los pares de valores x e y
Sean X e Y variables aleatorias continuas con función de densidad conjunta f(x, y) y funciones de densidad
marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si
)
(
).
(
)
,
( y
f
x
f
y
x
f Y
X

Si X e Y son variables aleatorias independientes, entonces
)
(
).
(
)
( Y
E
X
E
XY
E 
Ejercicio 13
Sea la siguiente función de probabilidad conjunta de X e Y:


 





casos
otros
en
y
x
si
y
x
y
x
f
0
1
0
:
2
1
)
,
(
Determine si las variables aleatorias X e Y son independientes.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 28
Ejercicio 14
Los precios de dos máquinas empaquetadoras de última generación Y1 y Y2 son variables aleatorias independientes
expresadas en miles de dólares.
 Y1 tiene distribución uniforme entre 4 y 10
 Y2 tiene distribución uniforme entre 5 y 13.
Si un ingeniero decide comprar una de estas máquinas, calcule la probabilidad de que la suma de ambos precios sea
como máximo $15000.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 29
Covarianza
La covarianza de dos variables aleatorias X e Y, se define como:
y
x
y
x xy
E
y
x
E
y
x
Cov 


 .
)
(
)]
)(
[(
)
,
( 




Si dos variables aleatorias son independientes, entonces:
Cov(X, Y) = 0
Coeficiente de correlación
El coeficiente de correlación r para dos variables aleatorias X e Y es
y
x
y
x
Cov



)
,
(

donde x
 y y
 son las desviaciones estándares de X e Y, respectivamente.
Ejercicio 15
Un administrador de inventarios ha acumulado registros de las cantidades demandadas de los productos de su compañía
durante los últimos días. Considere que X representa en número de pedidos recibidos e Y representa el número de
unidades demandadas por cada pedido.
La distribución de probabilidades conjunta está dada por:
X
X
Y
Y 1
1 2
2 3
3
4
4 0.16 0.15 0.28
6
6 0.04 0.15 0.22
Calcule el coeficiente de correlación entre X e Y.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 30
Ejercicio 16
Sean X, Y, Z variables aleatorias independientes y con varianzas iguales. Definamos las variables aleatorias U = X + Y y
W = Y + Z.
Calcule el coeficiente de correlación entre U y W.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 31
Ejercicios Propuestos
1. El concreto experimenta un marcado incremento característico en la “plastodeformación” cuando se
calienta por primera vez bajo carga. Se efectuó un experimento con el fin de investigar el
comportamiento ante esfuerzos térmicos transitorios del concreto. Dos variables que se cree afectan el
esfuerzo térmico son x, la rapidez de calentamiento (grados centígrados por minuto) e y, el nivel de carga
(porcentaje de la resistencia inicial). Se preparan y prueban especimenes de concreto bajo diversas
combinaciones de rapidez de calentamiento y carga, y se determina el esfuerzo térmico para cada uno.
Suponga que la distribución de probabilidad conjunta de X e Y para los especimenes que produjeron
resultados aceptables es la que se da en la tabla. Suponga que se escoge al azar un espécimen de concreto
de entre los que se probaron en el experimento y tuvieron un comportamiento ante esfuerzo térmico
aceptable.
x (°C/minuto)
0,1 0,2 0,3 0,4 0,5
y
0 0,17 0,11 0,07 0,05 0,05
10 0,10 0,06 0,05 0,02 0,01
20 0,09 0,04 0,03 0,01 0,00
30 0,08 0,04 0,02 0,00 0,00
a) Calcule las distribuciones de probabilidad marginal, fX(x1) y fY(y2)
b) Obtenga la distribución de probabilidad condicional, f (x | y1)
c) Calcule la probabilidad de que el espécimen se haya calentado con una rapidez de 0,4 °C/minuto.
d) Dado que el espécimen de concreto se calentó a 0,5°C/minuto, calcule la probabilidad de que el espécimen
tuviera una carga de 10%.
2. Se almacena Kerosene industrial en un tanque a granel al principio de cada semana. A causa de lo
limitado del suministro, la proporción X de la capacidad del tanque que esta disponible para la venta y la
proporción Y de la capacidad del tanque que realmente se vende durante la semana son variables
aleatorias continuas cuya distribución conjunta está dada por:


 




.
.
0
1
0
;
0
4
)
,
(
2
c
c
x
x
y
si
x
y
x
f
a) Calcule los valores esperados de X e Y
b) Calcule el valor esperado de XY
c) Calcule la covarianza de X e Y.
3. Si cada uno de los n valores xi de una muestra aleatoria, es transformado en:
yi = a xi , siendo a constante, entonces, demuestre que la varianza de los n valores yi es:
2 2 2
y x
S a S

Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 32
4. Si cada uno de los n valores xi de una muestra aleatoria es transformado en:
yi = xi + b, siendo b constantes, entonces, demuestre que la varianza de los n valores yi es:
2
2
x
y S
S 
5. Si cada uno de los n valores xi de una muestra aleatoria es transformado en:
yi = a xi + b, siendo a y b constantes, entonces, demuestre que la varianza de los n valores yi es:
2 2 2
y x
S a S

6. Conforme a la información que proporciona la ojiva de los ingresos mensuales, en nuevos soles,
de los trabajadores de una empresa que se muestra en la gráfica, determine el tipo de
distribución según su Asimetría y su Curtosis. ¿Qué comentarios puede realizar a partir de estos
resultados?
Ojiva de ingresos
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000
Ingresos
Hi
7. Sea X una variable aleatoria discreta, con a y b constantes. Demuestre que:
a. 2
4
2
X
Y a 
  , siendo b
X
a
Y 
 2
b.   2
2
2
X
X X
E 
 

8. Sea X una variable aleatoria continua, con función de densidad de probabilidad:
 


 



caso
otro
en
x
para
kx
x
f
0
75
65
2
3
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 33
a. Determine el valor de k
b. Calcule la probabilidad que X se encuentre entre 70 y 75
c. Determine el Valor Esperado de X
d. Determine la Desviación estándar de X
9. Sea  
y
x
f ; la función de densidad conjunta para X e Y.
 
 


 






caso
otro
en
x
y
x
x
para
y
x
x
k
y
x
f
0
;
2
0
;
Determine e interprete el Coeficiente de Correlación de X e Y
10. Sea  
y
x
f , la función de densidad conjunta para X e Y.
 


 




caso
otro
en
y
x
para
y
x
k
y
x
f
0
2
1
;
2
0
,
2
a. Determine el valor de k
b. Determine la probabilidad que X – Y sea menor que 1
11. Sea  
2
1 , y
y
f la función de densidad conjunta para Y1 e Y2.
 
 











caso
otro
en
y
y
para
y
y
y
y
f
0
1
0
;
1
0
2
3
, 2
1
2
2
2
1
2
1
a. Determine la función de densidad de probabilidad marginal para la variable aleatoria Y.
b. Determine la función de densidad condicional Y1, dado que Y2 = y2
c. Determine el valor esperado de Y1
d. Determine el valor esperado de Y1 Y2
e. Determine la covarianza de las variables aleatorias Y1 é Y2
12. Sean X, Y y Z variables aleatorias discretas; a, b constantes. Si   b
Z
X
a
Y 

 . Demuestre que:
a.     b
a
Y
E z
x 

 

b.  
2
2
2
2
z
x
y a 

 

13. Sean X, Y y Z variables aleatorias discretas; k una constante. Si Z
k
Y  . Demuestre que:
   
Z
X
k
Y
X ,
cov
,
cov 
14. Sean las variables aleatorias X é Y. Se definen las variables:
U = a X + c
V = b Y + d
Siendo a, b, c y d números reales cualesquiera. Entonces demuestre que: Cov [ U, V ] = a b Cov [ X, Y ]
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 34
15. Sea  
y
x
f ; la función de densidad conjunta para X e Y. (Aplicación para su Trabajo)
 
 


 






caso
otro
en
x
y
x
x
para
y
x
k
y
x
f
0
;
2
0
1
;
3
a. Calcule el valor de k
b. Determine E(X)
c. Determine E(XY)
d. Calcule el valor de la covarianza de X e Y
Función Generadora de Momentos y Distribución Normal Bivariada
http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030011/lecciones/cap2/cap_2_pag_10.html
Tema de investigación para el alumno. En cada caso el alumno debe presentar:
1. Definición y propiedades
2. Fórmulas de cálculo e interpretación
3. Aplicación en datos reales propios de la carrera
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 35
UNIDAD 3. Estimación y prueba de hipótesis
Logro de la unidad
Modela satisfactoriamente casos sencillos que conducen a verificar hipótesis de
información relacionada con su especialidad, reconociendo la importancia de ésta
herramienta en la toma de decisiones.
Estimación puntual
Es la estimación del valor del parámetro por medio de un único valor obtenido mediante el cálculo o evaluación de
un estimador para una muestra específica.
El estimador se expresa mediante una fórmula.
Por ejemplo, la media de la muestra 


n
i
i
X
n
X
1
1
es un posible estimador puntual de la media poblacional .
Los parámetros con sus correspondientes estimadores puntuales son:
Parámetro Estimador puntual
 x
2
 S2
p p
2
1 
  2
1 x
x 
2
2
2
1 / 
 2
2
2
1 S
/
S
2
1 p
p  2
1 p
p 
(euroXpress)
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 36
Estimación por intervalos
Intervalo de confianza para la media
Varianza poblacional conocida
Si x es la media de una muestra aleatoria de tamaño n de una población con varianza 2
, conocida, el intervalo de
confianza de (1 - )x100% para  está dado por:
n
z
x
n
z
x




 2
/
1
2
/
1 
 



donde 2
/
1
z 
 es el valor que deja un área de 1- /2 a la izquierda.
Si el muestreo es sin reemplazo los límites de confianza son:
1
1
2
/
1
2
/
1







 

N
n
N
n
z
x
N
n
N
n
z
x





Varianza poblacional desconocida
Si x y S son la media y la desviación estándar de una muestra aleatoria de tamaño n, desconocida, el intervalo de
confianza de ( 

1 )x100% para  está dado por:
n
S
t
x
n
S
t
x 2
/
2
/ 
  



donde 2
/

t es el valor t con (n -1) grados de libertad, que deja un área de 2
/
 a la derecha.
Si el muestreo es sin reemplazo los límites de confianza son:
1
1
2
/
2
/








N
n
N
n
S
t
x
N
n
N
n
S
t
x 
 
Ejemplo 1
Una máquina produce piezas metálicas de forma cilíndrica, éstas son almacenadas en lotes de 1000 unidades. Se toma
una muestra de las piezas de uno de los lotes y los diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03
centímetros. Encuentre un intervalo de confianza de 99% para el diámetro medio de las piezas de esta máquina.
Suponga que los diámetros siguen una distribución aproximadamente normal con desviación estándar igual a 0.03
centímetros.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 37
Ejemplo 2
Los siguientes datos corresponden al contenido medio de plomo (miligramos por litro) de muestras de agua
recolectadas diariamente durante 70 días de un sistema de agua.
0,09678 0,07149 0,02216 0,02844 0,00509 0,02346 0,06387
0,03786 0,06458 0,07758 0,05297 0,03282 0,06952 0,08588
0,05720 0,00085 0,07407 0,02497 0,04557 0,03753 0,04897
0,03336 0,09612 0,09007 0,05633 0,07776 0,07836 0,07373
0,08864 0,04475 0,02384 0,02123 0,05981 0,03668 0,00019
0,08866 0,03658 0,05978 0,03543 0,03159 0,07735 0,06618
0,06675 0,01867 0,03198 0,07262 0,01231 0,04838 0,01650
0,08083 0,02441 0,05767 0,0797 0,06182 0,057 0,08941
0,05175 0,07922 0,00943 0,03686 0,01097 0,08949 0,00264
0,07271 0,07979 0,01333 0,02791 0,08812 0,06969 0,04160
Resúmenes:
0272
.
0
s
0513
.
0
x 

Asumiendo normalidad en la cantidad de plomo, calcule:
a) Construya un intervalo de confianza de 95% para el contenido promedio de plomo.
b) Si la verdadera desviación estándar de la cantidad de plomo en el agua es 0.02, construya un intervalo de
confianza de 95% para el contenido promedio de plomo.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 38
Tamaño de muestra cuando la varianza poblacional es conocida
Si X se usa como estimación de , podemos tener (1-)x100% de confianza de que el error no exceda una
cantidad específica e cuando el tamaño de la muestra es:
2
2
/
1






 
e
z
n


Si el valor del tamaño de muestra es decimal se debe redondear al siguiente número entero.
Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con la siguiente fórmula:
N
n
n
n
0
0
1

donde
2
2
/
1
0 





 
e
z
n


y N es el tamaño de la población.
Ejemplo 1
¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza y un margen de error de 0.04? Asuma que
la desviación estándar poblacional es 0.5 y que el tamaño poblacional es 5000
Ejemplo 2
¿Cuántas piezas deberá elegirse de un lote de 2000 piezas metálicas para estimar el diámetro medio, con un nivel de
confianza de 95% y un error no mayor de 0,02?, si de una muestra aleatoria anterior se registró las siguientes
mediciones (en centímetros): 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03. Suponga que los diámetros siguen una
distribución aproximadamente normal.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 39
Ejercicios Propuestos
1. Se afirma que la resistencia del alambre A tiene distribución normal con desviación estándar iguala 0,05
ohmios. Los datos siguientes corresponden a una muestra de dichos alambres:
0,140 0,138 0,143 0,142 0,144 0,137 0,135 0,140 0,136 0,142 0,138 0,140
Estime un intervalo de 98% de confianza para la resistencia promedio de los alambres.
2. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 25 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos.
a) Con una confianza del 99%, calcule el error máximo de estimación del tiempo promedio que lleva ensamblar
el componente de la computadora.
b) Construya e interprete un intervalo de confianza de 95% para el tiempo medio real que lleva ensamblar el
componente de la computadora.
3. Una agencia de control ambiental ha reunido datos de mediciones de DL50 (dosis letal, es decir, mata al
50% de los animales de prueba en un determinado intervalo de tiempo) para determinadas sustancias
químicas que se encuentran probablemente en ríos y lagos de agua dulce. Para determinada especie de
pescado, las mediciones de DL50 para el DDT en 12 experimentos dieron los siguientes resultados (en
partes por millón):
16 5 21 19 10 5 8 2 7 2 4 9
Suponiendo que estas determinaciones de DL50 tiene una distribución aproximadamente normal, estime la DL50
promedio real para el DDT con un coeficiente de confianza igual a 0.90.
4. En un estudio de contaminación del aire realizado en una estación experimental, de 12 muestras
diferentes de aire se obtuvieron los siguientes montos de materia orgánica suspendida soluble en benceno
(en microorganismos por metro cúbico):
2,212 1,839 3,152 2,608 2,456 2,747 2,913 1,265 2,346 2,333 1,909 2,333
Suponiendo que la población muestreada es normal:
a) Calcule e interprete un intervalo de confianza de 95% para la media real.
b) ¿De qué tamaño debe ser la muestra para estimar el monto promedio de materia orgánica con un error de 0.08
microorganismos por metro cúbico y con 95% de confianza?
5. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 90% del
número promedio de graduados de las universidades de la nación con un error de 2,000 estudiantes si una
muestra piloto reporta que s = 8,659?
6. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 95% de la
edad promedio de los estudiantes de ingeniería civil de cierta universidad con un error de 1,5 años si una
muestra piloto reporta que s = 5,23 años? El número total de estudiantes de esta carrera es 300.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 40
Intervalo de confianza para la proporción poblacional
Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, un intervalo de confianza de ( 

1 ) x100%
para p está dado por:
n
p
p
z
p
p
n
p
p
z
p
)
1
(
)
1
(
2
/
1
2
/
1





 
 

donde 2
/
1 

z es el valor z que deja un área de 1- /2 a la izquierda.
Si el muestreo es sin reemplazo, los límites de confianza son:
1
)
1
(
1
)
1
(
2
/
1
2
/
1









 

N
n
N
n
p
p
z
p
p
N
n
N
n
p
p
z
p 

Tamaño de muestra para estimar una proporción
Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, podemos tener una confianza del (1-)x100%
de que el error será menor de una cantidad específica e cuando el tamaño de la muestra es:
 
2
2
2
/
1 1
e
p
p
z
n

 
Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con:
N
n
n
n
0
0
1

donde
 
2
2
2
/
1
0
1
e
p
p
z
n

 
y N es el tamaño de la población.
Tamaño de muestra para estimar una proporción sin usar información muestral
El valor de  
p
p 
1 se hace máximo cuando 5
.
0

p , por lo tanto la fórmula para calcular el tamaño de muestra
queda de la siguiente manera:
2
2
2
/
1
4e
z
n 


Ejemplo 1
Se lleva a cabo un estudio para estimar el porcentaje de ciudadanos de una ciudad que están a favor de tener
agua fluorada. ¿Qué tan grande se necesita que sea la muestra si se desea tener una confianza de 95% de que
la estimación esté dentro del 1% del porcentaje real?
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 41
Ejemplo 2
Las distorsiones que ocurren en la pantalla de una terminal para gráficos por computadora con frecuencia se deben a
pérdida de datos en el proceso de enlace de comunicación entre la terminal y la computadora. El fabricante de un nuevo
controlador de errores de comunicación de datos asegura que la probabilidad de perder datos cuando el controlador está
operando es de 0,10. A fin de probar esta aseveración, se vigila el enlace de comunicación entre una terminal de
gráficos y una computadora con el controlador de errores funcionando. De una muestra de 120 elementos se observó los
siguientes resultados:
Sí Sí Sí No No Sí Sí Sí Sí Sí
No No No Sí Sí No No No No No
No Sí Sí Sí Sí No No Sí Sí Sí
No Sí No Sí Sí No No No No Sí
No Sí No Sí Sí No No Sí Sí Sí
No No No No Sí No No No No No
No Sí No Sí Sí No No Sí Sí No
No Sí No No No No No No Sí No
No Sí No Sí Sí No No Sí Sí No
Sí Sí No No Sí No No No Sí No
Sí Sí No Sí Sí No No Sí Sí No
No No No No No No No Sí Sí Sí
Sí : sufrieron distorsiones a causa de errores de datos en el enlace de comunicación.
No : sufrieron distorsiones a causa de errores de datos en el enlace de comunicación.
Con 95% de confianza, ¿la información recolectada refuta la aseveración del fabricante? Asuma normalidad.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 42
Intervalo de confianza para la varianza poblacional
Si S2
es la varianza de una muestra aleatoria de tamaño n de una población normal, un intervalo de confianza de
(1 - )x100% para 2
es:
2
2
/
1
2
2
2
2
/
2
)
1
(
)
1
(








X
S
n
X
S
n
donde
2
2
/

X y
2
2
/
1 

X son valores X 2
con v = n - 1 grados de libertad, que dejan áreas de /2 y 1 - /2,
respectivamente, a la derecha.
Ejercicio
Un fabricante de baterías para automóviles quiere estimar la desviación estándar de la duración de sus baterías. Si seis
de estas baterías tienen duraciones, en años, de
1.9 2.4 3.0 3.5 3.1 4.2
Construya un intervalo de confianza del 95% para 2
. Suponga que la población de duraciones de las baterías se
distribuye de forma normal.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 43
Ejercicios Propuestos
1. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 20 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Asuma que los
tiempos tienen distribución normal.
a) Construya e interprete un intervalo de confianza de 95% para el promedio real del tiempo que lleva
ensamblar el componente de la computadora.
b) Construya e interprete un intervalo de confianza de 95% para la varianza real del tiempo que lleva
ensamblar el componente de la computadora.
2. Se desea estimar con 95% de confianza y con un error de estimación no mayor de 3.5% qué porcentaje
de todos los conductores exceden el límite de velocidad de 90 kilómetros por hora en cierto tramo del
camino. ¿De qué tamaño se necesita tomar la muestra?
3. Si se desea estimar la proporción real de unidades defectuosas en un embarque muy grande de ladrillos
de adobe, y se quiere estar al menos 98% seguros de que el error es a lo más 0,04. Cuan grande deberá
ser la muestra si:
a) No se tiene idea de cual es la proporción real
b) Si la proporción real es 0,12
4. Una empresa desea estimar la proporción de trabajadores de la línea de producción que están a favor de
que se corrija el programa de aseguramiento de la calidad. La estimación debe quedar a menos de 0.05 de
la proporción verdadera de los que favorecen el programa, con un coeficiente de confianza del 98%.
¿Cuántos trabajadores se deben muestrear, si la empresa cuenta en total con 2,000 trabajadores?
Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de confianza del 96%, realice
aplicaciones de:
1. Estimación de una media poblacional
2. Estimación de una desviación estándar poblacional
3. Estimación de una proporción poblacional
4. Realice ajustes del máximo error muestral y determine el nuevo tamaño de muestra
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 44
Intervalo de confianza para el cociente de varianzas
Si s2
1 y s2
2 son las varianzas de muestras independientes de tamaño n1 y n2, de poblaciones normales, entonces un
intervalo de confianza de (1 - )x100% para
2
2
2
1 
 es:
)
2
/
,
,
(
2
2
2
1
2
2
2
1
)
2
/
,
,
(
2
2
2
1
1
2
2
1
1

 

v
v
v
v
f
s
s
f
s
s


donde  
2
,
, 2
1

v
v
f es un valor f con v1 = n1 -1 y v2 = n2 – 1 grados de libertad que deja un área de /2 a la derecha
Ejercicio 1
Se comparan el rendimiento de la gasolina de dos automóviles, A y B, probando cinco marcas de gasolina con el
automóvil A y cuatro con B. Cada uno de los vehículos gasta un tanque de cada marca, y el resultado, en millas por
galón, es el siguiente.
Marca Automóvil A Automóvil B
1 28,3 29,2
2 27,4 28,4
3 29,1 28,2
4 28,7 28,0
5 29,4
Promedio 28,58 28,45
Varianza 0,607 0,277
Calcule un intervalo de confianza de 99% para el cociente de las varianzas de los rendimientos de gasolina con los
automóviles A y B.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 45
Ejercicio 2
Los siguientes datos corresponden a la resistencia a la compresión a los 28 días (en kg/cm2
) reportados por dos
laboratorios.
Laboratorio 1 Laboratorio 2
311,4 344,7
312,2 337,6
312,3 346,1
310,2 353,3
297,4 335,0
290,3 332,2
291,6 333,0
295,8 335,1
Con 95% de confianza, ¿podemos asumir que existe homogeneidad de las varianzas de los resultados de resistencia a la
compresión? Asuma poblaciones normales.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 46
Intervalos de confianza para la diferencia entre dos medias
Cuando las varianzas poblacionales son conocidas
El intervalo de confianza de ( 

1 ) x 100% para 2
1 
  está dado por:
   
2
2
2
1
2
1
2
/
1
2
1
2
1
2
2
2
1
2
1
2
/
1
2
1
n
n
z
x
x
n
n
z
x
x







 







 

donde 2
/
1 

z es el valor que deja un área de 1-/2 a la izquierda.
Cuando las varianzas poblacionales iguales pero desconocidas
El intervalo de confianza de ( 

1 ) x 100% para 2
1 
  está dado por:
   
2
2
1
2
2
/
2
1
2
1
2
2
1
2
2
/
2
1
n
S
n
S
t
x
x
n
S
n
S
t
x
x
p
p
p
p








 
 

donde
2
)
1
(
)
1
(
2
1
2
2
2
2
1
1






n
n
S
n
S
n
Sp
y 2
/

t es el valor t con v = n1 +n2 -2 grados de libertad, que deja un área de 2
/
 a la derecha.
Cuando las varianzas poblacionales son desconocidas y diferentes
El intervalo de confianza de ( 

1 ) x 100% para 2
1 
  está dado por:
   
2
2
2
1
2
1
2
/
2
1
2
1
2
2
2
1
2
1
2
/
2
1
n
S
n
S
t
x
x
n
S
n
S
t
x
x 







 
 

donde 2
/

t es el valor t con
   
1
1 2
2
1
2
2
2
2
2
1
2
1
1
2
2
1
2
1





























n
n
n
S
n
S
v
n
S
n
S
grados de libertad, que deja un área de 2
/
 a la derecha.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 47
Ejercicio 1
Una compañía tiene dos departamentos que producen el mismo producto. Se tiene la sensación de que las
producciones por hora son diferentes en los dos departamentos. Al tomar una muestra aleatoria de horas de
producción en cada departamento se obtuvieron los siguientes datos:
Departamento 1 Departamento 2
Tamaño de la muestra 64 49
Media muestral 100 unidades 90 unidades
Varianza muestral 256 225
Obtenga e interprete un intervalo del 95% para la verdadera diferencia de la producción media. Asuma poblaciones
normales.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 48
Ejercicio 2
Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de
taxis. Se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizaron hasta que se
gastan. Los resultados son:
Marca A kilométros
S
kilómetros
x 000
5
300
36 2
1
1 

Marca B kilométros
S
kilómetros
x 100
6
100
38 2
2
2 

Calcule un intervalo de confianza de confianza de 90% para la diferencia de rendimiento promedio de ambas marcas de
neumáticos. Suponga que la diferencia de kilómetros de rendimiento se distribuye de forma normal.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 49
Ejercicio 3
Para comparar dos métodos de la enseñanza de inglés se aplicaron a 350 alumnos elegidos al azar el método tradicional
y a otra muestra de 450 alumnos el método nuevo resultando las calificaciones promedios respectivos de 18 y 17. Las
varianzas poblacionales respectivas son 16 y 9. Calcule un intervalo de confianza de 98% para la diferencia de las
medias.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 50
Intervalos de confianza para la diferencia entre dos medias de Muestras
relacionadas
La prueba de dos medias puede llevarse a cabo cuando los datos están en forma de observaciones
pareadas.
Un intervalo de %
100
x
)
1
( 
 de confianza para la diferencia de medias cuando las muestras están
relacionadas es:
n
s
t
d
n
s
t
d d
)
2
/
,
1
n
(
2
1
d
)
2
/
,
1
n
( 


 






donde 2
/
t es el valor t con (n – 1) grados de libertad, que deja un área de 2
/
 a la derecha.
Ejemplo.
Se llevó a cabo una encuesta entre los ingenieros de una planta, para determinar si pasan más
tiempo en tareas de supervisión que en gestión de procesos. Suponga que en una muestra de 12
encuestados se obtuvieron las horas semanales que dedican a cada una de estas tareas. Con un
nivel de confianza del 95%, ¿se puede llegar a la conclusión de que los ingenieros de esta planta
pasan más tiempo, en promedio, supervisando que en gestión de procesos?
Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Supervisando, horas/semana 11 19 8 5 16 8 4 12 10 14 15 18
Gestión Proceso, horas/semana 6 10 3 10 5 8 7 14 14 8 10 10
Número de tareas supervisadas 12 20 9 4 15 7 5 10 12 16 12 17
X1: Tiempo empleado en tareas de supervisión.
X2: Tiempo en gestión de procesos.
Promedio = 2.9167
Sd = 5.4682
t = 2.201
5.4682
( ) 2.9167 (2.201) 0.5576 6.3910
12
d
s
IC D d t D
n
 
       
 
 
Con 95% de confianza, se encontrará la diferencia de los tiempos promedio empleado en tareas de
supervisión y en gestión de procesos esta comprendido entre - 0.5576 y 6.3910 horas/semana. No se puede
llegar a la colusión que los ingenieros de esta planta pasan más tiempo, en promedio, supervisando que en
gestión de procesos.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 51
Intervalo de confianza para la diferencia de proporciones
Si 1
p y 2
p son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2, respectivamente, un intervalo
de confianza de %
100
)
1
( 
 para la diferencia de dos proporciones poblacionales p1 – p2, está dado por:
           
2
2
2
1
1
1
2
/
1
2
1
2
1
2
2
2
1
1
1
2
/
1
2
1
1
1
1
1
n
p
p
n
p
p
z
p
p
p
p
n
p
p
n
p
p
z
p
p












 
 
 donde 2
/
z
es el valor z que deja un área de /2 a la derecha.
Ejemplo 1
Muestras de dos tipos de materiales A y B, sujetos a cambios extremos de temperatura, produjeron los resultados que se
muestran en la siguiente tabla
Resultado Material A Material B Total
Desintegrados 45 32 77
Permanecieron intactos 155 68 223
Total 200 100 300
A un 98% de nivel de confianza, ¿la proporción de desintegrados del material A es la misma que para el material B?
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 52
Ejemplo 2
Una encuesta de 1000 estudiantes concluye que 274 eligen al equipo profesional de béisbol A como su equipo favorito.
En 1991, se realizó la misma encuesta con 760 estudiantes. Concluyó que 240 de ellos también eligieron al equipo A
como su favorito. Calcule un intervalo de confianza del 95% para la diferencia entre la proporción de estudiantes que
favorecen al equipo A entre las dos encuestas. ¿Hay una diferencia significativa?
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 53
Prueba de hipótesis
Conceptos generales.
La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la
suposición sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis
nula (Ho).
Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a
favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra
estimación inicial del parámetro poblacional podría ser correcto.
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.
Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la
información muestral. La hipótesis alternativa se especifica como opción posible si se
rechaza la nula.
Tipos de errores
La realidad
Información muestral
Aceptar H0 Rechazar H0
H0 es cierta No hay error Error I
H0 es falsa Error II No hay error
Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.


)
I
Error
(
P
El valor  es fijado por la persona que realiza la investigación (por lo general varía entre 1-
10%)
Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.


)
II
Error
(
P
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 54
Potencia de prueba o Poder de Prueba
Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.


1
prueba
de
Potencia
Como el valor de  depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno
de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como
CURVA DE POTENCIA.
Pasos a seguir en una Prueba de Hipótesis
 Paso 1: Planteo de hipótesis.
 Paso 2: Nivel de significación.
 Paso 3: Prueba estadística.
 Paso 4: Suposiciones.
 Paso 5: Regiones críticas. Criterios de decisión.
 Paso 6: Realización de la prueba.
 Paso 7: Resultados y conclusiones.
Procedimiento general
Sea  el parámetro que representa: )
/
,
,
,
,
,
( 2
2
2
2
1
2
1
2
1 




 p
p
p 

1. Planteo de las hipótesis.

























0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
:
:
:
:
:
:
:
:
:
:




















H
H
H
H
H
H
H
H
H
H
2. Fijar el nivel de significación

3. Pruebas estadísticas
4. Supuestos
a) Supuestos para: )
/
,
,
,
( 2
2
2
2
1
2
1 






 Poblacion(es) normalmente
distribuida(s).
 Muestra(s) tomada(s) al azar.
b) Supuestos para: 2
1 p
p
,
p 
 Muestra(s) tomada(s) al azar.
 Muestra(s) grande(s)




)
,
(
positiva
asimétrica
ón
Distribuci
t)
(Z,
simétrica
ón
Distribuci
2
F
E

Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 55
5. Regiones críticas
6. Calculo del Estadístico de prueba
7. Resultados y conclusiones.
Prueba de hipótesis para una media poblacional.
Ejemplo
Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de
que 800

 horas contra la alternativa 800

 horas si una muestra aleatoria de 28 focos
tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05.
Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402
)
Prueba Unilateral de Extremo Inferior
H1:  < o
Prueba Unilateral de Extremo Superior
H1:  > o
Prueba Bilateral
H1:  ≠ o
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 56
1. Planteo de hipótesis.







800
:
H
800
:
H
1
0
2. Nivel de significación.
05
.
0


3. Prueba estadística
)
1
.
0
(
N
~
n
/
x
Z
_
c




4. Supuestos.
 Población normal.
 Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
6. Cálculos
12
.
2
28
/
40
800
784
Zc 



7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo
promedio de duración de los focos es diferente de 800 horas.
Pruebas de hipótesis para una varianza poblacional.
Ejemplo
Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables
producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el
proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8
cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento
aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad.
0.025
0.025
1.96
-1.96
0.95
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 57
Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N(, 2402
)
1. Planteo de hipótesis.









2
2
1
2
2
0
240
:
H
240
:
H
2. Nivel de significación.
05
.
0


3. Prueba estadística
2
)
1
n
(
2
2
2
c ~
s
)
1
n
(






4. Supuestos.
 Población normal.
 Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si 07
.
14
2
c 
 No se rechaza H0
Si 07
.
14
2
c 
 Se rechaza H0
6. Cálculos
938
.
10
240
300
)
1
8
(
2
2
2
c 



7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.
0.05
0.95
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 58
Pruebas de hipótesis para una proporción poblacional.
Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación
se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use
05
.
0

 .
Solución.
Sea p: Proporción de artículos defectuosos.
1. Planteo de hipótesis.





02
.
0
p
:
H
02
.
0
p
:
H
1
0
2. Nivel de significación.
05
.
0


3. Prueba estadística
)
1
.
0
(
N
~
n
)
p
1
(
p
p
p̂
Zc



4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
6. Cálculos
712
.
3
300
)
98
.
0
1
(
02
.
0
02
.
0
05
.
0
Zc 



7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.
0.025
0.025
1.96
-1.96
0.95
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 59
Ejercicios Propuestos
1. Debido al tiempo excesivo que demanda trasladarse hacia el sitio de trabajo, la
oficina en donde usted trabaja en el centro de la ciudad está considerando espaciar
las horas de trabajo para sus empleados. El gerente considera que los empleados
demoran en promedio 50 minutos para llegar al trabajo. Setenta empleados se toman
en promedio 47.2 minutos con una desviación estándar de 18.9 minutos. Fije  en
1% y pruebe la hipótesis.
2. Un químico ha desarrollado un material plástico que, según él, tiene una resistencia
media a la ruptura de 29 onzas por pulgada cuadrada. Para comprobar la bondad del
método se tomaron 20 láminas de plástico en mención hallándose que en cada una de
éstas la resistencia a la ruptura es, respectivamente,
30,1
32,7
22,5
27,5
28,9
27,7
29,8
28,9
31,4
30,4
27,0
31,2
24,3
26,4
22,8
29,4
22,3
29,1
33,4
23,5
Al nivel de significación 05
.
0

 y suponiendo normalidad, ¿se admite la
hipótesis del químico?
3. El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una
sustancia peligrosa) en el agua. Una empresa manufacturera importante produce
PCB como aislante eléctrico descarga pequeñas cantidades de su planta. La gerencia
de la compañía, en un intento por controlar la cantidad de PCB en sus descargas, ha
dado instrucciones de parar la producción si la cantidad media de PCB en el efluente
es mayor que 3 pmm. Un muestreo aleatorio de 50 especimenes de agua produjo las
siguientes estadísticas: 1
,
3
y  ppm y 5
,
0
s  ppm. ¿Proporcionan tales estadísticas
suficientes pruebas para detener el proceso? Utilice 01
,
0

 .
4. Una muestra aleatoria de 64 bolsas de palomitas de maíz con queso pesan, en
promedio, 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis
de que 5
.
5

 onzas contra la hipótesis alternativa, 5
.
5

 onzas en el nivel de
significancia de 0.05
5. Una empresa afirma que los lotes de cierto producto contienen 2% de artículos
defectuosos. Si se elige una muestra de 100 artículos de dicho lote, y resulta que 8
son defectuosos, ¿es válida la afirmación de la empresa? Utilice un nivel de
significancia de 0.05.
6. Un fabricante sostiene que el 95% de los equipos que envió a una fábrica está acorde
con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló
que 18 eran defectuosas. Pruebe la afirmación del fabricante al nivel de significancia
a) 0.01
b) 0.05
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 60
Pruebas de hipótesis para dos varianzas poblacionales.
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las
resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.
Características Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de
significación. Asuma poblaciones normales con varianzas iguales.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1
 , 2
1
 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2
 , 2
2
 )
1. Planteo de hipótesis.











2
2
2
1
1
2
2
2
1
0
:
H
:
H
2. Nivel de significación.
05
.
0


3. Prueba estadística
)
1
n
,
1
n
(
2
2
2
1
2
2
2
1
c 2
1
f
~
1
S
S
F 





4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si 0.226  fc  4.43 No se rechaza H0
Si fc < 0.226 o fc > 4.43 Se rechaza H0
0.025
0.025
4.43
0.226
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 61
6. Cálculos
75
.
1
)
0024
.
0
(
)
0042
.
0
(
Fc 

7. Conclusiones.
Con 5% de nivel de significación la
información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.
Pruebas de hipótesis para dos medias poblacionales.
Muestras independientes
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia
promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.
Características Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de
significación. Asuma poblaciones normales con varianzas iguales.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1
 , 2
1
 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2
 , 2
2
 )
1. Planteo de hipótesis.









2
1
1
2
1
0
:
H
:
H
2. Nivel de significación.
05
.
0


3. Prueba estadística
)
2
n
n
(
2
1
2
p
2
1
_
2
_
1
c 2
1
t
~
n
1
n
1
S
)
(
)
x
x
(
t 















 donde:
2
n
n
s
)
1
n
(
s
)
1
n
(
S
2
1
2
2
2
2
1
1
2
p






4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 62
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si -2.120  tc  2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
6. Cálculos
561
.
9
9
1
9
1
0033
.
0
)
0
(
)
9778
.
0
2367
.
1
(
tc 










7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.
Muestras Relacionadas
Ejemplo
Un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura de
una persona en promedio dos centímetros en un período de cinco días. Las medidas de
cinturas de seis hombres que participaron en este programa de ejercicios se registraron antes
y después del período de cinco días en la siguiente tabla:
Hombres
1 2 3 4 5 6
Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0
¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la
distribución de las diferencias de medidas de cintura antes y después del programa es
aproximadamente normal.
Solución.
Sean X1: Medida de cintura antes (cm.)
X2: Medida de cintura después (cm.)
1. Planteo de hipótesis.





2
D
:
H
2
D
:
H
1
0
0.025
0.025
t(16, 0.025) = 2.120
-2.120
0.95
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 63
2. Nivel de significación.
05
.
0


3. Prueba estadística
 
1
n
d
c t
~
n
/
S
D
d
t 


4. Supuestos.
 Las diferencias tienen distribución normal.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si -2.57  tc  2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
6. Cálculos
794
.
0
6
/
543
.
1
2
5
.
1
tc 



7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el gimnasio.
Prueba de hipótesis para dos proporciones poblacionales.
En una prueba de calidad de dos comerciales de televisión se pasó cada uno en un área de
prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una
encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas
que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los
siguientes resultados:
Comercial
Personas que lo
vieron
Personas que recordaron el
mensaje principal
A
B
150
200
63
60
Use 05
.
0

 para probar la hipótesis que no hay diferencia en las proporciones que
recuerdan los dos comerciales.
0.025
0.025
2.57
-2.57
0.95
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 64
Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.
1. Planteo de hipótesis.





2
1
1
2
1
0
p
p
:
H
p
p
:
H
2. Nivel de significación.
05
.
0


3. Prueba estadística
)
1
.
0
(
N
~
n
1
n
1
)
p
1
(
p
p̂
p̂
Z
2
1
2
1
c












4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
6. Cálculos
328
.
2
200
1
150
1
)
649
.
0
)(
351
.
0
(
200
60
150
63
Zc 









7. Conclusiones.
Con 5% de nivel de significación y a
partir de la información muestral,
hay diferencias significativas en las
proporciones que recuerdan los dos
comerciales.
Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 4%,
realice aplicaciones de Pruebas de Hipótesis para comparar:
1. Dos varianzas poblacionales de muestras independientes
2. Dos medias poblacionales de muestras independientes
3. Dos proporciones poblacionales de muestras independientes
4. Dos medias poblacionales de muestras relacionadas
1.96
0.025
0.025
-1.96
0.95
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 65
Ejercicios Propuestos
1. Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de
mar como en el aire. Los resultados en miles fueron los siguientes:
x s
Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141
Aire 734 571 520 792 773 276 411 500 672 583,222 175,121
¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del
colapso? Asuma poblaciones normales. Use 05
.
0

 .
Prueba de muestras independientes
,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515
-,333 14,54 ,744 -33,222 99,880 -246,700 180,256
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
F Sig.
Prueba de
Levene para la
igualdad de
varianzas
t gl
Sig.
(bilateral)
Diferenci
a de
medias
Error típ.
de la
diferencia Inf erior Superior
95% Intervalo de
confianza para la
diferencia
Prueba T para la igualdad de medias
2. Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un
experimento sobre los alambres muestra los siguientes resultados (en ohmios):
x s
Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033
Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122
Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de
significación.
3. En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se
registraron los siguientes datos acerca de la comparación de residuos de ácido sórbico, en
partes por millón, en jamón inmediatamente después de sumergirlo en una solución de ácido
y después de 60 días de almacenamiento.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 66
Rebanada
Residuos de ácido sórbico en jamón
di
Antes del almacenamiento Después del almacenamiento
1 224 116 108
2 270 96 174
3 400 239 161
4 444 329 115
5 590 437 153
6 660 597 63
7 1400 689 711
8 680 576 104
Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al
nivel de significancia de 0.05, para decir que la duración del almacenamiento influye en las
concentraciones residuales de ácido sórbico?
Prueba de muestras relacionadas
Diferencias relacionadas
t gl
Sig.
(bilateral)
Media
Desviación
típ.
Error típ.
de la
media
95% Intervalo de
confianza para la
diferencia
Inferior Superior
antes - después
198,625 210,165 74,305 22,922 374,328 2,673 7 ,032
4. Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica
la exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los
sujetos se colocaron en cámaras de espiración, una de las cuales contenía una alta
concentración de CO. Se realizaron varias mediciones de respiración para cada sujeto en cada
cámara. Los sujetos se colocaron en las cámaras de respiración en una secuencia aleatoria.
Los siguientes datos dan la frecuencia respiratoria en número de respiraciones por minuto.
Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28
Calcule un intervalo de confianza del 95%, se puede afirmar que un ambiente con CO influye
sobre la capacidad de respiración. Asuma normalidad.
5. El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa.
Un estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de
616 adultos trabajan utilizando con regularidad una computadora personal, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo.
a. ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que
utilizan con regularidad equipo de cómputo en su trabajo excede 25% Pruebe con
03
.
0

 .
b. Se sabe que el número promedio de trabajadores por empresa es 720. Estime un intervalo
de confianza del 95% para el total de trabajadores, de las 15 empresas, que utilizan con
regularidad equipo de cómputo en su trabajo.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 67
c. Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra
se obtuvo que 105 adultos utilizan con regularidad una computadora persona, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo
¿Existe diferencias significativas entre los porcentajes de adultos, de las empresas del
sector industrial y de salud, que utilizan algún equipo de cómputo en su trabajo? Use
nivel de significación 0,05.
6. Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras
de procedimiento existente y del nuevo para determinar si este tiene como resultado una
mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y
80 de 2000 artículos de procedimiento nuevo también lo son, al nivel de 5% de significación,
¿mejoró el proceso luego de los cambios?
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 68
UNIDAD 4. Estadística no paramétrica
Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar
frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias
esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-
cuadrado permite efectuar las siguientes pruebas:
1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.
La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.
Prueba de Independencia.
Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.
Variable 2
Columna 1 Columna 2 . . . Columna c
Variable 1
Fila 1
Fila 2
.
.
.
Fila r
Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos
variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,
existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de
coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de
correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).
Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 69
Calificación en el programa de capacitación
Total
Debajo del
promedio
Promedio
Sobre el
promedio
Rendimiento real en el
trabajo (calificación del
empleador)
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?
Solución
Las variables que se muestran en la tabla son:
Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente,
promedio y muy bueno.
Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del
promedio, promedio o sobre el promedio.
La prueba de independencia compara las frecuencias observadas frente a las frecuencias
esperadas bajo el supuesto de que ambas variables sean independientes.
Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:
tablal
la
de
Total
fila)
la
de
(Total
x
columna)
la
de
(Total
esperada
Frecuencia 
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)
Calificación en el programa de capacitación
Total
Debajo del
promedio
Promedio
Sobre el
promedio
Rendimiento real en el
trabajo (calificación del
empleador)
Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400
Pasos para realizar la prueba de independencia
1. Formulación de las hipótesis
H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la
calificación en el programa de capacitación.
H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente
de la calificación en el programa de capacitación.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 70
2. Fijación del nivel de significación: 0,01.
3. Estadístico de prueba
gl
)
1
)(
1
(
con
~
)
( 2
1
2
2
c 



 

c
r
v
e
e
o
k
i i
i
i



4. Áreas y criterio de decisión.
Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.
Criterio:
Si 2
c
 > 13,277 se rechaza H0
Si 2
c
 ≤ 13,277 no se rechaza H0.
5. Cálculos previos
18
,
20
98
,
45
)
98
,
45
63
(
...
05
,
25
)
05
,
25
28
(
80
,
16
)
80
,
16
23
( 2
2
2
2
c 








6. Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo depende de la calificación en el programa de entrenamiento.
Nota. (Corrección de Yates)
Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o
cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la
corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:
 









k
i i
i
i
c
r
v
e
,
e
o
1
2
2
2
c gl
)
1
)(
1
(
con
5
0



0,01
2
0,01 = 13,277
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 71
7. Salida SPSS:
Tabla de contingencia Rendimiento * Aprovechamiento
Recuento
23 60 29 112
9 49 63 121
28 79 60 167
60 188 152 400
Def iciente
Muy Bueno
Promedio
Rendimiento
Total
Debajo del
Promedio Promedio
Sobre el
Promedio
Aprov echamiento
Total
Pruebas de chi-cuadrado
20.179a
4 .000
20.892 4 .000
400
Chi-cuadrado de Pearson
Razón de verosimilitudes
N de casos válidos
Valor gl
Sig. asintótica
(bilateral)
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mínima esperada es 16.80.
a.
Prueba de Homogeneidad de Proporciones
Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la
misma en r poblaciones.
Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los
resultados que se muestran en la siguiente tabla:
Material A Material B Material C Total
Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300
Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es la misma para los tres tipos de materiales.
Pasos para realizar la prueba de homogeneidad de proporciones
1. Formulación de las hipótesis
H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i.
H1: No todas las proporciones son iguales.
2. Fijación del nivel de significación: 0,05.
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 72
3. Estadístico de prueba
gl
)
1
)(
1
(
con
~
)
( 2
1
2
2
c 



 

c
r
v
e
e
o
k
i i
i
i



4. Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.
Criterios:
Si 2
c
 > 5,991 se rechaza H0
Si 2
c
 ≤ 5,991 no se rechaza H0
5. Cálculos previos
Material A Material B Material C Total
Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300
575
,
4
70
)
70
78
(
...
84
)
84
79
(
36
)
36
41
( 2
2
2
2
c 








6. Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son
insuficientes para rechazar que la probabilidad de desintegración es la misma para los tres
tipos de materiales.
Salida SPSS:
Tabla de contingencia Estado * Material
Recuento
41 27 22 90
79 53 78 210
120 80 100 300
Desintegra
Intacto
Estado
Total
A B C
Material
Total
0,05
2
0,05 = 5,991
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 73
Pruebas de chi-cuadrado
4.575a
2 .101
4.727 2 .094
300
Chi-cuadrado de Pearson
Razón de verosimilitudes
N de casos válidos
Valor gl
Sig. asintótica
(bilateral)
0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mínima esperada es 24.00.
a.
Prueba de Bondad de Ajuste
La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de
una variable. Se compara una distribución de frecuencias observadas con los valores
correspondientes de una distribución esperada o teórica.
Ejemplo 1: Bondad de ajuste a una distribución de Poisson.
Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de
un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,
76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con 6
,
4

 . Use .
05
,
0


En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las
probabilidades correspondientes a cada categoría, en este caso utilizando la función de
distribución de probabilidades Poisson definida por:
 
Pr
!
x
e
X x
x



 
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
   
Pr 13 1 Pr 13
X X
   
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 74
k
N° mensajes por
radio
Frecuencias
observadas (oi)
Probabilidades
de Poisson
Frecuencias
esperadas (ei)
1 0 3 0,010 4,0
2 1 15 0,046 18,4
3 2 47 0,107 42,8
4 3 76 0,163 65,2
5 4 68 0,187 74,8
6 5 74 0,173 69,2
7 6 46 0,132 52,8
8 7 39 0,087 34,8
9 8 15 0,050 20,0
10 9 9 0,025 10,0
11 10 5 0,012 4,8
12 11 2 0,005 2,0
13 12 0 0,002 0,8
14 13 o más 1 0,001 0,4
Total 400 1,000 400,0
Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por
lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como
se muestra a continuación.
k
Frecuencias
observadas (oi)
Frecuencias
esperadas (ei)
 
i
i
i
e
e
o
2

1
1 1
18
8 2
22
2,
,4
4 0
0,
,8
86
64
43
3
2 47 42,8 0,4121
3 76 65,2 1,7890
4 68 74,8 0,6182
5 74 69,2 0,3329
6 46 52,8 0,8758
7 39 34,8 0,5069
8 15 20,0 1,2500
9 9 10,0 0,1000
1
10
0 8
8 8
8,
,0
0 0
0,
,0
00
00
00
0
Total 400 400,0 6,7492
Pasos para realizar la prueba de bondad de ajuste
1) Formulación de las hipótesis
H0: La variable aleatoria tiene distribución de Poisson con parámetro 6
,
4


H1: La variable aleatoria no tiene distribución de Poisson con parámetro 6
,
4

 .
2) Fijación del nivel de significación: 0,05
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 75
3) Estadístico de prueba
m
k
v
e
e
o
k
i i
i
i




 

1
con
~
)
( 2
1
2
2
c 


En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de
parámetros estimados (0 en el ejemplo). Si el valor de  no hubiese sido dado, hubiese sido
necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1.
4) Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9.
Criterios:
Si 2
c
 > 16,919 se rechaza H0
Si 2
c
 ≤ 16,919 no se rechaza H0
5) Cálculos previos
7492
,
6
0
,
8
)
0
,
8
8
(
...
8
,
42
)
8
,
42
47
(
4
,
22
)
4
,
22
18
( 2
2
2
2
c 








6) 6
,
4


proporciona un buen ajuste.
Ejemplo 2 : Bondad de ajuste a una distribución binomial.
Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían
2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.
Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja
sigue una distribución binomial, utilizando un nivel de significación de 0.05.
Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario
estimarlo. Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al
azar sea defectuoso puede estimarse de la siguiente manera:
0,05
2
0,05 = 16,919
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 76
1142
,
0
10000
1142
cajas
1000
las
en
bombillos
de
Total
s
defectuoso
bombillos
de
Total
ˆ 


p
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:
    x
x
p
p
x
x
X












10
1
10
Pr
Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta
razón la categoría 7 corresponde a la probabilidad
           
Pr 6 Pr 6 Pr 7 Pr 8 Pr 9 Pr 10
X X X X X X
          
k
N° de bombillos
defectuosos
Frecuencias
observadas (oi)
Probabilidades
binomiales
Frecuencias
esperadas (ei)
1 0 334 0,2974 297,4
2 1 369 0,3834 383,4
3 2 191 0,2224 222,4
4 3 63 0,0765 76,5
5 4 22 0,0173 17,3
6 5 12 0,0027 2,7
7 6 o más 9 0,0003 0,3
Total 1000 1,000 1000
Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas
menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este
caso, es necesario agrupar las últimas 3 categorías.
k
Frecuencias
observadas (oi)
Frecuencias
esperadas (ei)
 
i
i
i
e
e
o
2

1
1 3
33
34
4 2
29
97
7,
,4
4 4
4,
,5
50
04
42
2
2 369 383,4 0,5408
3 191 222,4 4,4332
4 63 76,5 2,3823
5 43 20,3 25,3837
Total 1000 1000 37,2445
Universidad Peruana de Ciencias Aplicadas
Estadística para Economistas 77
Pasos para realizar la prueba de bondad de ajuste
1) Formulación de las hipótesis
H0: El número de bombillos defectuosos por caja sigue una distribución binomial.
H1: El número de bombillos defectuosos por caja no sigue una distribución binomial.
2) Fijación del nivel de significación: 0,05
3) Estadístico de prueba
m
k
v
e
e
o
k
i i
i
i




 

1
con
~
)
( 2
1
2
2
c 


En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p).
4) Áreas y criterios de decisión.
Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3.
Criterios:
Si 2
c
 > 7,815 se rechaza H0
Si 2
c
 ≤ 7,815 no se rechaza H0
5) Cálculos previos
24
,
37
3
,
20
)
3
,
20
43
(
...
4
,
383
)
4
,
383
369
(
4
,
297
)
4
,
297
334
( 2
2
2
2
c 








6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un
buen ajuste para el número de bombillos defectuosos por caja.
Ejemplo 3: Bondad de ajuste a una distribución de frecuencias.
Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?
0,05
2
0,05 = 7.815
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175
Estadística para Economistas MA175

Más contenido relacionado

Similar a Estadística para Economistas MA175

Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralMariaVelsquezLpez
 
ESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAUGM NORTE
 
Revista de medidas de tendencia central
Revista de medidas de tendencia central Revista de medidas de tendencia central
Revista de medidas de tendencia central Anthony Parada
 
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...Nancy Rodriguez Aizprua
 
Yoleidis medina estadistica i
Yoleidis medina estadistica iYoleidis medina estadistica i
Yoleidis medina estadistica iOrlandoGuillenM
 
Esta Di Stica Descriptiva
Esta Di Stica DescriptivaEsta Di Stica Descriptiva
Esta Di Stica Descriptivalissa
 
Esta Di Stica Descriptiva
Esta Di Stica DescriptivaEsta Di Stica Descriptiva
Esta Di Stica DescriptivaDanielDierN
 
2. FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt
2.   FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt2.   FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt
2. FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.pptFernandoPerez364783
 
Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...
Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...
Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...Dancaranqui
 
Presentacion medidas de dispersion
Presentacion medidas de dispersionPresentacion medidas de dispersion
Presentacion medidas de dispersionFatima Branco
 

Similar a Estadística para Economistas MA175 (20)

Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
ESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICA
 
Revista de medidas de tendencia central
Revista de medidas de tendencia central Revista de medidas de tendencia central
Revista de medidas de tendencia central
 
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN.Facultad de...
ANÁLISIS DE DATOS E INFORME DE LOS HALLAZGOS DE LA INVESTIGACIÓN. Facultad de...
 
Yoleidis medina estadistica i
Yoleidis medina estadistica iYoleidis medina estadistica i
Yoleidis medina estadistica i
 
Esta Di Stica Descriptiva
Esta Di Stica DescriptivaEsta Di Stica Descriptiva
Esta Di Stica Descriptiva
 
Estadistica I (I Bimestre)
Estadistica I (I Bimestre)Estadistica I (I Bimestre)
Estadistica I (I Bimestre)
 
Esta Di Stica Descriptiva
Esta Di Stica DescriptivaEsta Di Stica Descriptiva
Esta Di Stica Descriptiva
 
2. FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt
2.   FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt2.   FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt
2. FFF ESTADISTICA APLICADA AL CONTROL DE CALIDAD.ppt
 
Trabajo estadisticas
Trabajo estadisticasTrabajo estadisticas
Trabajo estadisticas
 
Juneisy diapositiva
Juneisy diapositivaJuneisy diapositiva
Juneisy diapositiva
 
Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...
Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...
Deber 5_#4_Daniel Alejandro_Caranqui_Cargua_Medidas de tendencia central y di...
 
Medidas de Dispersión
Medidas de DispersiónMedidas de Dispersión
Medidas de Dispersión
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Clase03 - Estadistica Descriptiva.ppt
Clase03 - Estadistica Descriptiva.pptClase03 - Estadistica Descriptiva.ppt
Clase03 - Estadistica Descriptiva.ppt
 
Términos Básicos de la Estadistica
Términos Básicos de la EstadisticaTérminos Básicos de la Estadistica
Términos Básicos de la Estadistica
 
Error relativo
Error relativoError relativo
Error relativo
 
Datos no Agrupados.pdf
Datos no Agrupados.pdfDatos no Agrupados.pdf
Datos no Agrupados.pdf
 
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL
 
Presentacion medidas de dispersion
Presentacion medidas de dispersionPresentacion medidas de dispersion
Presentacion medidas de dispersion
 

Último

Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñotapirjackluis
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMarjorie Burga
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscaeliseo91
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 

Último (20)

Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grande
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fisca
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
Power Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptxPower Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptx
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 

Estadística para Economistas MA175

  • 1. Estadística para Economistas (MA175), ciclo 2013-2 Item Type info:eu-repo/semantics/LearningObject Authors Jaramillo Vega, Segundo Santiago Publisher Universidad Peruana de Ciencias Aplicadas (UPC) Download date 19/04/2022 13:09:39 Link to Item http://hdl.handle.net/10757/296207
  • 2. Universidad Peruana de Ciencias Aplicadas Separata de Estadística para Economistas PRE GRADO AUTORES : PROFESORES DEL CURSO TÍTULO : GUÍA DEL ALUMNO FECHA : AGOSTO 2013 CURSO : ESTADÍSTICA PARA ECONOMISTAS CÓDIGO : MA175 ÁREA : CIENCIAS CICLO : 2013 - 02
  • 3. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 1
  • 4. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 2 INDICE 1. Introducción. Medidas de Asimetría, Curtosis y Concentración. 04 Medidas de localización 04 Medidas de dispersión 07 Medidas de Asimetría 09 Medidas de Curtosis 10 Curva de Lorenz 12 Coeficiente de Gini 13 2. Distribuciones Multivariadas Función de probabilidad discreta conjunta 16 Función de probabilidad marginal 18 Función de probabilidad condicional 19 Función de densidad de probabilidad conjunta 20 Función de densidad marginal 21 Función de densidad condicional 23 Esperado de funciones de dos variables aleatorias 25 Independencia de variables 27 Covarianza 29 Coeficiente de Correlación 29 3. Estimaciones puntuales e Intervalos de Confianza. Pruebas de Hipótesis Estimación puntual 34 Intervalo de confianza para la media poblacional 35 Tamaño de muestra para estimar una media poblacional 37 Intervalo de confianza para la proporción poblacional 39 Tamaño de muestra para estimar una proporción poblacional 39 Intervalo de confianza para una varianza poblacional 41 Intervalo de confianza para el cociente de varianzas 43 Intervalo de confianza para la diferencia entre dos medias 45 Intervalo de confianza para la diferencia de proporciones 50 Prueba de hipótesis Conceptos generales 52 Prueba de hipótesis para una media poblacional 54 Prueba de hipótesis para una varianza poblacional 55 Prueba de hipótesis para una proporción poblacional 57 Prueba de hipótesis para dos varianzas poblacionales 59 Prueba de hipótesis para dos medias poblacionales 60 Prueba de hipótesis para dos proporciones poblacionales 62 4. Estadística no paramétrica Prueba de independencia 67 Prueba de homogeneidad de proporciones 70 Prueba de bondad de ajuste 72 Otras pruebas 78 5. Diseños Experimentales Diseño completamente aleatorizado 82 Prueba para la diferencia de medias 85 Diseño con Bloques Completos Aleatorizados 90
  • 5. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 3 Diseño Factorial 94 Tipos de modelos 95 Diseño factorial de dos factores 96 Pruebas de hipótesis 97 Descomposición de la suma de cuadrados 98 6. Análisis de Regresión Análisis de regresión lineal simple y de Correlación 103 El diagrama de dispersión 103 EL método de mínimos cuadrados 104 La línea recta estimada 105 Descomposición de la varianza total 106 Coeficiente de determinación y de no determinación 107 Error estándar de la estimación 107 Coeficiente de correlación 108 Inferencia sobre los coeficientes de regresión 108 Inferencia sobre el coeficiente de correlación 109 Pronósticos 109 Regresión no lineal 112 Regresión Múltiple Elección de las variables de predicción 122 El modelo de regresión múltiple 122 Supuestos del análisis de regresión múltiple 122 Ecuación de regresión muestral 122 Coeficiente de regresión 123 El error estándar de la estimación 124 Coeficiente de determinación múltiple 124 Pruebas de hipótesis 125 Pruebas individuales y Prueba conjunta 125 Intervalo de confianza para los coeficientes poblacionales 125 Multicolinelidad 126 7. Series de Tiempo Modelo Multiplicativo 131 Tendencia 131 Componente Cíclica 131 Componente estacional 132 Componente irregular 132 Estudio de una serie de tiempo 132 Modelo de tendencia 132 Descomposición de una serie de tiempo 135 Método de Atenuación Exponencial 141 MISCELÁNEA 148 SÍLABO 189 PLAN CALENDARIO 194
  • 6. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 4 UNIDAD 1. INTRODUCCIÓN. MEDIDAS DE ASIMETRÍA, CURTOSIS Y CONCENTRACIÓN. 1.1. Medidas de localización Las medidas de localización o de tendencia central se refieren al valor central que representa a los datos de una determinada variable. Media La media aritmética (media o promedio) de un conjunto de valores de una variable es la suma de dichos valores dividida entre el número de valores. Población N x N i i    1  Muestra Media de datos no agrupados Media de datos agrupados Media de datos agrupados por intervalos 1 n i i x x n    1 k i i i x f x n    ´ 1 k i i i x f x n    donde: xi : dato (datos no agrupados) o marca de clase (datos agrupados) fi : frecuencia de cada clase N : tamaño de la población n : tamaño de la muestra Características de la media Se puede calcular para datos medidos en escala de intervalo o razón. El valor de la media es sensible a los valores extremos (mínimo y máximo), por lo que la presencia de valores inusuales la distorsionan. El cálculo de la media es sencillo y fácil de entender e interpretar. Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes, entonces, la media de los n valores yi es: y ax b  
  • 7. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 5 Mediana Es el percentil 50. Características de la mediana Se puede calcular para variables medidas en escala de ordinal, intervalo o razón. El valor de la mediana depende del número de datos observados. La mediana es un estadístico robusto, es decir, no se ve afectada por el valor de los extremos (mínimo y máximo). Por eso se le utiliza cuando hay datos inusuales o el polígono de frecuencias no es simétrico. Moda La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor frecuencia. Moda de datos no agrupados Agrupe los datos de acuerdo a sus frecuencias, el dato con mayor frecuencia es la moda. Moda de datos agrupados en intervalos Identifique la clase con mayor frecuencia (clase modal). Obtenga el valor de la moda mediante la expresión: w d d d L Mo mo            2 1 1 donde: Lmo : límite inferior de la clase modal d1 : diferencia entre las frecuencias de las clases modal y precedente d2 : diferencia entre las frecuencias de las clases modal y siguiente w : amplitud de clase Características de la moda La moda se puede calcular para cualquier escala de medición. El valor de la moda no se ve afectada por valores extremos. La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o más modas (multimodal). Algunas series de datos no tienen moda. La moda es menos importante que la mediana o la media debido a su ambigüedad.
  • 8. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 6 La ojiva de los ingresos mensuales, en nuevos soles, de los trabajadores de una empresa se muestra en la siguiente gráfica: Ojiva de ingresos 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 Ingresos Hi Calcule la media, mediana y moda de los ingresos
  • 9. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 7 Media ponderada También llamada media pesada. Permite calcular el valor medio considerando la importancia o peso de cada valor sobre el total. 1 1 n i i i w w n i i x w x w      1.2. Medidas de dispersión Con las medidas de tendencia central es posible determinar el valor central de una distribución, pero no indican qué tan cercanos o lejanos están los datos de dicho valor central. Las medidas de variabilidad indican cuán alejados están los valores de una variable del valor que los representa y por lo tanto permiten evaluar la confiabilidad de ese valor central. Cuando la medida de dispersión tiene un valor pequeño, los datos están concentrados alrededor de la medida de central, en cambio si la medida de dispersión tiene un valor grande, los datos no están concentrados alrededor de la medida central. Varianza La varianza es el promedio de los cuadrados de la diferencia de cada dato con la media. Las unidades de la varianza son las unidades de los datos al cuadrado. Población 2 2 1 ( ) N i i x N      Muestra Varianza de datos no agrupados Varianza de datos agrupados Varianza de datos agrupados por intervalos 2 1 2 ( ) 1 n i i x x s n      2 1 2 ( ) 1 k i i i f x x s n      ´ 2 1 2 ( ) 1 k i i i f x x s n      donde: xi: Observación individual wi: eso asignado a cada observación
  • 10. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 8 Propiedades de la varianza La varianza es un número real no negativo Es expresada en unidades cuadráticas a las unidades de los datos. Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes, entonces, la varianza de los n valores yi es: 2 2 2 y x S a S  Depende del valor de todos los datos y es sensible a la variación de cada uno de ellos. La varianza puede ser calculada también con datos agrupados en intervalos, inclusive de amplitud diferente, siempre que se puedan determinar las marcas de clase. Desviación estándar Es la raíz cuadrada positiva de la varianza. Las unidades de la desviación estándar son las mismas unidades de los datos. Coeficiente de variación El coeficiente de variación (CV) de un conjunto de datos indica lo grande que es la desviación estándar en comparación con la media. Población 100% CV     Muestra 100% s CV x   Es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas o iguales unidades, pero difieren a tal punto que una comparación directa de las respectivas desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes. Ejemplo 1 Los siguientes datos representan resúmenes del número de mediciones de resistencia de cierto artículo que realizaron dos grupos de técnicos. Grupo 1 Grupo 2 3 10 1 1   x n 3 4   Moda Me 10 , 1  s 5 15 2 2   x n 5 4   Moda Me 66 , 1  s ¿En cuál de los grupos el número de mediciones es más disperso?
  • 11. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 9 Rango El rango (alcance, amplitud o recorrido) de un conjunto de datos observados es la diferencia entre dato mayor y el dato menor. R = Xmax - Xmin donde: Xmax : valor máximo observado de la variable Xmin : valor mínimo observado de la variable Rango intercuartil Es la diferencia entre el primer y tercer cuartil. Rango intercuartil = RIC = Q3 – Q1 1.3. Medidas de asimetría Coeficiente de Asimetría de Fisher Mide si los datos aparecen ubicados simétricamente o no respecto de la media. Si el coeficiente de asimetría As es igual a cero la distribución es simétrica alrededor de la media positivo, indica sesgo a la derecha (cola derecha) negativo indica sesgo a la izquierda (cola izquierda) Coeficiente de Asimetría para datos simples      3 1 3 2 1 s x x n n n As n i i       Si n es grande la expresión anterior se simplifica a:   3 1 3 ns x x As n i i     Coeficiente de Asimetría para datos agrupados   3 1 3 ´ ns f x x As i n i i    
  • 12. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 10 Ejemplo 2 El salario, en cientos de soles, de los trabajadores una empresa se presenta a continuación: 15 13 19 14 17 16 24 21 18 22 32 24 26 27 29 23 24 15 26 18 Halle el coeficiente de Asimetría de Fisher Solución 15 . 21 20 18 26 .. 19 13 . 15        x     38 . 5 1 20 25 . 21 18 ... 25 . 21 15 2 2        s          23 . 0 38 . 5 25 . 21 18 ... 25 . 21 15 2 20 1 20 20 3 3 3         As Por lo tanto la distribución de los datos es asimétrica positiva. Coeficiente de Curtosis. Tema de investigación para el alumno. Debe presentar: 1. Definición de Curtosis 2. Fórmulas de cálculo 3. Clasificación de las distribuciones de datos según el valor del coeficiente de Curtosis 4. Aplicación en datos reales propios de la carrera. Ejercicio A continuación se muestra la distribución de una muestra de 48 clientes morosos según el tiempo en días que tardan en acercarse a la entidad bancaria a realizar su pago luego de ser contactados. Tiempo Total 1 5 2 20 3 9 4 9 5 5 Total general 48 Nota. Puede utilizar la tabla para resumir y ordenar sus cálculos a. Calcule el coeficiente de Asimetría y clasifique la distribución según su deformación horizontal. Escriba la fórmula utilizada. b. Calcule el coeficiente de Curtosis y clasifique la distribución según su deformación vertical Escriba la fórmula utilizada.
  • 13. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 11 Medidas descriptivas para datos simples en una calculadora Casio Apriete la tecla MODE , MODE y, luego, apriete SD (1) Limpie la memoria siempre. Apriete SHIFT , CLR , SCL (1) y =. Ingrese cada dato y pulse DT. La pantalla le mostrará el número de datos ingresados. Para ver las medidas descriptivas, ingrese lo siguiente: o SHIFT , S-SUM , 1 para calcular 2 x  , la suma de los cuadrados de los datos o SHIFT , S-SUM , 2 para calcular x  , la suma de los datos o SHIFT , S-SUM , 3 para calcular n, el número de datos o SHIFT , S-VAR , 1 para calcular x , la media muestral o SHIFT , S-VAR , 2 para calcular x n  , la desviación estándar poblacional o SHIFT , S-VAR , 3 para calcular 1 x n   , la desviación estándar muestral Medidas descriptivas para datos agrupados en una calculadora Casio Apriete la tecla MODE , MODE y, luego, apriete SD (1) Limpie la memoria siempre. Apriete SHIFT , CLR , SCL (1) y =. Ingrese la <marca de clase> ;. <frecuencia de la clase> y pulse DT. La pantalla le mostrará el número de datos ingresados. Para ver las medidas descriptivas, se procede exactamente como en el caso anterior. (edu.casio.com)
  • 14. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 12 Curva de Lorenz http://www.eumed.net/cursecon/7/Lorenz-Gini.htm La curva de Lorenz es una representación gráfica utilizada frecuentemente para plasmar la distribución relativa de una variable en un dominio determinado. El dominio puede ser el conjunto de hogares o personas de una región o país, por ejemplo. La variable cuya distribución se estudia puede ser el ingreso de los hogares o las personas. Utilizando como ejemplo estas variables, la curva se trazaría considerando en el eje horizontal el porcentaje acumulado de personas u hogares del dominio en cuestión y en el eje vertical el porcentaje acumulado del ingreso. Cada punto de la curva se lee como porcentaje acumulativo de los hogares o las personas. La curva parte del origen (0,0) y termina en el punto (100,100). Si el ingreso estuviera distribuido de manera perfectamente equitativa, la curva coincidiría con la línea de 45 grados que pasa por el origen (por ejemplo el 30% de los hogares o de la población percibe el 30% del ingreso). Si existiera desigualdad perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría con el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En general la curva se encuentra en una situación intermedia entre estos dos extremos. Si una curva de Lorenz se encuentra siempre por encima de otra (y, por lo tanto, está más cerca de la línea de 45 grados) podemos decir sin ambigüedad que la primera exhibe menor desigualdad que la segunda. Esta comparación gráfica entre distribuciones de distintos dominios geográficos o temporales es el principal empleo de las curvas de Lorenz.
  • 15. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 13 Coeficiente de Gini http://es.wikipedia.org/wiki/Coeficiente_de_Gini El Coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, pero puede utilizarse para medir cualquier forma de distribución desigual. El coeficiente de Gini es un número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y 1 se corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los demás ninguno). El índice de Gini es el coeficiente de Gini expresado en porcentaje, y es igual al coeficiente de Gini multiplicado por 100. Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos, también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie disponga de una riqueza neta negativa. El coeficiente de Gini se calcula como una razón de las áreas en el diagrama de la curva de Lorenz. Si el área entre la línea de perfecta igualdad y la curva de Lorenz es a, y el área por debajo de la curva de Lorenz es B, entonces el coeficiente de Gini es a/(a+b). Esta ratio se expresa como porcentaje o como equivalente numérico de ese porcentaje, que es siempre un número entre 0 y 1. El coeficiente de Gini se calcula a menudo con la Fórmula de Brown, que es más práctica: donde:  G: Coeficiente de Gini  X: Proporción acumulada de la variable población  Y: Proporción acumulada de la variable ingresos De forma resumida, la Curva de Lorenz es una gráfica de concentración acumulada de la distribución de la riqueza superpuesta a la curva de la distribución de frecuencias de los individuos que la poseen, y su expresión en porcentajes es el Índice de Gini.
  • 16. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 14 Ejemplo 3 A continuación se presenta un ejemplo del cálculo del coeficiente de Gini usando los valores de la mortalidad infantil de 5 países del área andina en 1997. Los datos para este ejemplo se presentan en la tabla 1a y la tabla 1b. La curva de Lorenz se muestra en la Figura 2. Los pasos a seguir para el cálculo del coeficiente de Gini son los siguientes:  Ordenar las unidades geográficas por la variable de salud de la peor situación a la mejor  Transformar la tasa en variable continua (calcular el número de muertes infantiles para cada unidad geográfica)  Calcular las proporciones para las dos variables  Calcular las proporciones acumuladas para las dos variables  Graficar la curva de Lorenz representando en el eje “X” la proporción acumulada de la población y en el eje “Y” la proporción acumulada del número de eventos de la variable de salud.  Calcular el coeficiente de Gini utilizando la fórmula de Brown.  Interpretación: o Coeficiente de Gini : El valor de 0,19 no es un valor alto por estar más próximo del cero que del uno. No obstante este coeficiente debe analizarse en términos comparativos. Habría que comparar este valor con el de otras unidades geográficas para el mismo indicador. o Curva de Lorenz: Se lee en la curva que 30% de las muertes en menores de un año ocurrieron en 20% de la población de nacidos vivos. Tabla 1a: País, PNB per capita, tasa de mortalidad infantil (TMI), número de nacidos vivos y número de muertes infantiles, proporción de la población de nacidos vivos y proporción de las muertes País PNB per capita 1996 TMI (por 1,000 NV) 1997 Nacidos vivos (1,000) 1997 Muertes Infantiles Proporción nacidos vivos Proporción muertes infantiles Bolivia 2 860 59 250 14 750 0.09 0.17 Perú 4 410 43 621 26 703 0.24 0.31 Ecuador 4 730 39 308 12 012 0.12 0.14 Colombia 6 720 24 889 21 336 0.34 0.24 Venezuela 8 130 22 568 12 496 0.22 0.14 Total 33 2 636 87 297 1 1
  • 17. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 15 Tabla 1b: Proporción acumulada de la población de nacidos vivos, proporción acumulada de las muertes infantiles y etapas para el cálculo del coeficiente de Gini País X: Prop, acum, nacidos vivos Y: Prop, acum, muertes infantiles A Yi+1 + Yi B Xi+1 - Xi A*B Bolivia 0,09 0,17 0,17 0,09 0,02 Perú 0,33 0,47 0,64 0,24 0,15 Ecuador 0,45 0,61 1,09 0,12 0,13 Colombia 0,78 0,86 1,47 0,34 0,50 Venezuela 1,00 1,00 1,86 0,22 0,40 Total 1,19 Coeficiciente de Gini 0,19 Figura 2: Curva de Lorenz Proporción acumulada de muertes en menores de 1 año Proporción acumulada de nacidos vivos Tema de investigación para el alumno. En base a datos reales propios de su especialidad, debe presentar: 1. Aplicación e interpretación de la Curva de Lorenz 2. Aplicación e interpretación del Coeficiente de Gini
  • 18. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 16 UNIDAD 2. Vector aleatorio Logro de la unidad Explica adecuadamente el concepto de vector aleatorio y modela distribuciones de probabilidad y de densidad conjunta. Distribuciones de probabilidad conjunta Función de probabilidad discreta conjunta La función de probabilidad conjunta f(x,y) para dos variables aleatorias discretas X e Y, llamada distribución bivariable es una función que cumple:  0 ≤ f(x,y) ≤ 1 para todos los valores de x e y.    y x y x f 1 ) , (  f(x,y) = P(X = x, Y = y) Ejercicio 1 La función de probabilidad conjunta de X e Y es   2 , 1 , 0 3 , 2 , 1 , 0 ,     y x a y x y x f con a es constante Calcule a y P(X > Y) (weibull.com)
  • 19. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 17 Ejercicio 2 Un inversionista posee 5 paquetes de acciones tipo A, 2 paquetes tipo B y 6 de tipo C. Se sacan al azar una muestra de tres paquetes. Sea X el número de paquetes tipo A e Y el número de paquetes tipo B. Determine la función de probabilidad conjunta de X e Y. Ejercicio 3 (Aplicación para su Trabajo) Suponga que el valor (en dólares) en la Bolsa de Valores, de las acciones de 5 empresas es: Empresa Alfa Beta Gamma Delta Ypsilon Valor de la acción (en dólares) 6 10 9 8 6 Si se elige al azar y sin reemplazo dos empresas, y se define: X:= Menor valor de las acciones de las empresas elegidas Y:= Mayor valor de las acciones de las empresas elegidas Halle la función de probabilidad conjunta de X e Y.
  • 20. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 18 Función de probabilidad marginal Sean X e Y variables aleatorias discretas y sea f(x, y) su distribución de probabilidad conjunta. Entonces, las distribuciones de probabilidad marginales de X e Y son:    y X y x f x f ) , ( ) ( 1    x Y y x f y f ) , ( ) ( 2 Ejercicio 4 Un camión de entregas especiales viaja del punto A al punto B y de regreso por la misma ruta cada día. Hay tres semáforos en esta ruta. Sea:  X el número de semáforos en rojo que el camión encuentra en su camino al punto B  Y el número de semáforos en rojo que el camión encuentra de regreso al punto A. Un ingeniero de tránsito ha determinado la distribución de probabilidad conjunta de X e Y que se muestra en la tabla. Y X 0 1 2 3 0 0,01 0,03 0,05 0,02 1 0,02 0,06 0,12 0,09 2 0,07 0,10 0,15 0,08 3 0,01 0,06 0,08 k Calcule las distribuciones marginales ) ( ) ( 2 1 y f y x f Y X
  • 21. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 19 Función de probabilidad condicional Sean X e Y variables aleatorias discretas y sea f(x, y) su distribución de probabilidad conjunta. Entonces, las distribuciones de probabilidad condicionales de X e Y son respectivamente:  ) ( ) , ( ) | ( 2 2 1 y f y x f y x f   ) ( ) , ( ) | ( 1 1 2 x f y x f x y f  Ejercicio 5 El siguiente cuadro muestra la distribución de probabilidades conjunta de las variables: X: antigüedad del vehículo de la persona encuestada, en años Y: costo anual de mantenimiento. Y X 150 250 350 450 2 0,16 0,08 0,00 0,00 3 0,04 0,12 0,04 0,00 4 0,00 0,09 0,14 0,04 5 0,00 0,00 0,16 0,04 6 0,00 0,00 0,04 0,08 Determine e interprete el valor esperado del costo de mantenimiento cuando el vehículo tiene 4 años de antigüedad.
  • 22. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 20 Función de densidad de probabilidad conjunta La función de densidad de probabilidad conjunta f(x, y) para dos variables aleatorias continuas X e Y es una función que satisface las siguientes propiedades:  0 ) , (  y x f para todos los valores de x e y          1 ) , ( dxdy y x f  d c b a dxdy y x f d y c b x a P d c b a , , , ) , ( ) , (        constantes Ejercicio 6 Sea la siguiente función de probabilidad conjunta de X e Y:          casos otros en y x si y x y x f 0 1 0 : 2 1 ) , ( Calcule la probabilidad de X + Y sea mayor a 2.
  • 23. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 21 Función de densidad marginal Sea f(x, y) la función de densidad conjunta para X e Y. Entonces, las funciones de densidad marginal para X e Y son respectivamente:           dx y x f y f y dy y x f x f Y X ) , ( ) ( ) , ( ) ( Ejercicio 7 Sea la siguiente función de probabilidad conjunta de X e Y:          casos otros en y x si y x y x f 0 1 0 : 2 1 ) , ( Determine las funciones de probabilidad marginales de X e Y respectivamente. Demuestre que dichas funciones son funciones de densidad.
  • 24. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 22 Ejercicio 8 (Aplicación para su Trabajo) Ana y Alba han acordado reunirse para almorzar entre el mediodía (12 horas) y la 1.00 PM. Sea X la hora de llegada de Ana e Y la hora de llegada de Alba. Suponga que las horas de llegada son independientes con las siguientes funciones de densidad marginales         caso otro en x x x f 0 1 0 3 2 1         caso otro en y y y f 0 1 0 2 2 ¿Cuál es la probabilidad de que la persona que llegue primero, espere a la otra menos de un cuarto de hora?
  • 25. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 23 Función de densidad condicional Sea f(x,y) la función de densidad conjunta para X e Y. Entonces, las funciones de densidad condicional para x e y son respectivamente: ) ( ) , ( ) | ( ) ( ) , ( ) | ( x f y x f x y f y y f y x f y x f   Ejercicio 9 Sea la siguiente densidad de X e Y          c c y x si cy x y x f . 0 1 0 ; 2 1 ) , ( donde c es una constante.  Encuentre el valor de c que convierte f (x, y) en una función de densidad de probabilidad.  Obtenga la densidad marginal para Y, demuestre también que     1 ) ( dy y f  Calcule f (x | y), la densidad condicional de X dado Y = y.
  • 26. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 24 Ejercicio 10 Un fabricante de refrigeradoras somete sus productos terminados a una inspección integral. Hay dos tipos de defectos: raspadura en la porcelana y defectos mecánicos. Suponga que el tiempo que le toma en detectar un defecto de raspadura en la porcelana se considera como una variable aleatoria X, mientras que el tiempo requerido para detectar un defecto mecánico se considera una variable aleatoria Y. Ambas variables tienen como función de probabilidad conjunta: . ; 0 1 0 , 0 ; ) , ( horas de decenas en medidas Y e X casos otros en y y x Kxy y x f         Determine la probabilidad de que el tiempo en detectar un defecto de raspadura sea menor a 4 horas, sabiendo que el tiempo en detectar un defecto mecánico fue de seis horas.
  • 27. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 25 Esperado de funciones de dos variables aleatorias Sea g(x,y) una función de las variables aleatorias X e Y. El esperado de g(x,y) se define como:                    continuas son y e x si dxdy y x f y x g discretas son y e x si y x p y x g y x g E y x ) , ( ) , ( ) , ( ) , ( ) , ( Sea c una constante, E (c) = c Sea c una constante y sea g(x, y) una función de X e Y,     ) , ( ) , ( y x g cE y x cg E  Sean g1(x, y), g2(x, y), …, gk(x, y), k funciones de las variables aleatorias X e Y. Entonces, el valor esperado de la suma de estas funciones es                     y x g E y x g E y x g E y x g y x g y x g E k k , ... , , , ... , , 2 1 2 1        Ejercicio 11 Sea la siguiente densidad de X e Y          c c y x si y x y x f . 0 1 0 ; 2 1 ) , ( Calcule E(X), E(Y), E(X+Y) y E(XY)
  • 28. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 26 Ejercicio 12 Sea f(x, y) la función de densidad conjunta para X e Y             otrocaso x y x x y x kx y x f ; 0 2 0 ; ) , ( Halle k, E(X) y E(Y)
  • 29. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 27 Independencia de variables Sean X e Y variables aleatorias discretas con distribución de probabilidad conjunta f (x, y) y distribuciones de probabilidad marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si ) ( ). ( ) , ( y f x f y x f Y X  , para todos los pares de valores x e y Sean X e Y variables aleatorias continuas con función de densidad conjunta f(x, y) y funciones de densidad marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si ) ( ). ( ) , ( y f x f y x f Y X  Si X e Y son variables aleatorias independientes, entonces ) ( ). ( ) ( Y E X E XY E  Ejercicio 13 Sea la siguiente función de probabilidad conjunta de X e Y:          casos otros en y x si y x y x f 0 1 0 : 2 1 ) , ( Determine si las variables aleatorias X e Y son independientes.
  • 30. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 28 Ejercicio 14 Los precios de dos máquinas empaquetadoras de última generación Y1 y Y2 son variables aleatorias independientes expresadas en miles de dólares.  Y1 tiene distribución uniforme entre 4 y 10  Y2 tiene distribución uniforme entre 5 y 13. Si un ingeniero decide comprar una de estas máquinas, calcule la probabilidad de que la suma de ambos precios sea como máximo $15000.
  • 31. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 29 Covarianza La covarianza de dos variables aleatorias X e Y, se define como: y x y x xy E y x E y x Cov     . ) ( )] )( [( ) , (      Si dos variables aleatorias son independientes, entonces: Cov(X, Y) = 0 Coeficiente de correlación El coeficiente de correlación r para dos variables aleatorias X e Y es y x y x Cov    ) , (  donde x  y y  son las desviaciones estándares de X e Y, respectivamente. Ejercicio 15 Un administrador de inventarios ha acumulado registros de las cantidades demandadas de los productos de su compañía durante los últimos días. Considere que X representa en número de pedidos recibidos e Y representa el número de unidades demandadas por cada pedido. La distribución de probabilidades conjunta está dada por: X X Y Y 1 1 2 2 3 3 4 4 0.16 0.15 0.28 6 6 0.04 0.15 0.22 Calcule el coeficiente de correlación entre X e Y.
  • 32. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 30 Ejercicio 16 Sean X, Y, Z variables aleatorias independientes y con varianzas iguales. Definamos las variables aleatorias U = X + Y y W = Y + Z. Calcule el coeficiente de correlación entre U y W.
  • 33. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 31 Ejercicios Propuestos 1. El concreto experimenta un marcado incremento característico en la “plastodeformación” cuando se calienta por primera vez bajo carga. Se efectuó un experimento con el fin de investigar el comportamiento ante esfuerzos térmicos transitorios del concreto. Dos variables que se cree afectan el esfuerzo térmico son x, la rapidez de calentamiento (grados centígrados por minuto) e y, el nivel de carga (porcentaje de la resistencia inicial). Se preparan y prueban especimenes de concreto bajo diversas combinaciones de rapidez de calentamiento y carga, y se determina el esfuerzo térmico para cada uno. Suponga que la distribución de probabilidad conjunta de X e Y para los especimenes que produjeron resultados aceptables es la que se da en la tabla. Suponga que se escoge al azar un espécimen de concreto de entre los que se probaron en el experimento y tuvieron un comportamiento ante esfuerzo térmico aceptable. x (°C/minuto) 0,1 0,2 0,3 0,4 0,5 y 0 0,17 0,11 0,07 0,05 0,05 10 0,10 0,06 0,05 0,02 0,01 20 0,09 0,04 0,03 0,01 0,00 30 0,08 0,04 0,02 0,00 0,00 a) Calcule las distribuciones de probabilidad marginal, fX(x1) y fY(y2) b) Obtenga la distribución de probabilidad condicional, f (x | y1) c) Calcule la probabilidad de que el espécimen se haya calentado con una rapidez de 0,4 °C/minuto. d) Dado que el espécimen de concreto se calentó a 0,5°C/minuto, calcule la probabilidad de que el espécimen tuviera una carga de 10%. 2. Se almacena Kerosene industrial en un tanque a granel al principio de cada semana. A causa de lo limitado del suministro, la proporción X de la capacidad del tanque que esta disponible para la venta y la proporción Y de la capacidad del tanque que realmente se vende durante la semana son variables aleatorias continuas cuya distribución conjunta está dada por:         . . 0 1 0 ; 0 4 ) , ( 2 c c x x y si x y x f a) Calcule los valores esperados de X e Y b) Calcule el valor esperado de XY c) Calcule la covarianza de X e Y. 3. Si cada uno de los n valores xi de una muestra aleatoria, es transformado en: yi = a xi , siendo a constante, entonces, demuestre que la varianza de los n valores yi es: 2 2 2 y x S a S 
  • 34. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 32 4. Si cada uno de los n valores xi de una muestra aleatoria es transformado en: yi = xi + b, siendo b constantes, entonces, demuestre que la varianza de los n valores yi es: 2 2 x y S S  5. Si cada uno de los n valores xi de una muestra aleatoria es transformado en: yi = a xi + b, siendo a y b constantes, entonces, demuestre que la varianza de los n valores yi es: 2 2 2 y x S a S  6. Conforme a la información que proporciona la ojiva de los ingresos mensuales, en nuevos soles, de los trabajadores de una empresa que se muestra en la gráfica, determine el tipo de distribución según su Asimetría y su Curtosis. ¿Qué comentarios puede realizar a partir de estos resultados? Ojiva de ingresos 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 Ingresos Hi 7. Sea X una variable aleatoria discreta, con a y b constantes. Demuestre que: a. 2 4 2 X Y a    , siendo b X a Y   2 b.   2 2 2 X X X E     8. Sea X una variable aleatoria continua, con función de densidad de probabilidad:          caso otro en x para kx x f 0 75 65 2 3
  • 35. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 33 a. Determine el valor de k b. Calcule la probabilidad que X se encuentre entre 70 y 75 c. Determine el Valor Esperado de X d. Determine la Desviación estándar de X 9. Sea   y x f ; la función de densidad conjunta para X e Y.               caso otro en x y x x para y x x k y x f 0 ; 2 0 ; Determine e interprete el Coeficiente de Correlación de X e Y 10. Sea   y x f , la función de densidad conjunta para X e Y.           caso otro en y x para y x k y x f 0 2 1 ; 2 0 , 2 a. Determine el valor de k b. Determine la probabilidad que X – Y sea menor que 1 11. Sea   2 1 , y y f la función de densidad conjunta para Y1 e Y2.                caso otro en y y para y y y y f 0 1 0 ; 1 0 2 3 , 2 1 2 2 2 1 2 1 a. Determine la función de densidad de probabilidad marginal para la variable aleatoria Y. b. Determine la función de densidad condicional Y1, dado que Y2 = y2 c. Determine el valor esperado de Y1 d. Determine el valor esperado de Y1 Y2 e. Determine la covarianza de las variables aleatorias Y1 é Y2 12. Sean X, Y y Z variables aleatorias discretas; a, b constantes. Si   b Z X a Y    . Demuestre que: a.     b a Y E z x      b.   2 2 2 2 z x y a      13. Sean X, Y y Z variables aleatorias discretas; k una constante. Si Z k Y  . Demuestre que:     Z X k Y X , cov , cov  14. Sean las variables aleatorias X é Y. Se definen las variables: U = a X + c V = b Y + d Siendo a, b, c y d números reales cualesquiera. Entonces demuestre que: Cov [ U, V ] = a b Cov [ X, Y ]
  • 36. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 34 15. Sea   y x f ; la función de densidad conjunta para X e Y. (Aplicación para su Trabajo)               caso otro en x y x x para y x k y x f 0 ; 2 0 1 ; 3 a. Calcule el valor de k b. Determine E(X) c. Determine E(XY) d. Calcule el valor de la covarianza de X e Y Función Generadora de Momentos y Distribución Normal Bivariada http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030011/lecciones/cap2/cap_2_pag_10.html Tema de investigación para el alumno. En cada caso el alumno debe presentar: 1. Definición y propiedades 2. Fórmulas de cálculo e interpretación 3. Aplicación en datos reales propios de la carrera
  • 37. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 35 UNIDAD 3. Estimación y prueba de hipótesis Logro de la unidad Modela satisfactoriamente casos sencillos que conducen a verificar hipótesis de información relacionada con su especialidad, reconociendo la importancia de ésta herramienta en la toma de decisiones. Estimación puntual Es la estimación del valor del parámetro por medio de un único valor obtenido mediante el cálculo o evaluación de un estimador para una muestra específica. El estimador se expresa mediante una fórmula. Por ejemplo, la media de la muestra    n i i X n X 1 1 es un posible estimador puntual de la media poblacional . Los parámetros con sus correspondientes estimadores puntuales son: Parámetro Estimador puntual  x 2  S2 p p 2 1    2 1 x x  2 2 2 1 /   2 2 2 1 S / S 2 1 p p  2 1 p p  (euroXpress)
  • 38. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 36 Estimación por intervalos Intervalo de confianza para la media Varianza poblacional conocida Si x es la media de una muestra aleatoria de tamaño n de una población con varianza 2 , conocida, el intervalo de confianza de (1 - )x100% para  está dado por: n z x n z x      2 / 1 2 / 1       donde 2 / 1 z   es el valor que deja un área de 1- /2 a la izquierda. Si el muestreo es sin reemplazo los límites de confianza son: 1 1 2 / 1 2 / 1           N n N n z x N n N n z x      Varianza poblacional desconocida Si x y S son la media y la desviación estándar de una muestra aleatoria de tamaño n, desconocida, el intervalo de confianza de (   1 )x100% para  está dado por: n S t x n S t x 2 / 2 /        donde 2 /  t es el valor t con (n -1) grados de libertad, que deja un área de 2 /  a la derecha. Si el muestreo es sin reemplazo los límites de confianza son: 1 1 2 / 2 /         N n N n S t x N n N n S t x    Ejemplo 1 Una máquina produce piezas metálicas de forma cilíndrica, éstas son almacenadas en lotes de 1000 unidades. Se toma una muestra de las piezas de uno de los lotes y los diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03 centímetros. Encuentre un intervalo de confianza de 99% para el diámetro medio de las piezas de esta máquina. Suponga que los diámetros siguen una distribución aproximadamente normal con desviación estándar igual a 0.03 centímetros.
  • 39. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 37 Ejemplo 2 Los siguientes datos corresponden al contenido medio de plomo (miligramos por litro) de muestras de agua recolectadas diariamente durante 70 días de un sistema de agua. 0,09678 0,07149 0,02216 0,02844 0,00509 0,02346 0,06387 0,03786 0,06458 0,07758 0,05297 0,03282 0,06952 0,08588 0,05720 0,00085 0,07407 0,02497 0,04557 0,03753 0,04897 0,03336 0,09612 0,09007 0,05633 0,07776 0,07836 0,07373 0,08864 0,04475 0,02384 0,02123 0,05981 0,03668 0,00019 0,08866 0,03658 0,05978 0,03543 0,03159 0,07735 0,06618 0,06675 0,01867 0,03198 0,07262 0,01231 0,04838 0,01650 0,08083 0,02441 0,05767 0,0797 0,06182 0,057 0,08941 0,05175 0,07922 0,00943 0,03686 0,01097 0,08949 0,00264 0,07271 0,07979 0,01333 0,02791 0,08812 0,06969 0,04160 Resúmenes: 0272 . 0 s 0513 . 0 x   Asumiendo normalidad en la cantidad de plomo, calcule: a) Construya un intervalo de confianza de 95% para el contenido promedio de plomo. b) Si la verdadera desviación estándar de la cantidad de plomo en el agua es 0.02, construya un intervalo de confianza de 95% para el contenido promedio de plomo.
  • 40. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 38 Tamaño de muestra cuando la varianza poblacional es conocida Si X se usa como estimación de , podemos tener (1-)x100% de confianza de que el error no exceda una cantidad específica e cuando el tamaño de la muestra es: 2 2 / 1         e z n   Si el valor del tamaño de muestra es decimal se debe redondear al siguiente número entero. Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con la siguiente fórmula: N n n n 0 0 1  donde 2 2 / 1 0         e z n   y N es el tamaño de la población. Ejemplo 1 ¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza y un margen de error de 0.04? Asuma que la desviación estándar poblacional es 0.5 y que el tamaño poblacional es 5000 Ejemplo 2 ¿Cuántas piezas deberá elegirse de un lote de 2000 piezas metálicas para estimar el diámetro medio, con un nivel de confianza de 95% y un error no mayor de 0,02?, si de una muestra aleatoria anterior se registró las siguientes mediciones (en centímetros): 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03. Suponga que los diámetros siguen una distribución aproximadamente normal.
  • 41. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 39 Ejercicios Propuestos 1. Se afirma que la resistencia del alambre A tiene distribución normal con desviación estándar iguala 0,05 ohmios. Los datos siguientes corresponden a una muestra de dichos alambres: 0,140 0,138 0,143 0,142 0,144 0,137 0,135 0,140 0,136 0,142 0,138 0,140 Estime un intervalo de 98% de confianza para la resistencia promedio de los alambres. 2. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el supervisor de una empresa electrónica tomó el tiempo que 25 técnicos tardaban en ejecutar esta tarea, obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. a) Con una confianza del 99%, calcule el error máximo de estimación del tiempo promedio que lleva ensamblar el componente de la computadora. b) Construya e interprete un intervalo de confianza de 95% para el tiempo medio real que lleva ensamblar el componente de la computadora. 3. Una agencia de control ambiental ha reunido datos de mediciones de DL50 (dosis letal, es decir, mata al 50% de los animales de prueba en un determinado intervalo de tiempo) para determinadas sustancias químicas que se encuentran probablemente en ríos y lagos de agua dulce. Para determinada especie de pescado, las mediciones de DL50 para el DDT en 12 experimentos dieron los siguientes resultados (en partes por millón): 16 5 21 19 10 5 8 2 7 2 4 9 Suponiendo que estas determinaciones de DL50 tiene una distribución aproximadamente normal, estime la DL50 promedio real para el DDT con un coeficiente de confianza igual a 0.90. 4. En un estudio de contaminación del aire realizado en una estación experimental, de 12 muestras diferentes de aire se obtuvieron los siguientes montos de materia orgánica suspendida soluble en benceno (en microorganismos por metro cúbico): 2,212 1,839 3,152 2,608 2,456 2,747 2,913 1,265 2,346 2,333 1,909 2,333 Suponiendo que la población muestreada es normal: a) Calcule e interprete un intervalo de confianza de 95% para la media real. b) ¿De qué tamaño debe ser la muestra para estimar el monto promedio de materia orgánica con un error de 0.08 microorganismos por metro cúbico y con 95% de confianza? 5. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 90% del número promedio de graduados de las universidades de la nación con un error de 2,000 estudiantes si una muestra piloto reporta que s = 8,659? 6. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 95% de la edad promedio de los estudiantes de ingeniería civil de cierta universidad con un error de 1,5 años si una muestra piloto reporta que s = 5,23 años? El número total de estudiantes de esta carrera es 300.
  • 42. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 40 Intervalo de confianza para la proporción poblacional Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, un intervalo de confianza de (   1 ) x100% para p está dado por: n p p z p p n p p z p ) 1 ( ) 1 ( 2 / 1 2 / 1           donde 2 / 1   z es el valor z que deja un área de 1- /2 a la izquierda. Si el muestreo es sin reemplazo, los límites de confianza son: 1 ) 1 ( 1 ) 1 ( 2 / 1 2 / 1             N n N n p p z p p N n N n p p z p   Tamaño de muestra para estimar una proporción Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, podemos tener una confianza del (1-)x100% de que el error será menor de una cantidad específica e cuando el tamaño de la muestra es:   2 2 2 / 1 1 e p p z n    Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con: N n n n 0 0 1  donde   2 2 2 / 1 0 1 e p p z n    y N es el tamaño de la población. Tamaño de muestra para estimar una proporción sin usar información muestral El valor de   p p  1 se hace máximo cuando 5 . 0  p , por lo tanto la fórmula para calcular el tamaño de muestra queda de la siguiente manera: 2 2 2 / 1 4e z n    Ejemplo 1 Se lleva a cabo un estudio para estimar el porcentaje de ciudadanos de una ciudad que están a favor de tener agua fluorada. ¿Qué tan grande se necesita que sea la muestra si se desea tener una confianza de 95% de que la estimación esté dentro del 1% del porcentaje real?
  • 43. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 41 Ejemplo 2 Las distorsiones que ocurren en la pantalla de una terminal para gráficos por computadora con frecuencia se deben a pérdida de datos en el proceso de enlace de comunicación entre la terminal y la computadora. El fabricante de un nuevo controlador de errores de comunicación de datos asegura que la probabilidad de perder datos cuando el controlador está operando es de 0,10. A fin de probar esta aseveración, se vigila el enlace de comunicación entre una terminal de gráficos y una computadora con el controlador de errores funcionando. De una muestra de 120 elementos se observó los siguientes resultados: Sí Sí Sí No No Sí Sí Sí Sí Sí No No No Sí Sí No No No No No No Sí Sí Sí Sí No No Sí Sí Sí No Sí No Sí Sí No No No No Sí No Sí No Sí Sí No No Sí Sí Sí No No No No Sí No No No No No No Sí No Sí Sí No No Sí Sí No No Sí No No No No No No Sí No No Sí No Sí Sí No No Sí Sí No Sí Sí No No Sí No No No Sí No Sí Sí No Sí Sí No No Sí Sí No No No No No No No No Sí Sí Sí Sí : sufrieron distorsiones a causa de errores de datos en el enlace de comunicación. No : sufrieron distorsiones a causa de errores de datos en el enlace de comunicación. Con 95% de confianza, ¿la información recolectada refuta la aseveración del fabricante? Asuma normalidad.
  • 44. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 42 Intervalo de confianza para la varianza poblacional Si S2 es la varianza de una muestra aleatoria de tamaño n de una población normal, un intervalo de confianza de (1 - )x100% para 2 es: 2 2 / 1 2 2 2 2 / 2 ) 1 ( ) 1 (         X S n X S n donde 2 2 /  X y 2 2 / 1   X son valores X 2 con v = n - 1 grados de libertad, que dejan áreas de /2 y 1 - /2, respectivamente, a la derecha. Ejercicio Un fabricante de baterías para automóviles quiere estimar la desviación estándar de la duración de sus baterías. Si seis de estas baterías tienen duraciones, en años, de 1.9 2.4 3.0 3.5 3.1 4.2 Construya un intervalo de confianza del 95% para 2 . Suponga que la población de duraciones de las baterías se distribuye de forma normal.
  • 45. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 43 Ejercicios Propuestos 1. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el supervisor de una empresa electrónica tomó el tiempo que 20 técnicos tardaban en ejecutar esta tarea, obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Asuma que los tiempos tienen distribución normal. a) Construya e interprete un intervalo de confianza de 95% para el promedio real del tiempo que lleva ensamblar el componente de la computadora. b) Construya e interprete un intervalo de confianza de 95% para la varianza real del tiempo que lleva ensamblar el componente de la computadora. 2. Se desea estimar con 95% de confianza y con un error de estimación no mayor de 3.5% qué porcentaje de todos los conductores exceden el límite de velocidad de 90 kilómetros por hora en cierto tramo del camino. ¿De qué tamaño se necesita tomar la muestra? 3. Si se desea estimar la proporción real de unidades defectuosas en un embarque muy grande de ladrillos de adobe, y se quiere estar al menos 98% seguros de que el error es a lo más 0,04. Cuan grande deberá ser la muestra si: a) No se tiene idea de cual es la proporción real b) Si la proporción real es 0,12 4. Una empresa desea estimar la proporción de trabajadores de la línea de producción que están a favor de que se corrija el programa de aseguramiento de la calidad. La estimación debe quedar a menos de 0.05 de la proporción verdadera de los que favorecen el programa, con un coeficiente de confianza del 98%. ¿Cuántos trabajadores se deben muestrear, si la empresa cuenta en total con 2,000 trabajadores? Aplicaciones a su carrera En base a una data real correspondiente a su carrera, con un nivel de confianza del 96%, realice aplicaciones de: 1. Estimación de una media poblacional 2. Estimación de una desviación estándar poblacional 3. Estimación de una proporción poblacional 4. Realice ajustes del máximo error muestral y determine el nuevo tamaño de muestra
  • 46. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 44 Intervalo de confianza para el cociente de varianzas Si s2 1 y s2 2 son las varianzas de muestras independientes de tamaño n1 y n2, de poblaciones normales, entonces un intervalo de confianza de (1 - )x100% para 2 2 2 1   es: ) 2 / , , ( 2 2 2 1 2 2 2 1 ) 2 / , , ( 2 2 2 1 1 2 2 1 1     v v v v f s s f s s   donde   2 , , 2 1  v v f es un valor f con v1 = n1 -1 y v2 = n2 – 1 grados de libertad que deja un área de /2 a la derecha Ejercicio 1 Se comparan el rendimiento de la gasolina de dos automóviles, A y B, probando cinco marcas de gasolina con el automóvil A y cuatro con B. Cada uno de los vehículos gasta un tanque de cada marca, y el resultado, en millas por galón, es el siguiente. Marca Automóvil A Automóvil B 1 28,3 29,2 2 27,4 28,4 3 29,1 28,2 4 28,7 28,0 5 29,4 Promedio 28,58 28,45 Varianza 0,607 0,277 Calcule un intervalo de confianza de 99% para el cociente de las varianzas de los rendimientos de gasolina con los automóviles A y B.
  • 47. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 45 Ejercicio 2 Los siguientes datos corresponden a la resistencia a la compresión a los 28 días (en kg/cm2 ) reportados por dos laboratorios. Laboratorio 1 Laboratorio 2 311,4 344,7 312,2 337,6 312,3 346,1 310,2 353,3 297,4 335,0 290,3 332,2 291,6 333,0 295,8 335,1 Con 95% de confianza, ¿podemos asumir que existe homogeneidad de las varianzas de los resultados de resistencia a la compresión? Asuma poblaciones normales.
  • 48. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 46 Intervalos de confianza para la diferencia entre dos medias Cuando las varianzas poblacionales son conocidas El intervalo de confianza de (   1 ) x 100% para 2 1    está dado por:     2 2 2 1 2 1 2 / 1 2 1 2 1 2 2 2 1 2 1 2 / 1 2 1 n n z x x n n z x x                    donde 2 / 1   z es el valor que deja un área de 1-/2 a la izquierda. Cuando las varianzas poblacionales iguales pero desconocidas El intervalo de confianza de (   1 ) x 100% para 2 1    está dado por:     2 2 1 2 2 / 2 1 2 1 2 2 1 2 2 / 2 1 n S n S t x x n S n S t x x p p p p              donde 2 ) 1 ( ) 1 ( 2 1 2 2 2 2 1 1       n n S n S n Sp y 2 /  t es el valor t con v = n1 +n2 -2 grados de libertad, que deja un área de 2 /  a la derecha. Cuando las varianzas poblacionales son desconocidas y diferentes El intervalo de confianza de (   1 ) x 100% para 2 1    está dado por:     2 2 2 1 2 1 2 / 2 1 2 1 2 2 2 1 2 1 2 / 2 1 n S n S t x x n S n S t x x              donde 2 /  t es el valor t con     1 1 2 2 1 2 2 2 2 2 1 2 1 1 2 2 1 2 1                              n n n S n S v n S n S grados de libertad, que deja un área de 2 /  a la derecha.
  • 49. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 47 Ejercicio 1 Una compañía tiene dos departamentos que producen el mismo producto. Se tiene la sensación de que las producciones por hora son diferentes en los dos departamentos. Al tomar una muestra aleatoria de horas de producción en cada departamento se obtuvieron los siguientes datos: Departamento 1 Departamento 2 Tamaño de la muestra 64 49 Media muestral 100 unidades 90 unidades Varianza muestral 256 225 Obtenga e interprete un intervalo del 95% para la verdadera diferencia de la producción media. Asuma poblaciones normales.
  • 50. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 48 Ejercicio 2 Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de taxis. Se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizaron hasta que se gastan. Los resultados son: Marca A kilométros S kilómetros x 000 5 300 36 2 1 1   Marca B kilométros S kilómetros x 100 6 100 38 2 2 2   Calcule un intervalo de confianza de confianza de 90% para la diferencia de rendimiento promedio de ambas marcas de neumáticos. Suponga que la diferencia de kilómetros de rendimiento se distribuye de forma normal.
  • 51. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 49 Ejercicio 3 Para comparar dos métodos de la enseñanza de inglés se aplicaron a 350 alumnos elegidos al azar el método tradicional y a otra muestra de 450 alumnos el método nuevo resultando las calificaciones promedios respectivos de 18 y 17. Las varianzas poblacionales respectivas son 16 y 9. Calcule un intervalo de confianza de 98% para la diferencia de las medias.
  • 52. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 50 Intervalos de confianza para la diferencia entre dos medias de Muestras relacionadas La prueba de dos medias puede llevarse a cabo cuando los datos están en forma de observaciones pareadas. Un intervalo de % 100 x ) 1 (   de confianza para la diferencia de medias cuando las muestras están relacionadas es: n s t d n s t d d ) 2 / , 1 n ( 2 1 d ) 2 / , 1 n (            donde 2 / t es el valor t con (n – 1) grados de libertad, que deja un área de 2 /  a la derecha. Ejemplo. Se llevó a cabo una encuesta entre los ingenieros de una planta, para determinar si pasan más tiempo en tareas de supervisión que en gestión de procesos. Suponga que en una muestra de 12 encuestados se obtuvieron las horas semanales que dedican a cada una de estas tareas. Con un nivel de confianza del 95%, ¿se puede llegar a la conclusión de que los ingenieros de esta planta pasan más tiempo, en promedio, supervisando que en gestión de procesos? Encuestado 1 2 3 4 5 6 7 8 9 10 11 12 Supervisando, horas/semana 11 19 8 5 16 8 4 12 10 14 15 18 Gestión Proceso, horas/semana 6 10 3 10 5 8 7 14 14 8 10 10 Número de tareas supervisadas 12 20 9 4 15 7 5 10 12 16 12 17 X1: Tiempo empleado en tareas de supervisión. X2: Tiempo en gestión de procesos. Promedio = 2.9167 Sd = 5.4682 t = 2.201 5.4682 ( ) 2.9167 (2.201) 0.5576 6.3910 12 d s IC D d t D n               Con 95% de confianza, se encontrará la diferencia de los tiempos promedio empleado en tareas de supervisión y en gestión de procesos esta comprendido entre - 0.5576 y 6.3910 horas/semana. No se puede llegar a la colusión que los ingenieros de esta planta pasan más tiempo, en promedio, supervisando que en gestión de procesos.
  • 53. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 51 Intervalo de confianza para la diferencia de proporciones Si 1 p y 2 p son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2, respectivamente, un intervalo de confianza de % 100 ) 1 (   para la diferencia de dos proporciones poblacionales p1 – p2, está dado por:             2 2 2 1 1 1 2 / 1 2 1 2 1 2 2 2 1 1 1 2 / 1 2 1 1 1 1 1 n p p n p p z p p p p n p p n p p z p p                  donde 2 / z es el valor z que deja un área de /2 a la derecha. Ejemplo 1 Muestras de dos tipos de materiales A y B, sujetos a cambios extremos de temperatura, produjeron los resultados que se muestran en la siguiente tabla Resultado Material A Material B Total Desintegrados 45 32 77 Permanecieron intactos 155 68 223 Total 200 100 300 A un 98% de nivel de confianza, ¿la proporción de desintegrados del material A es la misma que para el material B?
  • 54. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 52 Ejemplo 2 Una encuesta de 1000 estudiantes concluye que 274 eligen al equipo profesional de béisbol A como su equipo favorito. En 1991, se realizó la misma encuesta con 760 estudiantes. Concluyó que 240 de ellos también eligieron al equipo A como su favorito. Calcule un intervalo de confianza del 95% para la diferencia entre la proporción de estudiantes que favorecen al equipo A entre las dos encuestas. ¿Hay una diferencia significativa?
  • 55. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 53 Prueba de hipótesis Conceptos generales. La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la población. A partir de la información proporcionada por la muestra se verificará la suposición sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (Ho). Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra estimación inicial del parámetro poblacional podría ser correcto. El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la hipótesis nula. Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la información muestral. La hipótesis alternativa se especifica como opción posible si se rechaza la nula. Tipos de errores La realidad Información muestral Aceptar H0 Rechazar H0 H0 es cierta No hay error Error I H0 es falsa Error II No hay error Error Tipo I Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.   ) I Error ( P El valor  es fijado por la persona que realiza la investigación (por lo general varía entre 1- 10%) Error Tipo II Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la probabilidad de aceptar H0 cuando ésta es falsa.   ) II Error ( P Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
  • 56. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 54 Potencia de prueba o Poder de Prueba Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.   1 prueba de Potencia Como el valor de  depende del valor del parámetro la potencia de prueba tampoco pude ser fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como CURVA DE POTENCIA. Pasos a seguir en una Prueba de Hipótesis  Paso 1: Planteo de hipótesis.  Paso 2: Nivel de significación.  Paso 3: Prueba estadística.  Paso 4: Suposiciones.  Paso 5: Regiones críticas. Criterios de decisión.  Paso 6: Realización de la prueba.  Paso 7: Resultados y conclusiones. Procedimiento general Sea  el parámetro que representa: ) / , , , , , ( 2 2 2 2 1 2 1 2 1       p p p   1. Planteo de las hipótesis.                          0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 : : : : : : : : : :                     H H H H H H H H H H 2. Fijar el nivel de significación  3. Pruebas estadísticas 4. Supuestos a) Supuestos para: ) / , , , ( 2 2 2 2 1 2 1         Poblacion(es) normalmente distribuida(s).  Muestra(s) tomada(s) al azar. b) Supuestos para: 2 1 p p , p   Muestra(s) tomada(s) al azar.  Muestra(s) grande(s)     ) , ( positiva asimétrica ón Distribuci t) (Z, simétrica ón Distribuci 2 F E 
  • 57. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 55 5. Regiones críticas 6. Calculo del Estadístico de prueba 7. Resultados y conclusiones. Prueba de hipótesis para una media poblacional. Ejemplo Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de que 800   horas contra la alternativa 800   horas si una muestra aleatoria de 28 focos tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05. Solución. Sea X: Duración de los focos (horas) X~ N(800 , 402 ) Prueba Unilateral de Extremo Inferior H1:  < o Prueba Unilateral de Extremo Superior H1:  > o Prueba Bilateral H1:  ≠ o
  • 58. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 56 1. Planteo de hipótesis.        800 : H 800 : H 1 0 2. Nivel de significación. 05 . 0   3. Prueba estadística ) 1 . 0 ( N ~ n / x Z _ c     4. Supuestos.  Población normal.  Muestra tomada al azar. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -1.96  Zc  1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se rechaza H0 6. Cálculos 12 . 2 28 / 40 800 784 Zc     7. Conclusiones. Con 5% de nivel de significación y a partir de la información muestral, el tiempo promedio de duración de los focos es diferente de 800 horas. Pruebas de hipótesis para una varianza poblacional. Ejemplo Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8 cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad. 0.025 0.025 1.96 -1.96 0.95
  • 59. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 57 Solución. Sea X: Resistencia al rompimiento de cierto tipo de cable X~ N(, 2402 ) 1. Planteo de hipótesis.          2 2 1 2 2 0 240 : H 240 : H 2. Nivel de significación. 05 . 0   3. Prueba estadística 2 ) 1 n ( 2 2 2 c ~ s ) 1 n (       4. Supuestos.  Población normal.  Muestra tomada al azar. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si 07 . 14 2 c   No se rechaza H0 Si 07 . 14 2 c   Se rechaza H0 6. Cálculos 938 . 10 240 300 ) 1 8 ( 2 2 2 c     7. Conclusiones. Con 5% de nivel de significación y la información muestral es insuficiente para afirmar que la variación de la resistencia al rompimiento ha aumentado. 0.05 0.95
  • 60. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 58 Pruebas de hipótesis para una proporción poblacional. Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use 05 . 0   . Solución. Sea p: Proporción de artículos defectuosos. 1. Planteo de hipótesis.      02 . 0 p : H 02 . 0 p : H 1 0 2. Nivel de significación. 05 . 0   3. Prueba estadística ) 1 . 0 ( N ~ n ) p 1 ( p p p̂ Zc    4. Supuestos.  Muestra tomada al azar.  Muestra grande. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -1.96  Zc  1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se rechaza H0 6. Cálculos 712 . 3 300 ) 98 . 0 1 ( 02 . 0 02 . 0 05 . 0 Zc     7. Conclusiones. Con 5% de nivel de significación y a partir de la información muestral, la proporción de defectuosos es diferente de 2%. 0.025 0.025 1.96 -1.96 0.95
  • 61. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 59 Ejercicios Propuestos 1. Debido al tiempo excesivo que demanda trasladarse hacia el sitio de trabajo, la oficina en donde usted trabaja en el centro de la ciudad está considerando espaciar las horas de trabajo para sus empleados. El gerente considera que los empleados demoran en promedio 50 minutos para llegar al trabajo. Setenta empleados se toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos. Fije  en 1% y pruebe la hipótesis. 2. Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la ruptura de 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas la resistencia a la ruptura es, respectivamente, 30,1 32,7 22,5 27,5 28,9 27,7 29,8 28,9 31,4 30,4 27,0 31,2 24,3 26,4 22,8 29,4 22,3 29,1 33,4 23,5 Al nivel de significación 05 . 0   y suponiendo normalidad, ¿se admite la hipótesis del químico? 3. El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante eléctrico descarga pequeñas cantidades de su planta. La gerencia de la compañía, en un intento por controlar la cantidad de PCB en sus descargas, ha dado instrucciones de parar la producción si la cantidad media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50 especimenes de agua produjo las siguientes estadísticas: 1 , 3 y  ppm y 5 , 0 s  ppm. ¿Proporcionan tales estadísticas suficientes pruebas para detener el proceso? Utilice 01 , 0   . 4. Una muestra aleatoria de 64 bolsas de palomitas de maíz con queso pesan, en promedio, 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que 5 . 5   onzas contra la hipótesis alternativa, 5 . 5   onzas en el nivel de significancia de 0.05 5. Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se elige una muestra de 100 artículos de dicho lote, y resulta que 8 son defectuosos, ¿es válida la afirmación de la empresa? Utilice un nivel de significancia de 0.05. 6. Un fabricante sostiene que el 95% de los equipos que envió a una fábrica está acorde con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran defectuosas. Pruebe la afirmación del fabricante al nivel de significancia a) 0.01 b) 0.05
  • 62. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 60 Pruebas de hipótesis para dos varianzas poblacionales. Ejemplo. Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie- libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación. Características Embalaje A Embalaje B Media 1,2367 0,9778 Varianza 0,0042 0,0024 Observaciones 9 9 A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma poblaciones normales con varianzas iguales. Solución. Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1  , 2 1  ) X2: Resistencia al impacto (embalaje B) X2 ~ N( 2  , 2 2  ) 1. Planteo de hipótesis.            2 2 2 1 1 2 2 2 1 0 : H : H 2. Nivel de significación. 05 . 0   3. Prueba estadística ) 1 n , 1 n ( 2 2 2 1 2 2 2 1 c 2 1 f ~ 1 S S F       4. Supuestos.  Poblaciones normales.  Muestras tomadas al azar. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si 0.226  fc  4.43 No se rechaza H0 Si fc < 0.226 o fc > 4.43 Se rechaza H0 0.025 0.025 4.43 0.226
  • 63. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 61 6. Cálculos 75 . 1 ) 0024 . 0 ( ) 0042 . 0 ( Fc   7. Conclusiones. Con 5% de nivel de significación la información muestral es insuficiente para rechazar que las varianzas de las resistencias son iguales. Pruebas de hipótesis para dos medias poblacionales. Muestras independientes Ejemplo. Un investigador desea verificar si existe evidencia de una diferencia en la resistencia promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie- libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación. Características Embalaje A Embalaje B Media 1,2367 0,9778 Varianza 0,0042 0,0024 Observaciones 9 9 A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma poblaciones normales con varianzas iguales. Solución. Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1  , 2 1  ) X2: Resistencia al impacto (embalaje B) X2 ~ N( 2  , 2 2  ) 1. Planteo de hipótesis.          2 1 1 2 1 0 : H : H 2. Nivel de significación. 05 . 0   3. Prueba estadística ) 2 n n ( 2 1 2 p 2 1 _ 2 _ 1 c 2 1 t ~ n 1 n 1 S ) ( ) x x ( t                  donde: 2 n n s ) 1 n ( s ) 1 n ( S 2 1 2 2 2 2 1 1 2 p       4. Supuestos.  Poblaciones normales.  Muestras tomadas al azar.
  • 64. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 62 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -2.120  tc  2.120 No se rechaza H0 Si tc < -2.120 o tc > 2.120 Se rechaza H0 6. Cálculos 561 . 9 9 1 9 1 0033 . 0 ) 0 ( ) 9778 . 0 2367 . 1 ( tc            7. Conclusiones. Con 5% de nivel de significación la información muestral es suficiente para rechazar que las resistencias promedios de los dos tipos de embalaje son iguales. Muestras Relacionadas Ejemplo Un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura de una persona en promedio dos centímetros en un período de cinco días. Las medidas de cinturas de seis hombres que participaron en este programa de ejercicios se registraron antes y después del período de cinco días en la siguiente tabla: Hombres 1 2 3 4 5 6 Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6 Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0 ¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la distribución de las diferencias de medidas de cintura antes y después del programa es aproximadamente normal. Solución. Sean X1: Medida de cintura antes (cm.) X2: Medida de cintura después (cm.) 1. Planteo de hipótesis.      2 D : H 2 D : H 1 0 0.025 0.025 t(16, 0.025) = 2.120 -2.120 0.95
  • 65. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 63 2. Nivel de significación. 05 . 0   3. Prueba estadística   1 n d c t ~ n / S D d t    4. Supuestos.  Las diferencias tienen distribución normal. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -2.57  tc  2.57 No se rechaza H0 Si tc < -2.57 o tc > 2.57 Se rechaza H0 6. Cálculos 794 . 0 6 / 543 . 1 2 5 . 1 tc     7. Conclusiones. Con 5% de nivel de significación la información recogida resulta insuficiente para contradecir lo que afirma el gimnasio. Prueba de hipótesis para dos proporciones poblacionales. En una prueba de calidad de dos comerciales de televisión se pasó cada uno en un área de prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados: Comercial Personas que lo vieron Personas que recordaron el mensaje principal A B 150 200 63 60 Use 05 . 0   para probar la hipótesis que no hay diferencia en las proporciones que recuerdan los dos comerciales. 0.025 0.025 2.57 -2.57 0.95
  • 66. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 64 Solución. Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A. Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B. 1. Planteo de hipótesis.      2 1 1 2 1 0 p p : H p p : H 2. Nivel de significación. 05 . 0   3. Prueba estadística ) 1 . 0 ( N ~ n 1 n 1 ) p 1 ( p p̂ p̂ Z 2 1 2 1 c             4. Supuestos.  Muestra tomada al azar.  Muestra grande. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -1.96  Zc  1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se rechaza H0 6. Cálculos 328 . 2 200 1 150 1 ) 649 . 0 )( 351 . 0 ( 200 60 150 63 Zc           7. Conclusiones. Con 5% de nivel de significación y a partir de la información muestral, hay diferencias significativas en las proporciones que recuerdan los dos comerciales. Aplicaciones a su carrera En base a una data real correspondiente a su carrera, con un nivel de significación del 4%, realice aplicaciones de Pruebas de Hipótesis para comparar: 1. Dos varianzas poblacionales de muestras independientes 2. Dos medias poblacionales de muestras independientes 3. Dos proporciones poblacionales de muestras independientes 4. Dos medias poblacionales de muestras relacionadas 1.96 0.025 0.025 -1.96 0.95
  • 67. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 65 Ejercicios Propuestos 1. Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de mar como en el aire. Los resultados en miles fueron los siguientes: x s Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141 Aire 734 571 520 792 773 276 411 500 672 583,222 175,121 ¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del colapso? Asuma poblaciones normales. Use 05 . 0   . Prueba de muestras independientes ,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515 -,333 14,54 ,744 -33,222 99,880 -246,700 180,256 Se han asumido varianzas iguales No se han asumido varianzas iguales F Sig. Prueba de Levene para la igualdad de varianzas t gl Sig. (bilateral) Diferenci a de medias Error típ. de la diferencia Inf erior Superior 95% Intervalo de confianza para la diferencia Prueba T para la igualdad de medias 2. Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un experimento sobre los alambres muestra los siguientes resultados (en ohmios): x s Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033 Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122 Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de significación. 3. En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los siguientes datos acerca de la comparación de residuos de ácido sórbico, en partes por millón, en jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de almacenamiento.
  • 68. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 66 Rebanada Residuos de ácido sórbico en jamón di Antes del almacenamiento Después del almacenamiento 1 224 116 108 2 270 96 174 3 400 239 161 4 444 329 115 5 590 437 153 6 660 597 63 7 1400 689 711 8 680 576 104 Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al nivel de significancia de 0.05, para decir que la duración del almacenamiento influye en las concentraciones residuales de ácido sórbico? Prueba de muestras relacionadas Diferencias relacionadas t gl Sig. (bilateral) Media Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior antes - después 198,625 210,165 74,305 22,922 374,328 2,673 7 ,032 4. Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos se colocaron en cámaras de espiración, una de las cuales contenía una alta concentración de CO. Se realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se colocaron en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la frecuencia respiratoria en número de respiraciones por minuto. Sujeto 1 2 3 4 5 6 7 8 9 Con CO 30 45 26 25 34 51 46 32 30 Sin CO 30 40 25 23 30 49 41 35 28 Calcule un intervalo de confianza del 95%, se puede afirmar que un ambiente con CO influye sobre la capacidad de respiración. Asuma normalidad. 5. El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de 616 adultos trabajan utilizando con regularidad una computadora personal, una microcomputadora, un terminal de computadora o un procesador de texto en su trabajo. a. ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan con regularidad equipo de cómputo en su trabajo excede 25% Pruebe con 03 . 0   . b. Se sabe que el número promedio de trabajadores por empresa es 720. Estime un intervalo de confianza del 95% para el total de trabajadores, de las 15 empresas, que utilizan con regularidad equipo de cómputo en su trabajo.
  • 69. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 67 c. Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra se obtuvo que 105 adultos utilizan con regularidad una computadora persona, una microcomputadora, un terminal de computadora o un procesador de texto en su trabajo ¿Existe diferencias significativas entre los porcentajes de adultos, de las empresas del sector industrial y de salud, que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0,05. 6. Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras de procedimiento existente y del nuevo para determinar si este tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos de procedimiento nuevo también lo son, al nivel de 5% de significación, ¿mejoró el proceso luego de los cambios?
  • 70. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 68 UNIDAD 4. Estadística no paramétrica Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji- cuadrado permite efectuar las siguientes pruebas: 1. Prueba de independencia. 2. Prueba de homogeneidad de subpoblaciones. 3. Pruebas de bondad de ajuste a una distribución de probabilidades. La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula en cuestión. Prueba de Independencia. Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera variable permite clasificar a cada observación en una de r categorías y que la segunda variable permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce como tabla de contingencia r×c. Variable 2 Columna 1 Columna 2 . . . Columna c Variable 1 Fila 1 Fila 2 . . . Fila r Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón, existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas). Ejemplo. Para determinar si existe una relación entre la calificación de un empleado en el programa de capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia 3×3.
  • 71. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 69 Calificación en el programa de capacitación Total Debajo del promedio Promedio Sobre el promedio Rendimiento real en el trabajo (calificación del empleador) Deficiente 23 60 29 112 Promedio 28 79 60 167 Muy bueno 9 49 63 121 Total 60 188 152 400 Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada con la calificación en el programa de capacitación? Solución Las variables que se muestran en la tabla son: Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente, promedio y muy bueno. Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del promedio, promedio o sobre el promedio. La prueba de independencia compara las frecuencias observadas frente a las frecuencias esperadas bajo el supuesto de que ambas variables sean independientes. Para calcular las frecuencias esperadas se utiliza la siguiente fórmula: tablal la de Total fila) la de (Total x columna) la de (Total esperada Frecuencia  La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre paréntesis) Calificación en el programa de capacitación Total Debajo del promedio Promedio Sobre el promedio Rendimiento real en el trabajo (calificación del empleador) Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112 Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167 Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121 Total 60 188 152 400 Pasos para realizar la prueba de independencia 1. Formulación de las hipótesis H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la calificación en el programa de capacitación. H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente de la calificación en el programa de capacitación.
  • 72. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 70 2. Fijación del nivel de significación: 0,01. 3. Estadístico de prueba gl ) 1 )( 1 ( con ~ ) ( 2 1 2 2 c        c r v e e o k i i i i    4. Áreas y criterio de decisión. Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4. Criterio: Si 2 c  > 13,277 se rechaza H0 Si 2 c  ≤ 13,277 no se rechaza H0. 5. Cálculos previos 18 , 20 98 , 45 ) 98 , 45 63 ( ... 05 , 25 ) 05 , 25 28 ( 80 , 16 ) 80 , 16 23 ( 2 2 2 2 c          6. Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un empleado en el trabajo depende de la calificación en el programa de entrenamiento. Nota. (Corrección de Yates) Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:            k i i i i c r v e , e o 1 2 2 2 c gl ) 1 )( 1 ( con 5 0    0,01 2 0,01 = 13,277
  • 73. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 71 7. Salida SPSS: Tabla de contingencia Rendimiento * Aprovechamiento Recuento 23 60 29 112 9 49 63 121 28 79 60 167 60 188 152 400 Def iciente Muy Bueno Promedio Rendimiento Total Debajo del Promedio Promedio Sobre el Promedio Aprov echamiento Total Pruebas de chi-cuadrado 20.179a 4 .000 20.892 4 .000 400 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos Valor gl Sig. asintótica (bilateral) 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mínima esperada es 16.80. a. Prueba de Homogeneidad de Proporciones Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la misma en r poblaciones. Ejemplo. Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los resultados que se muestran en la siguiente tabla: Material A Material B Material C Total Desintegrados 41 27 22 90 Permanecieron intactos 79 53 78 210 Total 120 80 100 300 Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la probabilidad de desintegración es la misma para los tres tipos de materiales. Pasos para realizar la prueba de homogeneidad de proporciones 1. Formulación de las hipótesis H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i. H1: No todas las proporciones son iguales. 2. Fijación del nivel de significación: 0,05.
  • 74. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 72 3. Estadístico de prueba gl ) 1 )( 1 ( con ~ ) ( 2 1 2 2 c        c r v e e o k i i i i    4. Áreas y criterios de decisión. Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2. Criterios: Si 2 c  > 5,991 se rechaza H0 Si 2 c  ≤ 5,991 no se rechaza H0 5. Cálculos previos Material A Material B Material C Total Desintegrados 41 (36) 27 (24) 22 (30) 90 Permanecieron intactos 79 (84) 53 (56) 78 (70) 210 Total 120 80 100 300 575 , 4 70 ) 70 78 ( ... 84 ) 84 79 ( 36 ) 36 41 ( 2 2 2 2 c          6. Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes para rechazar que la probabilidad de desintegración es la misma para los tres tipos de materiales. Salida SPSS: Tabla de contingencia Estado * Material Recuento 41 27 22 90 79 53 78 210 120 80 100 300 Desintegra Intacto Estado Total A B C Material Total 0,05 2 0,05 = 5,991
  • 75. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 73 Pruebas de chi-cuadrado 4.575a 2 .101 4.727 2 .094 300 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos Valor gl Sig. asintótica (bilateral) 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mínima esperada es 24.00. a. Prueba de Bondad de Ajuste La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de una variable. Se compara una distribución de frecuencias observadas con los valores correspondientes de una distribución esperada o teórica. Ejemplo 1: Bondad de ajuste a una distribución de Poisson. Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47, 76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse como una variable aleatoria que tiene distribución de Poisson con 6 , 4   . Use . 05 , 0   En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría (definidas por k). Para calcular las frecuencias esperadas debe calcular primero las probabilidades correspondientes a cada categoría, en este caso utilizando la función de distribución de probabilidades Poisson definida por:   Pr ! x e X x x      Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la probabilidad correspondiente es:     Pr 13 1 Pr 13 X X     Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:
  • 76. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 74 k N° mensajes por radio Frecuencias observadas (oi) Probabilidades de Poisson Frecuencias esperadas (ei) 1 0 3 0,010 4,0 2 1 15 0,046 18,4 3 2 47 0,107 42,8 4 3 76 0,163 65,2 5 4 68 0,187 74,8 6 5 74 0,173 69,2 7 6 46 0,132 52,8 8 7 39 0,087 34,8 9 8 15 0,050 20,0 10 9 9 0,025 10,0 11 10 5 0,012 4,8 12 11 2 0,005 2,0 13 12 0 0,002 0,8 14 13 o más 1 0,001 0,4 Total 400 1,000 400,0 Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como se muestra a continuación. k Frecuencias observadas (oi) Frecuencias esperadas (ei)   i i i e e o 2  1 1 1 18 8 2 22 2, ,4 4 0 0, ,8 86 64 43 3 2 47 42,8 0,4121 3 76 65,2 1,7890 4 68 74,8 0,6182 5 74 69,2 0,3329 6 46 52,8 0,8758 7 39 34,8 0,5069 8 15 20,0 1,2500 9 9 10,0 0,1000 1 10 0 8 8 8 8, ,0 0 0 0, ,0 00 00 00 0 Total 400 400,0 6,7492 Pasos para realizar la prueba de bondad de ajuste 1) Formulación de las hipótesis H0: La variable aleatoria tiene distribución de Poisson con parámetro 6 , 4   H1: La variable aleatoria no tiene distribución de Poisson con parámetro 6 , 4   . 2) Fijación del nivel de significación: 0,05
  • 77. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 75 3) Estadístico de prueba m k v e e o k i i i i        1 con ~ ) ( 2 1 2 2 c    En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de parámetros estimados (0 en el ejemplo). Si el valor de  no hubiese sido dado, hubiese sido necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1. 4) Áreas y criterios de decisión. Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9. Criterios: Si 2 c  > 16,919 se rechaza H0 Si 2 c  ≤ 16,919 no se rechaza H0 5) Cálculos previos 7492 , 6 0 , 8 ) 0 , 8 8 ( ... 8 , 42 ) 8 , 42 47 ( 4 , 22 ) 4 , 22 18 ( 2 2 2 2 c          6) 6 , 4   proporciona un buen ajuste. Ejemplo 2 : Bondad de ajuste a una distribución binomial. Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334 cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían 2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos. Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja sigue una distribución binomial, utilizando un nivel de significación de 0.05. Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario estimarlo. Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al azar sea defectuoso puede estimarse de la siguiente manera: 0,05 2 0,05 = 16,919
  • 78. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 76 1142 , 0 10000 1142 cajas 1000 las en bombillos de Total s defectuoso bombillos de Total ˆ    p En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:     x x p p x x X             10 1 10 Pr Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta razón la categoría 7 corresponde a la probabilidad             Pr 6 Pr 6 Pr 7 Pr 8 Pr 9 Pr 10 X X X X X X            k N° de bombillos defectuosos Frecuencias observadas (oi) Probabilidades binomiales Frecuencias esperadas (ei) 1 0 334 0,2974 297,4 2 1 369 0,3834 383,4 3 2 191 0,2224 222,4 4 3 63 0,0765 76,5 5 4 22 0,0173 17,3 6 5 12 0,0027 2,7 7 6 o más 9 0,0003 0,3 Total 1000 1,000 1000 Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este caso, es necesario agrupar las últimas 3 categorías. k Frecuencias observadas (oi) Frecuencias esperadas (ei)   i i i e e o 2  1 1 3 33 34 4 2 29 97 7, ,4 4 4 4, ,5 50 04 42 2 2 369 383,4 0,5408 3 191 222,4 4,4332 4 63 76,5 2,3823 5 43 20,3 25,3837 Total 1000 1000 37,2445
  • 79. Universidad Peruana de Ciencias Aplicadas Estadística para Economistas 77 Pasos para realizar la prueba de bondad de ajuste 1) Formulación de las hipótesis H0: El número de bombillos defectuosos por caja sigue una distribución binomial. H1: El número de bombillos defectuosos por caja no sigue una distribución binomial. 2) Fijación del nivel de significación: 0,05 3) Estadístico de prueba m k v e e o k i i i i        1 con ~ ) ( 2 1 2 2 c    En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p). 4) Áreas y criterios de decisión. Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3. Criterios: Si 2 c  > 7,815 se rechaza H0 Si 2 c  ≤ 7,815 no se rechaza H0 5) Cálculos previos 24 , 37 3 , 20 ) 3 , 20 43 ( ... 4 , 383 ) 4 , 383 369 ( 4 , 297 ) 4 , 297 334 ( 2 2 2 2 c          6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un buen ajuste para el número de bombillos defectuosos por caja. Ejemplo 3: Bondad de ajuste a una distribución de frecuencias. Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás? 0,05 2 0,05 = 7.815