1. Pruebas de bondad de ajuste y tablas de contingencias
Mallén Arenas
Departamento de Estadı́stica
Facultad de Ciencias Fı́sicas y Matemáticas
Universidad de Concepción
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 1 / 33
2. 1 Algunas Aplicaciones de la Prueba Chi-Cuadrado
2 Tabla de contingencia r × s
3 La prueba chi cuadrado
4 La prueba de homogeneidad
5 Pruebas sobre independencia de dos variables categóricas.
6 Prueba de Bondad de Ajuste a una Distribución de Probabilidades
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 2 / 33
3. Algunas Aplicaciones de la Prueba Chi-Cuadrado
Algunas Aplicaciones de la Prueba Chi-Cuadrado
Muchos experimentos producen datos enumerativos (o de conteo). Por
ejemplo, la clasificación de individuos en 5 categorı́as según sus ingresos;
en un estudio de trafico podrı́a requerir de un conteo y la clasificación del
tipo de vehı́culos motorizados que utilizan cierto tramo de las autopistas;
un proceso industrial produce artı́culos que tienen una de las tres clases de
calidad: aceptable, de segunda y rechazada, etc.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 3 / 33
4. Algunas Aplicaciones de la Prueba Chi-Cuadrado
Los ejemplos anteriores tienen aproximadamente las siguientes
caracterı́sticas, que definen un experimento multinomial:
1 El experimento cuenta con n pruebas independientes;
2 El de cada prueba cae en una de las k clases o celdas;
3 La probabilidad que el resultado de una prueba caiga en una celda en
particular, (en la i-ésima) es pi (i = 1, 2, . . . , k) y permanece
constante prueba a prueba. Además,
p1 + p2 + · · · + pk = 1;
4 Se está interesado en los valores n1, n2, . . . , nk en donde ni es igual al
número de pruebas cuyo resultado cae en la i-ésima celda. Note que:
n = n1 + n2 + · · · + nk.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 4 / 33
5. Algunas Aplicaciones de la Prueba Chi-Cuadrado
El objetivo ahora es hacer inferencia acerca de las probabilidades
p1, p2, . . . , pk de las celdas de un experimento multinomial. Las inferencias
se realizan en términos de la prueba estadı́stica de una hipótesis acerca de
los valores numéricos especı́ficos o acerca de su interrelación.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 5 / 33
6. Tabla de contingencia r × s
Tabla de contingencia r × s
Datos de una muestra de tamaño n para dos criterios de clasificación A y
B: A con los niveles o clases A1, A2, . . . , Ar. B con los niveles o clases
B1, B2, . . . , Bs
B1 B2 · · · Bs Totales
A1 n11 n12 · · · n1s n1·
A2 n21 n22 · · · n2s n2·
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
Ar nr1 nr2 · · · nrs nr·
Totales n·1 n·2 · · · n·s n
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 6 / 33
7. Tabla de contingencia r × s
nij = no de individuos de la muestra clasificados en la clase Ai de
A y en la Bj de B.
ni· =
Ps
j=1 total de la i-ésima fila = no individuos de la clase Ai de
A.
n.j =
Pr
i=1 total de la j-ésima columna = no de individuos de la
clase Bj de B.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 7 / 33
8. La prueba chi cuadrado
La prueba chi cuadrado
Al considerar n ensayos o repeticiones independientes de un experimento
aleatorio, podemos definir la variable multinomial (n1, n2, . . . , nr),
asociada a una partición A1, A2, . . . , Ar del correspondiente espacio
muestral Ω, con p(Ai) = pi , donde ni es el número de veces que tiene
lugar el suceso Ai en los n ensayos. Karl Pearson propuso un estadı́stico
de prueba muy útil para probar hipótesis respecto de p1, p2, . . . , pk y
estableció su distribución de probabilidad aproximada en un muestreo
repetitivo.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 8 / 33
9. La prueba chi cuadrado
Cuando n, el número de ensayos, es suficientemente grande, la variable:
χ2
=
r
X
i=1
(ni − npi)2
npi
=
r
X
i=1
(Oi − Ei)2
Ei
sigue una ley de probabilidad χ2
(r−1). Esta aproximación se considera
adecuada si las frecuencias esperadas cumplen Ei = npi < 5 , para
i = 1, . . . , r. Se suelen también utilizar
Oi = frecuencia observada de Ai;
Ei = frecuencia esperada de Ai.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 9 / 33
10. La prueba chi cuadrado
En el caso que las probabilidades pi hayan de ser reemplazadas por sus
estimaciones, la variable presenta la forma:
χ2
=
r
X
i=1
(Xi − nb
pi)2
nb
pi
=
r
X
i=1
(Oi − c
Ei)2
c
Ei
y su ley se ajusta ası́ntoticamente a la de una distribución χ2
(r−s−1),
donde s = no de parámetros que es necesario estimar para determinar a su
vez las estimaciones de las probabilidades desconocidas.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 10 / 33
11. La prueba chi cuadrado
Ejemplo
En un análisis de mercado que elaboró una empresa de marketing. durante
el año pasado se estabilizaron las participaciones del marcado con un 30%
para la compañı́a A, 50% para la compañı́a B y 20% para la compañı́a C.
La compañı́a C incorporará un nuevo producto al mercado y le pidió a la
misma empresa si el nuevo producto causará una alteración en las
participaciones de los tres competidores en el mercado.
H0 : p1 = 0, 3 p2 = 0, 5 p3 = 0, 2
Ha : Las proporciones no son las que se indicaron.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 11 / 33
12. La prueba chi cuadrado
Supongamos que la empresa investigadora usó una muestra de 200 clientes
para el estudio. A cada persona se le pidió su preferencia de compra entre
las tres alternativas: El producto de la compañı́a A, el de la B o el nuevo
producto de la C. Las respuestas se resumen en la siguiente tabla:
Compañı́a A Compañı́a B Compañı́a C
Frecuencias
observadas ni 48 98 54
Frecuencias
esperadas Ei 200(0.3) = 60 200(0.5) = 100 200(0.2) = 40
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 12 / 33
13. La prueba chi cuadrado
χ2
=
r
X
i=1
(ni − npi)2
npi
=
(48 − 60)2
60
+
(98 − 100)2
100
+
(54 − 40)2
40
= 7.34
con α = 0, 05 . Como 7, 23 > 5, 99 se rechaza H0. Luego se concluye que
la introducción del nuevo producto de la compañı́a C sı́ alterará la
estructura actual de participación en el mercado.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 13 / 33
14. La prueba de homogeneidad
La prueba de homogeneidad
Se consideran
B1 = (n11, n12, . . . , n1s),
B2 = (n21, n22, . . . , n2s),
.
.
.
.
.
.
.
.
.
Br = (nr1, nr2, . . . , nrs),
r poblaciones multinomiales independientes, en relación con un mismo
criterio de clasificación con s niveles o clases A1, A2, . . . , As ; donde los
números de ensayos son n1., n2., . . . , nr., respectivamente ; nij = no de
veces, de los ni. ensayos realizados en la población Bi , que tiene lugar Aj
; pij = probabilidad que en Bi tiene el atributo Aj. Las variables en esta
situación definen la siguiente tabla de contingencia con r filas y s columnas
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 14 / 33
15. La prueba de homogeneidad
Datos de una muestra de tamaño n para s poblaciones B1, B2, . . . , Br y
criterio de clasificación A con los niveles o clases A1, A2, . . . , As.
A1 A2 · · · As Totales
B1 n11 n12 · · · n1s n1·
B2 n21 n22 · · · n2s n2·
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
Br nr1 nr2 · · · nrs nr·
Totales n·1 n·2 · · · n·s n
n.j = total de la j-ésima columna = frecuencia de Aj , respecto de n =
no de ensayos total.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 15 / 33
16. La prueba de homogeneidad
Se trata de probar si, en relación al criterio considerado, las r poblaciones
son homogéneas, es decir, si no existen diferencias entre la probabilidades
de cada uno de los atributos o clases en todas las poblaciones. La
formulación de este contraste serı́a:
H0 : pij = pkj = p.j, para j = 1, 2, . . . , s; k = 1, 2, . . . , r.
H1 : al menos una igualdad no se cumple.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 16 / 33
17. La prueba de homogeneidad
Bajo el supuesto que H0 es verdadero , el estadı́stico
χ2
c =
s
X
j=1
r
X
i=1
(nij − ni. b
pj)2
ni. b
pj
=
s
X
j=1
r
X
i=1
(Oij − c
Eij)2
c
Eij
sigue aproximadamente, si los tamaños muestrales son grandes, la
distribución de probabilidad de una χ2 con (r − 1)(s − 1) grados de
libertad, donde:
b
pj =
n.j
n
, c
Eij =
n.j
n
ni.
con
n =
s
X
j=1
r
X
i=1
nij.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 17 / 33
18. La prueba de homogeneidad
Se rechaza H0 si donde χ2
(r−1)(s−1),1−a es el valor crı́tico. Al tratarse de
un contraste unilateral superior, la formulación de este criterio , en
términos del valor-p, será:
v − p = P(χ2
(r−1)(s−1) > χ2
c)
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 18 / 33
19. La prueba de homogeneidad
Ejemplo
En un ensayo clı́nico se desean comparar cuatro vacunas, B1, B2, B3 y
B4; en relación al criterio reacción cutánea, con tres niveles, A1 =reacción
nula; A2 =reacción moderada; y A3 =reacción importante. Se dividió un
grupo de 400 niños en cuatro grupos de 100, a los que se administró las
vacunas B1, B2, B3 y B4 ; respectivamente. Los resultados obtenidos
conforman la siguiente tabla de contingencia con 4 filas y 3 columnas:
A1 A2 A3 Totales
B1 13 71 16 n1· = 100
B2 15 74 11 n2· = 100
B3 14 80 6 n3· = 100
B4 5 70 25 n4· = 100
Totales n·1 = 47 n·2 = 295 n·3 = 58 n = 400
Su hipótesis nula es que, respecto a cualquiera de los tres tipos de
reacción, las 4 vacunas son similares.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 19 / 33
20. La prueba de homogeneidad
H0 : pij = pkj = p.j, para j = 1, 2, 3, i, k = 1, 2, 3, 4
H1 : al menos una igualdad no se cumple.
Los valores esperados son:
A1 A2 A3 ni.
E1 11.75 73.75 14.5 100
E2 11.75 73.75 14.5 100
E3 11.75 73.75 14.5 100
E4 11.75 73.75 14.5 100
b
pj 0.1175 0.7375 0.145 400
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 20 / 33
22. Pruebas sobre independencia de dos variables categóricas.
Pruebas sobre independencia de dos
variables categóricas.
Para introducir este tipo de prueba, supongamos que en una población Ω
se consideran dos criterios de clasificación A y B, integrados por los
niveles o clases A1, A2, . . . , Ar ; y B1, B2, ..., Bs ,
respectivamente. Una muestra aleatoria de n individuos define la variable
multinomial.
Sea nij = no de individuos de la muestra clasificados en la clase Ai de
A y en la Bj de B; y configura la siguiente tabla de contingencia con r
filas y s columnas.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 22 / 33
23. Pruebas sobre independencia de dos variables categóricas.
B1 B2 · · · Bs Totales
A1 n11 n12 · · · n1s n1·
A2 n21 n22 · · · n2s n2·
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
Ar nr1 nr2 · · · nrs nr·
Totales n·1 n·2 · · · n·s n
ni. = total de la i-ésima fila = no individuos en la muestra de la clase Ai
de A.
n.j = total de la j-ésima columna = no individuos en la muestra de la
clase Bj de B.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 23 / 33
24. Pruebas sobre independencia de dos variables categóricas.
Afirmar que los dos criterios de clasificación son independientes significarı́a
que cualquier nivel (suceso) Ai del criterio A es independiente de
cualquier nivel (suceso) Bj del criterio B, es decir,
H0 : pij = pi.p.j
H1 : pij 6= pi.p.j
χ2
c =
s
X
j=1
r
X
i=1
(nij − ni. b
pj)2
ni. b
pj
=
s
X
j=1
r
X
i=1
(Oij − c
Eij)2
c
Eij
b
pj =
n.j
n
, c
Eij =
n.j
n
ni.
con
n =
s
X
j=1
r
X
i=1
nij.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 24 / 33
25. Pruebas sobre independencia de dos variables categóricas.
Ejemplo
Suponga que se ha tomado una muestra de 150 personas bebedoras de
cerveza. Después de probar cada una de las distintas cervezas se les
pregunta su preferencia o primera alternativa. La tabla siguiente resume
las respuestas observadas:
Cerveza preferida
Ligera Clara Oscura Total
Hombres 20 40 20 80
Mujeres 30 30 10 70
Total 50 70 30 150
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 25 / 33
26. Pruebas sobre independencia de dos variables categóricas.
Valores esperados
Ligera Clara Oscura Total
Hombres 26.667 37.333 16 80
Mujeres 23.333 32.667 14 70
Total 50 70 30 150
χ2 =
Ps
j=1
Pr
i=1
(Oij−d
Eij)2
d
Eij
= (20−26.667)2
26.667 + (40−37.333)2
37.333 + (20−16)2
16
+(30−23.333)2
23.333 + (30−32.667)2
32.667 + (10−14)2
14
= 6.13
v − p = P(χ2
2 > 6.13) = 0.047.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 26 / 33
27. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
Prueba de Bondad de Ajuste a una Distribución de
Probabilidades
La prueba de bondad de ajuste es conveniente cuando se requiere decidir si
existe incompatibilidad entre las distribuciones de frecuencias observadas y
alguna distribución predeterminada o hipotética.
Hipótesis:
H0: La variable Y tiene una distribución de probabilidades dada.
H1: La variable Y no tiene la distribución de probabilidades
propuesta.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 27 / 33
28. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
Estadı́stico de prueba:
χ2
=
k
X
i=1
(Oij − Eij)2
Eij
∼ χ2
k−1−m
Las frecuencias esperadas se calculan de la siguiente manera:
Ei = npi,
donde pi son las probabilidades correspondientes a cada valor de Y según
la distribución de probabilidades establecidas en la hipótesis nula.
Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el resulta
mayor que el valor de tabla.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 28 / 33
29. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
Ejemplo
Hay 1000 bolsas de naranjas, cada una de las cuales contienen 10
naranjas. Alguna de las naranjas están podridas. ¿Es la distribución de
probabilidades del número de naranjas podridas por bolsa una
Binomial(10,p)?. Los resultados obtenidos tras analizar las 1000 bolsas
son los siguientes:
No de naranjas podridas 0 1 2 3 4 5 6
Frecuencia observada 334 369 191 63 22 12 9
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 29 / 33
30. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
Hipótesis:
H0: El número de naranjas podridas por bolsa sigue una
distribución Binomial(10,p) para algún p.
H1: El número de naranjas podridas por bolsa no sigue una
distribución Binomial (10,p).
p =
1142
10000
= 0, 1142
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 30 / 33
31. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
no de naranjas Frecuencia Ei
podridas observada pi npi
0 334 0,297410817 297.411
1 369 0,383430969 383.431
2 191 0,222448832 222.449
3 63 0,076476726 76.477
4 o más 22 0,017254317 20.233
5 12 0,002669374 2.669 < 5
6 9 0,000286786 0.287 < 5
7 o más 0 2,21787E-05 0.022 < 5
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 31 / 33
32. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
no de naranjas Frecuencia Ei
podridas observada Oi pi npi
(Oi−Ei)2
Ei
0 334 334 0,297410817 297.411 4,501
1 369 369 0,383430969 383.431 0,543
2 191 191 0,222448832 222.449 4,446
3 63 63 0,076476726 76.477 2,375
4 o más 22 43 0,020232656 20.233 25,618
5 12
6 9
1000 1000 1 1000 37,484
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 32 / 33
33. Prueba de Bondad de Ajuste a una Distribución de Probabilidades
Ejemplo
Un entomólogo está analizando la distribución de una especie de insecto
en una zona de cultivo. Para dicho estudio seleccionó 40 parcelas de
2m × 2m y contabilizó el número de insectos de dicha especie en cada
una. Los resultados son los siguientes:
Número de insectos 0 1 2 3 4
Número de parcelas 4 16 12 6 2
Pruebe con α = 0.05 si los datos se ajustan a una distribución de Poisson.
Mallén Arenas (Dpto. Estadı́stica) Pruebas de bondad de ajuste 33 / 33