4. 4
Comprender las dos técnicas estadísticas empleadas
para analizar datos categóricos*, con lo cual se podrá:
Comprender la prueba Chi cuadrado de bondad de
ajuste y cómo usarla.
Analizar datos usando la prueba de Chi cuadrado de
independencia (aleatoriedad) y para homogeneidad
(misma distribución)
INTRODUCCIÓN. OBJETIVO
• Los datos categóricos son variables que mide
en una escala un número limitado de grupos.
• Ejemplo: una encuesta donde se
recoge información sobre variables
como sexo, estado civil y afiliación
política.
• También a la variable categórica se le llama
cualitativa
6. 6
INTRODUCCIÓN
Muchos estudios tienen resultados expresados en datos
que son categóricos o cualitativos en vez de cuantitativos
y que admiten más de dos resultados posibles:
• Nuevos Obreros clasificados según evolución
(mejora, sin cambios, empeora)
• Trabajadores clasificados según su desempeño
(regulares, buenos, excelentes)
• Votantes clasificados según intención de voto
Estos datos tienen las características
de un experimento multinomial
7. 7
EL EXPERIMENTO
MULTINOMIAL
El experimento consiste de n ensayos idénticos
El resultado de cada repetición es una de k
categorías
La probabilidad de que el resultado sea una
determinada categoría i se denomina pi y
permanece constante de ensayo en ensayo
• La suma de las k
probabilidades:
p1+ p2+.. + pk = 1
• Los ensayos son
independientes
8. 8
PRUEBAS DE BONDAD DE
AJUSTE
Se mide una única variable categórica,
por lo tanto cada elemento de la
población se asigna a una y sólo una de
varias categorías k
• Para cada categoría se
posee un valor
preconcebido o
supuesto o histórico de
pi y usamos información
muestral para determinar
si dichos valores son
correctos
9. Dado que se cuenta solo con una muestra y se
desea inferir sobre toda la población, la pregunta
se resuelve mediante una prueba de hipótesis
Las hipótesis puestas a prueba son:
9
Formulación de la hipótesis
Ho: Las proporciones de la
muestra no difieren de la
población
H1: Las proporciones la
muestra sí difieren al menos
en una de la población.
10. 10
Varían según la aplicación
Se comienza con el número de categorías o celdas k
Se le resta un GL por cada restricción sobre las
probabilidades (siempre se perderá un GL ya que p1
+ p2 + … +pk = 1)
Se pierde un GL por cada parámetro que se debe
estimar para calcular FEi
Es decir
Cálculo del valor crítico
Grados de libertad
GL= k-m-1
Siendo k = cantidad de categorías
m= números de parámetros estimados
11. 11
Cálculo del valor crítico
GL= 4-0-1=3
Siendo k, cantidad de categorías
= nivel de significación
χ2 = 7.8147
χ2 = 7.8147
m es la cantidad estimada de parámetro
Gl=k-m-1
( = 0.05)
Ejemplo si k=0, m=0 y =0.05
12. Se calculan las frecuencias esperadas con las
proporciones:
¿Las diferencias son lo suficientemente grandes
como para afirmar que las preferencias en la
población han cambiado? ( = 0.05)
Clase 1 Clase 2 …….. Clase i TOTAL
FOi
O1 O2 ……. Oi n
Pi
P(O1) P(O2) ……. P(Oi) 1
FEi E1 E2 Ei
12
ESTADÍSTICO Chi-cuadrado
Frecuencias esperadas
FEi=n*P(xi)
13. 13
ESTADÍSTICO Chi-cuadrado
Para cuantificar las diferencias en un único número se utiliza el
estadístico
Cuando Ho es verdadera, las diferencias entre FOi y FEi serán
pequeñas,
Cuando Ho es falsa, las diferencias serán grandes
Para determinar si la discrepancia entre FO y FE es lo
suficientemente grande, se utiliza la distribución chi-cuadrado
con cierta cantidad de grados de libertad
Sin embargo este estadístico tiene una distribución que se
aproxima a la chi-cuadrado
i
ii
muestral
FE
FEFO
2
2
14. 14
Conclusión
Si se rechaza la Ho
Se puede afirmar con un nivel de significancia α
Que las proporciones de la muestra difieren al menos
en una de la población.
χ2
muestral > χ2
Se rechaza la Ho χ2
muestral
χ2
15. 15
EJEMPLO 01: grupos sanguíneos
La distribución en la ciudad de
Lima de los grupos
sanguíneos es de un 35%,
10%, 6% y un 49% para los
grupos A, B, AB y O
respectivamente.
Se desea saber si la
distribución de los grupos
sanguíneos en el distrito de
San Martin de Porres difiere
de toda la ciudad de Lima
16. Para determinar si la distribución de los
grupos sanguíneos en el distrito de San
Martin difiere de toda la ciudad de Lima se
extrajo una muestra aleatoria de 200
pobladores del distrito de San Martin de
Porres y se les determinó el grupo
sanguíneo.
Los resultados fueron:
16
Grupo A Grupo B Grupo AB Grupo 0
61 15 6 118
frecuencias
observadas
FO
En este caso, la población es
multinomial: cada poblador se
clasifica según su grupo
sanguíneo en 4 categorías (k= 4)
EJEMPLO 01: grupos sanguíneos
17. Dado que se cuenta solo con una muestra y se desea
inferir sobre toda la población, la pregunta se resuelve
mediante una prueba de hipótesis
Las hipótesis puestas a prueba son:
Ho: Las proporciones de cada grupo sanguíneo en el
distrito de San Martín de Porres no difieren de toda la
ciudad capital;
H1: Las proporciones de cada grupo sanguíneo sí difieren
al menos en una.
17
EJEMPLO 01:
Formulación de la hipótesis
¿Cómo se resuelve?
Se contrastaran las frecuencias observadas FOi
en la muestra con las frecuencias que se
esperaría observar FEi
Se probaran si las proporciones cambian o no
cambian (es decir si Ho es verdadera)
18. 18
EJEMPLO 01:
Cálculo del valor crítico
GL= 4-0-1=3
Siendo k = 4, cantidad de categorías
( = 0.05)
χ2 = 7.8147
χ2 = 7.8147
m=0 porque no se esta estimando ningún
parámetro
19. p1=0.35, p2= 0.10, p3=0.06, p4=0.49
Se calculan las frecuencias esperadas con las
proporciones:
¿Las diferencias son lo suficientemente grandes como
para afirmar que las preferencias en la población han
cambiado? ( = 0.05)
Grupo A Grupo B Grupo AB Grupo 0 TOTAL
FOi
61 15 6 118 200
Pi
0.35 0.10 0.06 0.49 1
FEi
19
Frecuencias esperadas
FEi=200*P(xi)
20. EJEMPLO 01:
Cálculo del estadístico de la
muestra
i
ii
muestral
FE
FEFO
2
2
20
Grupo
A
Grupo
B
Grupo
AB
Grupo
0
TOTAL
FOi 61 15 6 118 200
Pi 0.35 0.1 0.06 0.49 1
FEi 70 20 12 98 200
21. fo fe (fo-fe)2 (fo-fe)2/fe
61 70 81 1.15714286
15 20 25 1.25
6 12 36 3
118 98 400 4.08163265
200 200 9.48877551
EJEMPLO 01:
Cálculo del estadístico de la
muestra
i
ii
muestral
FE
FEFO
2
2
21
χ2
muestral = 9.488
χ2
muestral = 9.488
22. 22
EJEMPLO 01: Conclusión
Se rechaza la Ho
Se puede afirmar con un nivel de significancia del 5%
• Que Las proporciones de cada grupo sanguíneo sí difieren al menos
en una.
Por lo tanto la distribución de los grupos sanguíneos en el distrito de
San Martin de Porres difiere de toda la ciudad de Lima
Conclusión:
χ2
muestral > χ2
9.488 > 7.8147
χ2
muestral = 9.488
χ2 = 7.8147
23. 23
Para que la aproximación χ2 de la distribución del
estadístico del contraste sea válida:
El tamaño muestral debe ser suficientemente grande
(p.e. n>30).
La muestra debe ser una muestra aleatoria simple.
En caso de que haya que estimar parámetros, los
parámetros deben estimarse por el procedimiento de
máxima verosimilitud.
Las frecuencias esperadas ei=n *pi deberían ser todas
>5.
Condiciones necesarias para la validez
de la prueba
24. 24
Si la frecuencia esperada de alguna clase es < 5, se agrupa con
otra clase (o con varias si no fuese suficiente con una) para obtener
una frecuencia esperada >=5.
Cuando la variable es nominal (no hay una ordenación única) se
suele agrupar con la(s) que tiene(n) menor valor de ei.
Si la variable es ordinal (o continua) debe juntarse la que causó
el problema con una de las adyacentes.
Condiciones necesarias para la validez
de la prueba
25. 25
OTRAS APLICACIONES
Las pruebas de bondad de ajuste pueden utilizarse
para determinar si una variable se ajusta a una
determinada distribución de probabilidades, como
por ejemplo:
– Normal
– Binomial
– Poisson
En estos casos se deben estimar algunos
parámetros a partir de la muestra:
– Normal: el promedio y el desvío estándar
– Binomial: la probabilidad de éxito p
– Poisson: la cantidad esperada de eventos en un
continuo
26. 26
Los procedimientos de prueba de hipótesis que se
han estudiado hasta ahora, están diseñados para
problemas en los que se conoce la población o la
distribución de probabilidad, y la hipótesis involucra
los parámetros de la distribución.
Existe otra clase de hipótesis: no se sabe cuál es la
distribución de la población, y se desea probar la
hipótesis de que una distribución en particular será
un modelo satisfactorio de la población.
Por ejemplo:
Probar la hipótesis de que la población tiene
comportamiento normal, Poisson, exponencial etc.
PRUEBA DE BONDAD DE
AJUSTE
27. 27
– Se utiliza para la comparación de la distribución de
una muestra con alguna distribución teórica que se
supone describe a la población de la cual se
extrajo.
– Ejemplo:
• Ho : La variable tiene comportamiento normal
• H1 : La variable no tiene comportamiento normal
LA PRUEBA DE BONDAD DE AJUSTE
28. 28
Es considerada como una prueba no
paramétrica que mide la discrepancia entre una
distribución observada y otra teórica, indicando
en qué medida las diferencias existentes entre
ambas, de haberlas, se deben al azar.
LA PRUEBA DE BONDAD DE AJUSTE
29. LA PRUEBA DE BONDAD DE AJUSTE
La fórmula que da el estadístico es la siguiente:
29
Oi = Valor observado en la i-ésimo dato.
Ei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.
𝜒2 =
𝑓𝑂 𝑖
− 𝑓𝐸 𝑖
2
𝑓𝐸 𝑖
𝐾
𝐼=1
30. 30
Los grados de libertad vienen dados por : gl= K-m-1.
m = Parámetros estimados sobre la base de los
datos de la muestra
Criterio de decisión es el siguiente:
Se rechaza H0 cuando 𝜒2 ≥ 𝜒2
𝑡; 𝑘 − 1
. En caso
contrario no se rechaza.
Donde t representa el valor proporcionado por las
tablas, según el nivel de significación elegido.
LA PRUEBA DE BONDAD DE AJUSTE
Cuanto más se aproxima a cero el valor de chi-cuadrado, más
ajustadas están ambas distribuciones.
31. EL PROCEDIMIENTO GENERAL
PARA REALIZAR LA PRUEBA ES:
31
1.- Formulación de la hipótesis
Ho: Los datos de la muestra se ajustan a
la distribución teórica escogida
H1: Los datos de la muestra no se ajustan
a la distribución teórica escogida
2.- Fijar el nivel de significación
32.
k
i Ei
EiOi
1
2
2 )(
EL PROCEDIMIENTO GENERAL
PARA REALIZAR LA PRUEBA ES:
32
3.- La estadística de prueba donde:
Ei = npi
Oi = observado
p = número de parámetros estimados
a partir de la muestra
K = número de categorías o clases
pi = probabilidad
33. 4.- Determinar la región crítica:
rechazar Ho si:
caso contrario no se rechaza
5.- Decisión y conclusión
Nota: si alguna frecuencia esperada es menor
que 5, se debe eliminar esa clase, Y sumar la
frecuencia observada a una clase contigua.
2
1,1
2
mkcalc
EL PROCEDIMIENTO GENERAL
PARA REALIZAR LA PRUEBA ES:
33
34. 34
Un ingeniero de control de calidad toma una
muestra de 10 neumáticos que salen de una línea
de ensamblaje y desea verificar sobre la base de
los datos la cantidad de llantas con defectos
observados en 200 días, y comprobar si es cierto
que el 5% de todos los neumáticos tienen defecto.
Distribución binomial
• Se tiene conocimiento
que la muestra
proviene de una
población binomial
con n = 10 y p = 0.05
Ejemplo 02
35. Número de unidades
con defecto
Número de muestras
0 138
1 53
2 ó más 9
35
DATOS
REPORTE DE UNIDADES DEFECTUOSAS
Ejemplo 02
36. 36
FOi = Valor observado en la i-ésimo dato.
FEi = Valor esperado en la i-ésimo dato.
k = Categorías o celdas.
EL ESTADÍSTICO DE
PRUEBA
𝜒 2
=
𝐹𝑂 𝑖
− 𝐹𝐸 𝑖
2
𝐹𝐸 𝑖
𝑘
𝑖=1
37. 37
DEFINIR EL NIVEL DE SIGNIFICANCIA Y
LA ZONA DE RECHAZO
Ejemplo 02
Gl:k-m-1= 3-0-1=2
5.99
Nivel de significancia=0.05
Regla de decisión:
Se rechazara la Ho si χ2
calculado >=5.99:
m=0 porque no se necesita
estimar ningún
parámetro
38. 38
Para poder calcular las frecuencias esperadas
tenemos que calcular las probabilidades
utilizaremos la formula de la binomial
CALCULO DEL ESTADÍSTICO DE PRUEBA
y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086
Ejemplo 02
𝑓 𝑥 = 𝑃 𝑥 =
𝑛
𝑥
𝑝 𝑥(1 − 𝑝) 𝑛−𝑥
Donde n=10 p=0.05
𝑃 0 =
10
0
0.050(1 − 0.05)10−0=0.599
𝑃 1 =
10
1
0.051(1 − 0.05)10−1= 0.315
39. 39
CÁLCULO DE LAS FRECUENCIAS
ESPERADAS:
Ejemplo 02
Número
de
unidades
con
defecto
Número
de
muestras
Observad
as
Probabilid
ad
Valor
Esperado
0 138 0.599 119.8
1 53 0.315 63.0
2 ó más 9 0.086 17.2
Total 200 200.0
40. 40
APLICANDO LA FORMULA
Como 8.26 es mayor que 5.99, se rechaza la
hipótesis nula con un nivel de significancia de
0.05.
Conclusión
Se concluye que el porcentaje verdadero de
neumáticos con defecto no es el 5%.
Ejemplo 02
41. 41
Un distribuidor de equipos electrónicos a subdividido su región
en cuatro zonas.
A un posible comprador de los equipos se le asegura que las
ventas de los equipos están distribuidos de manera
aproximadamente igual en las cuatro zonas.
Distribución uniforme
• Se extrae una muestra de los
archivos de la empresa de 40
ventas realizadas el año
pasado y encuentra que el
numero de ventas por zona
son: 6, 12, 14, 8
respectivamente.
• Realice la prueba de bondad de
ajuste.
Ejemplo 03
42. Ho : las ventas están igualmente distribuidas.
Ha: las ventas no están igualmente distribuidas
gl = k-m-1 = 4-0-1 = 3 Alfa = 0.05
42
Formulación de las Hipótesis
Ejemplo 03
El Ch² critico = 7.81
Hallar el valor crítico
43. 43
Ejemplo 03
Elaborar la tabla de fo y fe y calcular el Ch².
Ch² observado=
Frecuenc
ia
observad
a (fo)
Probabili
dad
Frecuenc
ia
esperada
(fe)
(fo-fe)2
A 6 0.25 10 16 1.6
B 12 0.25 10 4 0.4
C 14 0.25 10 16 1.6
D 8 0.25 10 4 0.4
40 40 4
𝐅𝐎𝐢 − 𝐅𝐄𝐢
𝟐
𝐅𝐄𝐢
44. 44
La decisión:
Como: Ch² observado es menor que Ch² critico
,entonces no se rechaza la Ho.
No se puede afirmar con un nivel de
significancia del 5% que las ventas no están
igualmente distribuidas
Es decir las ventas siguen una distribución
uniforme
Ejemplo 03
7.81Χ2=4
45. Número de caras
Número de series
(frecuencia
observada)
0 38
1
144
2 342
3 287
4 164
5 25
Total 1000 45
Una moneda fue lanzada al aire 1000 series, de 5 veces cada
serie y se observó el número de caras de cada serie.
El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5
caras se muestra en la siguiente tabla.
Se desea saber si los resultados se ajustan una distribución
binomial.
Con un nivel de significancia del = 0.05.
Distribución binomial (con parámetro estimado)
Ejemplo 04
46. 46
H0 :Los datos se ajustan a una
distribución binomial.
H1: Los datos no se ajustan a una
distribución binomial
Paso 1 Formulación de las hipótesis
Ejemplo 04
47. 47
Calculo de la probabilidad de éxito
Para obtener los valores esperados se tiene que
utilizar la formula de la distribución binomial:
donde n =5, p y q son las probabilidades respectivas de cara
y sello en un solo lanzamiento de la moneda.
Paso 2: Obtención del estadístico de la prueba
Para calcular el valor de p, se sabe que μ = np en
una distribución binomial, por lo que μ = 5p.
𝑛 𝐶 𝑥 𝑝 𝑥
𝑞(𝑛−𝑥)
Ejemplo 04
48. 48
Calculo de la probabilidad de éxito
Para la distribución de frecuencias observada,
la media del número de caras es:
Paso 2: Obtención del estadístico de la prueba
Como μ = 5p
Entonces:
Ejemplo 04
Númer
o de
caras
Número
de
series
(fo)
X*f
0 38 0
1 144 144
2 342 684
3 287 861
4 164 656
5 25 125
Total 1000 2470
𝑋 =
2470
1000
= 2.47
𝜇 = 𝑋 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑚 = 1
𝑝 =
2.47
5
= 0.494
49. Calculo de la frecuencia esperada
Con la formula binomial.
La distribución binomial ajustada viene dada por
Paso 2: Obtención del estadístico de la prueba
49
𝑛 𝐶 𝑥 𝑝 𝑥 𝑞(𝑛−𝑥)
p(x)=5 𝐶 𝑥(0.494) 𝑥
(0.506)(5−𝑥)
Ejemplo 04
Número de
caras
Número de
series (fo)
P(x caras)
0 38 0.03317054
1 144 0.16191945
2 342 0.31615893
3 287 0.30866109
4 164 0.15067053
5 25 0.02941946
Total 1000 1
50. Calculo de la frecuencia esperada
Con la fórmula se calcula la probabilidad de
obtener caras, según el valor de la variable
aleatoria.
La probabilidad multiplicada por 1000 nos dará el
valor esperado.
Se resumen los resultados en la tabla siguiente:
Paso 2: Obtención del estadístico de la prueba
50
Ejemplo 04
Número
de caras
(x)
Frecuencia
observada
P(x caras)
Frecuencia
esperada
0 38 0.0332 33.00
1 144 0.1619 161.92
2 342 0.3162 316.16
3 287 0.3087 308.66
4 164 0.1507 150.67
5 25 0.0294 29.42
1000 1 1000.00
52. 52
Calculo del Chi2 de la tabla
Para los grados de libertad el valor de m será
uno, ya que se tuvo que estimar la media de la
población para poder obtener el valor de p y así
poder calcular los valores esperados.
Grados de libertad: k-1-m = 6-1-1 = 4
Alfa=0.05
Chi2= 9.49
Paso 3: Obtención del estadístico de la tabla
Ejemplo 04
53. 53
Como el 8.16 no es mayor a 9.49, no se
rechaza H0
No se puede afirmar con un nivel de
significancia del5% que los datos no se
ajustan a una distribución binomial
Por lo tanto el ajuste de los datos a una
distribución binomial es bueno.
Paso 4:Justificación y decisión:
Ejemplo 04
9.498.16
54. • Se quiere saber si los pesos de los
pescados tiene un comportamiento
normal, para ello se pesan 253
pescados de una especie muy
consumida en el mercado.
• Los pesos están en gramos.
• Utilice un alfa del 5%
Distribución normal
54
Li Ls f
112 222 3
222 332 4
332 442 10
442 552 18
552 662 29
662 772 37
772 882 54
882 992 44
992 1102 26
1102 1212 16
1212 1322 7
1322 1432 3
1432 1542 2
• Los datos se
muestran en la
siguiente tabla de
frecuencia
Ejemplo 05
55. Ho : los pesos de los pescados tienen un
comportamiento normal.
Ha: los pesos de los pescados no tienen un
comportamiento normal
Alfa = 0.05
Ing. William león Velásquez 55
Paso 1:Se formula la Hipótesis
Ejemplo 05
56. 18287 206151 2
varianza = -------------- - -------------- = 58869.187
253 253
desv est = 242.6297
Obtención
de los
parámetros
56
Paso 2: Calculo el estadístico de la prueba
ii is f mc f mc f mc2
112 222 3 167 501 83667
222 332 4 277 1108 306916
332 442 10 387 3870 1497690
442 552 18 497 8946 4446162
552 662 29 607 17603 10685021
662 772 37 717 26529 19021293
772 882 54 827 44658 36932166
882 992 44 937 41228 38630636
992 1102 26 1047 27222 28501434
1102 1212 16 1157 18512 21418384
1212 1322 7 1267 8869 11237023
1322 1432 3 1377 4131 5688387
1432 1542 2 1487 2974 4422338
∑ 253 206151 182871117
206151
media = ------------- = 814.826087
253
Ejemplo 05
58. Obtención del Chi2 de la muestra
Ing. William león Velásquez 58
Paso 2: Calculo el estadístico de la prueba
fo' fe' Chi2
7 5.89416003 0.20747351
10 9.84118008 0.00256308
18 19.5204849 0.11843324
29 31.6344937 0.21939838
37 41.8863825 0.5700357
54 45.3142944 1.66484952
44 40.0544204 0.38866119
26 28.9277521 0.29631519
16 17.0693837 0.06699606
12 12.8574483 0.05718224
253 253 3.59190811
Ejemplo 05
59. Para los grados de libertad el valor de m será uno, ya que se
tuvo que estimar la media de la población para poder obtener
el valor de p y así poder calcular los valores esperados.
Grados de libertad:
10-1-m = 10-1-1 = 8 Alfa = 0.05
59
Paso 3: Calculo del valor critico
Obtención del Chi2 de la tabla
Ch2= 15.5073
Ejemplo 05
60. Ing. William león Velásquez 60
Como el 3.59 no es mayor a 15.5, no se rechaza H0
y se concluye con un α= 0.05 que el ajuste de los datos a una
distribución normal es bueno.
Por lo tanto el peso de los pescados tiene un comportamiento
normal
X2=1
5.5
Paso 4: Justificación y decisión:
Ejemplo 05
3.59
61. 61
Las tablas de contingencia (tablas de doble
entrada) son una herramienta fundamental para
el análisis bivariado.
Están compuestas por filas (horizontales), para
la información de una variable y columnas
(verticales) para la información de otra variable.
Estas filas y columnas delimitan celdas donde
se ubican las frecuencias de cada combinación
de las variables analizadas
TABLAS DE
CONTINGENCIA
62. 62
Una tabla de contingencia resume
de manera simultanea dos variable
de interés de escala nominal
Ejemplo:
Una muestra de estudiantes por
genero y por ciclo académico
En este ejemplo las dos variable
son cualitativas, una de ellas es
nominal (genero) y la otra ordinal
(ciclo académico)
TABLAS DE
CONTINGENCIA
63. Una Tabla de contingencia con r filas y c
columnas tiene la siguiente forma:
63
Los datos de variables cualitativa o categóricas
representan atributos o categorías y se organizan
en tablas llamadas tablas de contingencia o tablas
de clasificación cruzada.
TABLA DE CONTINGENCIA
64. 64
Donde:
Oi j : es el número de sujetos que tienen las características Ai y
Bj a la vez.
Ri : (i = 1,…,r) es la suma de la i-ésima fila de la tabla. Es decir,
es el total de sujetos que poseen la característica Ai.
Cj :(j = 1,…,c) es la suma de la j-ésima columna de la tabla. Es
decir, es el total de sujetos que poseen la característica Bj.
n : representa el total de observaciones tomadas.
TABLA DE CONTINGENCIA
65. 65
La independencia de dos variables consiste en que la
distribución de una de las variables es similar sea
cual sea el nivel que examinemos de la otra.
Esto se traduce en una tabla de contingencia en que
las frecuencias de las filas (y las columnas) son
aproximadamente proporcionales.
Posiblemente sea mas cómodo reconocer lo usado
en la tabla de contingencias los porcentajes por filas
(o columnas) y observando si estos son similares
La prueba de independencia Ji-cuadrada (chi-
cuadrado) contrasta la hipótesis de que las variables
son independientes, frente a la hipótesis alternativa
de que una variable se distribuye de modo diferente
para diversos niveles de la otra
PRUEBA DE INDEPENDENCIA
66. 66
Consiste en comprobar si dos características
cualitativas están relacionadas entre sí
Ejemplo:
– ¿el color de ojos está relacionado con el color
de los cabellos?.
PRUEBA DE INDEPENDENCIA
• Este tipo de contrastes se
aplica cuando se desea
comparar una variable en
dos situaciones o
poblaciones diferentes,
• Es decir, se desea estudiar
si existen diferencias en las
dos poblaciones respecto a
la variable de estudio.
67. 67
Se usa para analizar la frecuencia de dos variables
con categorías múltiples para determinar si las dos
variables son independientes o no.
Ejemplo:
PRUEBA DE INDEPENDENCIA
¿El tipo de refresco preferido por
un consumidor es independiente
de su grupo de la misma edad?
¿El estado nutricional esta
asociado con el desempeño
académico?
¿determinar si la región
geográfica es independiente del
tipo de inversión financiera?
68. Formulación de hipótesis:
Hipótesis nula (H0) : Las variables X e Y son
independientes, ( X e Y no están relacionadas)
Hipótesis alternativa (H1) : Las variables X e Y no son
independientes, (X e Y están relacionadas)
68
La pregunta es:
¿Existirá o no relación entre las variables A y
B?, es decir,
Si A y B son o no independientes.
PRUEBA DE INDEPENDENCIA
69. El estadístico Ji-Cuadrado esta dado por:
donde
Oij : es la frecuencia observada de la celda que está en
la fila i, columna j,
es la frecuencia esperada de la
celda (i, j).
La frecuencia esperada tiene que ser >=5
n
CR
E ji
ij
*
69
PRUEBAS DE INDEPENDENCIA
𝜒2
=
𝑂𝑖𝑗 − 𝐸𝑖𝑗
2
𝐸𝑖𝑗
𝑐
𝑗=1
𝑟
𝑖=1
70. La frecuencia esperada es aquella que debe
ocurrir para que la hipótesis nula no sea
rechazada.
La prueba estadística se distribuye como una Ji-
Cuadrado con (r-1)*(c-1) grados de libertad.
La hipótesis Nula se rechaza si ,
o equivalentemente si el “p-value” es menor que
α (prefijado)
2
1
2
calc
70
PRUEBAS DE INDEPENDENCIA
71. 71
Otra de las aplicaciones interesantes de la prueba
chi-cuadrado de independencia consiste en la
comprobación de la homogeneidad de distintas
muestras de una variable.
Suponga que se ha obtenido J muestras de
tamaño nj de una misma variable aleatoria (X) y se
quiere comprobar si son homogéneas, es decir, si
la variable tiene la misma distribución de
probabilidad en todas ellas, bien para utilizarlas
conjuntamente, o bien porque se trate de identificar
diferencias entre las poblaciones de procedencia
de las distintas muestras.
PRUEBAS DE HOMOGENIDAD
72. 72
Las hipótesis de la prueba serán:
Hipótesis nula: Las muestras son
homogéneas
Hipótesis alternativa: Las muestras no son
homogéneas.
PRUEBAS DE HOMOGENIDAD
73. 73
La Prueba de Homogeneidad de varias
muestras cualitativas, consiste en comprobar
si varias muestras de un carácter cualitativo
proceden de la misma población
Ejemplo:
¿Las tres muestras de alumnos
provienen de poblaciones con igual
distribución de aprobados?.
Es necesario que las dos variables medibles
estén representadas mediante categorías con
las cuales se construye una tabla de
contingencia.
PRUEBAS DE HOMOGENIDAD
74. EJEMPLO 01
74
• Un analista supone que el uso de
cinturón de seguridad, en los
conductores, está relacionado con el
género. Toma una muestra de 160
personas de las cuales 75 son mujeres y
85 son hombres
• Los resultados son los siguientes:
SI NO
F 50 25
M 40 45
75. EJEMPLO 01
75
H0: El uso del cinturón de seguridad es
independiente del género.
H1: El uso del cinturón de seguridad no es
independiente del género.
• Formulación de las Hipótesis:
76. 76
Para calcular todos y cada uno de los valores
de la tabla de frecuencias esperadas se
realiza:
Calculo de las FE
𝐹𝑒 =
𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 ∗ 𝑇𝑜𝑡𝑎𝑙 𝐹𝑖𝑙𝑎
𝑆𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙
77. 77
50 25 75
40 45 85
90 70 160
SUMA DE FILAS
SUMA DE COLUMNAS SUMA TOTAL
Se realiza una tabla con los valores
Se calcula las sumas por filas, por columnas y la suma
total
FRECUENCIAS
DE VALORES
OBSERVADOS
EJEMPLO 1
F
M
SI NO
78. 78
42.1875 32.8125
47.8125 37.1875
90 75
160
90 85
160
70 75
160
70 85
160
Usar la fórmula para obtener las frecuencias esperadas.
FRECUENCIAS DE VALORES ESPERADOS
EJEMPLO 1
F
M
SI NO
SI NO
F 50 25 75
M 40 45 85
90 70 160
𝐹𝑒 =
𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 ∗ 𝑇𝑜𝑡𝑎𝑙 𝐹𝑖𝑙𝑎
𝑆𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙
79. CHI – CUADRADO CALCULADO
79
Para obtener el valor de Chi-Cuadrado
Calculado se tiene la fórmula
2
02
0 : .
: .
e
calc
e
e
f f
f
f Frecuencia del valor observado
f Frecuencia del valor esperado
80. 80
42.1875 32.8125
47.8125 37.1875
50 25
40 45
TABLA DE VALORES
OBSERVADOS
TABLA DE VALORES
ESPERADOS
2
02
2 2 2 2
2
2
50 42.1875 25 32.8125 40 47.8125 45 37.1875
42.1875 32.8125 47.8125 37.1875
1.4468 1.8601 1.2766 1.6413 6.2248
e
calc
e
calc
calc
f f
f
SI NOSI NO
F
M
F
M
EJEMPLO
81. Para calcular el grado de libertad (ν) se
realiza:
GRADO DE LIBERTAD 𝜐
81
1 1v Cantidad de filas Cantidad decolumnas
82. 82
50 25
40 45
TABLA DE VALORES OBSERVADOS
2 1 2 1
1 1 1
v
v
EJEMPLO 1
F
M
SI NO
83. NIVEL DE SIGNIFICANCIA
83
• Es el error que se puede cometer al rechazar
la hipótesis nula siendo verdadera.
• Por lo general se trabaja con un nivel de
significancia de 0.05, que indica que hay una
probabilidad del 0.95 de que la hipótesis nula
sea verdadera.
84. 84
Para calcular el valor de p de tablas >= Chi2 se busca
directamente con los gl respectivos:
2 1 2 1
1 1 1
v
v
EJEMPLO 1
Para obtener el Chi2 crítico
Ejemplo:
p=nivel de significancia
p=0.01
85. Para obtener el Chi2 crítico
85
Para calcular el valor de p en una tabla de <=
Chi2 se realiza la siguiente operación:
1p Nivel designificancia
86. 86
1 0.01 0.99p
Ejemplo:
2 1 2 1
1 1 1
v
v
EJEMPLO 1
Para obtener el Chi2 crítico
87. COMPARACIÓN ENTRE LOS VALORES
DEL CHI2
CALCULADO Y EL CHI2
CRÍTICO
87
Si el valor del chi-cuadrado calculado es menor
o igual que el chi-cuadrado crítico entonces no
se rechaza la hipótesis nula, caso contrario se
rechaza.
Ejemplo:
Entonces no se rechaza la hipótesis nula, la
cual es “El uso del cinturón de seguridad es
independiente del género”.
2
6.2248 6.635
calc Valor crítico
88. 88
Se quiere saber si existe una
relación entre el sexo y la edad
de las clientes que visitan a una
tienda de ropas
Se tiene la siguiente tabla de
contingencia para realizar una
prueba de independencia para las
variables al 1% de significancia
EJEMPLO 2 :
Sexo
Hombre Mujer
edad
Menos de 25 60 50
Mas de 25 80 10
89. 89
SOLUCIÓN
Ho: El sexo y la edad de los clientes son
independientes.
Ha : El sexo y la edad son dependientes.
Gl= (m-1)(n-1) = (2-1)(2-1)= 1
Alfa: 0.01
EJEMPLO 2 :
Chi2 critico=6.6349
90. Ing William León Velásquez 90
EJEMPLO 2 :
Edad Hombre Mujer Total
Menos
de 25
60 50 110
Mas
de 25
80 10 90
Total 140 60 200
Hombre Mujer
fo fe fo fe
60 77 50 33 110
80 63 10 27 90
140 60 200
Solución: Las frecuencias esperadas se calculan con:
91. Tabla de los Ch² individuales
Ch2 observado
91
EJEMPLO 2 :
Hombre Mujer
fo fe fo fe
Menos
de 25
60 77 50 33 110
Chi2
3.753246753 8.757575758
Mas de
25
80 63 10 27 90
Chi2 4.587301587 10.7037037
140 60 200
27.8018278
92. 92
Ch2 critico = 6.63
Ch2 observado = 27.80
Como el observado es mayor que el critico,
rechazamos la Ho.
Para un nivel del 1% esta relación no se puede
atribuir ala causalidad .
EJEMPLO 2 :
93. 93
Se tiene interés en estudiar la
fiabilidad de cierto componente
informático con relación al
distribuidor que lo suministra.
Para ello, se toma una muestra
de 100 componentes de cada
uno de los 3 distribuidores que
proporcionan el producto
comprobando el número de
defectuosos en cada lote.
EJEMPLO 3 :
La siguiente tabla muestra el número de defectuosos en para
cada uno de los distribuidores.
Comp. def Comp. Correctos
Distribuidor 1 16 94
Distribuidor 2 24 76
Distribuidor 3 9 81
94. 94
SOLUCIÓN:
Debemos realizar un contraste de
homogeneidad para concluir si entre los
distribuidores existen diferencias de
fiabilidad referente al mismo
componente.
Ho: existe homogeneidad entre los
distribuidores
H1: No existe homogeneidad
EJEMPLO 3 :
95. El valor crítico Chi-cuadrado es (5.99)
La regla de decisión será:
Se rechazará la Ho si Chi2 es mayor que 5.99
95
EJEMPLO 3 :
Nivel de significación del 5% y GL:2
96. Las frecuencias esperadas
bajo homogeneidad son las
representadas en crema
96
EJEMPLO 3 :
Se calcula las frecuencias esperadas
Comp. def
Comp.
Correctos
Dist 1 16 94 110
Dist 2 24 76 100
Dist 3 9 81 90
49 251 300
Comp. Defectuosos Comp. Correctos
fo fe fo fe
Distribuidor
1
16 17.96666667 94 92.0333333 110
Distribuidor
2
24 16.33333333 76 83.6666667 100
Distribuidor
3
9 14.7 81 75.3 90
49 251 300
98. El valor del estadístico Chi-cuadrado (7.20) es mayor que
el valor Chi-cuadrado para el nivel de significación del 5%
y GL:2, (5.99) por lo tanto se rechaza la Ho.
Se concluye con un nivel de significancia del 5% que no
existe homogeneidad. Por lo tanto hay diferencias entre los
tres distribuidores.
98
EJEMPLO 3 :
5.99
7.20
99. Se toma una muestra aleatoria de 2200
familias y se les clasifica en una tabla de
doble entrada según su nivel de ingresos
(alto, medio o bajo) y el tipo de colegio a
la que envían sus hijos.
• ¿A un nivel de significancia del 1% hay razón para creer que el
ingreso y el tipo de colegio no son variables independientes? 99
Ejemplo 4:
La siguiente tabla muestra los resultados obtenidos:
TIPO DE
COLEGIO
PRIVADO PUBLICO
INGRESOS
ALTO 506 494
MEDIO 438 162
BAJO 215 385
100. Solución:
Las hipótesis a plantearse son las siguientes:
Ho: No hay relación entre el ingreso y el tipo de
colegio
H1: Si hay relación entre el ingreso y el tipo de
colegio.
100
Ejemplo 4:
TIPO DE COLEGIO
PRIVADO PUBLICO
INGRESOS
ALTO 506.00 494.00 1000.00
MEDIO 438.00 162.00 600.00
BAJO 215.00 385.00 600.00
1159.00 1041.00 2200.00
101. Este valor crítico Chi-cuadrado (9.21)
La regla de decisión será:
Se rechazará la Ho si Chi2 es mayor que 9.21
101
EJEMPLO 4 :
Nivel de significación del 1% y GL:2
102. Se calcula el estadístico Chi2
102
Ejemplo 4:
TIPO DE COLEGIO
PRIVADO PUBLICO
INGRESOS
ALTO
FO 506.00 494.00 1000.00
FE 526.82 473.18
CHI2 0.82 0.92
MEDI
O
FO 438.00 162.00 600.00
FE 316.09 283.91
CHI2 47.02 52.35
BAJO
FO 215.00 385.00 600.00
FE 316.09 283.91
CHI2 32.33 36.00
1159.00 1041.00 2200.00
Suma Ch2 169.43
FO
FE
CHI2
103. Este valor del estadístico Chi-cuadrado (169.23) es mayor
que el valor para el nivel de significación del 1% y GL:2,
(9.21) se rechaza la Ho
Se concluye con un nivel de significancia del 5%
que si hay relación entre el ingreso y el tipo de colegio
103
EJEMPLO 4 :
9.21
169
104. 104
El uso de bebida ordenado con
alimentos en un restaurante ¿es
independiente de la edad del
consumidor?
Se toma una muestra aleatoria de 289
clientes del restaurante de donde
resulta el siguiente cuadro de valores
observados.
Utilice alfa = 0.01 para determinar si
las dos variedades son independientes
Ejemplo 5
Bebida
Café/té Refresco Leche
Edad
21-34 26 95 18
35-55 41 40 20
>55 24 13 12
105. Solución
105
1.- Planteamiento de hipótesis
Ho :El tipo de bebida preferida es independiente de la
edad
H1 :El tipo de bebida preferida esta relacionada con la
edad
Ejemplo 5
106. 106
Ejemplo 5
2.- Valor critico
Nivel de significación: α = 0.01
GL: (3-1)(3-1)=4
Chi2=13.27
La regla de decisión será:
Se rechazará la Ho si Chi2 es mayor que 13.27
107. e
eo
f
ff
2
2
)(
107
Ejemplo 5
3.- Estadístico de Prueba
Bebida
Café/té Refresco Leche
FO FE Chi2 FO FE Chi2 FO FE Chi2
E
d
a
d
21-34 26 40.9353 5.4491 95 66.576112.1353 18 31.4887 5.7781 139
35-55 41 29.7443 4.2593 40 48.3754 1.4501 20 22.8803 0.3626 101
>55 24 20.3204 0.6663 13 33.048512.1622 12 15.6311 0.8435 69
91 148 70 309
S Chi2 30.278
108. Este valor del estadístico Chi-cuadrado (30.27) es mayor
que el valor para el nivel de significación del 1% y GL:4,
(9.21) se rechaza la Ho
Se concluye con un nivel de significancia del 5%
Que las dos variables, bebida preferida y edad, no son
independientes.
Es decir el tipo de bebida que un cliente ordena con alimentos
está relacionada con la edad y depende de está.
108
EJEMPLO 5 :
13.27 30.27
109. Presentan los datos evidencia
suficiente como para indicar que la
proporción de personas vacunadas
que contrajeron la enfermedad no es la
misma que la proporción de personas
que no se vacunaron y que contrajeron
la enfermedad
109
Ejemplo 6
Los resultados obtenidos se muestran en el siguiente cuadro.
Con el fin de probar la efectividad de una vacuna
contra cierta enfermedad, se realizo un experimento
observando a 200 personas, 110 de ellas vacunadas y
las otras 90 sin vacunar.
Contrajeron la
enfermedad
No contrajeron la
enfermedad
Vacunados 9 101
No vacunados 4 86
110. 110
1.- Planteamiento de hipótesis
Ho: P1 = P2
Las proporciones son homogéneas
H1 : P1 diferente de P2
Las proporciones no son homogéneas
donde:
P1 = Proporción de vacunados que contraen la
enfermedad
P2 = Proporción de no vacunados que contraen la
enfermedad
Ejemplo 6
111. 2.- El estadístico de la prueba
111
Ejemplo 6
Contrajeron la
enfermedad
No contrajeron la
enfermedad
Vacunados
FO FE FO FE
9 7.15 101 102.85 110
Chi2 Chi2
0.478671329 0.033276616
No
vacunados
FO FE FO FE
4 5.85 86 84.15 90
Chi2 Chi2
0.585042735 0.04067142
13 187 200
Chi2= 1.1376621
112. Decisión
Como p-valor =0.286 es mayor que 0.05 (alfa)
podemos indicar que no existe suficiente
evidencia para aceptar que hay diferencias
entre las proporciones P1 y P2
112
Ejemplo 6
Chi2= 1.1376621GL:1