2. Están relacionados los hábitos de lectura con el sexo
del lector?
¿Están relacionadas las calificaciones obtenidas con
el número de faltas?
¿Es independiente la opinión sobre la política
exterior de la política partidista?
¿Es independiente el sexo de una persona de su
preferencia en colores?
¿Está relacionado el sexo con tener una educación
universitaria?
3. ¿Son independientes el tamaño de una familia
y el nivel de educación de los padres?
¿Está relacionado el desempleo con el
incremento de la criminalidad?
¿El precio está asociado con la calidad de un
producto electrodoméstico?
¿El estado nutricional esta asociado con el
desempeño académico?
¿Están relacionadas las enfermedades del
corazón con el tabaquismo?
4. Objetivo
El objetivo general de este tópico es que se
comprenda las dos técnicas estadísticas
empleadas para analizar datos categóricos,
con lo cual podrá:
• Analizar datos usando la prueba de Ji
cuadrado de independencia
• Comprender la prueba ji cuadrado de
bondad de ajuste y cómo usarla
• Usar la prueba Ji cuadrado para
homogeneidad
5. PRUEBA CHI CUADRADO
DOS VARIABLES
UNA VARIABLE
PRUEBA DE BONDAD PRUEBA DE PRUEBA DE
DE AJUSTE
INDEPENDENCIA HOMOGENEIDAD
6. Prueba de Independencia,
Se usa para analizar la frecuencia de dos
variables con categorías múltiples para
determinar si las dos variables son
independientes o no.
Por ejemplo:
¿El tipo de refresco preferido por un
consumidor es independiente de su grupo
etáreo?
¿El estado nutricional esta asociado con el
desempeño académico?
7. ¿determinar si la región geográfica es
independiente del tipo de inversión
financiera?
La prueba Chi cuadrado de independencia
es particularmente útil para analizar datos
de variables cualitativas nominales.
8. Los datos de variables cualitativa o categóricas
representan atributos o categorías y se organizan
en tablas llamadas tablas de contingencia o
tablas de clasificación cruzada.
Tabla de contingencia
Una Tabla de contingencia con r filas y c columnas
tiene la siguiente forma:
9. Donde:
Oi j : es el número de sujetos que tienen las
características Ai y Bj a la vez.
Ri : (i = 1,…,r) es la suma de la i-ésima fila de la
tabla. Es decir, es el total de sujetos que poseen
la característica Ai.
Cj :(j = 1,…,c) es la suma de la j-ésima columna
de la tabla. Es decir, es el total de sujetos que
poseen la característica Bj.
n : representa el total de observaciones tomadas.
10. La pregunta es:
¿Existirá o no relación entre las variables A y
B?, es decir, si A y B son o no independientes.
Formulación de hipótesis:
Hipótesis nula (H0) : Las variables X e Y son
independientes, ( X e Y no están relacionadas)
Hipótesis alternativa (H1) : Las variables X e
Y no son independientes, (X e Y están
relacionadas)
11. Pruebas de Independencia
La estadistica Ji-Cuadrado esta dado por:
r c (O ij − E ij ) 2
χ2 = ∑∑
i =1 j=1 E ij
donde
Oij : es la frecuencia observada de la celda que está
en la fila i, columna j,
Ri * C j
Eij =
n
es la frecuencia esperada de la
celda (i, j).
12. La frecuencia esperada es aquella que debe
ocurrir para que la hipótesis nula sea
aceptada.
La prueba estadística se distribuye como una
Ji-Cuadrado con (r-1)*(c-1) grados de libertad.
La hipótesis Nula se rechaza si , χ >χ−
2
calc
2
1 α
o equivalentemente si el “p-value” es menor
que α (prefijado)
13. Ejemplo:
Se toma una muestra aleatoria de 2200 familias y se les
clasifica en una tabla de doble entrada según su nivel
de ingresos (alto, medio o bajo) y el tipo de colegio a la
que envían sus hijos. La siguiente tabla muestra los
resultados obtenidos:
TIPO DE COLEGIO TOTAL
INGRESOS PRIVADO PÚBLICO
Alto 506 494 1000
Medio 438 162 600
Bajo 215 385 600
TOTAL 1159 1041 2200
¿A un nivel de significancia del 1% hay razón para
creer que el ingreso y el tipo de colegio no son
variables independientes?
18. Solución:
Las hipótesis a plantearse son las siguientes:
Ho: No hay relación entre el ingreso y el tipo de colegio
H1: Si hay relación entre el ingreso y el tipo de colegio.
Tabla de contingencia Tipo_Col * Clase_soc
Clase_soc
1.00 2.00 3.00 Total
Tipo_Col 1.00 Recuento 506 438 215 1159
Frecuencia esperada 526.8 316.1 316.1 1159.0
2.00 Recuento 494 162 385 1041
Frecuencia esperada 473.2 283.9 283.9 1041.0
Total Recuento 1000 600 600 2200
Frecuencia esperada 1000.0 600.0 600.0 2200.0
Pruebas de chi-cuadrado
Sig. asintótica
Interpretación: Como el “P-
Valor gl (bilateral)
Chi-cuadrado de Pearson 169.429a 2 .000
Corrección por continuidad value” es menor que 0.01 se
Razón de verosimilitudes 174.511 2 .000
Asociación lineal por lineal 16.917 1 .000 puede concluir que hay relación
N de casos válidos 2200
entre el nivel de ingreso y el tipo de
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mínima esperada es 283.91. colegio.
19. Ejemplo
El uso de bebida ordenado con alimentos en un
restaurante ¿es independiente de la edad del
consumidor? Se toma una muestra aleatoria de 309
clientes del restaurante de donde resulta el siguiente
cuadro de valores observados. Utilice alfa = 0.01 para
determinar si las dos variedades son independientes.º
Edad Café/té Refresco Leche
21-34 26 95 18
35-35 41 40 20
>55 24 13 32
20. Solución
1.- Planteamiento de hipótesis
Ho : El tipo de bebida preferida es
independiente de la edad
H1 : El tipo de bebida preferida esta
relacionada con la edad
2.- Estadístico de Prueba ∑∑ ( fo − fe )2
χ2 =
fe
3.- Nivel de significación: α = 0.01
21.
22. Tabla de contingencia Edad * Bebida Pruebas de chi-cuadrado
Bebida
Sig. asintótica
Café/Té Refresco Leche Total Valor gl (bilateral)
Edad 21-34 Recuento 26 95 18 139 a
Chi-cuadrado de Pearson 34.438 4 .000
Frecuencia esperada 43.8 71.2 24.0 139.0
Razón de verosimilitudes 35.441 4 .000
35-45 Recuento 41 40 20 101
Frecuencia esperada 31.8 51.7 17.5 101.0 Asociación lineal por
3.745 1 .053
lineal
>=55 Recuento 24 13 12 49
Frecuencia esperada 15.4 25.1 8.5 49.0 N de casos válidos 289
Total Recuento 91 148 50 289 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
Frecuencia esperada 91.0 148.0 50.0 289.0 La frecuencia mínima esperada es 8.48.
23. Decisión
Las dos variables, bebida preferida y edad, no son
independientes. El tipo de bebida que un cliente
ordena con alimentos está relacionada con la edad y
depende de está.
24. HOMOGENEIDAD
Se extraen Muestras Independientes de
varias poblaciones y se prueban para ver
si son homogéneas con respecto a algún
criterio de clasificación.
Un conjunto de Totales Marginales Son
Fijos mientras que los otros marginales
son Aleatorios.
25. Ejemplo
Con el fin de probar la efectividad de una vacuna
contra cierta enfermedad, se realizo un experimento
observando a 200 personas, 110 de ellas vacunadas y
las otras 90 sin vacunar.
Presentan los datos evidencia suficiente como para
indicar que la proporción de personas vacunadas que
contrajeron la enfermedad no es la misma que la
proporción de personas que no se vacunaron y que
contrajeron la enfermedad
Los resultados obtenidos se muestran en el siguiente
cuadro.
Contrajeron Enf. No contrajeron la enf.
Datos Vacunados 9 101
No vacunados 4 86
26. 1.- Planteamiento de hipótesis
Ho: P1 = P2
H1 : P1 diferente de P2
donde:
P1 = Proporción de vacunados que contraen
la enfermedad
P2 = Proporción de no vacunados que
contraen la enfermedad
Resultados:
27. Resultados
Tabla de contingencia Vacunados * Enferm
Enferm
Contrajo No contrajo Total
Vacunados Si Recuento 9 101 110
Frecuencia esperada 7.2 102.9 110.0
No Recuento 4 86 90
Frecuencia esperada 5.9 84.2 90.0
Total Recuento 13 187 200
Frecuencia esperada 13.0 187.0 200.0
Pruebas de chi-cuadrado
Sig. asintótica Sig. exacta Sig. exacta
Valor gl (bilateral) (bilateral) (unilateral)
Chi-cuadrado de Pearson 1.138b 1 .286
Corrección por
a .606 1 .436
continuidad
Razón de verosimilitudes 1.175 1 .278
Estadístico exacto de
.391 .220
Fisher
Asociación lineal por
1.132 1 .287
lineal
N de casos válidos 200
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 5.85.
28. Decisión
Como p-valor =0.286 es mayor que 0.05 (alfa)
podemos indicar que no existe suficiente
evidencia para aceptar que hay diferencias
entre las proporciones P1 y P2
29. Prueba de Bondad de Ajuste
Los procedimientos de prueba de hipótesis que se han
presentado en capítulos anteriores están diseñados para
problemas en los que se conoce la población o o
distribución de probabilidad, y la hipótesis involucra los
parámetros de la distribución.
A menudo se encuentra otra clase de hipótesis: no se sabe
cuál es la distribución de la población, y se desea probar la
hipótesis de que una distribución en particular será un
modelo satisfactorio de la población.
Por ejemplo:
Probar la hipótesis de que la población tiene
comportamiento normal, Poisson,.exponencial etc.
30. El procedimiento general para realizar la prueba es:
1.- Formulación de la hipótesis
Ho: Los datos de la muestra se ajustan a la distribución teórica escogida
H1: Los datos de la muestra no se ajustan a la distribución teórica escogida
2.- Fijar el nivel de significación
3.- La estadística de prueba k
(Oi − Ei ) 2
donde:
Ei = npi
χ2 =
i =1
∑ Ei
Oi = observado
p = número de parámetros estimados a partir de la muestra
K = número de categorías o clases
pi = probabilidad
4.- Determinar la región crítica: rechazar Ho si: χ2 >χ2 α, k −p −
calc 1− 1
caso contrario no se rechaza
5.- Decisión y conclusión
Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar esa clase,
Y sumar la frecuencia observada a una clase contigua.
31. BONDAD DE AJUSTE
Se utiliza para la comparación de la distribución de
una muestra con alguna distribución teórica que se
supone describe a la población de la cual se extrajo.
Ho : La variable tiene comportamiento normal
H1 : La variable no tiene comportamiento normal
32. Ejemplo:
Los siguientes porcentajes provienen de una encuesta
nacional sobre las edades de compradores de música
pregrabada. Una encuesta local produjo los valores y la
evidencia de los datos observados, ¿indica que debemos
rechazar la distribución de la encuesta nacional para
compradores locales de música pregrabada? Utilice
alfa=0.01
33.
34.
35. Solución:
Ho : La variable edad tiene comportamiento normal
H1 : La variable edad no tiene comportamiento normal
edad Estadísticos de contraste
N observado N esperado Residual edad
15-19 23 15.6 7.4 Chi-cuadrado a
11.103
20-24 9 15.6 -6.6 gl 4
25-29 14 15.6 -1.6 Sig. asintót. .025
30-34 10 15.6 -5.6 a. 0 casillas (.0%) tienen frecuencias
>=35 22 15.6 6.4 esperadas menores que 5. La frecuencia
de casilla esperada mínima es 15.6.
Total 78
Resultados
Como p-valor es 0.025 es menor que 0.05, rechazamos la
hipótesis nula. Es decir, la variable edad no tiene
comportamiento normal.