2. Una tabla de contingencia es el resultado del cruce de dos o más
variables.
Es la forma de presentación de los datos típica de la
investigación en ciencias sociales, que se caracteriza por un uso
predominante de variables (o atributos) definidas en los niveles
de medición nominal y ordinal.
La tabla de contingencia consiste en un cierto número de celdas
en las que, como resultado de un proceso de tabulación, se
vuelcan las frecuencias (número de casos) correspondientes a
cada combinación de valores de varias variables.
Cuando se analizan relaciones bivariadas lo importante es
determinar si existe alguna relación entre las dos variables
La tabla de contingencia.
Análisis de relación entre dos variables
3. TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE
CONTINGENCIA
Análisis de perfiles o características poblacionales
Análisis descriptivo de grupos o segmentos de población
COMPONENTES DE UNA TABLA DE CONTINGENCIA
Distribuciones marginales
Distribuciones condicionales
Un total poblacional o muestral
La tabla de contingencia.
Análisis de relación entre dos variables
4. ¿Qué significa analizar una tabla asimétricamente?
La variable independiente incide sobre la variable dependiente. Los
porcentajes se calculan en función de la variable independiente.
Cuadro: Misiones, 1980 - Pertenencia de la población
por condición de pobreza según tipo de asentamiento (%)
La tabla de contingencia.
Análisis de relación entre dos variables
Condición
de pobreza
Tipo de asentamiento
URBANO RURAL TOTAL
NO
POBRE
66,8
194397
42,4
122701
54,6
317098
POBRE
33,2
96610
57,6
166814
45,4
263424
Total 100
291007
100
289515
100
(580522)
Frecuencias
marginales
Frecuencias
marginales
5. Como se lee una tabla de manera asimétrica:
Habiendo tomado ‘Tipo de asentamiento’ como variable independiente, se
calcularon los porcentajes “en el sentido de esta variable, nuestro “factor
causal”. Ello quiere decir que las bases para el cálculo porcentual están dadas
por el total de casos para cada valor de la variable independiente.
En la celda superior izquierda de la tabla observamos ‘66,8’, y sabemos -por
el título - que la cifra corresponde a un porcentaje. La lectura correcta de esta
cifra tiene lugar en dos pasos, cada uno de los cuáles supone responder a
una pregunta.
Lo primero que debemos responder es: “ 66,8% de qué? (o ¿de quiénes?)”.
La única respuesta correcta es: “del 100% constituido por los 291.007
habitantes urbanos”; es decir, buscamos primero en la tabla dónde está el
100% —en la primera hilera—, y dirigimos luego nuestra vista hacia el
encabezamiento de dicha hilera leyendo: ‘Urbano’. Después nos preguntamos
¿Qué sucede con este 66,8%?”, y podremos responder: “viven en hogares sin
NBI”. A esta segunda pregunta respondimos simplemente dirigiendo nuestra
atención hacia el encabezamiento de la columna: ‘No’. Así, el significado de la
primera celda puede expresarse: «De todos los habitantes urbanos de
Misiones, hay un 66,8% que pertenece a hogares sin NBI».
6. Si intentamos reducir al mínimo la redundancia en la lectura de la tabla,
podemos considerar que lo esencial de la información está contenido en
los enunciados 2 y 4 (o, indiferentemente, en los 1 y 3). De este modo,
destacaremos el sentido fundamental que queremos prestarle a los datos:
en estas dos cifras -33,2% y 57,6%- está resumido lo que la tabla significa
para nosotros. Comparando estos dos porcentajes, nuestra lectura pone
en evidencia la relación entre las dos variables postulada por nuestra
hipótesis:
«Mientras que en la población urbana hay un 33,2% de habitantes en
hogares con NBI, entre los pobladores rurales este porcentaje asciende al
57,6%».
Se corrobora por lo tanto la existencia de una probabilidad diferencial de
pertenecer a un hogar con NBI en función del tipo de asentamiento de la
población.
7. Problemas comunes en la lectura de cuadros
1. La lectura del cuadro puede estar mal hecha si no se considera cual fue la
base sobre la que se calculo el porcentaje. En cualquier tabla de doble entrada
hay tres bases sobre las que se pueden calcular los porcentajes.
el total de la columna
el total de la fila
el total (N)
Se comete un error lógico cuando un porcentaje es leído sobre una base que no
fue la utilizada para el cálculo. Ejemplo: si del cuadro anterior leyera un 66,8% de
los habitantes de Misiones son urbanos y viven en hogares sin NBI, la lectura da
a entender que el porcentaje fue calculado sobre el total de la población
provincial, con lo cual el enunciado pasa a ser una proposición falsa. El
porcentaje que corresponde a dicha expresión es 33,5%.
Igualmente erróneo sería escribir «En Misiones, un 66,8 % de las personas
pertenecientes a hogares sin NBI residen en asentamientos urbanos». La
construcción de esta frase supone que el 66,8% fue calculado sobre el total de
personas pertenecientes a hogares sin NBI, con lo que el enunciado es también
falso (para esta redacción, el porcentaje correcto sería ‘61,3’).
8. Problemas comunes en la lectura de cuadros
2. Pero también se presentan problemas pragmáticos. Sucede que
diferentes redacciones son susceptibles de comunicar distintos
significados. Comparemos los siguientes enunciados:
a.-«Más de dos tercios de los habitantes urbanos viven en hogares que no
presentan NBI
b.-« Solamente un 66,8% de los habitantes urbanos pertenece a hogares
sin NBI ».
Tanto ‘a’ como ‘b’ expresan correctamente el porcentaje, desde una
perspectiva puramente lógica. Sin embargo, es evidente que ambos
enunciados no tienen el mismo significado: ciertamente ‘a’ trasunta una
visión de la situación más optimista que ‘b’.
Podemos probar de eliminar los adverbios en nuestros enunciados ‘a’ y ‘b’,
con lo que obtenemos expresiones cuyo valor lingüístico es muy similar:
a.« Dos tercios de los habitantes urbanos viven en hogares que no
presentan NBI´
b.« Un 66,8% de los habitantes urbanos pertenece a hogares sin NBI»
9. Grado de participación política según conocimiento político
La diferencia porcentual.
Una medida de la asociación
Conocimiento
político
Participación
política
Bajo Alto Total
Alto 6 13 19
Bajo 59 43 102
Total 65 56 121
La diferencia porcentual se calcula en la dirección en que
se realiza la comparación
10. Grado de participación política según conocimiento político
La diferencia porcentual.
Una medida de la asociación
Conocimiento
político
Participación
política
Bajo Alto Diferencia
porcentual
Alto 9 23 14
Bajo 91 77 -14
Total 100 100 N= 121
Mientras que en los alumnos de bajo conocimiento sólo hay un 9% con alta
participación, entre los de alto conocimiento hay un 23%, es decir, hay un 14%
más de alta participación política
O se pueden comparar los porcentajes de baja participación:
Diciendo que entre en los alumnos de alto conocimiento hay un 14% menos de
baja participación respecto a los alumnos de bajo conocimiento
11. 11
¿Cuándo se utiliza la prueba de Ji cuadrado?
En las tablas de contingencia puedo utilizar la diferencia porcentual
y observar que entre las categorías de las variables el valor de la
misma es del 25%. Esa relación la observo en una muestra, la cual
es solamente una de las tantas muestras que se hubieran podido
extraer de la población bajo estudio. Tal vez el azar haya sido la
razón de que apareciera en la muestra esa diferencia porcentual,
cuando en realidad esta relación no se daba en la población.
La cuestión que se nos presenta es:
¿Podemos considerar a esa diferencia porcentual del 25% lo
suficientemente importante como para asumir que representa una
diferencia existente realmente en la población?
Cuando nos formulamos este tipo de preguntas, estamos queriendo
saber si la relación es estadísticamente significativa.
El test de Ji cuadrado es una de las respuestas posibles.
12. 12
¿Qué es la prueba de Ji cuadrado?
El test de Ji cuadrado se basa en una medida de cuánto
se apartan las frecuencias condicionales observadas en la
muestra de lo que serían las frecuencias esperables si no
existiera ninguna relación entre las variables.
• En muchas situaciones que se presentan en la
investigación queremos comparar las frecuencias
observadas en la realidad con las frecuencias esperadas
que se pueden deducir de un modelo teórico.
• La prueba de Ji cuadrado sirve para usar con variables
nominales y ordinales.
13. Participación
política Bajo Alto
65 56
102
121
Conocimiento político
Total
Bajo
Alto
Total
6 13
59 43
19
Grado de conocimiento político según participación
Si analizamos sólo las frecuencias marginales, no podemos decir nada de
la relación entre variables
B A
A 19
B 102
65 56 121
14. Grado de conocimiento político según participación
B A
A 0 19 19
B 65 37 102
65 56 121
Máxima relación posible
entre las variables.
La totalidad de los
estudiantes con bajo
conocimiento tienen
baja participación
B A
A 10 9 19
B 55 47 102
65 56 121
Ausencia relación entre
las variables. Si
calculamos los
porcentajes de alta
participación son
prácticamente idénticos
para ambos niveles de
conocimiento
B A
A 15,4 16,1 15,7
B 84,6 83,9 84,3
100,0 100,0 100,0
15. 15
Pasos necesarios para el uso e interpretación del
Ji cuadrado
1. Calcular x2 para la tabla a analizar
2. Fijar un nivel de significación (es una decisión
arbitraria)
3. Determinar el número de grados de libertad
de la tabla
4. Comparar el valor de x2 en esta tabla con el
valor crítico ‘VC’ en la Tabla del x2
16. x2
= ∑i= 1
k (Oi+ Ei )2
Ei
1. COMO SE CALCULA JI CUADRADO
FORMULA PARA EL CALCULO DE JI CUADRADO X2
17. Cálculo de Ji cuadrado
Celda
Frecuencias
observadas
Frecuencias
esperadas
(Fo - Fe) (Fo - Fe)2
(Fo - Fe)2
/Fe
a 6 10,21 -4,21 17,72 1,73
b 13 8,79 4,21 17,72 2,01
c 59 54,79 4,21 17,72 0,32
d 43 47,21 -4,21 17,72 0,375
∑ 121 121 0 4,435
Valor de X2= 4,43
-En la columna frecuencias observadas se consignan las frecuencias
observadas en cada celda
-Bajo las frecuencias esperadas observamos los 121 estudiantes
distribuidos según un modelo de independencia estadística (ver cálculo)
-En la columna (Fo-Fe) se consigna para cada celda la diferencia entre
la frecuencia esperada y la observada.
-En la columna (Fo-Fe)2 se eleva al cuadrado las diferencias de la
anterior columna
18. Cálculo de Ji cuadrado
-Se estandariza cada una de las diferencias dividiendo a cada
una de ellas por la frecuencia esperada correspondiente
-Se suman todos los valores de la última columna,obteniendo
el valor que arroja el X2
- Por último se suman los valores de la última columna,
obteniendo el valor que arroja X2
19. ¿De dónde salen las frecuencias esperadas?
Cuadro de frecuencias observadas
Fea= r. n
N
Participación
política Bajo Alto
65 56
102
121
Conocimiento político
Total
Bajo
Alto
Total
6 13
59 43
19
r(a)
n(a)
N
Fe(a) = 65*19 = 10,2
121
20. Cuadro de frecuencias esperadas
Participación
política Bajo Alto
Total
65 56 121
Bajo 10,21 8,79
19
Alto 54,79 47,21 102
Conocimiento político
Total
21. 21
Como interpreto un valor de x2
1. Fijar un nivel de significación (es una
decisión arbitraria)
2. Determinar el número de grados de
libertad de la tabla
3. Comparar el valor de x2 en esta tabla con
el valor crítico ‘VC’ en la Tabla del x2
22. El nivel de significación se refiere a la probabilidad de
equivocarnos que estemos dispuestos a aceptar, si por
ejemplo elegimos un nivel de significación del 0,05,
equivale a considerar aceptable un riesgo del 5 %. El
riesgo consiste en la probabilidad de que dos variables que
no estan asociadas en la población si lo estén en los datos
muestrales.
Los niveles más utilizados son el 0,05 y el 0,01
Nivel de significación o valor P
23. 23
Como interpreto un valor de x2
2. Determinar el número de grados de libertad
de la tabla.
Fórmula para el cálculo de los grados de
libertad
Grados de libertad = (Columnas – 1) * (filas – 1)
24. 24
Valores críticos de la tabla de X2
Grados de
libertad
0,5 0,1 0,05 0,01 0,001
1 0,455 2,71 3,841 6,635 10,828
2 1,386 4,61 5,991 9,21 13,816
3 2,366 6,25 7,815 11,341 16,266
4 3,357 7,78 9,488 13,277 18,467
5 4,351 9,24 11,07 15,086 20,515
Nivel de Significación de la hipótesis nula
[p]
25. 25
Que pasa si el X2 de la tabla es mayor que
el valor crítico de la tabla?
X2 empírico > que el X2 teórico (el que sale de
la tabla de valores críticos) concluyo que la
relación es estadísticamente significativa y
rechazo la hipótesis nula.
Si por el contrario el X2 teórico es > que el X2
empírico, acepto la hipótesis nula y rechazo
la hipótesis alternativa. La relación entre las
variables no es estadísticamente significativa
26. Prueba de hipótesis Ji cuadrado
Ejemplo
Chi-Square Tests
2029,509b 1 ,000
15109
Pearson Chi-Square
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. The minimum expected count
is 1538,23.
b.
27. 27
Ejemplo de Ji cuadrado
Cuadro. Condición de actividad según sexo
Varón Mujer
85 107 192
59,0% 55,4% 57%
7 13 20
4,9% 6,7% 5,9%
52 73 125
36,1% 37,8% 37,1
144 193 337
100,0% 100,0% 100%
Condición de
actividad
total
Total
Sexo
Ocupado
Desocupado
Inactivo
Para una lectura inicial de esta tabla de contingencia se puede recurrir a la diferencia
porcentual. Mientras que entre las mujeres solo hay un 55,4% que está ocupada, entre los
varones son un 59% los ocupados, por lo tanto, hay un 3,6% más de ocupados entre
estos. Por otro lado, también se puede decir que mientras entre los varones sólo hay un
4,9% que está desocupado, entre las mujeres ese porcentaje asciende a 6,7%. Por otro
lado, también se puede observar que el porcentaje de mujeres inactivas (37,8%) es
superior al porcentaje de varones inactivos (36,1%).
28. 28
• Chi-Square Tests
Value Df
Asymp. Sig.
(2-sided)
Pearson Chi-
Square 0,74 2 0,691
Likelihood
Ratio 0,749 2 0,688
Linear-by-
Linear
Association 0,256 1 0,613
N of Valid
Cases 337
Ho = No hay relación entre el sexo y
la condición de actividad.
Ha = Hay relación entre las variables.
Nivel de significación a = 0.05
Grados de libertad: 2
Una vez calculado el test se obtiene un nivel de significación de 0,69. En tanto que esta
probabilidad es claramente superior al nivel de significación a = 0,05, no podemos rechazar
la hipótesis nula. Se puede afirmar que existe una probabilidad alta de cometer Error de Tipo
I, el cual consiste en rechazar la hipótesis nula cuando en realidad es verdadera.
Hay un 69% de chances que las diferencias entre los porcentajes se deban al azar en la
selección de los casos de nuestra muestra y que por ende no esté reflejando una relación
real existente en la población.
Al asumir un riesgo de 5% yo aceptaba que en ese porcentaje de las infinitas muestras
posibles, las variables estuvieron asociadas aún cuando no lo estuvieran en la población.
Pero no se puede asumir un 69% de riesgo. La prueba del x² permite afirmar que no existe
relación estadística entre la variable sexo y la variable condición de actividad.
Nivel de
significación.
p valor
Grados de
libertad