1. Cada uno de los individuos se denomina unidad elemental, o sea que la población es
el conjunto de todas las unidades elementales.
Estas unidades elementales poseen caracteristicas o propiedades que pueden ser de
caracter cualitativo o cuantitativo. La accion de observar el comportamiento de una de
estas caracteristicas se denomina observacion y su resultado se define como
medicion, (vamos a
utilizar el termino medicion sea el resultado cualitativo o cuantitativo)
Las definiciones de la poblacion y de las caracteristicas a observar en las unidades
elementales dependen de la naturaleza del problema.
Hay que poner suma atencion en estas definiciones antes de comenzar a realizar las
observaciones. Esta tarea solo tiene sentido si estas observaciones pueden tomar
distintos valores en las distintas unidades elementales.
Llamaremos variables a estas caracteristicas y cada uno de los resultados posibles se
denominara categoria, atributo o valor. El proceso mediante el cual se definen los
posibles resultados de la variable se denomina categorizacion.
Las variables pueden ser:
• Cualitativas: aquellas cuyos posibles valores son cualidades.
• Cuantitativas: aquellas cuyos posibles valores sonnumericos y provienen de
operaciones de conteo o de medicion.
Hay que tener sumo cuidado en la definición de la variable y de sus posibles
resultados. O sea, definir claramente cuál va a ser la variable a relevar y categorizarla.
Las categorías de una variable deben cumplir dos propiedades fundamentales:
• o Exhaustivas: deben estar comprendidos todos los casos.
• o Excluyentes: cada caso debe ser incluido en una y sólo una categoría.
Un modo de organizar estos datos es por medio de un cuadro.
Cuando construimos un cuadro debemos tener en cuenta que:
o La primera fila contenga los títulos lo cual incluye el nombre de la variable (qué es
lo que estamos evaluando) en la primera columna.
o En la última fila es conveniente incluir la cantidad total de casos observados.
o En la primera columna, después de la primera fila, las categorías de la variable y en
la segunda las veces que aparece cada una de las respuestas que denominamos
frecuencia.
En caso de que este cuadro sea parte de un informe, debe contener, además, un
título.
Además, al pie del cuadro, debe escribirse cómo se obtuvo ese dato, lo que se
denomina Fuente.
RESUMEN DE DATOS
La selección de un modelo estadístico comporta una serie de decisiones. Una de ellas
es distinguir la escala o nivel de medición.
Escala nominal
Las categorías de la variable, por hipótesis, no guardan relación de orden entre ellas.
En estos, y en todos los casos debemos tener en cuenta las dos propiedades que
necesariamente debe cumplir una categorización: que las categorías sean exhaustivas
y excluyentes.
Hay que tener mucho cuidado en cómo categorizar una variable y siempre teniendo
muy en cuenta que cumpla con estas dos propiedades.
La operación básica en este tipo de escalas es la clasificación.
Cada categoría se rotula con un nombre o número, teniendo en cuenta que en caso de
ser un número no autoriza al empleo de operaciones matemáticas.
2. En el caso de la clasificación por sexo suele usarse como categorías 0 y 1 (varón y
mujer, respectivamente, o al revés) pero teniendo en cuenta que no puedo operar
matemáticamente con estos valores (por ejemplo no podría sacar el promedio).
Escala ordinal
Un conjunto de datos puede agruparse según una escala ordinal cuando sea posible
ordenar las categorías de acuerdo al grado en que poseen determinada característica.
No sólo es posible clasificar a los individuos en categorías sino también ordenar estas
categorías entre sí.
No podemos establecer distancias entre las categorías pero sí orden.
Las variables cualitativas se corresponden con escalas nominales y ordinales.
Escala de intervalo
Es aquella en que no sólo es posible ordenar las categorías de acuerdo a algún criterio
sino también indicar la distancia exacta entre dos valores. Este nivel de medición
exige algún tipo de unidad de medición: metros, Kg., $, años, ºC etc.
Al medir dos longitudes es posible decir que una tiene 2 metros más que la otra o que
la diferencia de temperatura entre dos ciudades en un mismo momento es de 8ºC.
Es importante aclarar que, si bien en algunos casos de variables que responden a las
escalas nominal u ordinal, las categorías pertinentes se pueden representar por un
número, esto no implica que dicha variable responda a la escala de intervalos. Ya se
mencionó que la
variable “sexo” tiene las categorías masculino y femenino y que éstas pueden
representarse con los valores 0 y 1, pero sería impensable creer que se pueden
cuantificar las distancias o sumar los valores. Por lo tanto, hay que ser sumamente
cuidadoso en respetar la naturaleza de la variable (independientemente de que se
decida representar las categorías de la misma con números o con nombres).
Referido a lo anterior, la variable “cociente intelectual” debe tratarse como
perteneciente a una escala ordinal ya que si se tienen tres personas A, B y C con CI:
90, 93 y 96 respectivamente, no puede afirmarse que la “diferencia” de inteligencia
entre B y C sea la misma que la existente entre B y A.
Escala de razones
Tiene las mismas características que la anterior pero además es posible situar un cero
absoluto. Pueden utilizarse todas las operaciones (producto, cociente, potencia, etc.).
Las variables cuantitativas se corresponden con escalas de intervalo y de
razones.
Debe tenerse en cuenta el carácter acumulativo de las
características de las escalas. En la escala ordinal es posible realizar las operaciones
de la nominal más algunas otras (que estudiaremos en la próxima clase). Ídem para
las escalas de intervalos y las de razones.
CÓMO REALIZAR UN CUADRO
En esta clase veremos algunas operaciones básicas que pueden
realizarse para cualquier tipo de variable y de escala. En particular, se
presentan ejemplos asociados a variables cualitativas correspondientes
a escalas nominales y ordinales.
Frecuencias absolutas y relativas
La operación aritmética básica para cualquier tipo de escala consiste en contar el
número de casos (frecuencia) al interior de cada categoría y anotarla en cada una.
Una de las operaciones posibles es el cálculo de las proporciones o frecuencias
relativas que corresponden a cada una de las categorías de la variable.
Las proporciones se calculan dividiendo la frecuencia de cada categoría sobre el total
de datos.
Otra de las operaciones es el cálculo de los porcentajes o frecuencia relativa porcentual
3. que corresponden a cada categoría
redondeo. ¿Cómo aplicar este concepto?
Si queremos trabajar con un solo decimal debemos aplicar el redondeo del siguiente
modo:
• si el segundo decimal es mayor o igual a 5, agregamos uno al
primer decimal,
• si es menor que 5, queda el primer decimal como está.
Razones
La razón de un número A a otro número B es el cociente A/B.
Hay algunas razones (también llamadas cuotas o índices) que se
utilizan habitualmente:
o Cuota de natalidad: es el número de nacimientos vivos cada 1000 mujeres en edad
de procrear.
o Índice de masculinidad: es el número de varones cada 100 mujeres.
Dependiendo del tipo de variable (cualitativa o cuantitativa) y de las frecuencias
(absolutas o acumuladas) se utilizan distintos tipos de gráficos. En esta clase,
veremos los gráficos que pueden utilizarse para variables cualitativas.
GRÁFICOS PARA DATOS CUALITATIVOS
Para graficar las frecuencias absolutas, relativas y relativas
porcentuales se trabaja con los gráficos que se detallan a continuación.
Diagrama circular
Este diagrama, también llamado diagrama de torta se utiliza paravgraficar
frecuencias absolutas, relativas y relativas porcentualesv(porcentajes) para datos
cualitativos.
Consiste en un círculo cuyas áreas son divididas proporcionalmentevteniendo en
cuenta las frecuencias: el total del círculo (360º) se corresponde con el total de las
frecuencias, por lo tanto, la frecuencia que quiere representarse será obtenida por
una regla de tres simple.
Gráfico de barras
Este diagrama consiste en un conjunto de barras, una por cada categoría de
variable. La altura de cada una de ellas es proporcional a la frecuencia (absoluta,
relativa, relativa porcentual).
Estas barras pueden ser horizontales o verticales. La diferencia existente entre un
diagrama de barras vertical y horizontal es que en el primero: la variable y sus
categorías se ubican en el eje x y las frecuencias en el eje y. En el caso del
diagrama horizontal se trabaja al revés (la variable en el eje y y las frecuencias en
el eje x).
No hay un “ancho” predeterminado que tienen que tener las barras, pero es
importante tener en cuenta que nunca se deben dibujar “pegadas” o contiguas.
Pictograma
Como variante, puede mencionarse el pictograma, el cual en lugar de tener barras
para cada una de las categorías, muestra un dibujo de las unidades elementales.
CÓMO REALIZAR UN CUADRO
En las dos clases anteriores vimos cómo organizar y presentar gráficamente los
datos en los casos en los cuales la naturaleza de éstos fuera cualitativa (tanto
nominales como ordinales).
En esta clase, nos ocuparemos de los datos que responden a una escala de
intervalo (o cuantitativos). Repasando lo dicho en la primera clase, los datos que
4. responden a una escala de intervalo poseen la característica de tener orden y de
poder cuantificarse la distancia exacta existente entre las categorías o valores de
la variable.
Una variable es cuantitativa cuando los posibles valores que puede tomar son
números.
En este punto, es importante aclarar que, si bien las posibles categorías de una
variable cualitativa pueden codificarse, la naturaleza de los datos sigue siendo
cualitativa.
Cuando se trabaja con variables cuantitativas (numéricas), los datos pueden ser
organizados según dos criterios:
• En forma simple
• En intervalos de clase
La decisión del modo de organizar los datos depende de la cantidad de posibles
valores que puede tomar la variable.
Datos cuantitativos organizados en forma simple
Es adecuado utilizar esta disposición de los datos cuando la variable a estudiar
adopta una cantidad no muy grande de valores.
Por lo tanto, además de las frecuencias absolutas y los porcentajes, podemos
trabajar con frecuencias acumuladas crecientes y frecuencias acumuladas
decrecientes. Ambas resultan de acumular frecuencias absolutas.
Por ejemplo, ante la pregunta:
• ¿cuántos alumnos obtuvieron una nota menor o igual a 3 (X ≤ 3)?,
tenemos que realizar la siguiente operación:
cantidad de alumnos que obtuvieron un 1 + cantidad de alumnos que obtuvieron
un 2 + cantidad de alumnos que obtuvieron un 3 = 17 + 58 + 2 = 77.
• ¿cuántos alumnos obtuvieron una nota mayor o igual a 7 (X ≥ 7)?,
tenemos que realizar la siguiente operación:
cantidad de alumnos que obtuvieron un 7 + cantidad de alumnos que obtuvieron
un 8 + cantidad de alumnos que obtuvieron un 9 + cantidad de alumnos que
obtuvieron un 10 = 12 + 8 + 3 + 1 = 24.
Datos cuantitativos organizados en intervalos de clase
Los datos, tal como se presentan (sin ningún tipo de organización, datos brutos)
no permiten extraer conclusión alguna acerca del comportamiento de la variable.
Una de las opciones que podemos tomar para organizar la información, es realizar
un arreglo ordenado. Esto es, escribir los datos en orden (ya sea creciente o
decreciente).
A pesar de la organización anterior, sigue siendo una tarea difícil tener una idea
de qué es lo que está sucediendo. Sólo podemos ver rápidamente cuáles son los
valores mínimo y máximo.
Es por esto, que pueden agruparse los datos intentando lograr un equilibrio entre
claridad – resumen y pérdida de información.
Una de las primeras decisiones a tomar cuando se decide trabajar con intervalos
se refiere a las categorías con las cuales se trabajará. Es necesario decidir cuántas
categorías (intervalos) se van a utilizar y en dónde deben establecerse los límites
de cada uno.
La cantidad de intervalos a usar no debe ser ni muy grande ni muy pequeña. Los
motivos de lo anterior radican en que: si la cantidad de intervalos es escasa, se
5. pierde mucha información; mientras que si se trabaja con una gran cantidad de
intervalos no se obtiene la legibilidad y claridad deseada en la organización de los
datos. Como guía y regla empírica, se toma que la cantidad óptima de intervalos es
entre 5 y 15.
El número de intervalos con los cuales se trabajará depende de la cantidad de
datos y de la amplitud de los valores observados. También es fundamental tener
en cuenta el contexto de la variable y qué es lo que se pretende del estudio de los
datos (si se desea sólo una información global, bastarán pocos intervalos;
mientras que si se desea una información detallada, será conveniente trabajar con
más intervalos).
Una vez determinada la cantidad de intervalos con la cual se trabajará, es
necesario “armarlos”. Para ello, se toma la amplitud total o rango de los datos, la
cual se calcula como: valor máximo – valor mínimo.
Para el caso del ejemplo: rango = valor máximo – valor mínimo = 83,6 – 4,8 = 78,8.
A dicha amplitud total se la divide por el total de intervalos con los cuales se
quiere trabajar, obteniendo de esta manera la amplitud que tendrá cada uno de
ellos:
amplitud del intervalo = rango / cantidad de intervalos
Es aconsejable, aunque no necesario, que todos los intervalos tengan la misma
amplitud.
Si en el ejemplo propuesto se quisiera trabajar con 9 intervalos, la amplitud de cada
uno debiera ser de 8,756 (78,8 / 9).
El valor obtenido como amplitud del intervalo es orientativo. En este caso
tomaremos intervalos de amplitud 10.
Los agrupamientos 0 x < 10, 10 x < 20, ..., se denominan clases
o intervalos de clases. Cada intervalo posee un límite inferior (en el caso del
ejemplo: 0 para el primer intervalo, 10 para el segundo, etc.) y un límite
superior (10 para el primero, 20 para el segundo, etc.).
En este punto, es importante detenernos en la notación usada para
describir los intervalos de clase:
0 x < 10: En este intervalo se anotara la cantidad de escuelas que consumen un
volumen de agua mayor o igual que 0 pero menor que 10.
10 x < 20: En este intervalo se anotara la cantidad de escuelas que consumen
un volumen de agua mayor o igual que 10 pero menor que 20.
Y así sucesivamente
En muchos textos puede encontrarse que los intervalos son descriptos como: 0-
10, 10-20, etc. El principal problema que tiene esta forma es que no queda claro si
el dato con el valor “10” debe anotarse en el primer intervalo, en el segundo o en
ambos (no se cumple con la condición de categorías excluyentes).
También suelen encontrarse intervalos tales como: 0-9, 10-19, etc.
En este caso, tenemos el inconveniente de no poder anotar el dato con el valor
“9,50” (estas categorías no cumplen con la condición de exhaustivas).
Para asegurarnos que las categorías elegidas tengan las condiciones de
exhaustividad y exclusión es que tomaremos la convención de escribirlas como:
límite inferior x < límite superior.
6. Es importante definir el concepto de marca de clase o punto medio de la clase: xic
= (límite inferior + límite superior) / 2. Representa el punto medio de cada
intervalo.
Casos especiales
Puede suceder que en determinados casos tengamos datos que son muy extremos
respecto de la gran mayoría de ellos (en el ejemplo propuesto, uno de los datos
podría haber tenido el valor 200). En tal caso, posiblemente, hubiéramos tenido
que trabajar con varios intervalos de clase con frecuencia 0. Entonces puede
trabajarse con intervalos de clase abiertos. Estos intervalos poseen un solo límite
definido, por ejemplo: x < 500 (menos de 500), x ≥ 90 (mayor o igual que 90), etc.
En estos casos, se pierde aún más información ya que no se conocen los límites
entre los cuales está el dato. Además, se presentan inconvenientes en el momento
de realizar los gráficos.
Importante:
Muchas veces se confunde escala de intervalo con organización en intervalos. Los
datos que responden a una escala de intervalos pueden organizarse de forma simple
(como el ejemplo de “notas obtenidas en Biología por 200 alumnos”) o en intervalos
(como en el ejemplo del “consumo de agua en el turno matutino en 93 escuelas de un
distrito”).
En esta clase, nos ocuparemos de los gráficos que pueden realizarse
para las variables de carácter cuantitativo.
GRÁFICOS PARA DATOS ORGANIZADOS EN FORMA SIMPLE
Diagrama de líneas
Es la representación gráfica de una distribución de frecuencias de datos
organizados de forma simple (sin agrupar). Presenta los valores posibles y sus
frecuencias de aparición.
Se utiliza para representar las frecuencias absolutas, relativas y relativas
porcentuales. Este diagrama es similar al diagrama de barras de los datos
cualitativos, pero en lugar de hacer una barra por cada categoría o valor de
variable, se realiza una línea.
Diagrama de puntos
Se utiliza en aquellos casos en los cuales la cantidad de observaciones es pequeña
y, generalmente, representa frecuencias absolutas.
Su construcción es muy sencilla: se dibujan tantos puntos como frecuencia
existente para cada valor de la variable.
Gráfico escalonado
Representa las frecuencias acumuladas (tanto crecientes como decrecientes) para
una variable cuantitativa organizada en forma simple (esto es, sin intervalos de
clase).
Prácticamente, este tipo de gráfico no es usado.
GRÁFICOS PARA DATOS ORGANIZADOS EN INTERVALOS DE CLASE
Histograma
Se utiliza para representar las frecuencias absolutas, relativas y relativas
porcentuales.
Este gráfico consiste de un conjunto de rectángulos, cada uno de los cuales
representa un intervalo de agrupación o clase. Sus bases son iguales a la amplitud
del intervalo, y las alturas se determinan de manera que su área sea proporcional
a la frecuencia de cada clase.
7. Si todos los intervalos tienen la misma amplitud, tanto el área como la altura de
cada rectángulo resulta proporcional a la frecuencia de cada intervalo asociado.
Pero, en caso de que alguno o algunos de los intervalos tenga una amplitud
diferente, debemos tener en cuenta lo dicho en el párrafo anterior: lo que se
mantiene proporcional a la frecuencia son las áreas de los rectángulos (pero no las
alturas).
Los histogramas pueden proporcionar mucha información respecto a
la distribución de los datos.
Polígono de frecuencias
Para realizar este gráfico se toman las marcas de clase de cada intervalo (no los
límites del intervalo) y su frecuencia.
Se grafican los puntos (marca de clase, frecuencia) y los puntos sucesivos se unen
por medio de líneas rectas después de haber agregado clases con frecuencia cero
en los puntos límite de la distribución.
En este gráfico, al igual que en los histogramas, se representan frecuencias
absolutas, relativas y relativas porcentuales.
Es importante destacar que para realizar este tipo de gráfico, es necesario
considerar el intervalo anterior al primero y el posterior al último (ambos con
frecuencia cero) – ver gráfico.
Ojivas
Las ojivas se utilizan para representar las frecuencias acumuladas.
En el eje x se señalan los límites de los intervalos y en el eje y las frecuencias
acumuladas que les corresponden.
Como consideración general para todos los casos, recomendamos no olvidar de
especificar los rótulos que van en cada uno de los ejes del gráfico (son
fundamentales para la interpretación de los mismos).
Resumen de datos (Unidad 3)
• Indicadores de tendencia central.
Hasta este momento hemos estudiado: variables, tipos de variables, organización
de datos en tablas de distribución de frecuencias y los gráficos que nos ayudan a
representar la información contenida en un conjunto de datos. Esto es,
analizamos la presentación de datos en forma tabular y gráfica.
INDICADORES DE TENDENCIA CENTRAL
Dado un conjunto de datos, los indicadores de tendencia central son usados para
resumir la información con un solo valor de variable y da una idea aproximada
sobre el comportamiento de tal conjunto.
En este curso veremos los siguientes indicadores de tendencia central:
Media aritmética
La media aritmética se simboliza con la letra griega (mu) o también con x (que se
lee como “x barra”).
Es el indicador de tendencia central más conocido y también se lo denomina
promedio.
Aclaración importante:
La media aritmética sólo puede ser calculada para variables cuantitativas (escala de
intervalos).
Se lo calcula como la suma de los valores de todas las observaciones dividido la
cantidad total de observaciones.
8. Un ejemplo cotidiano es el promedio de las notas de los exámenes finales que
resume la información de todas las notas y da una idea aproximada sobre el
conjunto de ellas.
Modo o moda
Este indicador se simboliza mediante mo o Mo.
Se corresponde con el valor de variable que más se repite, esto es, con aquel que
presenta mayor frecuencia. En el caso en el cual los datos estén agrupados en
intervalos no se puede identificar cuál es el valor de variable que más se repite,
pero sí, cuál es el intervalo que presenta mayor frecuencia, el cual se denomina
intervalo modal.
Aclaración importante:
La moda puede calcularse para cualquier tipo de variable.
Mediana
Se simboliza como Me, Md, me o md.
La mediana de un conjunto de datos ordenados – en forma
ascendente o descendente – es el valor que divide a dicho conjunto en dos grupos
de igual cantidad de observaciones. Esto es, un 50% de los datos tendrá valores
inferiores a la mediana y el 50% restante tendrá valores mayores o iguales a ella.
Aclaración importante:
Para calcular la mediana es necesario ordenar los datos en forma ascendente o
descendente, por lo que, sólo puede calcularse para variables cualitativas ordinales
y para cuantitativas.
Resumen de datos (Unidad 3)
• Indicadores de dispersión.
INDICADORES DE DISPERSIÓN
Si bien estos dos conjuntos de datos tienen la misma media aritmética (100),
claramente puede observarse que la distribución es diferente para ambos casos.
Es por esto, que los indicadores de tendencia central no son suficientes para
describir una distribución de datos.
Aparecen entonces los indicadores de dispersión, los cuales brindan información
sobre cuán dispersos están los datos. Por lo tanto, para poder resumir la
información que contiene un conjunto de datos, es necesario trabajar no sólo con
indicadores de
tendencia central sino también con indicadores de dispersión. De esta manera, se
realiza un análisis integral de los datos.
Veremos tres indicadores de dispersión:
Recorrido o Rango o Amplitud total
Informa cuál es la amplitud total en la cual están contenidos todos los datos.
Se calcula como: (valor máximo – valor mínimo).
Desvío estándar y Varianza
El desvío estándar se simboliza con la letra griega (sigma) o también con S y la
varianza con 2 (sigma cuadrado) o S2.
Ambos indicadores brindan información sobre el promedio de las distancias que
existen entre cada dato y la media.
Es importante resaltar que, en la práctica, sólo se dan conclusiones en función del
desvío estándar. Esto se debe a que la varianza siempre da un valor con unidades
al cuadrado (lo cual no es fácilmente interpretable).
Coeficiente de Variación
9. Este indicador se simboliza con las letras CV.
Este indicador es útil para saber si la media aritmética de una distribución es un
indicador representativo. Esto es, si el CV es menor al 50%, se dice que la media
es representativa, en caso contrario, no lo es.
Consideraciones a tener en cuenta:
• Es importante tener en cuenta que un indicador de dispersión siempre tiene que
tomar valores mayores o iguales a 0. Recordar que un indicador de dispersión está
asociado a distancias.
• No olvidar la unidad de medida.
• Los indicadores de dispersión vistos en esta clase sólo pueden calcularse para
variables cuantitativas (escala de intervalos).
Hasta la clase anterior hemos visto cómo trabajar con distintos tipos de variables,
cómo presentar gráficamente la información contenida en un conjunto de datos y
cómo resumirla.
En todos los casos nos referimos a una sola variable, esto es, sólo observamos una
característica de las unidades elementales con las cuales trabajamos. Se dice que se
realiza un estudio univariado.
También se podría definir un problema en el cual interesara medir más de una
variable por cada unidad elemental. En esta situación estaríamos frente a
observaciones bivariadas.
Si se observaran más de dos variables, se dice que las observaciones son
multivariadas.
La naturaleza de las variables involucradas puede corresponder a cualquiera de los
tipos de escalas vistos.
Las tablas de contingencia se utilizan en caso de tener una cantidad alta de
observaciones. Este tipo de tablas es muy usada en investigaciones en ciencias
sociales. Las variables pueden provenir de cualquier tipo de escala.
El uso de estas tablas es muy importante para poder sacar conclusiones sobre el
comportamiento combinado de las variables.
Al trabajar con datos bivariados (o multivariados) podemos realizar un análisis de
cada variable por separado tal como se vio en las clases anteriores, pero además
podríamos estar interesados en ver si existe relación entre las variables.
Relaciones entre variables
Relaciones entre variables cualitativas. Chi-cuadrado.
Al trabajar con datos bivariados (o multivariados) podemos realizar un análisis de
cada variable por separado (como vimos en las primeras siete clases), un análisis del
comportamiento combinado (según lo visto en la clase ocho), y también podríamos
estar interesados en analizar si existe relación o asociación entre las variables.
En estos dos últimos ejemplos la distribución de los varones y mujeres según la
carrera que estudian no se mantiene igual (como en el ejemplo 1) pero tampoco es
absolutamente diferente (como en el ejemplo
2).
Si analizamos los ejemplos 3 y 4, ¿podríamos decir que estas diferencias son
“importantes” como para afirmar que el sexo “determina” o “influye” en la carrera
elegida?, ¿o que el sexo y la carrera están relacionadas, o asociadas?.
Para contestar este tipo de preguntas es necesario trabajar con un indicador que nos
permita decidir, con cierto grado de rigurosidad, si las diferencias son suficientemente
10. importantes (estadísticamente significativas) como para concluir en que el sexo influye
o no en la elección de la carrera.
En particular, si las variables son cualitativas, uno de los indicadores más utilizados
para medir la relación se denomina chicuadrado ( 2 ). Si las variables son
cuantitativas, se trabaja con un indicador denominado correlación ( ) – el cual se
desarrollará en la
clase 10.
CHI-CUADRADO
¿Cómo se calcula el chi-cuadrado?
Para calcularlo es necesario definir la frecuencia esperada.
¿Cómo se interpreta el valor de chi-cuadrado?
Hasta aquí hemos visto cómo calcular el chi-cuadrado, pero no hemos dado
información sobre cómo interpretarlo.
El chi-cuadrado puede tomar cualquier valor positivo o cero, por lo tanto, es muy
difícil, a partir de dicho valor concluir si existe asociación entre las variables o no.
Tomemos el ejemplo 7, ¿el valor 5,8594 estará indicando que hay asociación o que no
la hay?, y el valor
2,6041?. Surge aquí la siguiente pregunta, ¿a partir de qué valor se considera que hay
asociación?. Por lo tanto, es necesario definir un
valor crítico (VC), de tal manera que:
si el valor chi-cuadrado calculado es mayor que el valor crítico, se concluye que la
relación es estadísticamente significativa, esto es, que existe asociación entre las
variables
Este valor crítico depende del nivel de significación con el cual se desea trabajar y de la
cantidad de grados de libertad (gl).
Nivel de significación: Se refiere al riesgo (probabilidad de equivocarnos) que estamos
dispuestos a correr en concluir que las dos variables están relacionadas cuando en
realidad no lo estén.
Generalmente, se trabaja con niveles de significación bajos tales como 0,10; 0,05;
0,01.
El nivel de confianza se define como (1 – nivel de significación) y, generalmente, suele
ser expresado en porcentajes. De esta manera, para un nivel de significación de 0,10,
se tiene un nivel de confianza de 0,90 (o 90%); para un nivel de 0,05, se tiene una
confianza de 0,95 (o 95%).
Grados de libertad (gl): Para una determinada tabla de contingencia, se calculan de la
siguiente manera:
gl = (cantidad de filas - 1) x (cantidad de columnas - 1)
Al hablar de cantidad de filas y de columnas, se hace referencia a la cantidad de
categorías que tienen las variables.
Podríamos resumir los pasos a seguir para utilizar chi-cuadrado:
1) Fijar el nivel de significación o de confianza (en general en
Ciencias Sociales se utiliza un nivel de confianza de 0,90 o 0,95)
2) Determinar el número de grados de libertad de la tabla a utilizar
3) Calcular chi-cuadrado para dicha tabla
4) Comparar el valor de chi-cuadrado calculado con el valor crítico
(VC):
Si 2 > VC, se concluye que la relación es estadísticamente
significativa; caso contrario, no lo es.
Nota: Es importante aclarar que el uso del estadístico chi-cuadrado
11. requiere del cumplimiento de ciertas condiciones, las cuales no serán
expuestas en detalle ya que exceden los contenidos de este curso. Pero sí
es importante remarcar que una de las principales condiciones para su
aplicación es que las frecuencias esperadas deben ser lo suficientemente
grandes (mayores o iguales a 5 en por lo menos el 80% de los casos).
También es necesario tener en cuenta que para utilizarlo debemos
trabajar con frecuencias absolutas y no con porcentuales.