3. Estadística Descriptiva
Estadística descriptiva para las variables: Consiste en la
recolección y elaboración de datos numéricos con el propósito de
describir cada una de las características de la población.
Considerando que las técnicas estadísticas no son un fin en si
misma, sino que una herramienta para evaluar datos, debemos
considerar que:
Para realizar el análisis existen 3 factores:
1. Niveles de medición de variables.
2. Los objetivos e hipótesis de la investigación.
3. Interés del investigador.
4. Estadística Descriptiva
• Para cumplir lo anterior, tenemos herramientas, tales como
SPSS y PSPP. El uso de los softwares no es más que la aplicación
de la ciencia estadística a la información cuantitativa que
disponemos para analizar un fenómeno específico.
• En este contexto, el SPSS y PSPP, son softwares que contienen
programadas las TÉCNICAS ESTADÍSTICAS para el ANÁLISIS
CUANTITATIVO de los DATOS que responden a un CONJUNTO
DE CARACTERÍSTICAS de un NÚMERO DETERMINADO de
CASOS (sujetos), SELECCIONADOS para el estudio de un
FENÓMENO ESPECÍFICO.
6. Estadística Descriptiva
Cuantitativos
Continuos Discretos
Ingresos, Puntaje ficha CAS, Test
Psicológico.
Nº de hijos, Nº de bienes, Nº relaciones.
Categóricos
Ordinal Nominal
NSE, Importancia que le da al estudio,
Grado de acuerdo, etc.
Sexo, Estado civil, Lugar de residencia,
etc.
• Antes de comenzar cualquier análisis, debemos conocer los
tipos de variables según tipo de datos de contienen
• La definición del TIPO DE VARIABLES determinará las
TÉCNICAS ADECUADAS para el análisis.
8. Estadística Descriptiva
Nominal: son variables numéricas cuyos valores (Números) indican una categoría de
pertenencia. Para este tipo de medida, las categorías no cuentan con un orden lógico que
nos permita establecer una comparación de superioridad entre ellas. Un ejemplo de
variable nominal puede ser el género, la raza, el estado civil, etc.
Ordinal: son variables numéricas cuyos valores indican una categoría de pertenencia y a
su vez las categorías poseen un orden lógico que nos indica una superioridad o prelación.
Un ejemplo de variable ordinal puede ser el nivel de ingresos, categoría del vehículo, nivel
educativo, etc.
Escala: son variables numéricas cuyos valores representan una magnitud o cantidad y no
una categoría; los valores de este tipo de medida pueden ser empleados en operaciones
aritméticas como la suma, la resta, la multiplicación y la división ya que los intervalos
(Distancia entre los números) cuentan con la misma longitud. Un ejemplo de variable de
escala puede ser la edad, las ventas, la distancia en metros, la altura, etc.
• Tipos de variables según tipo de datos
9. Estadística Descriptiva
• Tipos de variables según tipo de datos
Nominal: Frecuencias, Moda y Gráfico de barras
Ordinal: Mínimo, Máximo, Mediana, Cuartiles
Escala: Media, Des. Típica, Asimetría, Cusrtosis, Histogramas
11. Estadística Bivariada
Estadística bivariada para las variables: Consiste en la recolección
y elaboración de datos numéricos de, al menos, DOS variables
con el propósito de describir la relación entre dichas variables:
correlación, dependencia, diferencias de grupos, etc..
Para aplicar estas técnicas resulta muy importante tener en
cuenta:
1. Niveles de medición de variables.
2. Definir bien la Ho y Ha.
3. La hipótesis teórica que se quiere comprobar.
12. Tablas de contingencia: Definición
• La pregunta es: ¿las dos variables se relacionan? ¿Hay
asociación entre las variables? ¿Son independientes?
• Para contestar esta pregunta contamos con el estadístico Ji
Cuadrado (2
)
• Este estadístico compara los valores observados con los
valores esperados (teóricos) de cada casilla.
– Valores Observados: frecuencia del cruce de las dos
variables, se obtienen a partir de los datos muestrales.
– Valores Esperados: frecuencia calculada en forma
proporcional al total de datos para cada categoría.
Los valores esperados representan los datos que se
observarían en la muestra si las variables fueran
independientes (la distribución de datos en cada casilla es
proporcional al total).
Estadística Bivariada
13. Tablas de contingencia: Definición
• Hipótesis a probar: Independencia entre variables
La prueba, también llamada “Ji cuadrada”, no considera
relaciones causales
• Variables involucradas: Dos categóricas.
• Nivel de medición de las variables: Nominal u ordinal ( o
intervalos o razón reducidas a ordinales).
• Obs.
– Ji Cuadrado indica si existe dependencia o asociación entre las
variables, pero no indica ni la dirección ni la fuerza de la asociación
– Decir de que existe dependencia entre las variables no significa
establecer una relación causal entre ambas.
Estadística Bivariada
14. Tablas de contingencia: Fuerza asociación
• Ji cuadrado informa sobre si las variables son dependientes o
están asociadas, pero no entrega información sobre la fuerza
de esta asociación. Para esto existen otros estadísticos, en el
caso de tablas de 2X2, como la que acabamos de ver, se utiliza
el coeficiente Phi.
Toma un valor igual o cercano a 0
si las variables NO están
relacionadas
Toma un valor más alejado de 0 si
las variables SI están relacionadas
Variables Cualitativas Dicotómicas
Estadística Bivariada
15. Variables Cualitativas Nominales
• Para variables Nominales de más de dos
categorías se utiliza el Índice V de Cramer.
Toma un valor igual o cercano a 0 si las variables NO
están relacionadas
Toma un valor más alejado de 0 si las variables SI están
relacionadas
Tablas de contingencia: Fuerza
asociación
Estadística Bivariada
16. • Para variables ordinales se utiliza el Coeficiente Gamma () de
Goodman y Kruskal.
– Dos variables ordinales
– Tablas de n*m
• Puede alcanzar valores entre + 1 y -1
• Si dos variables son independiente = 0
• = 0, no significa, necesariamente, que dos variables sean
independientes
Variables Cualitativas Ordinales
Tablas de contingencia: Fuerza asociación
Estadística Bivariada
17. Tablas de contingencia: Residuos
• Residuos: diferencias entre valor
esperados y observados de cada casilla.
• Especialmente útiles para interpretar las
pautas de asociación presentes en una
tabla
– No Tipificados
– Tipificados
– Tipificados Corregidos
Estadística Bivariada
18. Tablas de contingencia: Residuos
• Residuos: diferencias entre valor esperados y
observados de cada casilla.
– No Tipificados
– Tipificados
– Tipificados Corregidos se calculan dividiendo el
residuo tipificado por su error estándar. Se
distribuyen normalmente con media (µ) o y
desviación estándar () 1. Para su interpretación,
se define el nivel de confianza con el que se
trabajará y se determina el valor z asociado a ese
nivel de confianza, luego se comparan los
resultados de la casilla con este puntaje.
Estadística Bivariada
19. Tablas de contingencia: Resumen
1. Se establece la existencia de asociación a través de ji
cuadrado
2. Se determina la fuerza de la asociación (phi, v, gamma)
3. Se define un nivel de significación α = 0,05
4. Se determina el valor de z asociado a α. z = ±1,96
5. Se comparan los residuos tipificados corregidos con el valor
de z:
• Residuos tipificados con valores mayores a 1,96 casillas
con más casos de los que debería haber si las variables
fueran independiente
• Residuos tipificados con valores menores a -1,96
casillas con menos casos de los que debería haber si las
variables fueran independiente
Estadística Bivariada
20. Tablas de contingencia: Ejercicio Var. Nominal
• Evaluar si existe relación entre el sexo de
un trabajador y la categoría laboral, todo
para un grupo de trabajadores de una
empresa X.
• Utilizar la BD: Datos de empleados.sav
• Obtener: Evaluar Chi-cuadrado, medida
de fuerza y residuos.
Estadística Bivariada
21.
22.
23.
24.
25. Correlación lineal simple
• En consecuencia, se trata de analizar la relación entre
dos variables cuantitativas.
• El concepto de relación o correlación se refiere al grado
de variación conjunta existente entre dos o más
variables
• La forma más directa e intuitiva de formarnos una
primera impresión sobre el tipo de relación existente
entre dos variables es a través de un diagrama de
dispersión.
• Un diagrama de dispersión es un gráfico en el que una
de las variables (Xi) se coloca en el eje de abscisas, la
otra (Yi) en el de ordenadas y los pares (xi , yi) se
representan como una nube de puntos.
Estadística Bivariada
27. Coeficientes de correlación
Sirven para cuantificar el grado de relación lineal existente entre dos variables
cuantitativas.
Pearson: es el coeficiente más utilizado para estudiar el grado de relación lineal
existente entre dos variables cuantitativas. El coeficiente de correlación de Pearson
toma valores entre -1 y 1: un valor de 1 indica relación lineal perfecta positiva; un
valor de -1 indica relación lineal perfecta negativa; un valor de 0 indica relación
lineal nula.
Tau-b de Kendall. Este coeficiente de correlación es apropiado para estudiar la
relación entre variables ordinales. La utilización de este coeficiente tiene sentido si
las variables no alcanzan el nivel de medida de intervalo y/o no podemos suponer
que la distribución poblacional conjunta de las variables sea normal.
Spearman. es el coeficiente de correlación de Pearson, pero aplicado después de
transformar las puntuaciones originales en rangos. Toma valores entre -1 y 1, y se
interpreta exactamente igual que el coeficiente de correlación de Pearson. Puede
utilizarse como una alternativa al de Pearson cuando las variables estudiadas son
ordinales y/o se incumple el supuesto de normalidad.
Estadística Bivariada
29. Prueba de significación
Prueba de significación. Junto con cada coeficiente de
correlación, se presenta la información necesaria para
contrastar la hipótesis nula: no hay relación entre las
variables.
Marcar las correlaciones significativas. EL SPSS muestra por
defecto las relaciones que son estadística mente significativas:
un asterisco al lado de los coeficientes con nivel crítico menor
que 0,05 y dos asteriscos al lado de los coeficientes con nivel
crítico menor que 0,0.
A continuación, un ejemplo en el que se correlacionan tres
variables: salario inicial, salario actual y meses de contrato
que lleva una persona.
Estadística Bivariada
30. Salario actual Salario inicial
Meses desde el
contrato
Salario actual Pearson Correlation 1 ,880(**) ,084
Sig. (2-tailed) ,000 ,067
Sum of Squares
and Cross-products
137916495436,340 55948605047,733 6833347,489
Covariance 291578214,453 118284577,268 14446,823
N 474 474 474
Salario inicial Pearson Correlation ,880(**) 1 -,020
Sig. (2-tailed) ,000 ,668
Sum of Squares
and Cross-products
55948605047,733 29300904965,454 -739866,498
Covariance 118284577,268 61946944,959 -1564,200
N 474 474 474
Meses desde el
contrato
Pearson Correlation ,084 -,020 1
Sig. (2-tailed) ,067 ,668
Sum of Squares
and Cross-products
6833347,489 -739866,498 47878,295
Covariance 14446,823 -1564,200 101,223
N 474 474 474
Tabla 1: resumen del coeficiente de correlación de Pearson
*. La correlación es significativa al nivel 0,05 (bilateral).
**. La correlación es significativa al nivel 0,01 (bilateral).
Estadística Bivariada
31. • Correlación de Pearson.
• Cada celda contiene cinco valores referidos al cruce entre cada dos
variables:
– 1) el valor del coeficiente de correlación de Pearson;
– En el ejemplo, es de 0,880para la correlación entre salarino
inicial y actual y de 0,084 para la correlación entre salario
actual y meses de trabajo.
– También se observa el coeficiente de correlación para las
variables salario inicial y mese de contrato. Para este caso, la
correlación es de -0,020.
Estadística Bivariada
32. • Correlación de Pearson.
– 2) el nivel crítico bilateral que corresponde a ese coeficiente
– Como se puede observar, la relación entre salarios actual y
salario inicial como salario actual y meses de contrato son
positivas, esto es. A mayor una variable, mayor es al otra.
– En este caso, a mayor salario inicial mayor es el salario actual, y
a mayor cantidad de meses de trabajo mayor es el salario
actual.
– Por el contrario, la relación entre salario inicial y mese de
contrato resulta negativa, esto es, a mayor meses de contrato,
menor es el salario inicial.
Estadística Bivariada
33. • Correlación de Pearson.
– Esta última correlación resulta del todo ilógica, ya que no es
posible relacionar un sueldo inicial con cantidades de meses de
contrato que responden a algo que sucedió o sucede después
de fijar el salario uncial. Por ello, es necesario considerar la
pertinencia de la prueba que se realiza.
– 3) La significancia estadística para todas las pruebas se observa
en la fila “Sig. (2-tailed)”, este es el valor P con el que se evalúa
la Ho. Como podemos observar, SOLO en un caso este valor es
menor a 0,05, este es en la correlación entre salario inicial y
actual. Además esto s indica con dos **.
– El resto de correlación no resultan significativas ya que el valor P
es mayor a 0,05, ergo, se acepta Ho.
Estadística Bivariada
34. Diferencias de Medias
• El procedimiento Medias ofrece, como utilidad
fundamental, estadísticos descriptivos que pueden
calcularse teniendo en cuenta los distintos grupos y
subgrupos definidos por una o más variables
independientes.
• En este caso nos centraremos en la comparación de
medias entre grupos. Prueba T para muestras
independientes
Estadística Bivariada
35.
36.
37. Diferencias de Medias
• La prueba T para dos muestras independientes permite
contrastar hipótesis referidas a la diferencia entre dos medias
independientes. Tenemos dos poblaciones normales, con
medias μ1 y μ2, de cada una de las cuales seleccionamos una
muestra aleatoria (de tamaños n1 y n2). Tras esto, utilizamos
las medias muestrales para contrastar la hipótesis de que las
medias poblacionales μ1 y μ 2 son iguales.
• La prueba T que permite contrastar esta hipótesis de igualdad
de medias no es otra cosa que una tipificación de la diferencia
entre las dos medias muestrales
Estadística Bivariada
38. Diferencias de Medias
• Por lo general utilizamos esta prueba para evaluar si dos grupos difieren
entre sí cuando se comparan a partir de una variable cuantitativa.
• La función en SPSS es Seleccionar la opción Comparar medias > Prueba T
para dos muestras independientes... del menú Analizar
Estadística Bivariada
39. Diferencias de Medias
Variable Cualitativa:
agrupación
Variable Cuantitativa:
sobre al cual se va a
hacer el análisis
Estadística Bivariada
40. Diferencias de Medias
• Trasladar a la lista Contrastar variables la variable (o
variables) en la que se desea comparar los grupos.
• Trasladar al cuadro Variable de agrupación la variable que
define los grupos que se desea comparar.
• Definir grupos. Tras seleccionar una variable de agrupación,
es necesario indicar cuáles son los códigos que definen los
DOS GRUPOS que se desea comparar.
• Punto de corte. Si se desea utilizar como variable de
agrupación una variable cuantitativa continua, esta opción
permite introducir un valor como punto de corte: los casos
con puntuación igual o mayor que el punto de corte forman
un grupo; el resto de los casos forman el otro grupo.
Estadística Bivariada
41. Diferencias de Medias: Ejemplo.
• Realizar una comparación de medias del salario actual entre
hombres y mujeres.
Estadística Bivariada
42. Diferencias de Medias: Ejemplo.
• Evaluar la igualdad de varianza de los grupos
- El contraste de Levene (F), sobre homogeneidad o igualdad de varianzas, es el que nos
permite decidir si podemos o no suponer que las varianzas poblacionales son iguales:
-Si la probabilidad asociada al estadístico de Levene es mayor que 0,05, podremos
suponer que las varianzas poblacionales son iguales;
- Si la probabilidad asociada al estadístico de Levene es menor que 0,05,
rechazaremos la hipótesis de igualdad de varianzas y supondremos que son
distintas.
-Evaluar la significación de la diferencias de medias e intervalo de confianza
Estadística Bivariada
43. Diferencias de Medias: Ejercicio 1
• Realizar una comparación de medias del salario inicial entre
hombres y mujeres.
Estadística Bivariada
44. Diferencias de Medias: Ejercicio 1
• Realizar una comparación de medias del salario inicial entre
hombres y mujeres.
Estadística Bivariada
45. Diferencias de Medias: Ejercicio 1
• Realizar una comparación de medias del salario inicial entre
hombres y mujeres.
- El contraste de Levene (F), :
-Si la probabilidad asociada al estadístico de Levene es mayor que 0,05, podremos
suponer que las varianzas poblacionales son iguales;
- Si la probabilidad asociada al estadístico de Levene es menor que 0,05,
rechazaremos la hipótesis de igualdad de varianzas y supondremos que son
distintas.
-Evaluar la significación de la diferencias de medias. E intervalo de confianza
Estadística Bivariada
46. Diferencias de Medias: Ejercicio 1
• Realizar una comparación de medias del salario inicial entre
hombres y mujeres.
Estadística Bivariada
47. Diferencias de Medias: Ejercicio
Informe
• Realizar una comparación (de diferencia) de medias sobre la
experiencia previa entre hombres y mujeres.
Ejercicio para informe:
- Prueba T
- Prueba de Levene
- Intervalo de confianza
- Interpretar los resultados.
Estadística Bivariada
48. ANOVA: Análisis de varianza
Generalización de la prueba T que es para dos
muestras independientes, ahora para el caso de
diseños con más de dos muestras o grupos.
Sirve para comparar varios grupos: Prueba de igualdad
para 3 o más muestras
Variable independiente (VI) o
factor
Variable dependiente (VD)
Variable categórica (nominal u
ordinal) que define a los grupos: Ej.
N. Educativo
Variable cuantitativa en la que
se desea comparar los
grupos. Ej.: Salario
Estadística Bivariada
49. ANOVA: Análisis de varianza
ANALIZAR COMPARAR
MEDIAS ANOVA DE UN
FACTOR
Estadística Bivariada