Basado en el decimocuarto capítulo del libro: Social Science Research: Principles, Methods, and Practices de Bhattacherjee (2012).
Recomendado para la introducción a las practicas avanzadas de la investigación científica en ciencias sociales.
Imagen de Nick Hillier en: https://unsplash.com/photos/yD5rv8_WzxA
1. Basado en Bhattacherjee, A. (2012). Social Science Research: Principles, Methods, and Practices. Textbooks Collection, Book 3.
2. 1. Preparación de los datos
2. Análisis univariado
3. Análisis bivariado
3. Definición
Es la descripción, agrupación y presentación de
los resultados de los constructos de interés y
las asociaciones entre estos.
• En contraposición, la estadística inferencial (siguiente capítulo)
hace referencia a los procedimientos estadísticos para la prueba
de hipótesis.
• Para el análisis estadístico se recomienda el uso del software
SPSS, o SAS.
4. Nosotros queremos llegar de esto:
Fuller, B., Liu, Y., Bajaba, S., Marler, L. E., & Pratt, J. (2018). Examining how the personality, self-efficacy, and anticipatory cognitions of potential entrepreneurs shape their entrepreneurial
intentions. Personality and Individual Differences, 125, 120-125.
5. A esto:
Fuller, B., Liu, Y., Bajaba, S., Marler, L. E., & Pratt, J. (2018). Examining how the personality, self-efficacy, and anticipatory cognitions of potential entrepreneurs shape their entrepreneurial
intentions. Personality and Individual Differences, 125, 120-125.
8. • La preparación de los datos suele seguir los siguientes pasos:
a) Codificación de datos
b) Ingreso de respuestas
c) Valores perdidos
d) Transformación de datos
e) Patrones en los datos atípicos (outliers).
f) Normalidad de nuestros datos
g) Dimensionalidad de las escalas (análisis factorial).
h) Niveles de confiabilidad de las escalas (alfa de Cronbach).
9. a) Codificación de datos
• La codificación es el proceso de convertir datos a valores numéricos.
• Un libro de códigos es un documento que detalla las escalas de cada
variable, las respuestas a cada ítem y que valores numéricos
corresponden a cada categoría de respuesta.
• En algunos casos es posible codificar directamente la respuesta del
encuestado (edad, ingreso).
• Algunas otras veces es necesario asignar valores que representen
cada variable (sexo, profesión).
• Los resultados de tipo cualitativo (tales como entrevistas) no pueden
ser codificadas y analizadas estadísticamente.
11. b) Ingreso de respuestas
• Los datos pueden ser ingresados en hojas de calculo, bases de datos
o programas especializados (SPSS).
• En el caso de SPSS, las filas representan encuestas y las columnas
variables, ítems o categorías de respuesta.
• Los datos ingresados deben ser constantemente monitoreados en
busca de errores o cuestionarios inválidos (e.g. patrones sin sentido).
• Las encuestas con estos errores deben ser descartadas del análisis
estadístico posterior.
12. c) Valores perdidos
• Los valores perdidos pueden ser inevitables en algunas encuestas.
• Hay que identificar si estos aparecen aleatoriamente o presentan
algún patrón.
• Si es que existe algún patrón el problema radica en el instrumento o
en el método aplicado (prueba piloto).
• Luego, hay que verificar la extensión de los datos faltantes.
• Finalmente, hay que seleccionar la forma en la que se trabajaran
estos valores.
13. c) Valores perdidos
• Por defecto, los programas estadísticos eliminan todo el cuestionario
que contiene un dato faltante (listwise deletion).
• Algunos programas permiten la estimación y reemplazo de valores
faltantes (imputation).
• Dos tipos de imputación sin sesgo son: los métodos de máxima
verosimilitud y los de imputaciones múltiples.
14. d) Transformación de datos
• En algunos casos los datos deben ser presentados de distinta manera
a la recolectada.
• Por ejemplo:
Escalas que tienen ítems planteados de forma inversa (f: max + min – val).
Ítems que deben ser sumados para obtener puntajes por dimensión o
variable.
Variables que deben ser agregadas para la obtención de índices.
Datos que deben ser agrupados en categorías o rangos (grupos etarios).
15. e) Patrones en los datos atípicos (outliers)
• Los datos atípicos puede aparecer debido a:
Errores en el proceso de recolección de datos.
Eventos extraordinarios.
Observaciones extraordinarias.
Una serie de factores en conjunto.
• Los datos atípicos pueden ser identificar utilizando los diagramas de
caja (steam & leaf plot).
17. e) Patrones en los datos atípicos (outliers)
Outliers
Menor
dispersiónMayor
dispersión
18. f) Normalidad de nuestros datos
• Para poder utilizar las pruebas estadísticas que conocemos
(paramétrica) debemos verificar que se cumplen los supuestos
estadísticos.
• Para ello podemos utilizar:
Histogramas.
Gráficos de normalidad Q-Q.
20. g) Dimensionalidad de las escalas
• El siguiente paso es verificar que los ítems de nuestras escalas se
han distribuido correctamente en las dimensiones del constructo de
interés.
• Por ejemplo, el Empowerment es un constructo multidimensional con
5 factores o dimensiones (Spreitzer, 1995):
Significado.
Competencia
Autodeterminación
Impacto
Seguridad
21. g) Dimensionalidad de las escalas
El Análisis
Factorial
Confirmatorio
(CFA) confirma
la presencia
de 5 factores o
dimensiones.
22. g) Dimensionalidad de las escalas
Posteriormente se debe
corroborar que los ítems
de cada factor están
distribuidos como se
proponen en el modelo.
23. h) Niveles de confiabilidad de las escalas
• Debemos confirmar la confiabilidad de las escalas en nuestra
muestra.
• Dependiendo del tipo de escala utilizada, el método para el calculo de
este indicador será diferente.
• Para escalas con ítems aditivos de tipo Likert el método recomendado
es el coeficiente alfa de Cronbach.
• En el caso de constructos multidimensionales los coeficientes de
confiabilidad se calculan por dimensión.
24. h) Niveles de confiabilidad de las escalas
• Los coeficientes de confiabilidad (entre ellos el α de Cronbach) son
valores que pueden ir del 0 al 1.
• Un valor 1 significa una correlación perfecta entre ítems =
confiabilidad perfecta.
• Valores superiores a 0.7 se consideran aceptables.
26. • El análisis univariado es el calculo estadístico más básico.
• Ayuda a conocer la configuración general de nuestros datos.
• Incluye tres tipos de análisis:
a) Distribución de frecuencias
b) Tendencia central
c) Dispersión
27. a) Distribución de frecuencias
• Recuento de valores individuales por variable o categoría de
respuesta y sus porcentajes respectivos.
• Estos valores se pueden presentar en tablas y gráficas
(histogramas).
• En muestras grandes y aleatorias, los histogramas deberían seguir la
forma de una curva de distribución normal.
• Recomendable para variables categóricas (nominales u ordinales).
• No se debe utilizar para analizar ítems individuales de una escala de
medición compuesta.
29. b) Tendencia central
• Estiman los valores centrales de una variable en nuestros datos.
• Estas medidas son: Media, moda, mediana.
• Las medias pueden ser:
Aritmética: Suma de valores / Numero de valores).
Geométrica: Raíz n-ésima del producto de n valores.
Armónica: Inverso de la media aritmética de los inversos de dichos
valores.
• En ciencias sociales se utiliza principalmente la media aritmética.
30. c) Dispersión
• Señalan la variabilidad (y dispersión) de los datos de la muestra al
rededor de la tendencia central.
• Tres medidas comunes de dispersión son: el rango, la desviación
estándar y la varianza.
• El rango es especialmente sensible a los datos atípicos.
• La desviación estándar corrige este efecto ponderando las
distancias entre los valores y la media. Además se presenta en las
mismas unidades que los datos (se puede interpretar).
• La varianza es la desviación estándar elevada al cuadrado. Es útil
para los procedimientos matemáticos.
31. • El tipo de herramienta estadística a utilizar dependerá del tipo de
variables que se desean relacionar o comparar:
Tipos de medición Ejemplo Prueba estadística
No métrica
vs
No métrica
Nivel de educación * Sexo
Nivel de educación * Ciudad
Tablas cruzadas
(Chi-cuadrado de Pearson)
No métrica
vs
Métrica
Sexo * (Nivel de) felicidad
Nivel de educación * Felicidad
Diferencia de medias
(ANOVA)
Métrica
vs
Métrica
Ingreso * Felicidad
Edad * Felicidad
Correlaciones
(Correlaciones de Pearson)
33. b) Diferencia de medias (sexo * felicidad)
Significancia mayor a 0.05
Las diferencias entre grupos NO son
estadísticamente significativas.
Se confirma con la
superposición de los
intervalos de confianza.
34. b) Diferencia de medias (grupos etarios * felicidad)
Significancia menor a 0.05
Las diferencias entre grupos SÍ son
estadísticamente significativas.
Los menores de 30
años tienen menores
niveles de felicidad que
los de 50 años a más.
35. c) Correlaciones
Los datos se reflejan
en la tabla como en un
espejo transversal.
Los asteriscos representan el
nivel de significancia estadística
36. c) Correlaciones
Estos dos datos son
idénticos, al
representar la
correlación entre las
mismas variables.
Estas correlaciones
siempre serán 1 ya que
es una correlación de
una variable con sí
misma.
37. c) Correlaciones
Usualmente la tabla se presenta:
1. Mostrando únicamente la mitad inferior
2. Eliminando otros valores de la tabla como el N y la sig.
3. Eliminando las correlaciones entre las mismas variables
4. Reemplazando en los encabezados los nombres de las variables por números.
38. c) Correlaciones
Fuller, B., Liu, Y., Bajaba, S., Marler, L. E., & Pratt, J. (2018). Examining how the personality, self-efficacy, and anticipatory cognitions of potential entrepreneurs shape their entrepreneurial
intentions. Personality and Individual Differences, 125, 120-125.