Introducción al análisis estadístico con soporte informático
1. UNIVERSIDAD NACIONAL DE ASUNCION
FACULTAD DE FILOSOFIA
MAESTRIA EN PSICOLOGIA CLINICA
M ód u l o d e I n v e s t i g a c i ón C i e n t íf i c a I
Introduccion al analisis estadistico
con soporte informatico con
Instructor: Enrique Morosini
2. Introducción
El taller tiene carácter introductorio, concentrándonos en la
estructura general del software y de las operaciones básicas.
Veremos operaciones específicas conforme diseños
específicos y abordaremos cuestiones técnicas relacionadas
a las técnicas específicas de análisis vinculados a distintos
diseños experimentales (y no experimentales), que permitan
la extracción de conocimiento a partir de los datos.
No se cuenta con el tiempo suficiente para profundizar
técnicas más complejas que serían útiles de abordar y que
son posibles mediante la utilización del SPSS pero se ofrece
una gama interesante de material de consulta.
Enrique Morosini - Pág. 2
3. ESTRUCTURA GENERAL
Existen dos elementos fundamentales en la estructura del
software que requieren de correcta comprensión para
familiarizarse con el entorno de trabajo:
1. La estructura de las bases de datos.
2. La estructura del funcionamiento del SPSS:
a. Las ventanas.
b. Los menús.
c. Los comandos y ventanas de tareas.
Enrique Morosini - Pág. 3
4. ESTRUCTURA GENERAL
Estructura de las bases de datos
Una base de datos es una colección de datos ORGANIZADOS y
RELACIONADOS entre sí. Su estructura básica es una matriz
y es la materia prima para la realización de análisis
estadísticos.
MATRIZ: Es una tabla ordenada de datos compuesta de filas y
columnas.
Por lo tanto las bases de datos, que pueden poseer múltiples
dimensiones y variables en su estructura básica se compone
de filas y columnas.
Enrique Morosini - Pág. 4
5. ESTRUCTURA GENERAL
Estructura de las bases de datos
Generalmente los programas informáticos interpretan que
las filas son casos y las columnas son variables.
Consideremos el ejemplo utilizado para esta clase:
Base de datos
Enrique Morosini - Pág. 5
7. ESTRUCTURA GENERAL
Estructura del SPSS
El SPSS se compone de tres tipos distintos de archivos:
1. Editor de Datos.
2. Visor de Resultados.
3. Editor de Sintaxis.
Enrique Morosini - Pág. 7
8. ESTRUCTURA GENERAL
Estructura del SPSS
1. Editor de Datos.
Es el espacio en el cual se pueden “editar los datos”, lo que
implica cargar información, modificarla, corregirla. Su
apariencia es la misma a cualquier planilla electrónica,
Excel o similar.
El Editor de Datos presenta a su vez dos pantallas:
- una referida a los datos
- otra referida a las propiedades de las variables.
Enrique Morosini - Pág. 8
20. ESTRUCTURA GENERAL
Estructura del SPSS
Ejercicio 1
1. Abrir el programa.
2. Cargar los datos siguientes
1 0 3 2 3
2 1 3 4 4
3 1 1 1 2
4 0 4 3 3
5 0 5 4 5
Enrique Morosini - Pág. 20
21. ESTRUCTURA GENERAL
Estructura del SPSS
Ejercicio 1
3. Examinar la “Vista de Variables”
4. Colocar nombres a las variables:
ID; se; It01; It02; It03
5. Modificar el tipo de variable:
ID = Cadena; se, It01, It02 y It03 = Numérico
6. Indicar las etiquetas siguientes:
ID = Identificación; se = Sexo; Ítem 1; Ítem 2; Ítem 3.
7. Especificar la medida:
ID = nominal; se = nominal; It01, It02 y It03 = escala
Enrique Morosini - Pág. 21
22. ESTRUCTURA GENERAL
Estructura del SPSS
2. Visor de resultados.
Es una ventana que aparece automáticamente cada vez que
se activa una orden:
- Abrir un archivo.
- Alguna función de “datos”.
- Alguna función de “transformación”.
- Se ejecuta algún análisis específico.
Enrique Morosini - Pág. 22
23. ESTRUCTURA GENERAL
Estructura del SPSS
2. Visor de resultados.
Muestra tres tipos de información:
1. Comando de ejecución.
2. Tablas.
3. Gráficos.
Enrique Morosini - Pág. 23
24. ESTRUCTURA GENERAL
Estructura del SPSS
2. Visor de resultados.
Muestra tres tipos de información: FREQUENCIES VARIABLES=VAR00002
/BARCHART FREQ
1. Comando de ejecución. /ORDER=ANALYSIS.
2. Tablas.
3. Gráficos.
Enrique Morosini - Pág. 24
25. ESTRUCTURA GENERAL
Estructura del SPSS
Ejercicio 2
Con la misma planilla con la que se trabajó en el ejemplo
anterior realizar la siguiente operación:
1. Ingresar al menú “Analizar” / “Estadístico descriptivo” /
“Frecuencias”.
2. Seleccionar la variable “se” y con la flecha enviarla a la
ventana derecha.
3. Seleccionar la pestaña “Gráficos...” y “Gráficos de barra”.
Enrique Morosini - Pág. 25
27. ESTRUCTURA GENERAL
Estructura del SPSS
3. Editor de sintaxis.
En el SPSS es posible trabajar en modo “comando”,
introduciendo una secuencia ordenada / jerarquizada de
“órdenes” o “instrucciones”, a lo que se denomina sintaxis.
Estas órdenes escritas en formato de texto permiten
ejecutar las funciones que se realizan a partir de los menús.
La ventaja consiste en que se puede contar con un conjunto
de instrucciones para repetir una secuencia de comandos de
manera automática.
Enrique Morosini - Pág. 27
28. ESTRUCTURA GENERAL
Estructura del SPSS
Ejercicio 3
1. Ingresar a la pantalla “Visor”.
2. Copiar la secuencia de comando que aparece al inicio de
la ventana; dar doble click, seleccionar el texto y copiar.
3. Seleccionar la función “Archivo” / “Nuevo” / “Sintaxis”.
4. Aparecerá una pantalla en la cual “pegaremos” la
secuencia anteriormente copiada.
5. Clickear sobre el siguiente ícono del menú: [ejecutar]
6. Comentar qué es lo que se observa.
Enrique Morosini - Pág. 28
29. ESTRUCTURA GENERAL
Estructura del SPSS
Los menús
Son las rutas o caminos visuales a través de los cuales se
ejecutan los comandos. Se accede a ellos a través de la
“barra de menú” y ejecutan distintos grupos de comandos.
Enrique Morosini - Pág. 29
30. ESTRUCTURA GENERAL
Estructura del SPSS
Las ventanas
La mayoría de las aplicaciones analíticas del SPSS presentan la
misma estructura: un conjunto de ventanas, generalmente dos, en
las cuales de un lado se encuentra la lista completa de “variables”
y del otro lado un espacio vacío al que habrá que trasladar
aquellas que sea de nuestro interés su análisis.
Enrique Morosini - Pág. 30
31. ESTRUCTURA GENERAL
Estructura del SPSS
Las ventanas
La mayoría de las aplicaciones analíticas del SPSS presentan la
misma estructura: un conjunto de ventanas, generalmente dos, en
las cuales de un lado se encuentra la lista completa de “variables”
y del otro lado un espacio vacío al que habrá que trasladar
aquellas que sea de nuestro interés su análisis.
Enrique Morosini - Pág. 30
32. ESTRUCTURA GENERAL
Estructura del SPSS
Las ventanas
La mayoría de las aplicaciones analíticas del SPSS presentan la
misma estructura: un conjunto de ventanas, generalmente dos, en
las cuales de un lado se encuentra la lista completa de “variables”
y del otro lado un espacio vacío al que habrá que trasladar
aquellas que sea de nuestro interés su análisis.
Enrique Morosini - Pág. 30
33. EXPLORACIÓN
La primera fase del proceso de investigación es la exploración de
los datos.
La fase exploratoria tiene una importancia en sí misma ya que
permite comprender la forma de distribución de los datos, lo que
contiene la esencia del comportamiento colectivo de los atributos
que estamos analizando.
La exploración consiste básicamente en analizar los datos
descriptivos a fin de identificar la forma de la distribución, la
existencia de datos atípicos, ausencia de respuestas, etc.
Más extendidas en los últimos 30 años se han implementado
técnicas específicas de exploración de datos gracias al aporte de
John Wilder Tukey. una de ellas es el gráfico Box-Plot.
Enrique Morosini - Pág. 31
34. EXPLORACIÓN
1. El análisis descriptivo.
Se analizan la media, mediana, moda, varianza, desvío estándar,
media recortada, curtosis, asimetría, cuartiles.
Estos datos permiten tener una aproximación respecto a la
distribución de los datos y aproximación a la distribución normal.
2. El análisis gráfico.
Con el SPSS se obtienen dos gráficos por defecto:
- El diagrama de tallos y hojas
- El gráfico de cajas y bigotes (box-plot).
Enrique Morosini - Pág. 32
35. EXPLORACIÓN
- El Diagrama de “tallos y hojas” (Stem-and-Leaf Diagram) permite
obtener simultáneamente una distribución de frecuencias de la
variable y su representación gráfica. Para construirlo basta separar
en cada dato el último dígito de la derecha (que constituye la
hoja) del bloque de cifras restantes (que formará el tallo). Esta
representación de los datos es semejante a la de un histograma
pero además de ser fáciles de elaborar, presentan más información
que estos.
2.12233333444
2.566666677788889999
3.01133
Tallos 3.89 Hojas
4.146
5.2
Enrique Morosini - Pág. 33
36. EXPLORACIÓN
- El gráfico de “cajas y bitotes” (box plot) son una presentación
visual que describe varias características importantes, al mismo
tiempo, tales como la dispersión y simetría. Para su realización se
representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente.
Mín Q1 Med Q3 Máx
Caja
Bigotes
Enrique Morosini - Pág. 33
34
37. EXPLORACIÓN
Ejercicio 4
1. Abrir la base de datos “Ejercicio 01.xls".
2. Ejecutar la función del menú “analizar” / “estadísticos
descriptivos” / “explorar”.
3. Seleccionar la variable “edad”.
4. Realizar un breve comentario al respecto.
Enrique Morosini - Pág. 35
38. LIMPIEZA DE DATOS
Antes de aplicar cualquier tipo de análisis se debe realizar una
cuidadosa depuración de la base de datos. Para ello se debe
“limpiarla” verificando que no se hayan colado errores de tipeado;
también se debe analizar la ausencia de datos y cualquier otra
anomalía en el registro de los datos necesarios para el análisis
correspondiente.
- Tratamiento de valores atípicos: existen valores atípicos porque
fueron mal ingresados a la base de datos, otros porque son
extraordinariamente raros u otros que son claramente explicable
por la interacción de otra variable. En el primer caso lo aconsejable
es corregir los errores, en el segundo convendría eliminarlos de la
base de datos y en el último caso conviene mantenerlos.
Enrique Morosini - Pág. 36
39. LIMPIEZA DE DATOS
- Tratamiento de valores atípicos: Los valores atípicos pueden
ser detectados mediante el examen de los gráficos del proceso
“Exploratorio”.
Además se pueden aplicar procesos específicos para identificar
los casos que presentan puntuaciones o datos fuera del rango
esperado, específicamente la función “Control de calidad” /
“Gráfico de control”.
- Datos ausentes: Un problema importante es la presencia de
datos ausentes en la matriz base. Cuando éstos datos ausentes
representan un número importante se aplican métodos de
imputación para estimar la posible respuesta ausente.
Enrique Morosini - Pág. 37
40. LIMPIEZA DE DATOS
Ejercicio 5
1. Con la misma base “Ejercicio 01.xls” abierta
2. Ejecutar el menú “Análizar” / “Estadísticos Descriptivos” /
“Explorar” y luego seleccionar las variables: edad, SAT04 y Hs03.
3. Comentar los resultados en términos de datos atípicos y
variables con datos ausentes.
Enrique Morosini - Pág. 38
42. CONTRASTE DE HIPÓTESIS
¿Qué es un contraste de hipótesis?
Es un procedimiento que se encuentra en el centro de las
decisiones estadísticas y los errores que suponen ese
procedimiento.
El razonamiento básico del contraste de hipótesis es el siguiente:
¿qué probabilidad tenemos de que los datos observados sean
iguales al resultado hipotetizado?
La mayoría de las pruebas estadísticas ofrecen resultados
acompañados del valor p (probabilidad) en función a la
comparación del resultado con relación a la hipótesis nula (de no
efecto o no diferencia).
Enrique Morosini - Pág. 39
43. CONTRASTE DE HIPÓTESIS
Los insumnos más importantes en la toma de decisiones es la
estadística inferencial basada en la estimación de parámetros y la
idea de distribución muestral.
Resumiendo se puede decir que el Contraste de Hipótesis es un
proceso de decisión en el que una hipótesis formulada en términos
estadísticos es puesta en relación con los datos empíricos para
determinar si es o no compatible con ellos.
Los supuestos:
- Que una muestra dada pertenece a una distribución poblacional conocida.
- Que existe un estadístico de contraste capaz de ofrecer información.
- Que existe un conjunto de reglas que guían la toma decisiones.
Enrique Morosini - Pág. 40
44. CONTRASTE DE HIPÓTESIS
Proceso para la estimación de parámetros:
- Dada la distribución muestral de determinado parámetro y la
formulación de la hipótesis estadística se establecen las reglas de
inferencia.
- Supongamos la distribución normal, que responde a la ley de los
grandes números y al teorema central del límite, dada cierta
hipótesis, se conocen las probabilidades asociadas a ciertos valores
estandarizados, es decir, si conocemos la hipótesis nula y tenemos
un valor empírico se podría estimar el valor probabilístico de
obtener tal o cual valor en unidades estandarizadas.
Enrique Morosini - Pág. 41
46. CONTRASTE DE HIPÓTESIS
Consideraciones centrales
- La mayoría de las pruebas estadísticas ponen a prueba la
hipótesis nula, por lo tanto el valor p asociado a dichas pruebas
representa la probabilidad de que el resultado obtenido sea una
desviación aleatoria de la hipótesis nula. Entendiéndose por
hipótesis nula la ausencia de efecto de la variable independiente.
- Las hipótesis nulas, estricto sensu, no se “aceptan”, lo que se
puede afirmar es que no existe evidencia suficiente para rechazar
la hipótesis nula ¿a qué se debe esta situación?
Enrique Morosini - Pág. 43
47. CONTRASTE DE HIPOTESIS
Pruebas paramétricas y no paramétricas
Introducción
Las pruebas de contraste de hipótesis se clasifican en
paramétricas y no paramétricas (también conocidas como
pruebas de distribución libre o libre de distribución). La
diferencia se basa en las suposiciones de los parámetros de la
población existentes y el tipo de datos analizables.
Enrique Morosini – Pág. 44
48. CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Las pruebas paramétricas tienen dos características:
1. Su cálculo requiere la estimación, a partir de los datos
muestreados, de los parámetros de la población.
2. Realizan suposiciones acerca de la naturaleza de ciertos
parámetros de la población.
Enrique Morosini – Pág. 45
49. CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Parámetros y estadísticos
Cuando realizamos un estudio
tomando una muestra de una
población N, suponemos que
ésta tiene parámetros: media
(µ); desviación (σ); varianza
(σ2); etc.
La muestra n nos proporciona
una información: media (X);
desviación (S); varianza (S2)…
Enrique Morosini – Pág. 46
50. CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
SUPUESTOS (Clark-Carter, 2002, pp. 195-196)
Las pruebas paramétricas requieren que la población de
puntuaciones de la cual proviene la muestra, esté distribuida
normalmente [ver propiedades de la distribución normal].
Cuando se comparan grupos, se exige que las mediciones sean
independientes y las respuestas de cada individuo también.
Que los datos estén en una escala de intervalo o razón.
Esta exigencia es discutida ya que existe otra posición
considerada “abierta” que sostiene que los números no
tienen conciencia de su origen (ver Lord, 1953).
Enrique Morosini – Pág. 47
51. CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Estadísticos más utilizados
Prueba t (dos grupos):
De diferencia de medias no relacionadas.
De diferencia de medias relacionadas.
Prueba f - ANOVA (ANalysis Of VAriance) (más de dos grupos):
De una sola variable independiente.
Factorial o de más de una variable independiente.
De medidas repetidas de una sola VI.
De medidas repetidas factorial de más de una VI.
Correlaciones bivariadas y múltiples:
R de Pearson, coeficientes de regresión.
Enrique Morosini – Pág. 48
52. CONTRASTE DE HIPÓTESIS
Pruebas no paramétricas
Cuando los datos se encuentran en una escala ordinal es posible
utilizar la prueba de una muestra de Kolmogorov-Smirnov. Sin
embargo es poco frecuente y se suele utilizar la 2 (ji o chi cuadrado).
Se suele recomendar su uso cuando no se cumplen los supuestos
para la aplicación de las pruebas paramétricas, especialmente las
relacionadas con la normalidad (simetría, homocedasticidad y
curtosis).
También se suelen recomendar su uso cuando los datos son de
tipo categórico u ordinal.
Enrique Morosini – Pág. 49
53. CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Estadísticos más utilizados
Para una sola muestra:
Prueba de Kolmogorov-Smirnov.
Prueba 2 (ji o chi cuadrado).
Prueba de Wilcoxon.
Prueba de los signos.
Para dos grupos:
Prueba de Mann-Whitney.
Prueba de Wilcoxon.
Enrique Morosini – Pág. 50
54. CONTRASTE DE HIPÓTESIS
Pruebas paramétricas
Estadísticos más utilizados (cont.)
Para más de dos grupos:
Prueba de Kruskal-Wallis.
Prueba de Friedman.
Correlación de variables:
r de Spearman.
de Kendall.
de Goodman y Kruskal.
W de Kendall.
Correlación y regresión múltiple:
Modelos loglineales jerárquicos.
Modelos Logit.
Enrique Morosini – Pág. 51
55. CONTRASTE DE HIPOTESIS
Pruebas paramétricas y no paramétricas
Consideraciones especiales (Morales, 2006, p. 41)
Existen líneas argumentales de distintos autores que justifican la
preferencia en el uso de pruebas PARAMÉTRICAS:
1. Los números son ciegos y la aplicabilidad de los métodos estadísticos
depende de los supuestos del modelo y no del origen de los datos.
2. Las escalas de medición que se utilizan en Psicología pueden considerarse
escalas de intervalo imperfectas, ya que el rasgo latente observado
posiblemente sea continuo y no categórico.
3. Hay suficientes pruebas experimentales que avalan la aplicabilidad de los
métodos paramétricos, su robustez a pesar de la violación de sus
supuestos y la debilidad de los no paramétricos (errores de tipo II).
4. Los métodos no paramétricos son con frecuencia inconsistentes.
Enrique Morosini – Pág. 52
56. CONTRASTE DE HIPOTESIS
Pruebas paramétricas y no paramétricas
Ejemplo
Un ejemplo MONTECARLO referente a la independencia de la
distribución poblacional para la distribución “normal” de un
estadístico paramétrico (la media aritmética).
[una aproximación a la teoría de los grandes números].
1. Abrir una planilla Excel.
2. Generar números aleatorios entre 1 y 5.
3. Calcular el promedio.
4. Generar réplicas de muestras y analizar los resultados.
Enrique Morosini – Pág. 53
57. CONTRASTE DE HIPOTESIS
EJERCICIOS
Trabajo 1.
1. Lluvia de ideas sobre los posibles diseños que podrían
estar vinculados con los datos de la base Ejercicios 1.
2. Comparación de análisis paramétricos y no
paramétricos.
3. Análisis del caso: prueba t; r de person; ji-cuadrada.
Enrique Morosini – Pág. 54
58. CONTRASTE DE HIPOTESIS
EJERCICIOS
Trabajo 2: en grupo
1. Formar espontáneamente grupos de 3 o 4 personas.
2. Formular un breve y rápido plan de análisis de los datos
contenidos en la planilla Ejercicio 1.
3. Definir: Problema, objetivos, hipótesis y forma de
contrastar la hipótesis (= diseño y análisis).
4. Realizar el análisis y presentar las conclusiones.
Enrique Morosini – Pág. 55
59. CONTRASTE DE HIPÓTESIS
La comparación 2 de medias
Uno de los contrastes más habituales es el que se refiere a la
comparación de dos grupos de datos. El primer elemento a
considerar es si éstos fueron formados aleatoriamente y si
las variables que se van a comparar están o relacionadas.
Ÿ En caso de que se trate de grupos independientes y las
variables no estén relacionadas se utiliza la prueba t de
diferencia de medias no relacionadas.
Ÿ En caso de que las medidas a compara sí estén
relacionadas se utiliza la prueba t de diferencia de medias
correlacionadas.
Enrique Morosini - Pág. 58
60. CONTRASTE DE HIPÓTESIS
La comparación 2 de medias
Ejercicio 6
1. Abrir la base de datos “Ejercicio01.xls”.
2. Seleccionar la función “Analizar” / “Comparación de medias” /
“Prueba t para muestras independientes”.
3. En la ventana “Variables para contrastar” colocar la variable
“edad”.
4. En la ventana “Variable agrupación” colocar la variable sexo.
5. Luego selecionar “Definir grupo” e indicar que el grupo 1
tendra valor 1 y el grupo 2 valor 2.
Enrique Morosini - Pág. 59