2. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
2
EXPLORACIÓN DE DATOS
1.- Introducción.
La fase preliminar de cualquier estudio estadístico es la recogida y ordenación de los datos. El
conjunto de procedimientos necesarios para recoger, tabular, representar y resumir el conjunto
de datos de interés se conoce con el nombre de “Estadística Descriptiva”. Mediante estas
técnicas podremos inspeccionar los datos, identificar valores atípicos (outliers), describir los
datos, etc.
2.- Tipos de datos.
Lo usual es distinguir entre dos tipos de datos: cuantitativos y cualitativos, según que la
característica en estudio sea o no medible.
Se dice que un dato es de tipo cualitativo cuando no se observa numéricamente (sexo, raza
estado civil, etc.). A éste tipo de datos se les denomina también atributos, datos categóricos
o datos nominales. Los atributos no se pueden medir o expresar mediante números
(¡Cuidado!, a veces se usan sistemas de codificación numérica para este tipo de datos). Cada
uno de las categorías o de los resultados posibles de un atributo es una modalidad. Cuando
un dato cualitativo sólo tiene dos categorías posibles se le denomina dicotómico (si/ no, varón/
hembra, etc.). Cuando una información de tipo cualitativo se puede ordenar se denomina
ordinal.
Los datos de tipo cuantitativos son aquellos que requieren una expresión numérica para su
medición (edad, nivel de glucosa en sangre, número de hijos, etc.). Hablamos entonces de
variables. Los datos cuantitativos pueden ser a su vez de dos tipos: discretos y continuos.
Los discretos son aquellos que toman un número limitado de valores de forma que entre dos
valores consecutivos no hay ningún valor intermedio (número de latidos por minuto, número de
dientes cariados, etc.), mientras que los datos cuantitativos continuos son los que pueden
tomar infinitos valores, de manera que entre dos valores consecutivos siempre existe un valor
intermedio de la característica en estudio (nivel de colesterol en sangre, temperatura, edad,
etc.).
3.- Exploración y análisis descriptivo de los datos.
a) Los datos de tipo cualitativos (nominal y ordinal) se resumen mediante frecuencias absolutas
o recuentos y porcentajes. Esta información numérica puede ser complementada mediante
alguna representación gráfica como, entre otras, el diagrama de sectores. El procedimiento
Frecuencias de SPSS proporciona dicha información numérica y gráficos. Las tablas de
frecuencias obtenidas a partir de este procedimiento nos servirán también para explorar los
datos e identificar posibles errores de trascripción o registro de ellos.
3. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
3
Estadística/ Resumir/ Frecuencias
diagnóstico de diabetes
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
si 65 32,5 33,7 33,7
no 128 64,0 66,3 100,0Válidos
Total 193 96,5 100,0
Perdidos Sistema 7 3,5
Total 200 100,0
En la muestra de 200 mujeres no detectamos errores en sus valores (sí/ no). De las 200
mujeres 7 carecen de información de esta variable y de las 193 restante, el 33,7% (65/193) son
diabéticas y el 66,3% (128/193) no lo son. El diagrama de sectores representa estos datos.
4. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
4
b) Las variables numéricas se describen mediante un conjunto de medidas denominadas de
distribución de frecuencias y se clasifican de la siguiente forma:
Medidas de centralización. Los estadísticos que describen la localización de la distribución,
incluyen: media, mediana, moda de todos los valores.
La media aritmética: suma de todas las observaciones de una variable dividida entre el número
de valores válidos.
La mediana: valor que divide a la distribución de los datos en dos partes iguales (50% de los
valores menores que la mediana y 50% de los valores mayores).
La moda: valor de frecuencia máxima. Puede haber más de una moda. Salvo la moda, las otras
medidas no se pueden calcular para información cualitativas.
Valores percentiles. Son los valores de una variable cuantitativa que dividen los datos
ordenados en grupos, de forma que un porcentaje de los casos se encuentre por encima y otro
porcentaje se encuentre por debajo. Los cuartiles (percentiles 25, 50 y 75) dividen las
observaciones en cuatro grupos de igual tamaño. Si deseamos un número grupos distinto de
cuatro, seleccionamos Puntos de corte para n grupos iguales. También se pueden especificar
percentiles individuales (por ejemplo, el percentil 95, el valor por debajo del cual se encuentran
el 95% de las observaciones).
Dispersión. Los estadísticos que miden la cantidad de variación o de discrepancia en los
datos, incluyen: desviación típica, varianza, rango, rango intercuartílico, etc.
Forma. Asimetría y curtosis son estadísticos que describen la forma y la simetría de la
distribución. Estos estadísticos se muestran con sus errores típicos.
La exploración de datos es el primer paso en el análisis de una variable numérica ya que
servirá para inspeccionar los datos, identificando valores erróneos o extremos que afectarán a
los resultados. SPSS incorpora un procedimiento denominado “Explorar” que nos permite
obtener descripciones, comprobar hipótesis y caracterizar diferencias entre subpoblaciones
(subgrupos de casos).
Analizar/ Estadísticos descriptivos/ Explorar…
Dependientes: Se incluirán todas la/s variable/s numérica/s que se han elegido para el análisis
(p.e. el grosor del pliegue cutáneo en tríceps).
Factores: Identifica a la/s variable/s que dividirán a la muestra original en grupos de casos,
realizándose análisis separados para cada uno de ellos. La/s variable/s que se incluyen como
Centralización
Media, Mediana y Moda
Posición
Percentiles
Dispersión
Rango, rango intercuartílico
Varianza, desv. típica,
Coeficiente de Variación
Forma
Asimetría
Curtosis
Medidas de Distribución de frecuencias
5. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
5
factores serán variables cualitativas o de cadena (p.e la paridad), o bien variables numéricas
previamente categorizadas. Si selecciona más de una variable de factor, se generarán por
separado los resúmenes para cada variable dependiente en cada variable de factor.
El botón nos lleva al subcuadro de diálogo, en el que podremos seleccionar
algunos análisis estadísticos adicionales.
Descriptivos. Nos mostrará la media, la mediana, la moda, la media recortada al 5%, el error
típico, la varianza, la desviación típica, el mínimo, el máximo, la amplitud, la amplitud
intercuartil, la asimetría, el error típico de la asimetría, la curtosis y el error típico de la curtosis.
Estimadores robustos centrales. Obtendremos diversas medidas similares a la media, pero
en las cuales la contribución de cada observación en las mismas dependerá de la distancia de
dicha observación a un punto central.
Valores atípicos. Obtendremos información de los cinco valores mayores y los cinco menores
e identificará las líneas en las que están ubicados estos valores en el editor de datos.
Percentiles. Nos proporcionará los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
6. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
6
Resumen del procesamiento de los casos
28 100,0% 0 ,0% 28 100,0%
45 100,0% 0 ,0% 45 100,0%
127 100,0% 0 ,0% 127 100,0%
paridad
nulíparas
primíparas
multíparas
grosor del pliegue
cutáneo en triceps (mm)
N Porcentaje N Porcentaje N Porcentaje
Válidos Perdidos Total
Casos
Descriptivos
29,43 2,233
24,85
34,01
28,97
28,00
139,587
11,815
10
60
50
18
,554 ,441
,169 ,858
28,36 1,813
24,70
32,01
28,17
28,00
147,871
12,160
8
52
44
20
,289 ,354
-,893 ,695
29,47 1,032
27,43
31,51
29,06
30,00
135,219
11,628
7
99
92
14
1,570 ,215
8,779 ,427
Media
Límite inferior
Límite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Límite inferior
Límite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Límite inferior
Límite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
paridad
nulíparas
primíparas
multíparas
grosor del pliegue
cutáneo en triceps (mm)
Estadístico Error típ.
En los grupos nulíparas y primíparas la media junto con la desviación típica describirían
adecuadamente al grosor del pliegue, ya que el coeficiente de asimetría dividido entre su error
típico no supera al 2 en valor absoluto. No ocurre lo mismo en el grupo de multíparas
(Asimetría/Error típ = (1,570/0,215) >2) por lo que debe resumirse con la mediana junto con los
percentiles 25 y 75 de la tabla posterior.
7. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
7
Percentiles
11,80 10,30 12,00
14,00 12,00 15,00
18,50 18,50 22,00 19,00 19,00 22,00
28,00 28,00 30,00 28,00 28,00 30,00
36,50 38,00 36,00 36,00 36,00 36,00
46,00 46,80 42,20
53,70 50,00 45,60
Percentiles
5
10
25
50
75
90
95
nulíparas primíparas multíparas
paridad
nulíparas primíparas multíparas
paridad
grosor del pliegue cutáneo en triceps
(mm)
grosor del pliegue cutáneo en triceps
(mm)
Promedio ponderado(definición 1) Bisagras de Tukey
Los valores percentiles obtenidos mediante el “promedio ponderado (HAVERAGE)”,
proporciona el método clásico de obtención de percentiles. Los resultados también muestran
las bisagras de Tukey: una versión distinta de los clásicos cuartiles: la primera bisagra (similar
al cuartil primero) es el valor que ocupa la posición intermedia entre el valor más pequeño de la
muestra y la mediana, el segundo es la mediana y el tercero es el valor que ocupa la posición
intermedia entre la mediana y el valor mayor observado (son los valores usados para
representar el diagrama de cajas).
Valores extremos
95 60
49 46
188 46
91 45
3 43
125 10
183 14
93 14
27 17
16 17a
9 52
77 50
79 50
86 48
158 46
11 8
18 10
80 11
97 12
64 12
185 99
177 49
199 49
165 48
149 46b
138 7
69 11
40 11
166 12
113 12c
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Mayores
Menores
Mayores
Menores
Mayores
Menores
paridad
nulíparas
primíparas
multíparas
grosor del pliegue
cutáneo en triceps (mm)
Número
del caso Valor
En la tabla de valores extremos menores sólo se muestra una lista parcial de
los casos con el valor 17.
a.
En la tabla de valores extremos mayores sólo se muestra una lista parcial de
los casos con el valor 46.
b.
En la tabla de valores extremos menores sólo se muestra una lista parcial de
los casos con el valor 12.
c.
8. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
8
Obtenemos los cinco valores mayores y los cinco menores del grosor en cada uno de los
grupos de paridad. Siempre debemos chequear valores sospechosos para asegurarnos de que
no son resultado de errores de registro o entrada de ellos. Si los valores fueron errores se
podrían modificar. Si los valores atípicos fueran correctos, debemos seleccionar medidas
descriptivas no afectadas por ellos (mediana, media truncada, etc. ).
El botón proporciona varios procedimientos gráficos para resumir la información
Histograma. Una representación gráfica dibujada en un sistema de ejes de coordenadas,
formada por un conjunto de rectángulos yuxtapuestos cuyas bases son las amplitudes de los
intervalos en los que se han agrupado los datos, y la altura de cada rectángulo es el porcentaje
de datos en cada intervalo.
9. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
9
Diagramas de caja. Es una representación gráfica útil para visualizar la distribución de una
variable numérica. Representa simultáneamente la mediana, los percentiles 25 y 75 (en
realidad son las bisagras de Tukey), y una serie de valores (atípicos y extremos) que
proporcionan información bastante completa sobre, entre otras cosas, el grado de dispersión y
el grado de asimetría de los datos en cada en cada grupo (si hay variable factor). Es una
representación gráfica más compacta que un histograma, pero no ofrece una información tan
detallada como él.
Las alternativas controlan la presentación de los diagramas de caja cuando existe más de una
variable dependiente: “Niveles de los factores juntos” genera una representación para cada
variable dependiente, en cada una, se muestran diagramas de caja para cada uno de los
grupos definidos por una variable de factor. “Dependientes juntas” genera una representación
para cada grupo definido por una variable de factor, en cada una, se muestran juntos los
diagramas de caja de todas las variables dependientes. Esta disposición es particularmente útil
cuando las variables representan una misma característica medida en momentos distintos.
10. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
10
Gráficos con pruebas de normalidad. Esta opción gráfica muestra los diagramas de
probabilidad normal y de probabilidad sin tendencia. Asimismo, obtiene el estadístico de
Kolmogorov-Smirnov y el estadístico de Shapiro_Wilk (sólo válido para muestras con 50 o
menos observaciones) contrastar la normalidad, previamente a la realización de algunas
técnicas inferenciales (se verá posteriormente).
Valores perdidos. El botón Opciones controla el tratamiento de los valores
perdidos
• Excluir casos según lista (homogeneizar recursos). Los casos con valores
perdidos para cualquier variable de factor o variable dependiente incluidas en el cuadro
de diálogo, se excluyen de todos los análisis. Éste es el valor por defecto.
• Excluir casos según pareja (maximizar recursos). Los casos que no tengan valores
perdidos para las variables incluidas en el análisis actual se incluyen en dicho análisis.
El caso puede tener valores perdidos para las variables utilizadas en otros análisis.
• Mostrar los valores. Los valores perdidos para las variables de factor se tratan como
una categoría diferente. Todos los resultados se generan para esta categoría adicional.
Percentil 25 y 75
Valor extremo
Los bigotes se extienden
hasta el valor menor y
mayor observados dentro
de 1,5 veces la longitud
vertical de la caja
Mediana
11. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
11
Las tablas de frecuencias incluyen categorías para los valores perdidos. Los valores
perdidos para una variable de factor se incluyen.
SPSS dispone también otros procedimientos en los que podemos realizar análisis descriptivos
de variables numéricas tal como “Frecuencias”, “descriptiva”, “razón”, etc.