SlideShare una empresa de Scribd logo
1 de 11
Descargar para leer sin conexión
ESTADÍSTICA DESCRIPTIVA
Ana Fernández Palacín
Departamento de Medicina Preventiva y Salud Pública
Universidad de Sevilla
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
2
EXPLORACIÓN DE DATOS
1.- Introducción.
La fase preliminar de cualquier estudio estadístico es la recogida y ordenación de los datos. El
conjunto de procedimientos necesarios para recoger, tabular, representar y resumir el conjunto
de datos de interés se conoce con el nombre de “Estadística Descriptiva”. Mediante estas
técnicas podremos inspeccionar los datos, identificar valores atípicos (outliers), describir los
datos, etc.
2.- Tipos de datos.
Lo usual es distinguir entre dos tipos de datos: cuantitativos y cualitativos, según que la
característica en estudio sea o no medible.
Se dice que un dato es de tipo cualitativo cuando no se observa numéricamente (sexo, raza
estado civil, etc.). A éste tipo de datos se les denomina también atributos, datos categóricos
o datos nominales. Los atributos no se pueden medir o expresar mediante números
(¡Cuidado!, a veces se usan sistemas de codificación numérica para este tipo de datos). Cada
uno de las categorías o de los resultados posibles de un atributo es una modalidad. Cuando
un dato cualitativo sólo tiene dos categorías posibles se le denomina dicotómico (si/ no, varón/
hembra, etc.). Cuando una información de tipo cualitativo se puede ordenar se denomina
ordinal.
Los datos de tipo cuantitativos son aquellos que requieren una expresión numérica para su
medición (edad, nivel de glucosa en sangre, número de hijos, etc.). Hablamos entonces de
variables. Los datos cuantitativos pueden ser a su vez de dos tipos: discretos y continuos.
Los discretos son aquellos que toman un número limitado de valores de forma que entre dos
valores consecutivos no hay ningún valor intermedio (número de latidos por minuto, número de
dientes cariados, etc.), mientras que los datos cuantitativos continuos son los que pueden
tomar infinitos valores, de manera que entre dos valores consecutivos siempre existe un valor
intermedio de la característica en estudio (nivel de colesterol en sangre, temperatura, edad,
etc.).
3.- Exploración y análisis descriptivo de los datos.
a) Los datos de tipo cualitativos (nominal y ordinal) se resumen mediante frecuencias absolutas
o recuentos y porcentajes. Esta información numérica puede ser complementada mediante
alguna representación gráfica como, entre otras, el diagrama de sectores. El procedimiento
Frecuencias de SPSS proporciona dicha información numérica y gráficos. Las tablas de
frecuencias obtenidas a partir de este procedimiento nos servirán también para explorar los
datos e identificar posibles errores de trascripción o registro de ellos.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
3
Estadística/ Resumir/ Frecuencias
diagnóstico de diabetes
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
si 65 32,5 33,7 33,7
no 128 64,0 66,3 100,0Válidos
Total 193 96,5 100,0
Perdidos Sistema 7 3,5
Total 200 100,0
En la muestra de 200 mujeres no detectamos errores en sus valores (sí/ no). De las 200
mujeres 7 carecen de información de esta variable y de las 193 restante, el 33,7% (65/193) son
diabéticas y el 66,3% (128/193) no lo son. El diagrama de sectores representa estos datos.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
4
b) Las variables numéricas se describen mediante un conjunto de medidas denominadas de
distribución de frecuencias y se clasifican de la siguiente forma:
Medidas de centralización. Los estadísticos que describen la localización de la distribución,
incluyen: media, mediana, moda de todos los valores.
La media aritmética: suma de todas las observaciones de una variable dividida entre el número
de valores válidos.
La mediana: valor que divide a la distribución de los datos en dos partes iguales (50% de los
valores menores que la mediana y 50% de los valores mayores).
La moda: valor de frecuencia máxima. Puede haber más de una moda. Salvo la moda, las otras
medidas no se pueden calcular para información cualitativas.
Valores percentiles. Son los valores de una variable cuantitativa que dividen los datos
ordenados en grupos, de forma que un porcentaje de los casos se encuentre por encima y otro
porcentaje se encuentre por debajo. Los cuartiles (percentiles 25, 50 y 75) dividen las
observaciones en cuatro grupos de igual tamaño. Si deseamos un número grupos distinto de
cuatro, seleccionamos Puntos de corte para n grupos iguales. También se pueden especificar
percentiles individuales (por ejemplo, el percentil 95, el valor por debajo del cual se encuentran
el 95% de las observaciones).
Dispersión. Los estadísticos que miden la cantidad de variación o de discrepancia en los
datos, incluyen: desviación típica, varianza, rango, rango intercuartílico, etc.
Forma. Asimetría y curtosis son estadísticos que describen la forma y la simetría de la
distribución. Estos estadísticos se muestran con sus errores típicos.
La exploración de datos es el primer paso en el análisis de una variable numérica ya que
servirá para inspeccionar los datos, identificando valores erróneos o extremos que afectarán a
los resultados. SPSS incorpora un procedimiento denominado “Explorar” que nos permite
obtener descripciones, comprobar hipótesis y caracterizar diferencias entre subpoblaciones
(subgrupos de casos).
Analizar/ Estadísticos descriptivos/ Explorar…
Dependientes: Se incluirán todas la/s variable/s numérica/s que se han elegido para el análisis
(p.e. el grosor del pliegue cutáneo en tríceps).
Factores: Identifica a la/s variable/s que dividirán a la muestra original en grupos de casos,
realizándose análisis separados para cada uno de ellos. La/s variable/s que se incluyen como
Centralización
Media, Mediana y Moda
Posición
Percentiles
Dispersión
Rango, rango intercuartílico
Varianza, desv. típica,
Coeficiente de Variación
Forma
Asimetría
Curtosis
Medidas de Distribución de frecuencias
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
5
factores serán variables cualitativas o de cadena (p.e la paridad), o bien variables numéricas
previamente categorizadas. Si selecciona más de una variable de factor, se generarán por
separado los resúmenes para cada variable dependiente en cada variable de factor.
El botón nos lleva al subcuadro de diálogo, en el que podremos seleccionar
algunos análisis estadísticos adicionales.
Descriptivos. Nos mostrará la media, la mediana, la moda, la media recortada al 5%, el error
típico, la varianza, la desviación típica, el mínimo, el máximo, la amplitud, la amplitud
intercuartil, la asimetría, el error típico de la asimetría, la curtosis y el error típico de la curtosis.
Estimadores robustos centrales. Obtendremos diversas medidas similares a la media, pero
en las cuales la contribución de cada observación en las mismas dependerá de la distancia de
dicha observación a un punto central.
Valores atípicos. Obtendremos información de los cinco valores mayores y los cinco menores
e identificará las líneas en las que están ubicados estos valores en el editor de datos.
Percentiles. Nos proporcionará los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
6
Resumen del procesamiento de los casos
28 100,0% 0 ,0% 28 100,0%
45 100,0% 0 ,0% 45 100,0%
127 100,0% 0 ,0% 127 100,0%
paridad
nulíparas
primíparas
multíparas
grosor del pliegue
cutáneo en triceps (mm)
N Porcentaje N Porcentaje N Porcentaje
Válidos Perdidos Total
Casos
Descriptivos
29,43 2,233
24,85
34,01
28,97
28,00
139,587
11,815
10
60
50
18
,554 ,441
,169 ,858
28,36 1,813
24,70
32,01
28,17
28,00
147,871
12,160
8
52
44
20
,289 ,354
-,893 ,695
29,47 1,032
27,43
31,51
29,06
30,00
135,219
11,628
7
99
92
14
1,570 ,215
8,779 ,427
Media
Límite inferior
Límite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Límite inferior
Límite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Límite inferior
Límite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
paridad
nulíparas
primíparas
multíparas
grosor del pliegue
cutáneo en triceps (mm)
Estadístico Error típ.
En los grupos nulíparas y primíparas la media junto con la desviación típica describirían
adecuadamente al grosor del pliegue, ya que el coeficiente de asimetría dividido entre su error
típico no supera al 2 en valor absoluto. No ocurre lo mismo en el grupo de multíparas
(Asimetría/Error típ = (1,570/0,215) >2) por lo que debe resumirse con la mediana junto con los
percentiles 25 y 75 de la tabla posterior.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
7
Percentiles
11,80 10,30 12,00
14,00 12,00 15,00
18,50 18,50 22,00 19,00 19,00 22,00
28,00 28,00 30,00 28,00 28,00 30,00
36,50 38,00 36,00 36,00 36,00 36,00
46,00 46,80 42,20
53,70 50,00 45,60
Percentiles
5
10
25
50
75
90
95
nulíparas primíparas multíparas
paridad
nulíparas primíparas multíparas
paridad
grosor del pliegue cutáneo en triceps
(mm)
grosor del pliegue cutáneo en triceps
(mm)
Promedio ponderado(definición 1) Bisagras de Tukey
Los valores percentiles obtenidos mediante el “promedio ponderado (HAVERAGE)”,
proporciona el método clásico de obtención de percentiles. Los resultados también muestran
las bisagras de Tukey: una versión distinta de los clásicos cuartiles: la primera bisagra (similar
al cuartil primero) es el valor que ocupa la posición intermedia entre el valor más pequeño de la
muestra y la mediana, el segundo es la mediana y el tercero es el valor que ocupa la posición
intermedia entre la mediana y el valor mayor observado (son los valores usados para
representar el diagrama de cajas).
Valores extremos
95 60
49 46
188 46
91 45
3 43
125 10
183 14
93 14
27 17
16 17a
9 52
77 50
79 50
86 48
158 46
11 8
18 10
80 11
97 12
64 12
185 99
177 49
199 49
165 48
149 46b
138 7
69 11
40 11
166 12
113 12c
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Mayores
Menores
Mayores
Menores
Mayores
Menores
paridad
nulíparas
primíparas
multíparas
grosor del pliegue
cutáneo en triceps (mm)
Número
del caso Valor
En la tabla de valores extremos menores sólo se muestra una lista parcial de
los casos con el valor 17.
a.
En la tabla de valores extremos mayores sólo se muestra una lista parcial de
los casos con el valor 46.
b.
En la tabla de valores extremos menores sólo se muestra una lista parcial de
los casos con el valor 12.
c.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
8
Obtenemos los cinco valores mayores y los cinco menores del grosor en cada uno de los
grupos de paridad. Siempre debemos chequear valores sospechosos para asegurarnos de que
no son resultado de errores de registro o entrada de ellos. Si los valores fueron errores se
podrían modificar. Si los valores atípicos fueran correctos, debemos seleccionar medidas
descriptivas no afectadas por ellos (mediana, media truncada, etc. ).
El botón proporciona varios procedimientos gráficos para resumir la información
Histograma. Una representación gráfica dibujada en un sistema de ejes de coordenadas,
formada por un conjunto de rectángulos yuxtapuestos cuyas bases son las amplitudes de los
intervalos en los que se han agrupado los datos, y la altura de cada rectángulo es el porcentaje
de datos en cada intervalo.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
9
Diagramas de caja. Es una representación gráfica útil para visualizar la distribución de una
variable numérica. Representa simultáneamente la mediana, los percentiles 25 y 75 (en
realidad son las bisagras de Tukey), y una serie de valores (atípicos y extremos) que
proporcionan información bastante completa sobre, entre otras cosas, el grado de dispersión y
el grado de asimetría de los datos en cada en cada grupo (si hay variable factor). Es una
representación gráfica más compacta que un histograma, pero no ofrece una información tan
detallada como él.
Las alternativas controlan la presentación de los diagramas de caja cuando existe más de una
variable dependiente: “Niveles de los factores juntos” genera una representación para cada
variable dependiente, en cada una, se muestran diagramas de caja para cada uno de los
grupos definidos por una variable de factor. “Dependientes juntas” genera una representación
para cada grupo definido por una variable de factor, en cada una, se muestran juntos los
diagramas de caja de todas las variables dependientes. Esta disposición es particularmente útil
cuando las variables representan una misma característica medida en momentos distintos.
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
10
Gráficos con pruebas de normalidad. Esta opción gráfica muestra los diagramas de
probabilidad normal y de probabilidad sin tendencia. Asimismo, obtiene el estadístico de
Kolmogorov-Smirnov y el estadístico de Shapiro_Wilk (sólo válido para muestras con 50 o
menos observaciones) contrastar la normalidad, previamente a la realización de algunas
técnicas inferenciales (se verá posteriormente).
Valores perdidos. El botón Opciones controla el tratamiento de los valores
perdidos
• Excluir casos según lista (homogeneizar recursos). Los casos con valores
perdidos para cualquier variable de factor o variable dependiente incluidas en el cuadro
de diálogo, se excluyen de todos los análisis. Éste es el valor por defecto.
• Excluir casos según pareja (maximizar recursos). Los casos que no tengan valores
perdidos para las variables incluidas en el análisis actual se incluyen en dicho análisis.
El caso puede tener valores perdidos para las variables utilizadas en otros análisis.
• Mostrar los valores. Los valores perdidos para las variables de factor se tratan como
una categoría diferente. Todos los resultados se generan para esta categoría adicional.
Percentil 25 y 75
Valor extremo
Los bigotes se extienden
hasta el valor menor y
mayor observados dentro
de 1,5 veces la longitud
vertical de la caja
Mediana
Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla
Ana Fernández Palacín
11
Las tablas de frecuencias incluyen categorías para los valores perdidos. Los valores
perdidos para una variable de factor se incluyen.
SPSS dispone también otros procedimientos en los que podemos realizar análisis descriptivos
de variables numéricas tal como “Frecuencias”, “descriptiva”, “razón”, etc.

Más contenido relacionado

La actualidad más candente

Tabulación y presentación de datos
Tabulación y presentación de datosTabulación y presentación de datos
Tabulación y presentación de datosYastech
 
Graficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la InformaciónGraficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la Informacióneradio2508
 
Conf. 1. potencia estadística y tamaños de muestra
Conf. 1. potencia estadística y tamaños de muestraConf. 1. potencia estadística y tamaños de muestra
Conf. 1. potencia estadística y tamaños de muestraJamil Ramón
 
Presentación de artículos sobre errores estadísticos frecuentes en publicaci...
Presentación de artículos sobre errores  estadísticos frecuentes en publicaci...Presentación de artículos sobre errores  estadísticos frecuentes en publicaci...
Presentación de artículos sobre errores estadísticos frecuentes en publicaci...Diana Cuesta
 
terminos basicos de la estadistica
terminos basicos de la estadisticaterminos basicos de la estadistica
terminos basicos de la estadisticasoaric
 
Introducción al Muestreo.ppt
Introducción al Muestreo.pptIntroducción al Muestreo.ppt
Introducción al Muestreo.pptFerly Urday Luna
 
Prueba t de student para datos relacionados
Prueba t de student para datos relacionadosPrueba t de student para datos relacionados
Prueba t de student para datos relacionadosnicanor cachi ramos
 
Estadigrafos centrales y de dispersion
Estadigrafos centrales y de dispersionEstadigrafos centrales y de dispersion
Estadigrafos centrales y de dispersionYerko Bravo
 

La actualidad más candente (15)

Tabulación y presentación de datos
Tabulación y presentación de datosTabulación y presentación de datos
Tabulación y presentación de datos
 
Graficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la InformaciónGraficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la Información
 
Primer Examen Parcial de Estadistica Aplicadax
Primer Examen Parcial de Estadistica AplicadaxPrimer Examen Parcial de Estadistica Aplicadax
Primer Examen Parcial de Estadistica Aplicadax
 
Estadistica02 2009
Estadistica02 2009Estadistica02 2009
Estadistica02 2009
 
Conf. 1. potencia estadística y tamaños de muestra
Conf. 1. potencia estadística y tamaños de muestraConf. 1. potencia estadística y tamaños de muestra
Conf. 1. potencia estadística y tamaños de muestra
 
Resumen Medidas de Variabilidad
Resumen Medidas de VariabilidadResumen Medidas de Variabilidad
Resumen Medidas de Variabilidad
 
Presentación de artículos sobre errores estadísticos frecuentes en publicaci...
Presentación de artículos sobre errores  estadísticos frecuentes en publicaci...Presentación de artículos sobre errores  estadísticos frecuentes en publicaci...
Presentación de artículos sobre errores estadísticos frecuentes en publicaci...
 
terminos basicos de la estadistica
terminos basicos de la estadisticaterminos basicos de la estadistica
terminos basicos de la estadistica
 
Tipos de graficos
Tipos de graficosTipos de graficos
Tipos de graficos
 
Clase 6
Clase 6Clase 6
Clase 6
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Introducción al Muestreo.ppt
Introducción al Muestreo.pptIntroducción al Muestreo.ppt
Introducción al Muestreo.ppt
 
Prueba t de student para datos relacionados
Prueba t de student para datos relacionadosPrueba t de student para datos relacionados
Prueba t de student para datos relacionados
 
Graficas estadisticas
Graficas estadisticasGraficas estadisticas
Graficas estadisticas
 
Estadigrafos centrales y de dispersion
Estadigrafos centrales y de dispersionEstadigrafos centrales y de dispersion
Estadigrafos centrales y de dispersion
 

Similar a Estadística descriptiva (20)

Clase10 analisisdedatos
Clase10 analisisdedatosClase10 analisisdedatos
Clase10 analisisdedatos
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativos
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
diapositivas de estadistica.ppt
diapositivas de estadistica.pptdiapositivas de estadistica.ppt
diapositivas de estadistica.ppt
 
Distribuición, prevalencia, medidores de la salud
Distribuición, prevalencia, medidores de la saludDistribuición, prevalencia, medidores de la salud
Distribuición, prevalencia, medidores de la salud
 
ESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA
ESTADÍSTICA BÁSICA
 
Taller de estadistica
Taller de estadisticaTaller de estadistica
Taller de estadistica
 
Generalidades de bioestadística
Generalidades de bioestadística  Generalidades de bioestadística
Generalidades de bioestadística
 
Generalidades de bioestadística variables
Generalidades de bioestadística  variablesGeneralidades de bioestadística  variables
Generalidades de bioestadística variables
 
Trabajo tecnologia
Trabajo tecnologiaTrabajo tecnologia
Trabajo tecnologia
 
Estadistica y estadistica
Estadistica y estadisticaEstadistica y estadistica
Estadistica y estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Epidemiología (epidemiometria)
Epidemiología (epidemiometria)Epidemiología (epidemiometria)
Epidemiología (epidemiometria)
 
Descriptiva
DescriptivaDescriptiva
Descriptiva
 
Datos no Agrupados.pdf
Datos no Agrupados.pdfDatos no Agrupados.pdf
Datos no Agrupados.pdf
 

Último

Requisitos para el nuevo Prospecto_Eiwias_2024-2.pdf
Requisitos para el nuevo Prospecto_Eiwias_2024-2.pdfRequisitos para el nuevo Prospecto_Eiwias_2024-2.pdf
Requisitos para el nuevo Prospecto_Eiwias_2024-2.pdfEdgarEstrada71
 
362808047-Comite-de-Convivencia-Laboral-Sura.pptx
362808047-Comite-de-Convivencia-Laboral-Sura.pptx362808047-Comite-de-Convivencia-Laboral-Sura.pptx
362808047-Comite-de-Convivencia-Laboral-Sura.pptxjulio916372
 
Act_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdf
Act_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdfAct_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdf
Act_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdfPsiclogaRosiFernndez
 
Instrucciones sobre Temarios_Eiwias_2024.pdf
Instrucciones sobre Temarios_Eiwias_2024.pdfInstrucciones sobre Temarios_Eiwias_2024.pdf
Instrucciones sobre Temarios_Eiwias_2024.pdfEdgarEstrada71
 
3.2 Presentación sobre la comunicación.
3.2 Presentación sobre la comunicación.3.2 Presentación sobre la comunicación.
3.2 Presentación sobre la comunicación.pauvlds01
 
Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...
Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...
Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...PerlaRodrguez27
 
Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...
Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...
Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...ClementeEricHernndez
 
Documento sobre los Temarios_Esmil_2024.pdf
Documento sobre los Temarios_Esmil_2024.pdfDocumento sobre los Temarios_Esmil_2024.pdf
Documento sobre los Temarios_Esmil_2024.pdfEdgarEstrada71
 

Último (8)

Requisitos para el nuevo Prospecto_Eiwias_2024-2.pdf
Requisitos para el nuevo Prospecto_Eiwias_2024-2.pdfRequisitos para el nuevo Prospecto_Eiwias_2024-2.pdf
Requisitos para el nuevo Prospecto_Eiwias_2024-2.pdf
 
362808047-Comite-de-Convivencia-Laboral-Sura.pptx
362808047-Comite-de-Convivencia-Laboral-Sura.pptx362808047-Comite-de-Convivencia-Laboral-Sura.pptx
362808047-Comite-de-Convivencia-Laboral-Sura.pptx
 
Act_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdf
Act_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdfAct_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdf
Act_3.2_Ramirez_Castro_Palomino_Ibarra_y_Fernandez_Morales_Presentación.pdf
 
Instrucciones sobre Temarios_Eiwias_2024.pdf
Instrucciones sobre Temarios_Eiwias_2024.pdfInstrucciones sobre Temarios_Eiwias_2024.pdf
Instrucciones sobre Temarios_Eiwias_2024.pdf
 
3.2 Presentación sobre la comunicación.
3.2 Presentación sobre la comunicación.3.2 Presentación sobre la comunicación.
3.2 Presentación sobre la comunicación.
 
Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...
Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...
Act_3.2_FernandezIzquerrdo_MartinezMillet_RodriguezCarmona_InvestigacionenRec...
 
Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...
Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...
Act_3.2_Rodríguez_Torruco_Hernández_Sánchez_Investigación bibliográfica y hem...
 
Documento sobre los Temarios_Esmil_2024.pdf
Documento sobre los Temarios_Esmil_2024.pdfDocumento sobre los Temarios_Esmil_2024.pdf
Documento sobre los Temarios_Esmil_2024.pdf
 

Estadística descriptiva

  • 1. ESTADÍSTICA DESCRIPTIVA Ana Fernández Palacín Departamento de Medicina Preventiva y Salud Pública Universidad de Sevilla
  • 2. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 2 EXPLORACIÓN DE DATOS 1.- Introducción. La fase preliminar de cualquier estudio estadístico es la recogida y ordenación de los datos. El conjunto de procedimientos necesarios para recoger, tabular, representar y resumir el conjunto de datos de interés se conoce con el nombre de “Estadística Descriptiva”. Mediante estas técnicas podremos inspeccionar los datos, identificar valores atípicos (outliers), describir los datos, etc. 2.- Tipos de datos. Lo usual es distinguir entre dos tipos de datos: cuantitativos y cualitativos, según que la característica en estudio sea o no medible. Se dice que un dato es de tipo cualitativo cuando no se observa numéricamente (sexo, raza estado civil, etc.). A éste tipo de datos se les denomina también atributos, datos categóricos o datos nominales. Los atributos no se pueden medir o expresar mediante números (¡Cuidado!, a veces se usan sistemas de codificación numérica para este tipo de datos). Cada uno de las categorías o de los resultados posibles de un atributo es una modalidad. Cuando un dato cualitativo sólo tiene dos categorías posibles se le denomina dicotómico (si/ no, varón/ hembra, etc.). Cuando una información de tipo cualitativo se puede ordenar se denomina ordinal. Los datos de tipo cuantitativos son aquellos que requieren una expresión numérica para su medición (edad, nivel de glucosa en sangre, número de hijos, etc.). Hablamos entonces de variables. Los datos cuantitativos pueden ser a su vez de dos tipos: discretos y continuos. Los discretos son aquellos que toman un número limitado de valores de forma que entre dos valores consecutivos no hay ningún valor intermedio (número de latidos por minuto, número de dientes cariados, etc.), mientras que los datos cuantitativos continuos son los que pueden tomar infinitos valores, de manera que entre dos valores consecutivos siempre existe un valor intermedio de la característica en estudio (nivel de colesterol en sangre, temperatura, edad, etc.). 3.- Exploración y análisis descriptivo de los datos. a) Los datos de tipo cualitativos (nominal y ordinal) se resumen mediante frecuencias absolutas o recuentos y porcentajes. Esta información numérica puede ser complementada mediante alguna representación gráfica como, entre otras, el diagrama de sectores. El procedimiento Frecuencias de SPSS proporciona dicha información numérica y gráficos. Las tablas de frecuencias obtenidas a partir de este procedimiento nos servirán también para explorar los datos e identificar posibles errores de trascripción o registro de ellos.
  • 3. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 3 Estadística/ Resumir/ Frecuencias diagnóstico de diabetes Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado si 65 32,5 33,7 33,7 no 128 64,0 66,3 100,0Válidos Total 193 96,5 100,0 Perdidos Sistema 7 3,5 Total 200 100,0 En la muestra de 200 mujeres no detectamos errores en sus valores (sí/ no). De las 200 mujeres 7 carecen de información de esta variable y de las 193 restante, el 33,7% (65/193) son diabéticas y el 66,3% (128/193) no lo son. El diagrama de sectores representa estos datos.
  • 4. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 4 b) Las variables numéricas se describen mediante un conjunto de medidas denominadas de distribución de frecuencias y se clasifican de la siguiente forma: Medidas de centralización. Los estadísticos que describen la localización de la distribución, incluyen: media, mediana, moda de todos los valores. La media aritmética: suma de todas las observaciones de una variable dividida entre el número de valores válidos. La mediana: valor que divide a la distribución de los datos en dos partes iguales (50% de los valores menores que la mediana y 50% de los valores mayores). La moda: valor de frecuencia máxima. Puede haber más de una moda. Salvo la moda, las otras medidas no se pueden calcular para información cualitativas. Valores percentiles. Son los valores de una variable cuantitativa que dividen los datos ordenados en grupos, de forma que un porcentaje de los casos se encuentre por encima y otro porcentaje se encuentre por debajo. Los cuartiles (percentiles 25, 50 y 75) dividen las observaciones en cuatro grupos de igual tamaño. Si deseamos un número grupos distinto de cuatro, seleccionamos Puntos de corte para n grupos iguales. También se pueden especificar percentiles individuales (por ejemplo, el percentil 95, el valor por debajo del cual se encuentran el 95% de las observaciones). Dispersión. Los estadísticos que miden la cantidad de variación o de discrepancia en los datos, incluyen: desviación típica, varianza, rango, rango intercuartílico, etc. Forma. Asimetría y curtosis son estadísticos que describen la forma y la simetría de la distribución. Estos estadísticos se muestran con sus errores típicos. La exploración de datos es el primer paso en el análisis de una variable numérica ya que servirá para inspeccionar los datos, identificando valores erróneos o extremos que afectarán a los resultados. SPSS incorpora un procedimiento denominado “Explorar” que nos permite obtener descripciones, comprobar hipótesis y caracterizar diferencias entre subpoblaciones (subgrupos de casos). Analizar/ Estadísticos descriptivos/ Explorar… Dependientes: Se incluirán todas la/s variable/s numérica/s que se han elegido para el análisis (p.e. el grosor del pliegue cutáneo en tríceps). Factores: Identifica a la/s variable/s que dividirán a la muestra original en grupos de casos, realizándose análisis separados para cada uno de ellos. La/s variable/s que se incluyen como Centralización Media, Mediana y Moda Posición Percentiles Dispersión Rango, rango intercuartílico Varianza, desv. típica, Coeficiente de Variación Forma Asimetría Curtosis Medidas de Distribución de frecuencias
  • 5. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 5 factores serán variables cualitativas o de cadena (p.e la paridad), o bien variables numéricas previamente categorizadas. Si selecciona más de una variable de factor, se generarán por separado los resúmenes para cada variable dependiente en cada variable de factor. El botón nos lleva al subcuadro de diálogo, en el que podremos seleccionar algunos análisis estadísticos adicionales. Descriptivos. Nos mostrará la media, la mediana, la moda, la media recortada al 5%, el error típico, la varianza, la desviación típica, el mínimo, el máximo, la amplitud, la amplitud intercuartil, la asimetría, el error típico de la asimetría, la curtosis y el error típico de la curtosis. Estimadores robustos centrales. Obtendremos diversas medidas similares a la media, pero en las cuales la contribución de cada observación en las mismas dependerá de la distancia de dicha observación a un punto central. Valores atípicos. Obtendremos información de los cinco valores mayores y los cinco menores e identificará las líneas en las que están ubicados estos valores en el editor de datos. Percentiles. Nos proporcionará los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
  • 6. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 6 Resumen del procesamiento de los casos 28 100,0% 0 ,0% 28 100,0% 45 100,0% 0 ,0% 45 100,0% 127 100,0% 0 ,0% 127 100,0% paridad nulíparas primíparas multíparas grosor del pliegue cutáneo en triceps (mm) N Porcentaje N Porcentaje N Porcentaje Válidos Perdidos Total Casos Descriptivos 29,43 2,233 24,85 34,01 28,97 28,00 139,587 11,815 10 60 50 18 ,554 ,441 ,169 ,858 28,36 1,813 24,70 32,01 28,17 28,00 147,871 12,160 8 52 44 20 ,289 ,354 -,893 ,695 29,47 1,032 27,43 31,51 29,06 30,00 135,219 11,628 7 99 92 14 1,570 ,215 8,779 ,427 Media Límite inferior Límite superior Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Media Límite inferior Límite superior Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Media Límite inferior Límite superior Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis paridad nulíparas primíparas multíparas grosor del pliegue cutáneo en triceps (mm) Estadístico Error típ. En los grupos nulíparas y primíparas la media junto con la desviación típica describirían adecuadamente al grosor del pliegue, ya que el coeficiente de asimetría dividido entre su error típico no supera al 2 en valor absoluto. No ocurre lo mismo en el grupo de multíparas (Asimetría/Error típ = (1,570/0,215) >2) por lo que debe resumirse con la mediana junto con los percentiles 25 y 75 de la tabla posterior.
  • 7. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 7 Percentiles 11,80 10,30 12,00 14,00 12,00 15,00 18,50 18,50 22,00 19,00 19,00 22,00 28,00 28,00 30,00 28,00 28,00 30,00 36,50 38,00 36,00 36,00 36,00 36,00 46,00 46,80 42,20 53,70 50,00 45,60 Percentiles 5 10 25 50 75 90 95 nulíparas primíparas multíparas paridad nulíparas primíparas multíparas paridad grosor del pliegue cutáneo en triceps (mm) grosor del pliegue cutáneo en triceps (mm) Promedio ponderado(definición 1) Bisagras de Tukey Los valores percentiles obtenidos mediante el “promedio ponderado (HAVERAGE)”, proporciona el método clásico de obtención de percentiles. Los resultados también muestran las bisagras de Tukey: una versión distinta de los clásicos cuartiles: la primera bisagra (similar al cuartil primero) es el valor que ocupa la posición intermedia entre el valor más pequeño de la muestra y la mediana, el segundo es la mediana y el tercero es el valor que ocupa la posición intermedia entre la mediana y el valor mayor observado (son los valores usados para representar el diagrama de cajas). Valores extremos 95 60 49 46 188 46 91 45 3 43 125 10 183 14 93 14 27 17 16 17a 9 52 77 50 79 50 86 48 158 46 11 8 18 10 80 11 97 12 64 12 185 99 177 49 199 49 165 48 149 46b 138 7 69 11 40 11 166 12 113 12c 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Mayores Menores Mayores Menores Mayores Menores paridad nulíparas primíparas multíparas grosor del pliegue cutáneo en triceps (mm) Número del caso Valor En la tabla de valores extremos menores sólo se muestra una lista parcial de los casos con el valor 17. a. En la tabla de valores extremos mayores sólo se muestra una lista parcial de los casos con el valor 46. b. En la tabla de valores extremos menores sólo se muestra una lista parcial de los casos con el valor 12. c.
  • 8. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 8 Obtenemos los cinco valores mayores y los cinco menores del grosor en cada uno de los grupos de paridad. Siempre debemos chequear valores sospechosos para asegurarnos de que no son resultado de errores de registro o entrada de ellos. Si los valores fueron errores se podrían modificar. Si los valores atípicos fueran correctos, debemos seleccionar medidas descriptivas no afectadas por ellos (mediana, media truncada, etc. ). El botón proporciona varios procedimientos gráficos para resumir la información Histograma. Una representación gráfica dibujada en un sistema de ejes de coordenadas, formada por un conjunto de rectángulos yuxtapuestos cuyas bases son las amplitudes de los intervalos en los que se han agrupado los datos, y la altura de cada rectángulo es el porcentaje de datos en cada intervalo.
  • 9. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 9 Diagramas de caja. Es una representación gráfica útil para visualizar la distribución de una variable numérica. Representa simultáneamente la mediana, los percentiles 25 y 75 (en realidad son las bisagras de Tukey), y una serie de valores (atípicos y extremos) que proporcionan información bastante completa sobre, entre otras cosas, el grado de dispersión y el grado de asimetría de los datos en cada en cada grupo (si hay variable factor). Es una representación gráfica más compacta que un histograma, pero no ofrece una información tan detallada como él. Las alternativas controlan la presentación de los diagramas de caja cuando existe más de una variable dependiente: “Niveles de los factores juntos” genera una representación para cada variable dependiente, en cada una, se muestran diagramas de caja para cada uno de los grupos definidos por una variable de factor. “Dependientes juntas” genera una representación para cada grupo definido por una variable de factor, en cada una, se muestran juntos los diagramas de caja de todas las variables dependientes. Esta disposición es particularmente útil cuando las variables representan una misma característica medida en momentos distintos.
  • 10. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 10 Gráficos con pruebas de normalidad. Esta opción gráfica muestra los diagramas de probabilidad normal y de probabilidad sin tendencia. Asimismo, obtiene el estadístico de Kolmogorov-Smirnov y el estadístico de Shapiro_Wilk (sólo válido para muestras con 50 o menos observaciones) contrastar la normalidad, previamente a la realización de algunas técnicas inferenciales (se verá posteriormente). Valores perdidos. El botón Opciones controla el tratamiento de los valores perdidos • Excluir casos según lista (homogeneizar recursos). Los casos con valores perdidos para cualquier variable de factor o variable dependiente incluidas en el cuadro de diálogo, se excluyen de todos los análisis. Éste es el valor por defecto. • Excluir casos según pareja (maximizar recursos). Los casos que no tengan valores perdidos para las variables incluidas en el análisis actual se incluyen en dicho análisis. El caso puede tener valores perdidos para las variables utilizadas en otros análisis. • Mostrar los valores. Los valores perdidos para las variables de factor se tratan como una categoría diferente. Todos los resultados se generan para esta categoría adicional. Percentil 25 y 75 Valor extremo Los bigotes se extienden hasta el valor menor y mayor observados dentro de 1,5 veces la longitud vertical de la caja Mediana
  • 11. Estadística descriptiva. Paquete SPSS para Windows Facultad de Medicina.Universidad de Sevilla Ana Fernández Palacín 11 Las tablas de frecuencias incluyen categorías para los valores perdidos. Los valores perdidos para una variable de factor se incluyen. SPSS dispone también otros procedimientos en los que podemos realizar análisis descriptivos de variables numéricas tal como “Frecuencias”, “descriptiva”, “razón”, etc.