Análisis de Datos Bioestadística Medidas de Resumen de datos Norman y Streiner: Bioestadística, Cap. 3, Descripción de los datos mediante números. 1996: 14.
Análisis de datos De acuerdo a tipo de variable: GRAFICARLOS. Decidir: Normalidad: Siga con el análisis. Valores anormales: Revisar ingreso de datos  Eliminar ? - Defina el criterio Transformarlos (log, raíz cuad, inverso, exp) Volver a evaluar / medir.
Medidas de Resumen n: número de observaciones Promedio o Media Mediana Moda Percentiles Desviación Estándar (DS) Error estándar de la media (SEM)
Promedio Sinónimo: media aritmética. Otras medias: media armónica, media geométrica. Media aritmética :  x i x = ------ n i
Media De una muestra: x  De una población :  
Resultados con Software estadístico (Systat)  CARIES N of cases 10 Minimum 5.000 Maximum 10.000 Mean 6.900 Standard Dev 1.792 Valores: 10         
Mediana Valor que deja la mitad de los individuos por debajo de él, y la otra mitad, por encima.
Moda Categoría con mayor frecuencia
Medidas de dispersión Hace referencia a como se agrupan los datos alrededor de la medida de centralización, generalmente la media. Rango: es la diferencia entre los valores extremos. Ej: Rango de la 3a. prueba grande de patología general: (6,1 - 2,7=3,4).
Recorrido intercuartil Se ordenan los datos y se dividen en cuatro partes iguales (cuartiles).    
Recorrido intercuartil: 50% se ubica en la zona central de los datos (gráfico de caja:  el ancho de la caja). Desviación media: Cuánto se aleja cada valor con respecto a la media? (x i  - x). Suma de las diferencias:   (x i - x). Suma de diferencias de cualquier conjunto de datos es igual a 0. NO DICE MUCHO.
Varianza Suma de desviaciones al cuadrado (se elimina de esa forma valores negativos), dividido por número de observaciones.  (x i  - x)  2  s 2 = ------------------------ N
Desviación Estándar  (x i  - x)  2     =     ------------------------ N  (x i  - x)  2  ds   =     ------------------------ n - 1 Población Muestra
Intervalo de confianza de un promedio (Confidence interval) Intervalo que incluye una serie de valores. Mean 5.469 95% CI Upper 5.652 95% CI Lower 5.287
DISTRIBUCIÓN NORMAL Forma de campana, también llamada distribución GAUSSIANA. La curva norma tiene algunas características, y es descrita por 1  1  - (x - u) 2  / 2  2   f(x) = - - - - - - - - -  =  - - - - - - - -  e   2  2  (2  2 )  1/2    =  3,1416  = des. st.  de la población u =  media de la población x =  abscisa (Valor de x) f(x)=  ordenada, altura de la curva corresp. al valor de x. e = 2,718...
Características de la curva normal Simétrica alrededor de la media (sesgo es 0, sesgo se refiere a la simetría de la curva). Se describe con u y  Área total bajo la curva es 1 Área en una zona dada será  <1 y  >0 Si se define un intervalo entre a y b el área de esa zona dará la probabilidad de observar un individuo en ese rango. ± 1    significa 68,27% ± 1.96    significa 95% La media, mediana y el modo tienen el mismo valor. Las colas cada vez se acercan más al eje x. Curtosis mide si la curva es mas o menos plana, o picuda.
CALCULO DEL ÁREA BAJO UNA CURVA NORMAL Si el área total es 1 (ó 100%), y la media es 0, para cualquier variable utilizando una escala standard Z podemos obtener la probabilidad de obtener un valor mayor o menor, o en un rango dado. Para calcular un área determinada bajo la curva de distribución normal los puntos de la variable  x  se convierten a la escala  z  y luego se utiliza la tabla de valores z adjunta.
Si por ejemplo, el promedio de caries, tiene un valor u y desviación stándard   o un determinado número de caries al valor en la escala z, se utiliza: z =  ( x - u )/   sea el valor x es un número especificado de unidades de desviación stándard de la población con media u. Por ejemplo si z = -1,25, el área izquierda de la curva es 0,1057 (0,5 - 0,3943), y a la derecha 1 - 0,1057 = 0,8943. Si hay que determinar un área de la curva y ya hemos calculado z, o sea tenemos: z =  0,25  área a la izq. es 0,5987 (0,0987 + 0,5) z = -1,25  área a la izq. es 0,1056 (0,5 - 0,3943) El área será : 0,5987 - 0,1056 = 0,4931
Valores tipificados Procedimiento que permite expresar cualquier valor inicial en términos de unidades de ds. Se denomina z.   (x - x)  z =  -----------   ds
Valor tipificado Permite trabajar con una tabla única de la distribución normal. Sirven para comparar valores procedents de varios tests o medidas.
Valores de z Area de la curva normal  DS  DS  DS
CARIES N of cases 10 Minimum 5.000 Maximum 10.000 Range 5.000 Sum 69.000 Median 6.500 Mean 6.900 95% CI Upper 8.182 95% CI Lower 5.618 Std. Error 0.567 Standard Dev 1.792 Variance 3.211 C.V. 0.260 Skewness(G1) 0.475 SE Skewness 0.687 Kurtosis(G2) -1.056 SE Kurtosis 1.334
Sesgo Si valor no es 0: dist es asimétrica Valor +: indica larga cola a la der. Valor -: indica larga cola a la izq. Skewness(G1) 0.024 Skewness(G1) -0.816
Curtosis  (kurtosis) Curva más o menos aplanada. Depende de cantidad de casos.  Entre más casos más picuda. Valor > 0: curva tiene cola más larga que una Dist N Kurtosis(G2) 1.590 Valor < 0: curva tiene zona más aplanada que una Dist N  Kurtosis(G2) -0.452
Teorema central del límite La distribución de medias de muestras será aproximadamente normal indiferente de la distribución de valores en la población original de donde fueron tomados los valores. El valor de la media de la colección de todos las posibles  medias será igual a la media de la población.
La DS de la media (error estándar de la media ESM) depende de la DS de la muestra y del tamaño de la muestra. Usted normalmete: no debe ocupar SEM ! SEM = ds  /   n Grupo  n  x±ds SEM B  76  27.2 ±4.6 0.5 C  93  27.9 ±4.0 0.4 D  9  14.9 ±4.6 1.5
Teorema central del límite Si la población está o no distribuída normalmente, el promedio de muestras grandes (n > 30) se distribuye de forma normal.
Distribución Normal DS:  Una DS: 68% de las observaciones. Dos DS: 95% de las observaciones. Tres DS: 99% de las observaciones. Altura de cualquier valor de x: 1 ------------- exp     x -  
Distribución Normal La población tiene distribución definida por una media de m y una desviación estándar de s. Normalmente se utiliza o analiza una muestra : x ± ds.
Propiedades de la curva normal Media, mediana y moda tienen el mismo valor. Curva es simétrica respecto de la media, sesgo es 0. La curtosis es 0. Las colas están cada vez más cerca al eje X pero sin tocarlo, curva asintótica.
GENERO  =  0   NOTA1 N of cases 49 Minimum 3.997 Maximum 6.77 Range 2.777 Sum 267.987 Median 5.487 Mean 5.469 95% CI Upper 5.652 95% CI Lower 5.287 Std. Error 0.091 Standard Dev 0.635 Variance 0.404 C.V. 0.116 Skewness(G1) 0.024 SE Skewness 0.340 Kurtosis(G2) -0.452 SE Kurtosis 0.668 GENERO  =  1 NOTA1 N of cases 43 Minimum 2.665 Maximum 6.323 Range 3.658 Sum 217.587 Median 5.058 Mean 5.060 95% CI Upper 5.278 95% CI Lower 4.842 Std. Error 0.108 Standard Dev 0.708 Variance 0.501 C.V. 0.140 Skewness(G1) -0.816 SE Skewness 0.361 Kurtosis(G2) 1.590 SE Kurtosis 0.709
Resumen Medidas de tendencia Variable Medida Nominal Moda Ordinal Moda, Mediana Intervalar Moda, Mediana, Media, Recorrido intercuartil,  DS

Medidas01

  • 1.
    Análisis de DatosBioestadística Medidas de Resumen de datos Norman y Streiner: Bioestadística, Cap. 3, Descripción de los datos mediante números. 1996: 14.
  • 2.
    Análisis de datosDe acuerdo a tipo de variable: GRAFICARLOS. Decidir: Normalidad: Siga con el análisis. Valores anormales: Revisar ingreso de datos Eliminar ? - Defina el criterio Transformarlos (log, raíz cuad, inverso, exp) Volver a evaluar / medir.
  • 3.
    Medidas de Resumenn: número de observaciones Promedio o Media Mediana Moda Percentiles Desviación Estándar (DS) Error estándar de la media (SEM)
  • 4.
    Promedio Sinónimo: mediaaritmética. Otras medias: media armónica, media geométrica. Media aritmética :  x i x = ------ n i
  • 5.
    Media De unamuestra: x De una población : 
  • 6.
    Resultados con Softwareestadístico (Systat) CARIES N of cases 10 Minimum 5.000 Maximum 10.000 Mean 6.900 Standard Dev 1.792 Valores: 10         
  • 7.
    Mediana Valor quedeja la mitad de los individuos por debajo de él, y la otra mitad, por encima.
  • 8.
    Moda Categoría conmayor frecuencia
  • 9.
    Medidas de dispersiónHace referencia a como se agrupan los datos alrededor de la medida de centralización, generalmente la media. Rango: es la diferencia entre los valores extremos. Ej: Rango de la 3a. prueba grande de patología general: (6,1 - 2,7=3,4).
  • 10.
    Recorrido intercuartil Seordenan los datos y se dividen en cuatro partes iguales (cuartiles).    
  • 11.
    Recorrido intercuartil: 50%se ubica en la zona central de los datos (gráfico de caja: el ancho de la caja). Desviación media: Cuánto se aleja cada valor con respecto a la media? (x i - x). Suma de las diferencias:  (x i - x). Suma de diferencias de cualquier conjunto de datos es igual a 0. NO DICE MUCHO.
  • 12.
    Varianza Suma dedesviaciones al cuadrado (se elimina de esa forma valores negativos), dividido por número de observaciones.  (x i - x) 2 s 2 = ------------------------ N
  • 13.
    Desviación Estándar (x i - x) 2  =  ------------------------ N  (x i - x) 2 ds  =  ------------------------ n - 1 Población Muestra
  • 14.
    Intervalo de confianzade un promedio (Confidence interval) Intervalo que incluye una serie de valores. Mean 5.469 95% CI Upper 5.652 95% CI Lower 5.287
  • 15.
    DISTRIBUCIÓN NORMAL Formade campana, también llamada distribución GAUSSIANA. La curva norma tiene algunas características, y es descrita por 1 1 - (x - u) 2 / 2  2 f(x) = - - - - - - - - - = - - - - - - - - e 2  2 (2  2 ) 1/2  = 3,1416  = des. st. de la población u = media de la población x = abscisa (Valor de x) f(x)= ordenada, altura de la curva corresp. al valor de x. e = 2,718...
  • 16.
    Características de lacurva normal Simétrica alrededor de la media (sesgo es 0, sesgo se refiere a la simetría de la curva). Se describe con u y  Área total bajo la curva es 1 Área en una zona dada será <1 y >0 Si se define un intervalo entre a y b el área de esa zona dará la probabilidad de observar un individuo en ese rango. ± 1  significa 68,27% ± 1.96  significa 95% La media, mediana y el modo tienen el mismo valor. Las colas cada vez se acercan más al eje x. Curtosis mide si la curva es mas o menos plana, o picuda.
  • 17.
    CALCULO DEL ÁREABAJO UNA CURVA NORMAL Si el área total es 1 (ó 100%), y la media es 0, para cualquier variable utilizando una escala standard Z podemos obtener la probabilidad de obtener un valor mayor o menor, o en un rango dado. Para calcular un área determinada bajo la curva de distribución normal los puntos de la variable x se convierten a la escala z y luego se utiliza la tabla de valores z adjunta.
  • 18.
    Si por ejemplo,el promedio de caries, tiene un valor u y desviación stándard  o un determinado número de caries al valor en la escala z, se utiliza: z = ( x - u )/  sea el valor x es un número especificado de unidades de desviación stándard de la población con media u. Por ejemplo si z = -1,25, el área izquierda de la curva es 0,1057 (0,5 - 0,3943), y a la derecha 1 - 0,1057 = 0,8943. Si hay que determinar un área de la curva y ya hemos calculado z, o sea tenemos: z = 0,25 área a la izq. es 0,5987 (0,0987 + 0,5) z = -1,25 área a la izq. es 0,1056 (0,5 - 0,3943) El área será : 0,5987 - 0,1056 = 0,4931
  • 19.
    Valores tipificados Procedimientoque permite expresar cualquier valor inicial en términos de unidades de ds. Se denomina z. (x - x) z = ----------- ds
  • 20.
    Valor tipificado Permitetrabajar con una tabla única de la distribución normal. Sirven para comparar valores procedents de varios tests o medidas.
  • 21.
    Valores de zArea de la curva normal  DS  DS  DS
  • 22.
    CARIES N ofcases 10 Minimum 5.000 Maximum 10.000 Range 5.000 Sum 69.000 Median 6.500 Mean 6.900 95% CI Upper 8.182 95% CI Lower 5.618 Std. Error 0.567 Standard Dev 1.792 Variance 3.211 C.V. 0.260 Skewness(G1) 0.475 SE Skewness 0.687 Kurtosis(G2) -1.056 SE Kurtosis 1.334
  • 23.
    Sesgo Si valorno es 0: dist es asimétrica Valor +: indica larga cola a la der. Valor -: indica larga cola a la izq. Skewness(G1) 0.024 Skewness(G1) -0.816
  • 24.
    Curtosis (kurtosis)Curva más o menos aplanada. Depende de cantidad de casos. Entre más casos más picuda. Valor > 0: curva tiene cola más larga que una Dist N Kurtosis(G2) 1.590 Valor < 0: curva tiene zona más aplanada que una Dist N Kurtosis(G2) -0.452
  • 25.
    Teorema central dellímite La distribución de medias de muestras será aproximadamente normal indiferente de la distribución de valores en la población original de donde fueron tomados los valores. El valor de la media de la colección de todos las posibles medias será igual a la media de la población.
  • 26.
    La DS dela media (error estándar de la media ESM) depende de la DS de la muestra y del tamaño de la muestra. Usted normalmete: no debe ocupar SEM ! SEM = ds /  n Grupo n x±ds SEM B 76 27.2 ±4.6 0.5 C 93 27.9 ±4.0 0.4 D 9 14.9 ±4.6 1.5
  • 27.
    Teorema central dellímite Si la población está o no distribuída normalmente, el promedio de muestras grandes (n > 30) se distribuye de forma normal.
  • 28.
    Distribución Normal DS: Una DS: 68% de las observaciones. Dos DS: 95% de las observaciones. Tres DS: 99% de las observaciones. Altura de cualquier valor de x: 1 ------------- exp     x - 
  • 29.
    Distribución Normal Lapoblación tiene distribución definida por una media de m y una desviación estándar de s. Normalmente se utiliza o analiza una muestra : x ± ds.
  • 30.
    Propiedades de lacurva normal Media, mediana y moda tienen el mismo valor. Curva es simétrica respecto de la media, sesgo es 0. La curtosis es 0. Las colas están cada vez más cerca al eje X pero sin tocarlo, curva asintótica.
  • 31.
    GENERO = 0 NOTA1 N of cases 49 Minimum 3.997 Maximum 6.77 Range 2.777 Sum 267.987 Median 5.487 Mean 5.469 95% CI Upper 5.652 95% CI Lower 5.287 Std. Error 0.091 Standard Dev 0.635 Variance 0.404 C.V. 0.116 Skewness(G1) 0.024 SE Skewness 0.340 Kurtosis(G2) -0.452 SE Kurtosis 0.668 GENERO = 1 NOTA1 N of cases 43 Minimum 2.665 Maximum 6.323 Range 3.658 Sum 217.587 Median 5.058 Mean 5.060 95% CI Upper 5.278 95% CI Lower 4.842 Std. Error 0.108 Standard Dev 0.708 Variance 0.501 C.V. 0.140 Skewness(G1) -0.816 SE Skewness 0.361 Kurtosis(G2) 1.590 SE Kurtosis 0.709
  • 32.
    Resumen Medidas detendencia Variable Medida Nominal Moda Ordinal Moda, Mediana Intervalar Moda, Mediana, Media, Recorrido intercuartil, DS