Investigación: Análisis a interpretación de los datos- 2 Estadística inferencial BIOL 2153 Bioestadística José R. Otaola.
Estadística... Un conjunto de procedimientos matemáticos para describir, sintetizar, analizar, e interpretar datos cuantitativos … la selección de una técnica estadística apropiada la determina el diseño experimental, la hipótesis, y los datos recogidos
Estadística inferencial ... … son herramientas matemáticas que permiten al investigador generalizar a una población de individuos basándose en la información obtenida de un número limitado de participantes en la investigación
Error de muestra ... … son las diferencias en las muestras, debidas a las fluctuaciones aleatorias existentes dentro de una población
… los errores muestrales varian de tamaño, pero normalmente están distribuídos  alrededor de la media poblacional  (  )  y toman la forma de una curva en forma de campana
Error estándar ... … la desviación típica (estándar) de las medias muestrales (SE x )
… le dice al investigador qué diferencias puede esperar en las medias muestrales si se usan otras muestas de la población
pero ... … no es necesario seleccionar un gran número de muestras de una población para estimar el error estándar
Para calcular el error estándar se puede usar una fórmula matemática ...
… un error estándar pequeño indica un error muestral mínimo
… el factor que más afecta la dimensión del error estándar de la media es el tamaño de la muestra … pero, el tamaño de la desviación estándar de la población también afecta el error estándar de la media
La hipótesis nula (H 0 )... La afirmación de que la diferencia entre dos medias muestrales es debida al azar, a la suerte, al error de muestreo … indica que no hay un diferencia significativa entre los parámetros de las poblaciones
La hipótesis nula  es generalmente lo contrario de la hipótesis experimental (H 1 ) … que dice que un método (medicamento, tratamiento,etc.) se espera que sea más efectivo que otro.
Rechazar la hipótesis nula provee evidencia ( pero no prueba ) de que el tratamiento tuvo un efecto … en otras palabras, que la diferencia entre las variables dependientes se deben a otro efecto y no al azar, a la suerte o al error muestral
La pregunta del investigador entonces es: … se acepta o no se acepta la hipótesis nula
Hay cuatro posibilidades: La hipótesis nula es cierta y el investigador concluye que lo es A = B…una decisión correcta
2. La hipótesis nula es falsa y el investigador concluye que lo es A  ≠  B…una decision correcta
3. La hipótesis nula es cierta pero el investigador concluye que es falsa A = B…una decision incorrecta
4. La hipótesis nula es falsa pero el investigador concluye que es cierta A  ≠  B…una decision incorrecta
Decisiones relativas a rechazar la hipótesis nula… La verdadera naturaleza de la hipótesis nula Cierto Falso Decisión del investigador sobre la hipótesis nula Cierto Falso Correcto Incorrecto Incorrecto Correcto
Decisiones relativas a rechazar la hipótesis nula… La verdadera naturaleza de la hipótesis nula Cierto Falso Decisión del investigador sobre la hipótesis nula Cierto Falso Correcto Error de tipo II Error de tipo I Correcto
El investigador(a) debe usar una prueba de significancia para determinar si debe rechazar o no la hipótesis nula … el primer paso es seleccionar un nivel de probabillidad, “ α ” (e.g.,  α  = .05) que servirá como criterio para determinar si rechazar o no la hipótesis nula
Pasos para utlizar la estadística inferencial 1.   Seleccionar la prueba de significancia 2.   Determinar si la prueba de significancia tendrá dos direcciones o una sola (two-tailed or one tailed) 3.   Seleccionar  α  ( alpha ), o nivel de probabilidad   4.   Calcular la prueba de significancia 5.   Consultar las tablas para determinar la significancia de los resultados
Pruebas de significancia... Son fórmulas estadísticas que permiten al investigador determinar si hay una diferencia significativa entre las medias muestrales
… las diferentes pruebas de significancia ponen de relieve diferentes factores: la escala de las medidas representadas por los datos; método de selección de los participantes, número de grupos que se comparan, y el número de variables independientes
… la primera decisión del investigador es si debe utilizar una prueba parámétrica o una no paramétrica
Prueba paramétrica ... … asume que la variable medida se distribuye normalmente dentro de la población … los datos deben representar una escala de medida de intervalo o de proporciones
… la selección de los participantes es independiente … las varianzas de los grupos que se comparan son iguales
… con una prueba más potente es más fácil que el investigador rechace una hipótesis nula que es falsa, es decir no cometerá un error de tipo II … se utiliza cuando los datos representan una escala de intervalos o de proporciones
Prueba no paramétrica ... … no asume nada con respecto a la distribución de la variable en la población, o sea con respecto a la forma de la distribución
… se utiliza cuando los datos representan una escala nominal u ordinal, cuando una suposición paramétrica ha sido tajantemente violada, o cuando se desconoce la naturaleza de la distribución
… una pruba débil aquí significaría no rechazar la hipótesis nula a un determinado nivel de significancia … muy a menudo requiere un tamaño muestral mayor para llegar al mismo nivel de significancia que una prueba paramétrica
Las pruebas más comunes de significancia… t-test ANOVA Chi Square
t-test ... … se utiliza para determinar  si dos medias son significativamente diferentes al nivel de probabilidad que se seleccione. … ajusta para el caso en que los resultados para pequeñas muestras son cada vez más diferentes de la curva normal conforme los tamaños de muestra son más pequeños.
… la estrategia del  t -test es comparar la diferencia real de las medias observadas a las diferencias esperadas por casualidad. Para una tabla de t-test vaya a: http://www.statsoft.com/textbook/sttable.html
… se calcula como la proporción en que el numerador es la diferencia entre las medias de la muestra y el denominador es la probabilidad de la diferencia que se esperaría si la hipótesis nula fuera cierta.
… después de dividir el numerador entre el denominador, el valor  t  que da como resultado se compara al valor apropiado en una tabla, dependiendo del nivel de probabilidad y los grados de libertad.
… si el valor de  t  es igual o mayor que el valor de la tabla, entonces se rechaza la hipótesis nula porque la diferencia es mayor de lo que se esperaría solamente por casualidad.
… hay dos tipos de  t -tests: el  t -test para muestras independientes (formadas aleatoriamente), y el  t -test para muestras no independientes (no aleatorias, v. g., pareo, rendimiento en una pre-/post- prueba, diferentes tratamientos)
ANOVA ... … se usa para determinar si dos o más medias son significativamente diferentes a un nivel de probabilidad seleccionado.  … nos evita la necesidad de calcular  t -tests duplicados para comparar grupos.
… la estrategia de ANOVA es que la variación total, o varianza se puede clasificar como proveniente de dos fuentes: a) varianza por el tratamiento (“ entre grupos ”; “ between groups ,” que es la causada por los grupos de tratamiento) y b) error de la varianza (varianza “ dentro de los grupos ”; “ within groups ”)
… nos da una proporción llamada  F  ratio ,o proporción  F  donde la varianza del tratamiento es el numerador (varianza entre grupos) y el error de la varianza es el denominador (varianza dentro de grupos)
… se asume que los grupos de participantes se escogen al azar y que esencialmente son iguales al comienzo del estudio si se miden por la variable dependiente.
… cuando el estudio termina, la pregunta es si la varianza entre grupos difiere del error de varianza más de lo que se pudiera esperar por casualidad.
… si la varianza por tratamiento es suficientemente grande comparado con el error de la varianza, entonces resulta una  F  ratio significativa, o sea se rechaza la hipótesis nula y se concluye que el tratamiento ha tenido un efecto significativo en la variable dependiente.
… si la varianza por tratamiento no es suficientemente más grande que el error de la varianza, se tiene una  F  ratio no significativa, o sea se acepta la hipótesis nula. Se concluye que el tratamiento no tiene un efecto significativo en la variable dependiente.
… cuando la  F  ratio is significativa y hay involucradas más de dos medias, los investigadores usan procedimientos de comparaciones múltiples (v.g., la prueba de Scheff é, la prueba HSD de Tukey, o la prueba de rangos múltiples de Duncan)
FANOVA ... … usada con un estudio de investigación utiliza un diseño factorial para investigar dos o más variables independientes y las interacciones entre ellas ..provee una F ratio (proporción) separada para cada variable independiente y para cada interacción.
Regresión Múltiple ... … una ecuación para predecir que tiene más de un indicador de predicción.  … los indicadores de predicción son variables que están correlacionadas con un criterio y que ayudan a predecir con más precisión.
Chi Square ( Χ 2 ) ... … es una prueba de significancia no paramétrica que es apropiada para datos ordinales o nominales que se pueden convertir en frecuencias significativamente diferentes. … compara las proporciones de lo observado (O) a las proporciones esperadas (E) para ver si son significativamente diferentes.
… el valor de chi square aumenta cuando la diferencia entre lo observado y lo esperado aumenta.
… también se puede usar una ANCOVA para aumentar la potencia de una prueba estadística al reducir el error de la varianza dentro del grupo (within-group).  O sea para hacer una decisión correcta al rechazar la hipótesis nula.
Pruebas de significancia “one- and two- tailed” (con una o dos colas)... Son pruebas de significancia que indican la dirección en la que puede ocurrir la diferencia La palabra “cola” o “tail” indica el área de rechazo debajo de la curva normal
A = B … no hay diferencia entre las medias; la dirección puede ser positiva o negativa … .la dirección puede estar en cualquiera de las dos colas de la curva normal … se llama prueba con dos colas … divide el nivel de  α  entre las dos colas de la curva normal
A  >  B o A  < B … … hay diferencia entre las medias; la dirección puede ser positiva o negativa. … se llama prueba de una cola “one-tailed test” … el nivel  α  se encuentra en una de las colas de la curva normal
Grados de libertad (degrees of freedom:  df )... Es un concepto estadístico que indica que se pierde un grado de libertad cada vez que se estima un parámetro de una población a base de los datos de una muestra de la población … indica que no hay diferencia verdadera o relación entre parámetros en las poblaciones
Es la habilidad de la media muestral para variar y depende del número de participantes en la muestra y del número de grupos
Por ejemplo: conforme el número de participantes aumenta (df) el valor necesario para rechazar la hipótesis nula va siendo menor.
FIN Tablas estadísticas http://www.statsoft.com/textbook/sttable.html http://www.statsoft.com/textbook/stbasic.html http://www.eridlc.com/onlinetextbook/index.cfm?fuseaction=textbook.appendix&FileName=Table3

Inferencial

  • 1.
    Investigación: Análisis ainterpretación de los datos- 2 Estadística inferencial BIOL 2153 Bioestadística José R. Otaola.
  • 2.
    Estadística... Un conjuntode procedimientos matemáticos para describir, sintetizar, analizar, e interpretar datos cuantitativos … la selección de una técnica estadística apropiada la determina el diseño experimental, la hipótesis, y los datos recogidos
  • 3.
    Estadística inferencial ...… son herramientas matemáticas que permiten al investigador generalizar a una población de individuos basándose en la información obtenida de un número limitado de participantes en la investigación
  • 4.
    Error de muestra... … son las diferencias en las muestras, debidas a las fluctuaciones aleatorias existentes dentro de una población
  • 5.
    … los erroresmuestrales varian de tamaño, pero normalmente están distribuídos alrededor de la media poblacional (  ) y toman la forma de una curva en forma de campana
  • 6.
    Error estándar ...… la desviación típica (estándar) de las medias muestrales (SE x )
  • 7.
    … le diceal investigador qué diferencias puede esperar en las medias muestrales si se usan otras muestas de la población
  • 8.
    pero ... …no es necesario seleccionar un gran número de muestras de una población para estimar el error estándar
  • 9.
    Para calcular elerror estándar se puede usar una fórmula matemática ...
  • 10.
    … un errorestándar pequeño indica un error muestral mínimo
  • 11.
    … el factorque más afecta la dimensión del error estándar de la media es el tamaño de la muestra … pero, el tamaño de la desviación estándar de la población también afecta el error estándar de la media
  • 12.
    La hipótesis nula(H 0 )... La afirmación de que la diferencia entre dos medias muestrales es debida al azar, a la suerte, al error de muestreo … indica que no hay un diferencia significativa entre los parámetros de las poblaciones
  • 13.
    La hipótesis nula es generalmente lo contrario de la hipótesis experimental (H 1 ) … que dice que un método (medicamento, tratamiento,etc.) se espera que sea más efectivo que otro.
  • 14.
    Rechazar la hipótesisnula provee evidencia ( pero no prueba ) de que el tratamiento tuvo un efecto … en otras palabras, que la diferencia entre las variables dependientes se deben a otro efecto y no al azar, a la suerte o al error muestral
  • 15.
    La pregunta delinvestigador entonces es: … se acepta o no se acepta la hipótesis nula
  • 16.
    Hay cuatro posibilidades:La hipótesis nula es cierta y el investigador concluye que lo es A = B…una decisión correcta
  • 17.
    2. La hipótesisnula es falsa y el investigador concluye que lo es A ≠ B…una decision correcta
  • 18.
    3. La hipótesisnula es cierta pero el investigador concluye que es falsa A = B…una decision incorrecta
  • 19.
    4. La hipótesisnula es falsa pero el investigador concluye que es cierta A ≠ B…una decision incorrecta
  • 20.
    Decisiones relativas arechazar la hipótesis nula… La verdadera naturaleza de la hipótesis nula Cierto Falso Decisión del investigador sobre la hipótesis nula Cierto Falso Correcto Incorrecto Incorrecto Correcto
  • 21.
    Decisiones relativas arechazar la hipótesis nula… La verdadera naturaleza de la hipótesis nula Cierto Falso Decisión del investigador sobre la hipótesis nula Cierto Falso Correcto Error de tipo II Error de tipo I Correcto
  • 22.
    El investigador(a) debeusar una prueba de significancia para determinar si debe rechazar o no la hipótesis nula … el primer paso es seleccionar un nivel de probabillidad, “ α ” (e.g., α = .05) que servirá como criterio para determinar si rechazar o no la hipótesis nula
  • 23.
    Pasos para utlizarla estadística inferencial 1. Seleccionar la prueba de significancia 2. Determinar si la prueba de significancia tendrá dos direcciones o una sola (two-tailed or one tailed) 3. Seleccionar α ( alpha ), o nivel de probabilidad 4. Calcular la prueba de significancia 5. Consultar las tablas para determinar la significancia de los resultados
  • 24.
    Pruebas de significancia...Son fórmulas estadísticas que permiten al investigador determinar si hay una diferencia significativa entre las medias muestrales
  • 25.
    … las diferentespruebas de significancia ponen de relieve diferentes factores: la escala de las medidas representadas por los datos; método de selección de los participantes, número de grupos que se comparan, y el número de variables independientes
  • 26.
    … la primeradecisión del investigador es si debe utilizar una prueba parámétrica o una no paramétrica
  • 27.
    Prueba paramétrica ...… asume que la variable medida se distribuye normalmente dentro de la población … los datos deben representar una escala de medida de intervalo o de proporciones
  • 28.
    … la selecciónde los participantes es independiente … las varianzas de los grupos que se comparan son iguales
  • 29.
    … con unaprueba más potente es más fácil que el investigador rechace una hipótesis nula que es falsa, es decir no cometerá un error de tipo II … se utiliza cuando los datos representan una escala de intervalos o de proporciones
  • 30.
    Prueba no paramétrica... … no asume nada con respecto a la distribución de la variable en la población, o sea con respecto a la forma de la distribución
  • 31.
    … se utilizacuando los datos representan una escala nominal u ordinal, cuando una suposición paramétrica ha sido tajantemente violada, o cuando se desconoce la naturaleza de la distribución
  • 32.
    … una prubadébil aquí significaría no rechazar la hipótesis nula a un determinado nivel de significancia … muy a menudo requiere un tamaño muestral mayor para llegar al mismo nivel de significancia que una prueba paramétrica
  • 33.
    Las pruebas máscomunes de significancia… t-test ANOVA Chi Square
  • 34.
    t-test ... …se utiliza para determinar si dos medias son significativamente diferentes al nivel de probabilidad que se seleccione. … ajusta para el caso en que los resultados para pequeñas muestras son cada vez más diferentes de la curva normal conforme los tamaños de muestra son más pequeños.
  • 35.
    … la estrategiadel t -test es comparar la diferencia real de las medias observadas a las diferencias esperadas por casualidad. Para una tabla de t-test vaya a: http://www.statsoft.com/textbook/sttable.html
  • 36.
    … se calculacomo la proporción en que el numerador es la diferencia entre las medias de la muestra y el denominador es la probabilidad de la diferencia que se esperaría si la hipótesis nula fuera cierta.
  • 37.
    … después dedividir el numerador entre el denominador, el valor t que da como resultado se compara al valor apropiado en una tabla, dependiendo del nivel de probabilidad y los grados de libertad.
  • 38.
    … si elvalor de t es igual o mayor que el valor de la tabla, entonces se rechaza la hipótesis nula porque la diferencia es mayor de lo que se esperaría solamente por casualidad.
  • 39.
    … hay dostipos de t -tests: el t -test para muestras independientes (formadas aleatoriamente), y el t -test para muestras no independientes (no aleatorias, v. g., pareo, rendimiento en una pre-/post- prueba, diferentes tratamientos)
  • 40.
    ANOVA ... …se usa para determinar si dos o más medias son significativamente diferentes a un nivel de probabilidad seleccionado. … nos evita la necesidad de calcular t -tests duplicados para comparar grupos.
  • 41.
    … la estrategiade ANOVA es que la variación total, o varianza se puede clasificar como proveniente de dos fuentes: a) varianza por el tratamiento (“ entre grupos ”; “ between groups ,” que es la causada por los grupos de tratamiento) y b) error de la varianza (varianza “ dentro de los grupos ”; “ within groups ”)
  • 42.
    … nos dauna proporción llamada F ratio ,o proporción F donde la varianza del tratamiento es el numerador (varianza entre grupos) y el error de la varianza es el denominador (varianza dentro de grupos)
  • 43.
    … se asumeque los grupos de participantes se escogen al azar y que esencialmente son iguales al comienzo del estudio si se miden por la variable dependiente.
  • 44.
    … cuando elestudio termina, la pregunta es si la varianza entre grupos difiere del error de varianza más de lo que se pudiera esperar por casualidad.
  • 45.
    … si lavarianza por tratamiento es suficientemente grande comparado con el error de la varianza, entonces resulta una F ratio significativa, o sea se rechaza la hipótesis nula y se concluye que el tratamiento ha tenido un efecto significativo en la variable dependiente.
  • 46.
    … si lavarianza por tratamiento no es suficientemente más grande que el error de la varianza, se tiene una F ratio no significativa, o sea se acepta la hipótesis nula. Se concluye que el tratamiento no tiene un efecto significativo en la variable dependiente.
  • 47.
    … cuando la F ratio is significativa y hay involucradas más de dos medias, los investigadores usan procedimientos de comparaciones múltiples (v.g., la prueba de Scheff é, la prueba HSD de Tukey, o la prueba de rangos múltiples de Duncan)
  • 48.
    FANOVA ... …usada con un estudio de investigación utiliza un diseño factorial para investigar dos o más variables independientes y las interacciones entre ellas ..provee una F ratio (proporción) separada para cada variable independiente y para cada interacción.
  • 49.
    Regresión Múltiple ...… una ecuación para predecir que tiene más de un indicador de predicción. … los indicadores de predicción son variables que están correlacionadas con un criterio y que ayudan a predecir con más precisión.
  • 50.
    Chi Square (Χ 2 ) ... … es una prueba de significancia no paramétrica que es apropiada para datos ordinales o nominales que se pueden convertir en frecuencias significativamente diferentes. … compara las proporciones de lo observado (O) a las proporciones esperadas (E) para ver si son significativamente diferentes.
  • 51.
    … el valorde chi square aumenta cuando la diferencia entre lo observado y lo esperado aumenta.
  • 52.
    … también sepuede usar una ANCOVA para aumentar la potencia de una prueba estadística al reducir el error de la varianza dentro del grupo (within-group). O sea para hacer una decisión correcta al rechazar la hipótesis nula.
  • 53.
    Pruebas de significancia“one- and two- tailed” (con una o dos colas)... Son pruebas de significancia que indican la dirección en la que puede ocurrir la diferencia La palabra “cola” o “tail” indica el área de rechazo debajo de la curva normal
  • 54.
    A = B… no hay diferencia entre las medias; la dirección puede ser positiva o negativa … .la dirección puede estar en cualquiera de las dos colas de la curva normal … se llama prueba con dos colas … divide el nivel de α entre las dos colas de la curva normal
  • 55.
    A > B o A < B … … hay diferencia entre las medias; la dirección puede ser positiva o negativa. … se llama prueba de una cola “one-tailed test” … el nivel α se encuentra en una de las colas de la curva normal
  • 56.
    Grados de libertad(degrees of freedom: df )... Es un concepto estadístico que indica que se pierde un grado de libertad cada vez que se estima un parámetro de una población a base de los datos de una muestra de la población … indica que no hay diferencia verdadera o relación entre parámetros en las poblaciones
  • 57.
    Es la habilidadde la media muestral para variar y depende del número de participantes en la muestra y del número de grupos
  • 58.
    Por ejemplo: conformeel número de participantes aumenta (df) el valor necesario para rechazar la hipótesis nula va siendo menor.
  • 59.
    FIN Tablas estadísticashttp://www.statsoft.com/textbook/sttable.html http://www.statsoft.com/textbook/stbasic.html http://www.eridlc.com/onlinetextbook/index.cfm?fuseaction=textbook.appendix&FileName=Table3