UNIDAD V_PRESENTACIÓN_BIOESTADÍSTICA II.pdf

Gramática Inglesa I
Gramática Inglesa I
BIOESTADÍSTICA
Unidad 5

2
5. Estudios Comparativos
BIOESTADÍSTICA II – UNIDAD 5
Obtener conclusiones válidas acerca
de una población sobre la base de
una muestra, es decir, que las
conclusiones que obtengamos de
una muestra se puedan extrapolar
a la población que dio origen a esa
muestra
Poder medir el grado de
incertidumbre presente en dichas
inferencias en términos de
probabilidad.
La estadística inferencial
tiene dos objetivos
básicos:

3
Supongamos que tenemos una población de enfermos por determinada causa que puedan ser divididos
en aquellos que tienen el síntoma A y los que no lo tienen.
(Díaz, p.287)
CON SÍNTOMA A
SIN SÍNTOMA A
En estas circunstancias nos puede interesar en qué proporción se encuentra el síntoma A o, lo que es
igual, cuál es la probabilidad de presentar el síntoma A en dicha patología.
En este ejemplo se desea inferir la proporción de enfermos con síntoma A, pero, como a veces es
imposible estudiar a todos los individuos, se toma una muestra de ellos y se estiman, mediante esta,
los valores poblacionales de la proporción de enfermos de nuestro interés.

4
En situaciones semejantes al ejemplo anterior, pudiera ser necesario comparar determinado parámetro
de una población con un valor dado o realizar la comparación con dicho parámetro en otra población y
verificar, como consecuencia, la hipótesis de igualdad de las proporciones de enfermos con síntoma A en
dos poblaciones de enfermos (diferenciadas por la enfermedad).
(Díaz, p.287)
Es necesario, definir, por tanto, si ambas poblaciones analizadas difieren o no en cuanto a la proporción de
enfermos con síntoma A.
Aquí se trata de probar una hipótesis planteada y los métodos que se utilizan son los llamados métodos para
la prueba de hipótesis.
CON SÍNTOMA A
CON SÍNTOMA A
Población 1. Población 2.
SIN SÍNTOMA A SIN SÍNTOMA A

5
5.1 Muestras independientes y apareadas.
Muestras independientes.
Son muestras formadas por distintos individuos.
La independencia implica que cada dato de una de las muestras no esté de ninguna
manera asociado a cualquier dato de la otra muestra.
La hipótesis nula, que se tendrá que aceptar o rechazar, establece que no existen diferencias
significativas entre las dos muestras.
La expresión «no existen diferencias significativas» equivale a decir «las diferencias que
observo entre las dos muestras se deben exclusivamente al proceso de muestreo y en
realidad ambas muestras proceden de la misma población».
Torres-Huertas, 2019, p. 165

6
Procedimiento a seguir:
1. Definir el objetivo que se pretende alcanzar.
2. Seleccionar las muestras de las poblaciones muestreadas con estrictos criterios de
representatividad y aleatoriedad.
3. Calcular los parámetros de las muestras (esto dependerá del tipo de variable que se
siga, supóngase variable numérica), la media, la desviación típica y el tamaño de cada
muestra.
4. Elegir el nivel de riesgo α.
5. Elegir qué tipo de contraste es necesario aplicar, bilateral o unilateral.
6. Estudiar qué test de contraste de hipótesis se puede aplicar. Para ello habrá que
comprobar si las muestras pueden considerarse y si fueron tomadas de una población
normal o no, si las varianzas son o no homogéneas, etc.
7. Resuelto el caso anterior, ya se tendrá definido y calculado cuál será el estadígrafo de
prueba (Z normal, t de Student, Chi-cuadrado, W de Wilcoxon, etc.)
8. Ver si el valor del estadígrafo de prueba queda fuera o dentro del intervalo de
confianza. Si queda dentro, se aceptará la hipótesis nula. Si queda fuera, se rechazará
la hipótesis nula (se aceptará la alternativa).

7
La comparación de dos muestras independientes con una
variable aleatoria matemática cuando se utilizan programas
informáticos, requiere, tomar la decisión de qué test utilizar, el
computador hará lo que se le pida, y si está o no bien hecho
dependerá de esta decisión.
La comparación de dos muestras independientes se realiza
utilizando como test paramétricos:
• Z normal.
• t de Student.
y como test no paramétricos:
• U de Mann Withney.

8
Z normal: la utilización de la distribución normal está
sometida a unas condiciones que en general serán difíciles
de cumplir, estas condiciones son:
1. Muestreo aleatorio.
2. Muestras obtenidas de poblaciones distribuidas
normalmente.
3. Tamaño de las muestras mayor de 25.
4. Muestras con desviación típica igual y conocida.

9
• Que existan muestras con desviación típica igual y conocida
es difícil de verificar, ya que no suele conocerse la
desviación típica de las poblaciones.
• Si no se verifica que las muestras hayan sido obtenidas de
poblaciones distribuidas normalmente hay que aplicar un
test no paramétrico.
• Si no se verifica que el tamaño de las muestras es mayor de
25, hay que aplicar la t de student, si es necesario con la
corrección de Welsh.

10
t de Student: las condiciones que exige la t de student son menos que
la Z normal, y son:
1. Muestreo aleatorio
2. Muestras extraídas de poblaciones normales de cualquier tamaño
3. Varianzas Homogéneas.
En cuanto a la tercera condición, si el test de Fisher demuestra que las
varianzas son homogéneas, se estimará la varianza común y se
aplicará la t de student. Si el test de Fisher demuestra que las
varianzas no son homogéneas, se aplicará la t de Student con la
corrección de Welsh. El programa informático AlcEst, cuando realiza la
comparación de medias para muestras independientes, lo hace
aplicando la t de Student, aplica la F de Fisher, y si las varianzas
resultan no homogéneas, la corrección de Welsh.

11
Ejemplo.
A partir del fichero de EMBARAZOS, se va a comparar, por ejemplo, si el peso del recién nacido tiene
alguna relación con el hábitat de la madre. Se extraen del fichero dos muestras:
––Muestra 1: pesos del recién nacido para la madre con hábitat urbano.
––Muestra 2: pesos del recién nacido para la madre con hábitat rural.

12
Siguiendo el esquema ya marcado:
1. Definir el objetivo: estudiar si el diferente hábitat de la madre influye en el peso del
recién nacido.
2. Seleccionar muestras aleatorias y representativas: se han elegido de forma aleatoria,
a partir de los datos de mujeres que alumbraron y que provenían del hábitat urbano y
del rural, con tamaños 44 y 56 respectivamente. (44 urbano y 56 rural)
3. Calcular los datos de las muestras: se han obtenido y son los siguientes.
4. Elegir el nivel de riesgo α: se elige α=0,05.
5. Elegir qué tipo de contraste: se elige contraste bilateral.
6. Estudiar qué test de contraste de hipótesis se puede aplicar.

13
Estudiar si las muestras han sido tomadas de una población normal. Se va a verificar
utilizando el test de Kolmogorov:
Por lo tanto, se puede suponer que ambas muestras han sido extraídas de poblaciones distribuidas
normalmente

14
Ahora se ha de observar si las varianzas pueden considerarse homogéneas.
Se aplica el test de Fisher y se obtiene:
7. Estadígrafo de prueba: la varianza de la población es desconocida y
hay que estimarla a partir de las varianzas de las muestras y por lo tanto
se ha de aplicar el estadígrafo t, calculado como:

15
Lo que da como resultado t=-0,513
8.Resultado de la prueba: como el valor obtenido se encuentra dentro del intervalo de confianza
para p<0,05 que es (-1,98 +1,98) no se puede rechazar la hipótesis nula.
Siendo s2 la varianza estimada por:
Conclusión: El hábitat de la madre no influye en el
peso del recién nacido.

16
Muestras Relacionadas o Dependientes
En este caso los individuos de las dos muestras están relacionados, bien porque se trate
de un mismo individuo que es analizado en dos condiciones diferentes o bien porque
seamos capaces de asegurar (dentro de lo posible) que los individuos de las dos muestras
son idénticos.
Por ejemplo:
• Cuando un mismo grupo de pacientes es tratado con dos medicaciones
distintas en las mismas condiciones y en momentos distintos.
• Cuando se realizan dos pruebas distintas en gemelos homocigóticos.
• Cuando se preparan dos parcelas de terreno en las mismas condiciones del
suelo, riego, insolación, etc., se siembran con semillas del mismo lote y se
aplican dos fertilizantes distintos

17
En todos los casos el objetivo es el de demostrar que los
tratamientos son distintos, que las condiciones son distintas, que
los fertilizantes son distintos, etc.
Estos procedimientos se denominan también de muestras
apareadas (traducción del inglés de la expresión «paired-
sample») y, en general, son siempre preferibles en cuanto a sus
resultados que los ensayos con muestras independientes,
porque son una forma de minimizar la diferente respuesta
individual.
Naturalmente, la dificultad radica en encontrar la muestra
adecuada.

18
5.2 Inferencia sobre la diferencia de medias:
Test e intervalos de confianza.
Si se dispone de una variable con distribución normal, el análisis habitual es la
comparación de las medias en los dos grupos de tratamiento. Pero:
¿Por qué se comparan las medias si luego se aplicará el nuevo
tratamiento a las unidades?
¿Qué información aportan estas medias sobre lo que pasa en cada
unidad?
Supóngase que el procedimiento nuevo que se desea comparar con el
estándar tiene un efecto Δ que es el mismo en todas las unidades.
El resultado de aplicar el nuevo procedimiento provocará una traslación de la
distribución original exactamente igual a Δ, figura 1.
(Cobo, 2007, p. 197)

19
Figura 1. Comparación de dos distribuciones normales, constante. Adaptado de: Comparación de distribuciones. Cobo, (2007)
licencias: Copyright

20
Ejemplo:
Cierto fármaco antihipertensivo desciende la presión sistólica en exactamente 10 mmHg.
Este descenso es el mismo en todos los pacientes, sea cual sea su nivel anterior de presión.
Los pacientes siguen teniendo diferentes valores de presión sistólica, pero porque ya eran diferentes antes
del tratamiento, no porque ésta haya incluido variabilidad en el proceso.
Nótese que, sea cual sea la forma de la distribución de
la presión sistólica antes del tratamiento, esta
distribución se trasladará exactamente 10 unidades,
pero conservando la misma forma y la misma
dispersión.
Si el efecto Δ es el mismo en todas las unidades, basta
con estimar la diferencia entre las medias de ambas
poblaciones para conocer el efecto que se dará en cada
unidad de esa población. Fig. 3 Esfingomanómetro. [Imagen] https://pixabay.com/es/

21
Puede demostrarse que la manera más eficiente de comparar la posición de dos
variables con distribución normal es, precisamente, mediante la comparación de
sus medias.
De aquí la importancia de comparar las medias: si se asume que la forma de
ambas distribuciones es idéntica, es el procedimiento estadístico más eficiente
para estimar un efecto único que se observará en cada una de las unidades.
Una consecuencia muy importante de este efecto común en todos los casos es
que la distribución es la misma bajo el procedimiento estándar y bajo el nuevo. Por
lo tanto, también será igual su varianza.
Esta situación de igual varianza recibe el nombre técnico de homocedasticidad.
Permite creer que la diferencia entre las medias está estimando el efecto en cada
unidad de la población.

22
Ejercicio:
Al comparar el efecto de dos tratamientos A y B, se obtiene un intervalo del
95% de confianza de las diferencias de sus medias que va de 5 a 8. Se cree,
con una confianza del 95% que:
(Cobo, 2007, p. 198)
a) La auténtica diferencia de medias poblacionales se encuentra
entre 5 y 8.
b) El efecto diferencial de A respecto a B consiste en descender
entre 5 y 8 unidades más.
c) En el 95% de las medias muestrales la diferencia se encuentra
entre 5 y 8.
d) En el 95% de los pacientes, la diferencia del efecto está entre 5 y
8.
Fig. 4 Interrogante. [Imagen]
https://pixabay.com/es/

23
Respuesta:
Las respuestas correctas son la a) y la b), ya que la inferencia estadística hace
referencia a los parámetros poblacionales o sus diferencias.
Debemos recordar que: La amplitud del intervalo de confianza refleja el grado de
ignorancia, no la variabilidad del efecto.
Por tanto:
Si la distribución en los dos grupos tiene la misma forma y la misma
dispersión, la comparación de dos poblaciones se reduce a la comparación
de sus medias. (Cobo, 2007, p. 198)

24
5.3 Inferencia sobre la diferencia de
proporciones: Test e Intervalos de confianza.
En el entorno de comparación de medias no es correcto hablar de «respondedores» y
«no respondedores». Si se sospecha que puede haber dos grandes grupos de
pacientes, los que responden y los que no (respuesta dicotómica), un análisis correcto
podría ser la comparación de la proporción de respondedores entre los grupos.
Supóngase ahora que el efecto del tratamiento consiste en reducir un 20% la presión
sistólica, de forma que a un paciente con 100 mmHg se la baja a 80 mmHg y a uno de
150 mmHg se la baja a 120 mmHg. Ahora, este efecto «proporcional» no respeta la
variabilidad de las observaciones, ya que provoca mayor descenso cuanto mayor es la
presión inicial, como puede verse en la figura 5.
(Cobo, 2007, 199)

25
5.3 Inferencia sobre la diferencia de
proporciones: Test e Intervalos de confianza.
Figura 5. Comparación de dos distribuciones normales, no constante. Adaptado de: Comparación de distribuciones.
Cobo, (2007) licencias: Copyright

26
5.4 Test no paramétricos.
Cuando la variable aleatoria es ordinal o, si es cuantitativa, no se
cumplen las condiciones para utilizar el análisis de varianza, si se quiere
estudiar si un conjunto de tres o más muestras obtenidas aleatoriamente
provienen o no de la misma población, se debe utilizar una prueba no
paramétrica. Aun cuando existen varias disponibles, se utilizará:
• la prueba de Kruskal- Wallis para las muestras independientes y
• la prueba de Friedman para muestras relacionadas.
Torres-Huertas, 2019, p.198

27
Muestras independientes:
En la prueba de Kruskal-Wallis se toman de la tabla inicial los valores de las
muestras y se ordenan, todos juntos, de menor a mayor. A continuación, a
cada medida se le asocia un número o rango que será el lugar que ocupa en la
ordenación anterior. Ahora se construye una nueva tabla sustituyendo cada
medida por su rango y posteriormente se obtiene la suma de los rangos de
cada muestra. Con esta suma de rangos se obtiene el valor de la expresión:

28
Resumen del método
1. Se ordenan todas las observaciones de menor a mayor,
asignando un rango (número de orden) a cada una.
2. Se construye la tabla de rangos y se calcula la suma de rangos
de cada muestra.
3. Se obtiene el valor del estadígrafo de prueba.
4. Se determina, en la tabla, el valor exacto de la probabilidad de la
hipótesis nula, si es menor de 0,05 se rechaza esta.
5. Si el valor de H es muy grande y no figura en la tabla anterior,
obtendremos el valor crítico en la tabla chi-cuadrado con k-1
grados de libertad (k es el número de muestras).
Tipos de pruebas no paramétricas

29
Las condiciones para poder aplicar la prueba de Kruskal-Wallis son sencillas:
Muestras representativas y obtenidas aleatoriamente
Variable ordinal o cuantitativa

30
Muestras relacionadas
En este caso se aplica la prueba de Friedman. Es una prueba de
rangos, muy parecida a la anterior, aunque en este caso la tabla de
datos debe ser una tabla sin ausencias, ya que se trata de una misma
muestra que ha sido sometida a condiciones distintas. Esta prueba
sustituye al ANOVA para bloques factorizados, cuando no se cumplan
las condiciones de esta prueba.

31
El procedimiento consiste en formar una tabla con todos los datos, cada fila de la tabla
se corresponde con el mismo sujeto y en distintas condiciones. Se ordena cada fila y
se le asigna a cada valor el rango (número de orden) que le corresponde.
Se forma una nueva tabla sustituyendo cada medida de la anterior por su rango. A
continuación, se obtiene la suma de rangos de cada columna. La base de la prueba
consiste en suponer que en el caso de la hipótesis nula las sumas de los rangos de las
columnas serán aproximadamente iguales. La prueba de Friedman determinará la
probabilidad de que las diferentes columnas de rangos procedan de la misma
población. Se calcula el estadígrafo:

32
Las condiciones para poder aplicar la prueba de Friedman son:
Muestras aleatorias representativas.
Muestras relacionadas
Variable ordinal o cuantitativa

33
Figura 1. Ejemplos de pruebas no paramétricas. Adaptado de Pruebas no paramétricas que se usan cuando las variables
no tienen distribución normal. Castro, 2018, Bioestadística aplicada en investigación clínica: conceptos básicos. Licencias:
CC BY-NC-ND

34
(Celis de la Rosa, 2012, p. 101)
Los procedimientos no paramétricos proporcionan alternativas útiles y en muchas
situaciones únicas, como las que se mencionan a continuación:
Cuando no se conoce el parámetro de la población.
Cuando las variables estudiadas son nominales u
ordinales.
Cuando no se cumplen los supuestos definidos por los
procedimientos paramétricos

ESTUDIA EL
CONTENIDO DE LA
UNIDAD
CONSULTA LA
BIBLIOGRAFÍA
SUGERIDA
BUSCA MATERIALES
COMPLEMENTARIOS
Para seguir avanzando

UNIDAD V_PRESENTACIÓN_BIOESTADÍSTICA II.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a UNIDAD V_PRESENTACIÓN_BIOESTADÍSTICA II.pdf

Similar a UNIDAD V_PRESENTACIÓN_BIOESTADÍSTICA II.pdf (20)

Último

Último (20)

UNIDAD V_PRESENTACIÓN_BIOESTADÍSTICA II.pdf