Este documento presenta información sobre diferentes métodos estadísticos para el análisis de datos univariantes y multivariantes, incluyendo pruebas paramétricas y no paramétricas para dos o más muestras independientes y relacionadas, así como análisis de varianza de un factor y factoriales. También introduce conceptos como el análisis de covarianza para controlar la variabilidad y aumentar la precisión en experimentos.
2. MAS DE
DOS
MUESTRAS
INDEPENDIENTES
RELACIONADAS
NORMALES
(Análisis de Varianza)
NO NORMALES
(No paramétrica)
Kruskal-Wallis
Escala: al menos ordinal)
Ho: No hay diferencia entre las muestras
(Analyze, Nonparametric tests, K Independent Samples)
Mediana
(Escala: frecuencias)
NORMALES
NO NORMALES
(No paramétrica)
(Analyze, Nonparametric tests, K Related Samples)
Friedman
(Escala: al menos ordinal)
Ho: No hay diferencia entre las muestras
Cochran
(Escala: nominal)
Un Factor Ho: μ1=μ2= …=μa
(Analyze, Compare Means, One Way ANOVA)
+ 1 Factor
Ho
(Analyze, General Lineal Models, Univariate)
Factor A Ho: μ1=μ2= …=μa
Factor B Ho: μ1=μ2= …=μb
Interacción Ho: No hay interacción
Análisis de covarianza
Análisis de varianza múltiple
(Analyze, General Lineal Models)
Ho: μy1=μy2= …=μya
(después de ser ajustada con X)
Comparación de medias y/o muestras
3. Análisis de varianza completamente al azar
Repeticiones
TRATAMIENTOS
Totales
T1 T2 T3 … Ta
1 X11 X12 X13 … X1a
2 X21 X22 X23 … X2a
3 X31 X32 X33 … X3a
. . . . . .
n Xn1 Xn2 Xn3 … Xna
nj n1 n2 n3 … na n.
X.j X.1 X.2 X.3 … X.a X..
X2.j X2.1 X2.2 X2.3 … X2.a X2..
Mj M1 M2 M3 … Ma µ
El Modelo: Xij = + τj + eij, i = 1,2,...nj; j = 1,2,...a
Las Suposiciones: a) Los a conjuntos de datos constituyen a muestras aleatorias independientes de
las poblaciones respectivas,
b) Cada una de las poblaciones de las cuales provienen las muestras están distribuidas normalmente,
c) Cada una de las poblaciones tienen la misma varianza.
Las Hipótesis: Ho: 1 = 2 = ... = a HA: no todas las j son iguales
Variación entre tratamientos
Variación
dentro
de
tratamientos
4. 7. La Decisión: Rechazar Ho si Fcal ≥ Fα(2), (a-1), (n. – a)
8. La Conclusión: Es la respuesta estadística. Si Ho fuese rechazada,
entonces hay diferencia significativa entre las medias de la variable
dependienrte debido a los tratamientos.
Fuente de variación
Suma de
cuadrados
Grados de
libertad
Cuadrados medios Fcalc
Total SCTo n. - 1 --
Entre tratamientos SCTr a – 1 CMTr=SCTr/(a-1) Fcalc=CMTr/CME
Dentro de tratamientos
(error)
SCE n. - a CME=SCE/(n.-a)
5. Los Cálculos: Esta suma total de cuadrados se define como:
SCTr
SCTo
SCE
n
X
.
2
..
C C
SCTo
2
..
X
C
.j
SCTr
j j
2
n
X
6. La Tabla del ANOVA
5. Ejemplos de ANOVA al azar de un factor
En un estudio del efecto de la glucosa en la liberación de insulina, se trataron muestras de tejido
pancreático de animales de laboratorio con tres estimulantes distintos. Posteriormente, se determinó la
cantidad de insulina liberada. Los resultados se muestran en la tabla. Hay diferencia significativa entre las
medias de insulina liberada en las tres poblaciones?
Rep.
ESTIMULANTES
E1 E2 E3
1 1.53 3.15 3.89
2 1.61 3.96 3.68
3 3.75 3.56 5.70
4 2.89 2.89 5.62
5 3.26 2.56 7.79
6 3.25 5.33
Ho: µ1 = µ2 = µ3 Ha: Al menos una es diferente
7. Como F = 10,080 y la Sig = 0,002 La hipótesis nula se rechaza,
Hay diferencia altamente significativa entre las medias de insulina con los estímulos.
El estímulo tres es el que muestra la diferencia
Comparación de medias
8. Supongamos que la cantidad de insulina liberada no se distribuye normalmente. Entonces aplicaremos la
prueba no paramétrica de Kruskal-Wallis (ANOVA no paramétrico)
H=
12
N(N+1)
R
n
-3(N+1)
1
k i
2
i
Colecta
Moscas por m3
Rangos
Pasto Arbusto Árbol Pasto Arbusto Árbol
1 14.0 8.4 69. 12 9 6
2 12.1 5.1 5.3 11 2 3
3 9.6 7.3 5.8 10 7 4
4 8.2 6.6 4.1 8 5 1
Ri 41 23 14
9. Estadísticas de los ranks
Como: X2 = 10.312, p = 0.0o6 >> hay diferencia altamente significativa entre las
muestras.
Para saber entre muestras existe la diferencia, se aplicaría la prueba de Mann Whitney
para cada par de muestras.
10. EXPERIMENTO FACTORIAL
Introducción.
Muchos experimentos se llevan a cabo para estudiar los efectos producidos por dos o más factores. Ningún factor se
considera extraño; todos tienen el mismo interés. En el experimento factorial o arreglo factorial, se investigan todas las
posibles combinaciones de los niveles de los factores en cada ensayo completo o réplica del experimento.
Razones para estudiar conjuntamente varios factores:
1. Encontrar un modelo que describa el comportamiento general del fenómeno en estudio. Por ello son muy usados en
experimentos exploratorios.
2. Optimizar la respuesta o variable dependiente; es decir, encontrar la combinación de niveles que optimizan la variable
dependiente.
La característica general y esencial que hace necesario el estudio conjunto de factores es que el efecto de un factor cambie
según sean los niveles de otros factores o sea que exista interacción.
Ventajas de los Experimentos Factoriales:
1. Economía en el material experimental ya que se obtiene información sobre varios factores sin incrementar el tamaño del
experimento.
2. Permitir el estudio de la interacción, o sea determinar el grado y la forma en la cual se modifica el efecto de un factor por
los niveles de otro factor
Desventajas de los Experimentos Factoriales:
Una desventaja de los experimentos factoriales es que requieren un gran número de tratamientos, especialmente cuando se
tienen muchos factores o muchos niveles de un mismo factor.
1. Si se desea usar bloques completos es difícil encontrar grupos de unidades experimentales homogéneas para aplicar
todos los tratamientos.
2. Se aumenta el costo del experimento al tener muchas unidades experimentales; esto se minimiza usando factoriales
fraccionados donde se prueba una sola parte de todo el conjunto de tratamientos.
12. 1. El Modelo:
2. Suposiciones:
a) Las ab celdas constituyen una muestra aleatoria independiente de tamaño n
b) Cada una de las ab poblaciones está normalmente distribuida.
c) Todas las poblaciones tienen la misma varianza.
3. Nivel de significancia α
4. Hipótesis: Factor A Ho: A1 = A2 = ... = Aa Ha: no todas las i son iguales
Factor B Ho: B1 = B2 = ... = Bb Ha: no todas las j son iguales
Interacción AB Ho: No hay interacción entre los factores Ha: hay interacción
ijk
ij
j
i
ijk
X
13. 5. Los cálculos
SCTr
SCTo
SCE
SCB
SCA
SCTr
SCAB
Fuente de V. S.C. G.L. C.M. Fcal
Total SCTo abn - 1
Factor A SCA a – 1 CMA = SCA/(a-1) Fa=CMA/CME
Factor B SCB b – 1 CMB = SCB/(b-1) Fb=CMB/CME
Interacción SCAB (a-1)(b-1) CMAB = SCAB/(a-1)(b-1) Fab=CMAB/CME
Error SCE ab(n-1) CME = SCE/ab(n-1)
6. Tabla del ANOVA :
7. Decisiones:
La Fa se compara con la Fcrit. de A = F α(2),(a-1),ab(n-1) si es mayor se rechaza Ho del factor A,
La Fb se compara con la Fcrit. de B = F α(2),(b-1),ab(n-1) si es mayor se rechaza Ho del factor B,
La Fab se compara con la Fcrit. de AB = F α(2),(a-1)(b-1),ab(n-1) si es mayor se rechaza Ho de la interacción
abn
...
2
C
X
C
SCTo
2
...
X
C
n
i j
.
2
SCTr
X ij
C
bn
i
..
2
SCA
X i
C
an
j
.
.
2
SCB
X j
14. Se están estudiando los factores que influyen en la resistencia de ruptura de una fibra sintética que servirá
para Atletas que practican RAPEL Se eligen al azar cuatro maquinas y tres operadores y se realizó un
experimento factorial, usando fibras de un mismo lote de producción. Los resultados se muestran a
continuación. Analice los datos y obtenga las conclusiones apropiadas.
Operari
o
REP.
MAQUINA
A B C D
X
1 10 11 12 13
2 11 12 13 14
Y
1 11 13 14 16
2 9 11 14 17
Z
1 12 12 16 19
2 11 14 15 18
Hipótesis: Factor A Ho: Ax = Ay = Az Ha: no todas las i son iguales
Factor B Ho: Ba = Bb = Bc = Bd Ha: no todas las j son iguales
Interacción AB Ho: No hay interacción entre los factores Ha: hay interacción
Factores A = Operarios B = Maquina
15.
16. Hay alta diferencia significativa entre las medias de la resistencia
En base al operario y a la maquina, pero no a la interacción
Estadísticas descriptivas Comparación de medias
17.
18. Uno de los objetivos principales del diseño experimental es la reducción del error experimental. Un
importante contribuyente a este error es el error de unidad, el cual expresa la heterogeneidad entre las
unidades experimentales, la cual puede ser sistemática o aleatoria.
Para la variación aleatoria el método es el control indirecto o estadístico, es posible usar la información
adicional o suplementaria bajo ciertas condiciones y así reducir el error experimental. La información
adicional proviene de algunas variables que se relacionan con las respuestas, las cuales suelen
llamarse covariables.
La técnica usada para analizar este tipo de diseños que involucran información adicional o covariables
es llamada la técnica de análisis de Covarianza. En esta se combinan conceptos de análisis de
varianza y análisis de regresión. Los usos más importantes de análisis de covarianza son:
Controlar el error experimental y aumentar la precisión del experimento.
Rep.
T R A T A M I E N T O S
T1 T2 . Ta
TOTALES
X Y X Y . X Y
1 X11 Y11 X12 Y12 . X1a Y1a
2 X21 Y21 X22 Y22 . X2a Y2a
. . . . . . . .
. . . . . . . .
n Xn1 Yn1 Xn2 Yn2 . Xna Yna
Análisis de covarianza al azar de un factor
19. 1. El modelo para este diseño está dado por:
ij
ij
j
ij
X
X
Y
Exx = Sxx – Txx Exy = Sxy – Txy Eyy = Syy – Tyy
n.
.j
=
Txx
(X..)
n
)
X
( 2
j j
2
j
2
j
2
n.
.j
.j
=
Tyy
)
Y
(
n
)
Y
(
j j
.j
.j
n.
(X..)(Y..)
)
)(
(
=
Txy
n
Y
X
SE = Eyy – (Exy) 2 / Exx ST = Syy – (Sxy) 2 / Sxx SD = ST - SE
n.
-
=
Sxx
(X..)
X
2
2
..
n.
=
Syy
(Y..)
Y
2
2
..
n.
(X..)(Y..)
-
(XY)..
=
Sxy
2. Las suposiciones:
a) Las requeridas para la regresión lineal.
b) Las requeridas para el análisis de varianza.
c) La variable concomitante X, no debe ser afectada por los tratamientos.
3. Nivel de significancia α
4. Las hipótesis: Ho: μy1 = μy2 = … = μya (después de que Y fue ajustada mediante la regresión con X)
Ha: No todas las μyi son iguales
5. Cálculos.
20. 7. Decisión, se compara la Fcal con la Fcrit = Fα(2), (a-1),(N-a-1). Si Fcal ≥ Fcrit, entonces Ho se
rechaza
8. Conclusión, si la Ho fuese rechazada, entonces Hay un efecto significativo de los
tratamientos sobre la media de la variable dependiente (Y), después de ser ajustada
mediante la covariante (X)
Fuente de
variación
Desviaciones respecto a la regresión
Fcalc
Cuadrados
medios
Grados de
libertad
Cuadrados medios
Total ST Σnj – 2
Diferencia SD a - 1 S2
D = SD / (a – 1)
Error SE Σnj – a - 1 S2
E = SE / (Σnj – a – 1)
6. Tabla del Análisis de Covarianza:
S
S2
E
2
D
F
21. Se realizó un experimento para probar tres dietas y un control (dieta convencional) en personas para
incrementar su peso. En la siguiente tabla se presentan los resultados, donde X representa el peso inicial
y Y el peso final.
Repet. D1 D2 D3 Ctrl..
X Y X Y X Y X Y
1 40 100 10 50 20 50 30 50
2 20 50 30 90 60 120 10 70
3 40 80 20 50 40 100 40 60
4 60 150 10 30 60 100 20 90
5 40 120 30 50 20 80 10 30
22. No hay diferencia significativa entre las medias de la variable dependiente (peso final) en base a las
dietas, después de ser ajustadas con la covariable x (peso inicial).
23. Se seleccionaron cuatro alumnos de los primeros cuatro grados de la disciplina de
gimnasia, se les determino el grado de esfuerzo y el tiempo necesario para realizar cierta
prueba. Se Desea determinar si hay diferencia significativa entre el esfuerzo y tiempo
medio debido A l grado de avance de los alumnos. Los resultados se presentan en la
siguiente tabla (SPSS).
Las hipótesis se plantean para cada variable dependiente:
Ho: g1 = g2 = g3 = g4 Ha: Al menos una es diferente
24. El valor de λ esta entre o y 1, cuando es cercano a cero los grupos de medias son diferentes
25. A un mismo sujeto (atleta) de estudio se le determinó la cantidad de Linfocitos después de tres pruebas
con el propósito de determinar si había diferencia entre estas células sanguíneas en las tres pruebas.
Los datos se presentan en la siguiente tabla (SPSS). Aplicaremos la prueba de Friedman, suponiendo
que dichas muestras no se distribuyen normalmente.
1)
+
3b(a
-
R
1)
+
ab(a
12
= 2
i
b
1
2 donde: a = No. columnas (tratamientos),
b = No. hileras (bloques)
26,1(1) 48,3(3) 39(2)
26,6(1) 44,7(2) 45(3)
26,9(1) 42,4(2) 43(3)
30,3(1) 46,8(2) 47(3)
27,7(1) 34,9(2) 35,5(3)
25,4(2) 24,6(1) 28,6(3)
13,3(1) 32,4(2.5) 32,4(2.5)
29,7(1) 31,1(2.5) 31,1(2.5)
24,7(1) 40,2(3) 38,5(2)
Ho: no hay diferencia entre las tres muestras de linfocitos Ha: Si hay
26. Como el valor de Chi-cuadrada es de 12,235 y la significancia es 0.002, Ho se rechaza y
esto demuestra que hay diferencia significativa entre las Células de las tres muestras.
27. A 12 atletas se les sometieron a cuatro pruebas diferentes, la calificación fue: 1 si la
aprobaron y 0 si no aprobaron. Se desea saber si hay diferencia entre la calificación de
las cuatro pruebas.
Como se tienen cuatro muestras relacionadas y la escala de medición es nominal, se
aplicara la prueba no paramétrica de Cochran.
Ho: no hay diferencia entre las cuatro muestras de linfocitos
Ha: Si hay
Q =
(a -1)[ G -
( G )
a
]
B -
B
a
i
2 i
2
j
j
2
Donde Bj es la suma de las hileras y Gi la suma de columnas
28. Como el valor de Q de Cochran es de 2,857 y la significancia es 0.414,
Ho NO se rechaza y esto demuestra que NO hay diferencia significativa entre las
cuatro muestras.