1. conceptos de modelos lineales

1
Dr. Ignacio Méndez Ramírez

2
Grados de generalidad de las poblaciones
P = Ui con A, B, C, D, E, F,
P =
P = Ui con A, B, C, D
Ui con A, B,
A cada elemento de la
población se le asocia una
variable Yi =Y(Ui)

3
-4 -3 -2 -1 0 1 2 3 4
f(Yi)
f(Yi)
f(Yi)
Yi
Yi
Yi
ABCDEF / GHI....
ABCD / EFGHI....
AB / CDEFGHI....
σ1
σ2
σ3
σ1 < σ2 < σ3

4
-4 -3 -2 -1 0 1 2 3 4
f(Yi)
f(Yi)
f(Yi)
Yi
Yi
Yi
Humanos, Adultos, Femeninos, Mestizas
Mexicanas, Bien Alimentadas / GHI....
Humanos Adultos,
Femenino / Raza,
Alimentación, etc
Humanos / Edad, Sexo,
Alimentación, Raza, etc
σ1
σ2
σ3
σ1 < σ2 < σ3

5
En una población de cierta generalidad,
los factores no comunes en los elementos
de la población, son los que producen la
variabilidad en los valores de Yi
Si los factores comunes son los que mas
influyen en los valores de Yi, entonces los
que provocan la variabilidad serán
factores de poca influencia cada uno de
ellos. En este caso se espera la
normalidad de las distribuciones.

6
-4 -3 -2 -1 0 1 2 3 4
µ
σ
Modelo lineal básico
Población de elementos Ui con factores comunes A, B, C y D
Modelo básico : Yi = µ +
εi
Medición : A cada Ui se le asocia un número Yi
µ depende de A,B,C,y D los factores comunes
εi depende de E, F,G,....los factores no comunes
ABCD/EFG...
Yi

7
-4 -3 -2 -1 0 1 2 3 4
0
σ
Modelo lineal básico
Población de elementos Ui con factores comunes A, B, C y D
Modelo básico : Yi = µ + εi
Medición : A cada Ui se le asocia un número Yi
µ depende de A,B,C,y D los factores comunes
εi depende de E, F,G,....los factores no comunes
ABCD/EFG...
ε i

8
Efecto de tres métodos de enseñanza en la educación Media Superior.
Enseñanza
Tradicional
Uso de métodos
audiovisuales
Enseñanza
abierta
Nivel I Nivel II Nivel III
DISEÑO CON UN FACTOR
-4 -3 -2 -1 0 1 2 3 4-4 -3 -2 -1 0 1 2 3 4-4 -3 -2 -1 0 1 2 3 4
A1BCD/EFG... A2BCD/EFG... A3BCD/EFG...
Como los errores surgen por los mismos factores
no comunes EFG..., las varianzas de las
poblaciones se espera que sea iguales.
Modelo básico : Yki = µk + εki
µk = µ + τk ; µ es la media general población BCD/AEFG..
τk es el efecto del tratamiento. FACTOR METODO DE ENSEÑANZA
τk= µk - µ

9
Efecto de tres métodos de enseñanza en educación Media
Superior,el efecto del factor nivel socioeconómico se
considera independiente(Factor de confusión).
Enseñanza
Tradicional
Uso de métodos
audiovisuales
Enseñanza
abiertaFACTOR DE CONFUSION
Nivel socioeconómico
Alto
Medio
Bajo
DISEÑO CON UN FACTOR Y UN BLOQUE
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
-4 -3 -2 -1 0 1 2 3 4
Modelo básico : Ykhi = µkh + εkhi
µkh = µ + τk + βh ; µ es la media general población con
CD/ABEFG. τk es el efecto del tratamiento k.(METODO DE ENSEÑANZA k)
βh es el efecto del bloque (nivel socioeconómico)
Población con
factores
comunes:
Medio,Tradicio
nal .C,D,
Población con factores
comunes: Bajo ,Tradicional
.C,D,

10
Efecto de tres métodos de enseñanza en educación Media Superior,
el efecto del factor nivel socioeconómico se considera independiente
(Factor de confusión).
Enseñanz
a
Tradicional
Uso de métodos
audiovisuales
Enseñanza
Alto
Medio
Bajo
Población con
factores
comunes:
Medio,Tradicion
al .C,D,
comunes: Bajo
,Tradicional .C,D,
A1B1CD/EFG..
A1B2CD/EFG..
A1B3CD/EFG..
A2B2CD/EFG..
A2B3CD/EFG.. A3B3CD/EFG..
A3B2CD/EFG..
A2B1CD/EFG.. A3B1CD/EFG.. h=1
h=2
h=3
k=1 k=3k=2

11
Efecto de tres métodos de enseñanza en educación Media Superior,
el efecto del factor nivel socioeconómico se considera independiente
(Factor de confusión).
Enseñanz
a
Tradicional
Uso de métodos
audiovisuales
Enseñanza
Alto
Medio
Bajo
Población con
factores
comunes:
Medio,Tradicion
al .C,D,
comunes: Bajo
,Tradicional .C,D,
µ21
µ22µ12
µ13 µ23 µ33
µ32
µ31µ11

12
Modelo sin interacción : µkh = µ + τk + βh
µ11 - µ12 = µ + τ1 + β1- µ - τ1 - β2 = β1 - β2
µ21 - µ22 = µ + τ2 + β1- µ - τ2 - β2 = β1 - β2
µ11 - µ12 = µ21 - µ22 El cambiar de nivel de h
de 1 a 2, produce el mismo cambio en las medias de
Yi en las poblaciones, cuando se tiene k=1 que
cuando se tiene k=2
En general : µkh - µkh* = µk*h - µk*h* ∀ k,k*,h,h*
La no interacción corresponde a el caso cuando los efectos
de un factor son los mismos, es decir no se afectan por los
efectos del otro factor. Se dice tambien que en su impacto en
la media de las Y, los dos factores son independientes,
actuan en independencia uno del otro.

13
No Interacción µkh
µkh
k=1
k=1
k=2
k=2
k=3
k=3
Si interacción
h=1 h=2
h=2h=1

14
FACTOR HABITOS
DE ESTUDIO
III
II
I
DISEÑO CON DOS FACTORES
A B
Efecto de tres métodos de enseñanza en educación Media
Superior y dos tipos de habitos de estudios. Es posible la
existencia del efecto combinado de ambos factores
(Interacción).
FACTOR METODO
DE ENSEÑANZA
En cada “celda” , combinación de niveles de los factores hay una
poblacion de elementos, con los mismos factores no comunes o sea
mismas fuentes de variabilidad, por lo que se tendrá homogeneidad de
varianzas. Se estas son de poca importancia se espera la normalidad
de las Yi al interior de cada poblacion
Población
IIBCD/EFG...
Población
IIIACD/EFG...

15
FACTOR B
B1 B2
FACTOR A
A3
A2
A1
DISEÑO FACTORIAL 2 x 3
Modelo con interacción µkh = µ + τk + βh + γkh; µ es la media
general de la población CD/ABEFG. αk es el efecto del principal del
factor A en su nivel k , βh es el efecto principal del factor B en su nive h
y γkh es el efecto de interacción
En cada celda
hay una
población
AkBhCD/EFG.....
Los errores se
originan por la
variación de los
factores EFG... , de un
elemento a otro dentro
de cada población

16
Modelo sin interacción: µkh = µ + τk + βh ; µ es la
media general población CD/ABEFG. τk es el efectoprincipal del
tratamiento k.(METODO DE ENSEÑANZA k). βh es el efecto principal del
bloque (nivel socioeconómico).
Modelo con interacción: µkh = µ + τk + βh + γkh;
µ es la media general población CD/ABEFG. τk es el efecto del
principal del tratamiento k.(METODO DE ENSEÑANZA k) βh es el efecto
principal del bloque (nivel socioeconómico), y γkh es el efecto de

17
M1 M2 M3
M1 M2 M3
µkh
µkh
B1
B2
B3
B2 B3
B1
µkh - µkh* = µk*h - µk*h* ∀ k,k*,h,h*
µkh - µkh* ≠ µk*h - µk*h* en algunas k,k*,h,h*

18
FACTOR HABITOS
DE ESTUDIO
FACTOR METODO
DE ENSEÑANZA
III
II
I
DISEÑO CON DOS FACTORES Y CON BLOQUES
A B
FACTOR DE CONFUSION
Alto
Medio
Bajo
Una población en cada celda, todas de igual
generalidad, por que los factores no comunes son los
mismos. Si son de poca importancia, se espera
normalidad y homogeneidad de varianzas
A,III,Alto / EFG.. B,II,Bajo / EFG..
A,I,Alto / EFG..
B,III,Bajo / EFG..

19
DISEÑO CON DOS FACTORES Y CON BLOQUES (tres factores cruzados)
Una población en cada celda, todas de igual generalidad, por que los
factores no comunes son los mismos. Si son de poca importancia, se
espera normalidad y homogeneidad de varianzas
Modelo básico : Ykhmi = µkhm + εkhji ; µkhm media en población con Ak , Bh, Cm
Modelo con interacciónes
µkhm = µ + Ak +Bh+ Cm + (AB)kh+(AC)km+(BC)hm+(ABC)khm
; µ es la media general de la población CD/ABEFG. Ak es el efecto del
principal del factor A en su nivel k , Bh es el efecto principal del factor B en
su nivel h, Cm el efecto principal del factor C en su nivel m, (AB)kh es el efecto
de interacción de A y B en en niveles k y h, (AC)km es el efecto de interacción
de A y C en niveles k y m, (BC)hm es el efecto de interacción de B y C en
niveles h y m, y (ABC)khm es el efecto de interacción triple de A, B, y C en
niveles k, h y m
εkhji es el error dentro de poblacion con A, B, y C en niveles k, h y m. Si las
poblaciones tienen grado de generalidad reducido, hay otros factores
importantes como comunes en todas, se espera la normalidad de estos
errores.Tambien por tener el mismo grado de generalidad, las fuentes de
variacion o de error son las mismas y se espera hoogenidad de varianzas de
una población a otra

20
Caso de no interacción triple
µkhm = µ + Ak +Bh+ Cm + (AB)kh+(AC)km+(BC)hm
µk*hm = µ + Ak* +Bh+ Cm + (AB)k*h+(AC)k*m+(BC)hm ,
µk*h*m = µ + Ak* +Bh*+ Cm + (AB)k*h*+(AC)k*m+(BC)h*m
µkh*m = µ + Ak +Bh*+ Cm + (AB)kh*+(AC)km+(BC)h*m
µkhm - µk*hm= Ak – Ak*+ (AB)kh -(AB)k*h +(AC)km - (AC)k*m
El efecto de cambiar nivel A de k a k* , con niveles h de B y m de C es :
El efecto de cambiar nivel A de k a k* , con niveles h* de B y m de C es:
µkh*m - µk*h*m= Ak – Ak*+ (AB)kh* -(AB)k*h* +(AC)km - (AC)k*m
La interacción entre A y B manteniendo el nivel de C fijo en m es:
µkhm - µk*hm- (µkh*m - µk*h*m)= (AB)kh -(AB)k*h - [(AB)kh* -(AB)k*h* ]

21
Caso de no interacción triple
µkhm*= µ + Ak +Bh+ Cm* + (AB)kh+(AC)km*+(BC)hm*
µk*hm* = µ + Ak* +Bh+ Cm* + (AB)k*h+(AC)k*m*+(BC)hm* ,
µk*h*m* = µ + Ak* +Bh*+ Cm* + (AB)k*h*+(AC)k*m*+(BC)h*m*
µkh*m* = µ + Ak +Bh*+ Cm* + (AB)kh*+(AC)km*+(BC)h*m*
µkhm* - µk*hm*= Ak – Ak*+ (AB)kh -(AB)k*h +(AC)km* - (AC)k*m*
El efecto de cambiar nivel A de k a k* , con niveles h de B y m* de C es :
El efecto de cambiar nivel A de k a k* , con niveles h* de B y m* de C es:
µkh*m* - µk*h*m*= Ak – Ak*+ (AB)kh* -(AB)k*h* +(AC)km* - (AC)k*m*
La interacción entre A y B manteniendo el nivel de C fijo en m* es:
µkhm* - µk*hm*- (µkh*m* - µk*h*m*)= (AB)kh -(AB)k*h - [(AB)kh* -(AB)k*h* ]

22
La interacción entre A y B manteniendo el nivel de C fijo en m es:
µkhm - µk*hm- (µkh*m - µk*h*m)= (AB)kh -(AB)k*h - [(AB)kh* -(AB)k*h* ]
La interacción entre A y B manteniendo el nivel de C fijo en m* es:
µkhm* - µk*hm*- (µkh*m* - µk*h*m*)= (AB)kh -(AB)k*h - [(AB)kh* -(AB)k*h* ]
µkhm - µk*hm- (µkh*m - µk*h*m)= µkhm* - µk*hm*- (µkh*m* - µk*h*m*)
Se tiene que las dos interacciones son iguales.
El hecho de que la forma de la interacción
entre A y B no se modifique por los
cambios en los niveles de C, es a lo que se
denomina que NO hay interacción triple

23
A1 A2 A3
B3
B1
B2
µkhm
C1
A1 A2 A3
B3
B1
B2
µkhm
C2
A1 A2 A3
B3
B1
B2
µkhm
C3
A1 A2 A3
B3
B1
B2
µkhm
C1
A1 A2 A3
B3
B1
B2
µkhm
C2
A1 A2 A3
B3
B1
B2
µkhm
C3

24
X1 X2 Xp
µ(y Xp)
ABCXp / EFG...
ABCX1/ EFG...
ABCX2 / EFG...
Xi
Yik
f(Yik / Xi)
Modelo básico : Yik = µ(Yik/Xi) + εik
µ(Yik/Xi) = β0+ β1 Xi ; las medias se acomodan a lo largo de una recta
Una población en cada valor de Xi, todas de igual
generalidad, por que los factores no comunes EFG... son
los mismos. Si éstos son de poca importancia en su
efecto sobre Y, se espera normalidad y homogeneidad de
varianzas, de las Yik (de los εik) dentro de cada población

25
X1 X2 Xp
µ(y Xp)
ABCXp / EFG...
ABCX1/ EFG...
ABCX2 / EFG...
Yik
f(Yik / Xi)
Modelo básico : Yik = µ(Yik/Xi) + εik
µ(Yik/Xi) = β0+ β1 Xi+ β2 X2
i+ β3 X3
i
Una población en cada valor de Xi, todas de igual generalidad, por
que los factores no comunes EFG... son los mismos. Si éstos son
de poca importancia en su efecto sobre Y, se espera normalidad y
homogeneidad de varianzas, de las Yik (de los εik) dentro de cada
población

26
X
Z
µ(Yikm/XiZk)
Modelo básico : Yikm = µ (Yikm / Xi , Zk) + εikm
µ( Yikm/ Xi , Zk) = β0+ β1 Xi+ β2 X2
i+ β3 Zk + β4 Z2
k+ β5 XiZk
Una población en cada valor de Xiy Zk, todas de igual generalidad,
por que los factores no comunes EFG... son los mismos. Si éstos
son de poca importancia en su efecto sobre Y, se espera
normalidad y homogeneidad de varianzas, de las Yikm (de los εikm)
dentro de cada población
Población de
elementos,
con A, B, C, Xi
y Zk comunes.
No comunes
EFG...

29
Modelo básico : Yikmwgh = µ (Yikmwh /A,B, Cw Dg Xi , Zk) + εikmwgh
µ( Yikmwh/A,B, Cw, Dg, Xi , Zk) = β0+ β1 Xi+ β2 X2
i+ β3 Zk + β4
Z2
k+ β5 XiZk+Cw+Dg +(CD)wg+ DgXi+CwXiZk+ ....
Una población de elementos en cada valor de
Cw, Dg , Xi y Zk, todas de igual generalidad, por
que los factores no comunes EFG... son los
mismos. Si éstos son de poca importancia en
su efecto sobre Y, se espera normalidad y
homogeneidad de varianzas, de las Yikm (de los
εikm) dentro de cada población

30
La manera de modelar como
cambian las medias de varias
poblaciones es a través de los
modelos estadísticos lineales.
Modelos para el cambio en
las medias de poblaciones.

31
Modelos de Regresión o
lineales de rango completo
Para cada combinación de valores
de varias variables numéricas (X1,
X2, X3,... Xp) se conceptualiza una
población de elementos, en cada
elemento i, se mide una variable
numérica Yi.

32
Si las fuentes de variación, es decir los
factores que pueden variar al interior de
cada población, son de poca importancia
en la determinación de los valores de Y,
se espera una distribución normal para
los valores de Y, además si no hay
interacciones de los valores de las X, con
las fuentes de variación o error se espera
homogeneidad de varianzas.
Modelos de Regresión o
lineales de rango completo

33
En general el modelo lineal es:
ipi XXXY εµ += ),...,,( 21
con
),0( 2
σε Ni ≈
Para cada valor de X1, X2, X3, ...Xp se tiene un
conjunto de elementos a los que se les mide
Y, además los valores de Y tienen
distribución aproximada a la normal con
media y varianza.
La forma que modela (modelo de medias) los
cambios de la media de una población a
otras, puede ser muy flexible.

34
Se usan en dicho modelo cualquier
número y forma de funciones de las Xs,
que no involucren parámetros
desconocidos, y se agregan dichas
funciones ahora si multiplicadas
(lineales) por parámetros desconocidos
usualmente representados con betas.

35
Hiperplano:
pipiip XXXXXX ββββµ +++= ...),...,,( 2211021
Modelo cuadrático:
kipiqpipippipii
p
XXXXXXX
XXX
+++ ++++++= βββββββ
µ
......
),...,,(
2
2
21
2
122110
21
Modelo general:
)...,()......,()...,(
),...,,(
21212221110
21
piiiqqpiiipiii
p
XXXfXXXfXXXf
XXX
ββββ
µ
+++=
Donde las funciones fk con k =1,2,...,q son
funciones de los valores de las X y constantes
conocidas, es decir no involucran parámetros
desconocidos, por esto aun es un modelo lineal.

36
Se tiene así que el modelo especifica el cambio al
pasar de una población a otra a través de los
llamados coeficientes de regresión. El modelo en
general, sin interacciones, es decir sin funciones fk
que involucren a varias variables es:
ijklpwjklijkl XXXXY εµ += ),..,...,,( 21
pijkpijkijkijkijk
pwjkl
XXXXX
XXXX
ββββββ
µ
++++++= ....
),..,...,,(
443322110
21
ijklpijkpijkijkijkijkijkl XXXXXY εββββββ +++++++= ....443322110
donde
),0( 2
σε Nijkl ≈
Tradicionalmente si todas las Xw, w = 1,2,3,...p son variables
numéricas se llama Modelo de Regresión Múltiple.

37
Si todas las Xw, son variables indicadoras
de la pertenencia a una o más variables
formadas por categorías, las llamadas
variables categóricas, se llama “Modelo de
Análisis de Varianza” o “Modelo de
Diseño de Experimentos”.
Si algunas de las Xs, son indicadoras de
categorías y otras numéricas se llama
“Modelo de Análisis de Covarianza”

38
Las β son los coeficientes de regresión parciales; se
llaman así por que si se mantienen todas las X
constantes salvo una, digamos X2, y se consideran dos
poblaciones una con un valor dado de X*2 y otra con ese
valor mas uno, X*2+1, se tiene:
A la media con X*2+1 y las demás a un valor dado se le
resta la media con X*2 se tiene el coeficiente de regresión
pijkpijkijkijkijkpwjkl XXXXXXXXX ββββββµ +++++++=+ ....)1(),..,...,1,( 44332
*
21102
*
1
pijkpijkijkijkijk XXXXX βββββββ +++++++= ....)( 443322
*
2110
pijkpijkijkijkijkpwjkl XXXXXXXXX ββββββµ ++++++= ....),..,...,,( 44332
*
21102
*
1
22
*
12
*
1 ),..,...,,(),..,...,1,( βµµ =−+ pwjklpwjkl XXXXXXXX

39
Es decir β2 es el cambio en la media de los
valores de Y al pasar de una población con un
valor dado de X2 a otra población ahora con ese
valor incrementado en una unidad (son la
unidades con las que se mide X2 ), manteniendo
todas las otras variables constantes (ajustados
por todas esas otras variables).
Para que se de esto, se requiere que la variable
X2 no aparezca en otro termino además del que
tiene el coeficiente β2. Si hay una variable
compuesta fk que involucre a X2 con otras
variables, al restarle a la media con X2*+1 la de
X2*, no se eliminan todos los otros términos.

40
Suponga que se tienen dos grupos de personas una con
X1=1 que indica ejercicio y otra con X1=0 que indica no-
ejercicio. Además está el valor de la edad de la persona
X2. A cada combinación de grupo y edad se le considera
una población de personas con esa edad X2 y con esa
categoría de ejercicio X1, a cada persona i se le mide Yi
los valores de ácidos grasos.
En el modelo sin interacción se tiene:
ii XXY εµ += ),( 21
ii XXXX 2211021 ),( βββµ ++=
con

41
La media de una población que no hace
ejercicio, también de 35 años es:
)35()0()35,0( 210 βββµ ++=
La media de una población de personas de
35 años que si hacen ejercicio será:
)35()1()35,1( 210 βββµ ++=

42
Entonces la diferencia de medias es el efecto
del ejercicio para personas de 35 años:
)35,0()35,1( µµ −
De manera que β1 es el efecto (cambio en las
medias de ácidos grasos) de pasar de una
población de personas de 35 años que si hace
ejercicio a otra población de personas de 35 años
que no hace ejercicio.
Podemos ver que la edad pudo haber sido
cualquier otra, por lo que se tiene que en general
β1 es el efecto del ejercicio corregido o ajustado
}{ 1210210 )35()0()35()1( βββββββ =++−++=

43
También en el modelo sin interacción, el efecto
de la edad es β2. Ya que entonces se tendrá:
}{ ( ) 22210210 3536)35()1()36()1()35,1()36,1( ββββββββµµ =−=++−++=−
Este es el efecto de la edad entre los que hacen
ejercicio, pero se puede ver que si consideramos la
diferencia anterior con X1=0, no-ejercicio, también es el
efecto de la edad. También se dice que β2 es el efecto
de edad ajustado o corregido por ejercicio.
Es decir β2 es el cambio en la media de ácidos grasos de
una población con cierta edad X* a una población con edad
X*+1, en ambos caso con el mismo estatus (corregida) de
ejercicio.

44
En este caso, el modelo
ii XXXX 2211021 ),( βββµ ++=
es el de dos rectas de regresión paralelas. La diferencia
en altura de esas rectas es; y la pendiente común (por
que no hay interacción) es β1; y la pendiente común (por
que no hay interacción) es β2.

45
Modelo con interacción
Si existe interacción del ejercicio con la edad, es decir el
efecto del ejercicio se modifica por la edad, entonces el
modelo es:
)(),( 2132211021 iiii XXXXXX ββββµ +++=
Nótese que para generar la interacción se multiplican las
variables correspondientes, para dar una nueva variable
independiente (en este caso el producto de X1i con X2i).
Ahora son dos rectas diferentes en pendiente y ordenada
al origen.
La diferencia de la media de los valores de ácidos grasos
para la población con ejercicio y 35 años, con la de la
población sin ejercicio y 35 años es ahora:

46
Este es un modelo de regresión lineal simple entre Y ácidos
grasos y X2, la edad con β3 como coeficiente de regresión y
β1 como ordenada al origen.
)35,0()35,1( μμ -
( ){ }
31
32103210
35
35*0350)35*1(351
ββ
ββββββββ
+=
+++−+++=
Ahora esta diferencia si depende de la edad particular, a
través del coeficiente de la interacción β3. No se puede hablar
de efecto de ejercicio corregido o ajustado por la edad.
Se recomienda en general que se prueben modelos con
interacciones, y sólo si las interacciones no son significativas,
se interpretan los efectos principales.

47
Variables Categóricas o de Clasificación
como Independientes.
Para los modelos con variables categóricas, se
presenta el problema de la sobreparametrización.
Por ejemplo, si se tiene un modelo para estudiar
cambios en las medias para 4 poblaciones, es decir
un factor independiente con 4 categorías.
Usar variables que identifiquen a todos los niveles
del factor produce un modelo con exceso de
parámetros y no puede encontrarse una solución
única al proceso de estimar parámetros.

48
Modelos lineales
Si todas las variables Xi , i=1,2,...,p son numéricas se llama
Modelo de Regresión Múltiple.
Si todas las variables Xi , i=1,2,...,p son variables indicadoras
de la pertenencia a una de k categorías, se llama
Modelo de Análisis de Varianza.
Si algunas de las variables Xi , i=1,2,...,p son indicadoras
de pertenencia a categorías y otras son numéricas, se llama
Modelo de Análisis de Covarianza.

49
Modelos de Análisis de Varianza
( )1 2, , ,i p iY X X Xµ ε= +K
con ( )2
~ 0,i Nε σ
1 2, , pX X XK Son variables indicadoras que definen
pertenencia a categorías

50
Variables indicadoras
Para un factor con k categorías, se requieren k-1 variables
Indicadoras. Por ejemplo, un factor con 4 categorías:
Variables
indicadoras
Categoría
1
Categoría
2
Categoría 3 Categoría 4
(referencia)
X1 1 0 0 0
X2 0 1 0 0
X3 0 0 1 0
Una forma de construir las variables indicadoras:

51
Variables indicadoras
Otra forma de construir las variables indicadoras (JMP):
Variables
indicadoras
Categoría
1
Categoría
2
Categoría 3 Categoría 4
(referencia)
X1 1 0 0 -1
X2 0 1 0 -1
X3 0 0 1 -1

52
Modelos de Análisis de Varianza
Se construyen las variables indicadoras necesarias
y se procede a ajustar el modelo lineal requerido.
La interpretación de los resultados depende de la
forma en que se construyen las variables indicadoras.

53
Diseño completamente al azar un solo
factor con t niveles
Suponga que tenemos un solo factor con t niveles,
es decir, t tratamientos y al azar se asignan n ue a
cada tratamiento.
Las observaciones se pueden representar por el
modelo lineal simple
con error experimental en la observación
j-ésima del tratamiento i-ésimo.
Suponemos independencia entre y dentro de las muestras
1, , 1, ,ij i ij i t j ny µ ε = == + K K
ijε
( )2
~ 0,ij NIDε σ

54
Diseño completamente al azar, un factor
Se tienen t muestras independientes de tamaño n
( )
( )
( )
2
11 12 1 1
2
21 22 2 2
2
1 2
, , ,
, , ,
, , ,
n
n
t t tn t
y y y N
y y y N
y y y N
µ σ
µ σ
µ σ
K
K
M
K
es una muestra aleatoria de

55

56
El modelo:
es el modelo completo ya que incluye una media
separada para cada una de las poblaciones definidas
por los tratamientos.
Si no hay diferencia entre las medias de las poblaciones
Se general el modelo reducido
ij i ijy µ ε= +
1 2 tµ µ µ µ= = = =L
ij ijy µ ε= +

57
El modelo reducido representa la hipótesis de no
diferencia entre las medias de las t poblaciones
0 1 2: tH µ µ µ µ= = = =L
El modelo completo representa la hipótesis alternativa
:a i kH i kµ µ≠ ≠para alguna
¿Cuál de los dos modelos describe mejor
a los datos del experimento?

58

59
Se requiere un método para estimar los parámetros
de los dos modelos y con base en algún criterio
objetivo determinar cuál modelo o hipótesis
estadística se ajusta mejor a los
datos del experimento.

60
Método de mínimos cuadrados.
2
1 1
min
t r
ij
i j
SCE ε
= =
= ∑∑
Se minimiza la suma de cuadrados del error en cada
uno de los dos modelos y se encuentran los estimadores
de los parámetros correspondientes.

61
Para el modelo completo:
ˆi iyµ = g
Para el modelo reducido:
( )
2
1 1
min
t r
r ij
i j
SCE y µ
= =
= −∑∑ ˆ yµ = gg
( )
22
1 1 1 1
min
t r t r
c ij ij i
i j i j
SCE yε µ
= = = =
= = −∑∑ ∑∑

62
Entonces se tienen las sumas de cuadrados estimadas
del error de los dos modelos al incluir los estimadores
los parámetros
( )
( )
2
1 1
2
1 1
t r
c ij i
i j
t r
r ij
i j
SCE y y
SCE y y
= =
= =
= −
= −
∑∑
∑∑
g
gg

63
La diferencia entre estas dos sumas de cuadrados es una
medida del grado de concordancia entre hipótesis y datos,
tambien llamada Reducción de sumas de cuadrados
debida a tratamientos
0H trat r cSC SC SCE SCE= = −
Si es “grande” implica falta de concordancia entre
la hipótesis y los datos.
0HSC

64
r total trat cSCE SC SC SCE= = +
( ) ( ) ( )
2 22
1 1 1 1 1 1
t r t r t r
ij i ij i
i j i j i j
y y y y y y
= = = = = =
− = − + −∑∑ ∑∑ ∑∑gg g gg g
Partición de la suma de cuadrados total en una debida
a los tratamientos y otra debida al error. Surge la
Tabla de Análisis de Varianza (ANOVA)

65
Tabla de Análisis de Varianza (ANOVA)
F.V. g.l. S.C. C.M. F
Tratamientos
(entre) t-1
Error
(dentro) tn-t
Total
tn-1
tratSC
SCE
totalSC
/ 1tratSC t −
2
/
ˆ
SCE n t
σ
−
tratCM
CME
(t-1)
(tn-t)

66
Análisis de varianza (ANOVA)
Si es cierta, entonces0 1 2: tH µ µ µ µ= = = =L
1,~trat
c t n t
E
CM
F F
CM
− −=
Se fija un nivel de significancia
[ ] 0 0IP P H Hα = =   error tipo rechazar es cierta
tn-t

67
Se rechaza si0 1 2: tH µ µ µ= = =L
1,c t n tF Fα
− −> tn-t

68
Ejemplo de una
región de rechazo
de H0 (t=5, n=10)
Si Fc > 2.58
se rechaza H0 al
nivel de significancia
α=0.05

69
Los paquetes estadísticos calculan el valor p-value
(significancia observada) que es la probabilidad
de obtener un valor de Fc como el obtenido o mayor
si la hipótesis nula es cierta.
Si el valor del p-value es pequeño nos lleva a rechazar
la hipótesis nula.

70
Distribución F con 4 y 45 g.l.
F =3.78c
p-value=0.0098
Poco probable haber
obtenido este valor
de Fc u otro más
grande si H0 es
cierta, por lo tanto
Se rechaza H0

71
Una vez que se rechaza
sabemos que hay por lo menos una pareja de medias
que son diferentes, pero cuáles son?
0 1 2: tH µ µ µ= = =L

72
Comparaciones múltiples
Son pruebas estadística que nos permiten contrastar
hipótesis del tipo:
0
1, ,
: :i j a i j
i j t
H vs Hµ µ µ µ
≠ =
= ≠
K
Manteniendo fija la probabilidad del error tipo I
por experimento Eα

73
Comparaciones múltiples
Tukey (DMSH)
Bonferroni
Student-Newman-Keuls (SNK)
Scheffé
Entre otras
Dunnet (cada tratamiento vs control)

74
Contrastes
Un contraste es una combinación lineal de las medias
definido comoiµ
1
t
i i
i
C k µ
=
= ∑ 1
0
t
i
i
k
=
=∑donde
Interesa probar o dar un intervalo de
confianza para el contraste.
Los contrastes son, generalmente, comparaciones
de las medias de los tratamientos planeadas de
antemano.
0 : 0H C =

75
Contrastes ortogonales
Existe una clase de contrastes, los
contrastes ortogonales.
Para t tratamientos existe un conjunto de t-1
contrastes ortogonales que hacen una partición de la
Suma de cuadrados de tratamientos en t-1
componentes independientes, cada uno con 1 g.l. Lo
que implica que estas pruebas son independientes.
Dos contrastes, con coeficientes {ki} y {li}
son ortogonales si
1
0
t
i i
i
k l
=
=∑

76
Diseños factoriales (estructura de tratamientos)
• Información sobre varios factores. Todas las ue se
utilizan para la evaluación de los efectos
• Se amplía el rango de validez del experimento al
estudiar cada factor en las condiciones representadas
por los niveles de los otros factores
• Permite el estudio de la interacción, esto es, estudiar
el grado y forma en la cual se modifica el efecto de un
factor por los niveles de los otros factores
• El número de tratamiento es el producto de los niveles
de los factores (diseño completo).
Si el número de tratamientos es grande implica que
se necesitan muchas ue

77
Interacción
Ejemplo de un factorial 2x2 sin y con interacción

78
Diseño factorial
Suponga un experimento con dos factores, A con a niveles
Y B con b niveles, en diseño completamente al azar.
(Factorial a x b completo, balanceado, efectos fijos)
11 12 1b
21 22 2b
a1 a2 ab
Factor B
1 2 … bFactor A
1
2
.
a

79
Diseño factorial, completamente al azar
El modelo lineal, modelo de medias
( )2
1, 2, ,
1, 2, ,
~ 0,
ij i ij
ij
i ab
j r
y
N
µ ε
ε σ
=
=
= + K
K
El modelo de efectos
( )2
1,2, , 1,2, , 1,2, ,
~ 0,
ijk i j ij ijk
ijk
i a j b k r
y
N
µ α β γ ε
ε σ
= = =
= + + + +
K K K
j kk

80
Diseño factorial
Los dos modelos son equivalentes.
El modelo de efectos está sobreparametrizado así que
se hace una reparametrización con variables
indicadoras.
En el modelo de medias se realizan las pruebas para
los efectos a través de contrastes.
En los dos casos las hipótesis de interés son:
01
02 .
03 .
: 0
: 0
: 0
ij
i i
j j
H i j
H i
H j
γ
α γ
β γ
=
+ =
+ =
para toda y
para toda
para toda

81
Diseño factorial
• Una interacción significativa oscurece la
significancia de los efectos principales
• Cuando hay interacción significativa, se deberán
estudiar los niveles de un factor, digamos A, con los
niveles del o de los otros factores fijos, para tener
conclusiones acerca del efecto de A dados esos
niveles fijos de los demás factores. JMP lo hace
con la prueba de “rebanadas” (“slides”).
En presencia de interacción NO estudiar efectos principales

82
Diseño factorial
Factor A
- +
10
20
30
40
50
B+
B-
y

83
Diseño factorial completamente al azar. Tabla
de ANOVA
F.V. g.l. S.C C.M. F
A a-1 SSA SSA/(a-1) CMA / CME
B b-1 SSB SSB / (b-1) CMB / CME
AB (a-1)(b-1) SSAB SSAB / (a-1)(b-1) CMAB / CME
Error ab(n-1) SSE SSE/ab(n-1)
Total n. - 1 SSTot

84
Diseño factorial en bloques al azar
Suponga un factorial axb en p bloques al azar
ab 11 21 22 31 ...... 13
11 21 ab 12 22 ...... 31
21 11 12 13 31 ...... ab
12 21 ab 11 22 ...... 13
Bloque 1
Bloque 2
Bloque p

85
Diseño factorial en bloques al azar
El modelo:
1, , 1, , 1, ,
( )ijk i j ij k ijk
i a j b k p
y A B ABµ β ε
= = =
= + + + + +
K K K
Donde es el efecto de bloque y
( )2
~ 0,ijkl Nε σ
kβ

86
Diseño factorial en bloques al azar Tabla de
ANOVA
F.V. g.l. S.C C.M. F
Bloques p-1 SSBloque
A a-1 SSA SSA/(a-1) CMA / CME
B b-1 SSB CMB / CME
AB (a-1)(b-1) SSAB CMAB / CME
Error ab(p-1)-p+1 SSE SSE/gle
Total abp-1 SSTot

87
Diseño factorial axbxc ( en diseño
completamente al azar. No hay bloques)
( ) ( ) ( )
( )
1, ,1 1, , 1, , 1, ,
ijkl i j k
ij ik jk
ijklijk
i j b k c l n
y µ α β γ
αβ αγ βγ
αβγ ε
= = = =
= + + +
+ + +
+ +
K K K K

88
Diseño factorial axbxc (c.a.)
10
20
30
40
50
y
10
20
30
40
50
C3
C3
C2 C2
C1 C1
y
A- A+
B1 B2 B3 B1 B2 B3
Interacción de tres factores A con 2 niveles, B con 3 y C
con 3 niveles

89
Suposiciones
Errores independientes (aleatorización)
Errores normales (pruebas de bondad de
ajuste, gráfica cuantil cuantil normal)
Homogeneidad de varianzas (pruebas
Levene, Bartlett)
Transformaciones de la variable y. Box Cox

90
Otros temas
Parcelas divididas
Análisis de covarianza
Diseños cruzados
Varias variables dependientes MANOVA
Mediciones repetidas

91
Variables
Indicadoras
Categoría
1
Categoría
2
Categoría
3
Categoría
4
X1 1 0 0 0
X2 0 1 0 0
X3 0 0 1 0
X4 0 0 0 1
Caso de cuatro poblaciones o niveles
de un factor.
¿¿ Cuatro variables indicadoras. ??

92
no permite una estimación de los coeficientes, se
requiere eliminar parámetros es decir cambiar de
modelo. Esto obedece a que al especificar que no
estamos en categorías 1,2 y 3, con X1, X2 y X3
iguales a cero, entonces es redundante la
información de X4 por que tiene que ser uno.
Matemáticamente esto equivale a que se puede
tener una X, digamos X4 definida exactamente
como X4=1-X1-X2-X3 , o bien 1=X1+X2+X3+X4, por
esto al usar un modelo con las 4 Xs
no hay una
solución única para estimar los coeficientes, hay
El modelo
iiii XβXβXβXββXXXXμ 4433221104321 ),,,( ++++=

93
En el modelo
04321 =+++ ββββ
Como esta el modelo, hay muchas soluciones
posibles para las betas. Ante esto Fisher
agregó una restricción que es:
iiii XβXβXβXββXXXXμ 4433221104321 ),,,( ++++=
Otra manera de enfrentar el problema es la
llamada “reparametrización”. Es decir el
mismo modelo pero expresado de tal modo
que hay una solución única para las betas.
Esto consiste en estimar solo 3 ( en general
k-1) combinaciones lineales de la betas.

94
Cualquier conjunto de variables categóricas se
puede representar con variables numéricas.
Para una variable categórica con k categorías
se usan k-1 variables numéricas, pueden ser
cualquiera de las variables numéricas, la única
condición es que en cada categoría de la
variable categórica se tenga por lo menos una
variable numérica con valores diferentes.
Esto es para eliminar la redundancia de la
situación anterior.
Representación de variables
categóricas con variables numéricas

95
Variables
Categoría
1
Categoría
2
...
Categoría
k-1
Categoría
k
X1 23 14 -12 0
X2 4 -15 1 4
X3 0 1 0 2
.......
Xk-1 67 138 45 6
Caso de k poblaciones o niveles de un factor con
variables arbitrarias, para representar las k
poblaciones .

96
Cualquier grupo de k-1 variables (como el
anterior) funciona en el modelo lineal, sin
embargo se usan mucho tres tipos de
codificaciones: 1.-Variables Indicadoras
(“Dummy variables”), 2.-Codificación de Efectos
y 3.-Contrastes.
Para ejemplificar esos tres tipos de codificación
consideraremos un caso de una variable
categórica con 4 categorías.

97
Codificación con variables indicadoras
Se elige una categoría de referencia, usualmente la última
en orden. Para cada categoría se usa una variable que
toma el valor 1 si se tiene esa categoría y 0 de otro modo,
esto para las k-1 categorías que no son la de referencia.
Variables
Indicadoras
Categoría
1
Categoría
2
Categoría
3
Categoría
4,
referencia
X1 1 0 0 0
X2 0 1 0 0
X3 0 0 1 0

98
En el modelo
iii XXXXXX 3322110321 ),,( ββββµ +++=
101 )0,0,1( ββµµ +==
202 )0,1,0( ββµµ +==
303 )1,0,0( ββµµ +==
04 )0,0,0( βµµ ==
0: 3210 === βββH
Equivale a Ho.
43210 : µµµµ ===H

99
Codificación de efectos
JMP. También se elige una categoría de referencia, pero a
esa se le asigna un –1 en todas las k-1 variables, para las k-1
demás categorías se usa una variable que toma el valor 1 si
se tiene esa categoría, cero en otras y –1 en la de referencia.
Variables
Indicadoras
Categoría 1 Categoría 2 Categoría 3
Categoría 4,
referencia
X1 1 0 0 -1
X2 0 1 0 -1
X3 0 0 1 -1
Esta codificación surge de la idea de Fisher que los
coeficientes correspondientes en el modelo de regresión
cumplan con
β 4=-β1-β2-β3 o, sea, -β4=β1+β2+β3
04321 =+++ ββββ

100
En el modelo
iii XXXXXX 3322110321 ),,( ββββµ +++=
101 )0,0,1( ββµµ +==
202 )0,1,0( ββµµ +==
303 )1,0,0( ββµµ +==
32104 )1,1,1( ββββµµ −−−=−−−=
0: 3210 === βββH
Equivale a Ho.
43210 : µµµµ ===H

101
Codificación con Contrastes
Se eligen k-1 grupos de coeficientes Chi , h= 1,2, ... k-1 y
i = 1,2 ,...k de modo que la suma de los coeficientes
sobre i, sea cero para cada valor de h por separado.
0
1
=∑=
k
i
hiC
A cada grupo se le llama contraste. Si además se tiene
que,
0
1
´ =∑=
k
i
ihhiCC
se dice que son Contrastes Ortogonales. Puede haber
muchos juegos de k-1 contrastes ortogonales para cada
valor de k categorías. Además el requisito de
ortogonalidad no es indispensable, solo hace que los
estimadores de los contrastes sean independientes.

102
Las hipótesis que se someten a prueba son del tipo
i
k
i
iCcon µϕϕ ∑=
==
1
.......0
Contrastes Categoría
1
Categoría
2
Categoría
3
Categoría
4
C1
:(1+2)Vs(3+4) 1 1 -1 -1
C2
:(2+4)Vs(1+3) -1 1 -1 1
C3
:(2+3)Vs(1+4) -1 1 1 -1
Por ejemplo para el contraste 3, se tiene
)()1()1()1()1(.......0 41324321
1
333 μμμμμμμμμCcon i
k
i
i
+−+=−+++−=== ∑=
Esto implica que si la hipótesis es cierta se tiene:
22
.....)...( 4132
4132
μμμμ
bienoμμμμ
+
=
+
+=+
φ

103
Otro caso
Contrastes Categoría
1
Categoría
2
Categoría
3
Categoría
4,
C1*
:(1)Vs(2+3+4) 3 -1 -1 -1
C2*
:(2)Vs(3+4) 0 2 -1 -1
C3*
:(3)Vs(4) 0 0 1 -1
Para el contraste 1.
43214321
1
111 3)1()1()1()3(.......0 µµµµµµµµµϕϕ −−−=−+−+−+=== ∑=
i
k
i
i
Ccon
3
.....)...(3 432
14321
µµµ
µµµµµ
++
=++= bieno
En general se tiene que








≈= ∑∑=
)ˆ(ˆ,ˆˆ
2
1
µϕµϕ VCNC ii
k
i
i
lo que permite obtener intervalos de confianza para los
contrastes

104
0=ϕ
La prueba de hipótesis sobre los contrastes se puede
incorporar a la tabla de análisis de varianza. En el caso
balanceado, de manera que si Ho es cierta
se tiene que n
CME
V i =)ˆ(ˆ µ








= ∑∑=
)ˆ(ˆ,~ˆˆ
2
1
iii
k
i
i VCNC µϕµϕ
glerrort
i
ii
t
VC
~
)ˆ(ˆ
ˆ
1
2
∑=
µ
ϕ ( )
glerrort
i
ii
F
VC
,1
1
2
2
~
)ˆ(ˆ
ˆ
∑=
µ
ϕ
( )
glerrort
i
i
F
n
CME
C
,1
1
2
2
~
ˆ
∑=
ϕ
( )
CME
Cn
YC
CMECn
YC
n
CME
C
n
Y
C
n
CME
C
yC
n
CME
C
t
i
i
t
i
ii
t
i
i
t
i
ii
t
i
i
t
i
i
i
t
i
i
t
i
ii
t
i
i
∑
∑
∑
∑
∑
∑
∑
∑
∑
=
=
=
=
=
=
=
=
=






=






=






=






= 1
2
2
1
.
1
2
2
1
.
1
2
2
1
.
1
2
2
1
1
2
2
ˆϕ

105
( ) =






=






=
∑
∑
∑
∑
∑ =
=
=
=
=
t
i
i
t
i
i
i
t
i
i
t
i
ii
t
i
i
n
CME
C
n
Y
C
n
CME
C
yC
n
CME
C
1
2
2
1
.
1
2
2
1
1
2
2
ˆϕ
CME
SC
CME
Cn
YC
CMECn
YC
t
i
i
t
i
ii
t
i
i
t
i
ii
)0(1
2
2
1
.
1
2
2
1
.
=
=






=






=
∑
∑
∑
∑
=
=
=
= ϕ
∑
∑
=
=






t
i
i
t
i
ii
Cn
YC
1
2
2
1
.
Es la suma de cuadrados del
contraste. Como tiene un grado de
libertad es igual a un CM.

106
Reparametrizaciones en el caso de
dos factores sin interacción
Para observar como se interpretan los parámetros en un
modelo con dos factores y con interacción con cada una de
las dos codificaciones (reparametrizaciones), indicadoras y
de efectos, veremos un caso de un factorial 2 por 3.
Factor y nivel A1
A2
A3
B1 μ11 μ12 μ13
B2 μ21 μ22 μ23
Consideremos primero el caso sin interacción, con dos
variables indicadoras para el efecto de A y una para B.
ijBijAijAij XβXβXββμ 1322110 +++=

107
Caso 1. No interacción con variables indicadoras



=
nosi
Asi
X ijA
.....0
1....1
1



=
nosi
Asi
X ijA
.....0
2....1
2



=
nosi
Bsi
X ijB
.....0
1....1
1
310321011 101 βββββββμ ++=+++=
320321012 110 βββββββμ ++=+++=
30321013 100 ββββββμ +=+++=
10321021 001 ββββββμ +=+++=
20321022 010 ββββββμ +=+++=
0321023 000 βββββμ =+++=
De este sistema se obtiene, que los efectos sobre las medias son:
131123211 μμμμβ −=−= El cambio en las medias de A1 a
A3 es igual con B1 que con B2
131223222 μμμμβ −=−=
2212211123133 μμμμμμβ −=−=−=
El cambio en las medias de A2 a
A3 es igual con B1 que con B2
El cambio en las medias
de B1 a B2 es igual con
A1 que con A2 o A3

108
Caso 2. no interacción con variables de efectos (JMP)





−
=
3......1
2......0
1......1
1
Asi
Asi
Asi
X ijA





−
=
3......1
2......1
1......0
2
Asi
Asi
Asi
X ijA



−
=
nosi
Bsi
X ijB
.....1
1....1
1
ijBijAijAij XβXβXββμ 1322110 +++=
310321011 )1()0()1( βββββββμ ++=+++=
320321012 )1()1()0( βββββββμ ++=+++=
3210321013 )1()1()1( ββββββββμ +−−=+−+−+=
310321021 )1()0()1( βββββββμ −+=−+++=
320321022 )1()1()0( βββββββμ −+=−+++=
3210321023 )1()1()1( ββββββββμ −−−=−+−+−+=

109
Resolviendo estas ecuaciones se tiene:
..
2 3
0
6
μ
μ
β i j
ij
==
∑∑
101. ββμ +=
2103. βββμ −−=
202. ββμ +=
3.2.1 µµβ −=
El promedio de medias con A2
menos el promedio con A3
3.1.2 µµβ −=
El promedio de medias con A1
menos el promedio con A3
2
.2.1
3
µµ
β
−
= El promedio de medias con B1
menos el promedio con B2
Con los dos tipos de codificacíón la hipótesis β3 = 0
implica que cambiar los niveles del factor B, no cambian
las medias de las poblaciones. Este es el llamado “efecto
principal de B”
En los dos casos la hipótesis β1 = β2 = 0 implica que
cambiar los niveles del factor A, no cambian las medias
de las poblaciones. Este es el llamado “efecto principal
de A”

110
Modelo con interacción
ijBijAijBijAijBijAijAij XXβXXβXβXβXββμ 1251141322110 ** +++++=
Con variables indicadoras:
)1*0()1*1()1()0()1( 54321011 ββββββµ +++++=
431011 ββββµ +++=
)1*1()1*0()1()1()0( 54321012 ββββββµ +++++=
532012 ββββµ +++=
)1*0()1*0()1()0()0( 54321013 ββββββµ +++++=
3013 ββµ +=
)0*0()0*1()0()0()1( 54321021 ββββββµ +++++=
1021 ββµ +=
)0*1()0*0()0()1()0( 54321022 ββββββµ +++++=
2022 ββµ +=
)0*0()0*0()0()0()0( 54321023 ββββββµ +++++=
023 βµ =

111
A partir de estas ecuaciones se obtiene:
23211 µµβ −= 23222 µµβ −= 23133 µµβ −=
( )232113114 µµµµβ −−−= ( )232213125 µµµµβ −−−=
Comparado con el caso sin interacción, también con
indicadoras, vemos que sí β4 ≠ 0 y/o β5 ≠ 0 , la
interpretación de los efectos principales β1 , β2 y β3
cambia. En el caso de no-interacción implica que
cualquier cambio de niveles de A (o de B) no cambia
las medias de las poblaciones para cada nivel de B
(o de A); con interacción la nulidad de efectos es
específica para el nivel 3 de B o 2 de A. De aquí la
recomendación: “en presencia de interacción no
interpretar efectos principales”

112
Caso de interacción con variables de efectos (JMP)
)1*0()1*1()1()0()1( 54321011 ββββββµ +++++=
431011 ββββµ +++=
)1*1()1*0()1()1()0( 54321012 ββββββµ +++++=
532012 ββββµ +++=
)1*1()1*1()1()1()1( 54321013 −+−++−+−+= ββββββµ
54321013 ββββββµ −−+−−=
)1*0()1*1()1()0()1( 54321021 −+−+−+++= ββββββµ
431021 ββββµ −−+=
)1*1()1*0()1()1()0( 54321022 −+−+−+++= ββββββµ
532022 ββββµ −−+=
)0*0()0*0()0()0()0( 54321023 ββββββµ +++++=
54321023 ββββββµ ++−−−=

113
..0 µβ =
101. ββµ +=
3.2.1 µµβ −=
202. ββµ +=
3.1.2 µµβ −=
2103. βββµ −−=
30.1 ββµ +=
30.2 ββµ −= 2
.2.1
3
µµ
β
−
=
( )
4
22211211
4
µµµµ
β
−−−
=
y
( ) ( )
4
2 132312221121
5
µµµµµµ
β
−+−−−
=

114
β1, β2...y... β3 se interpretan ahora diferente que con
las variables indicadoras, son ahora diferencias de
promedios de medias, que si hay interacción no tiene
sentido hacerlo.
En los dos casos, de variables indicadoras y de
efectos, la hipótesis β4 = β5 = 0 implica que no hay
interacción. De nuevo la recomendación, “En
presencia de interacción no se debe interpretar los
efectos principales”. Esta regla es valida para casos
con más de dos factores.

115
YsinInteraccion.LSMeans
1.5
2.5
3.5
4.5
5.5
1
2
3
1 2
B
YsinErrInteraccionLSMeans
1.5
2.5
3.5
4.5
5.5
1
2
3
1 2
B
Grafica de no interacción Grafica con interacción

116
Factorial 2x2x2
Considere el caso de un experimento factorial con
tres factores cada uno de ellos con dos niveles(23)
ii εXXXμY += ),,( 321
),,( 321 lkjjkl XXXμ
ilikijilikiij XXXβXXβXXβ 32173263315 +++
ikijilikij XXβXβXβXββ 2143322110 ++++=

117
μjkl A B C AB AC BC ABC
111 1 1 1 1 1 1 1
112 1 1 0 1 0 0 0
121 1 0 1 0 1 0 0
122 1 0 0 0 0 0 0
211 0 1 1 0 0 1 0
212 0 1 0 0 0 0 0
221 0 0 1 0 0 0 0
222 0 0 0 0 0 0 0
Indicadoras

118
2220 µβ = 2221221 µµβ −= 2222122 µµβ −= 2222213 µµβ −=
Los efectos principales se evalúan en el nivel
dos de los demás.
( )2222121221124 µµµµβ −−−=
Interacción de A con B en el nivel 2 de C
( )2222211221215 µµµµβ −−−=
Interacción de A con C en el nivel 2 de B
( )2222212122116 µµµµβ −−−=
Interacción de B con C en el nivel 2 de A
( ) ( ){ }2222212122111221211121117 µµµµµµµµβ −−−−−−−=
Interacción de B con C y con A

119
Procedimientos matemáticos y estadísticos
Estimación de parámetros
En los modelos lineales el método de estimar
las betas o parámetros es el de mínimos
cuadrados que coincide con el de máxima
verosimilitud. Máxima verosimilitud implica
que se encuentran los valores de los
parámetros que maximizan el modelo normal
para esos datos, es decir se encuentran los
valores de los parámetros que producen la
máxima probabilidad de haber producido los
datos que se tienen. A los estimadores se les
indica con el símbolo .βˆ

120
Entonces,
),...,,(ˆˆ 21 pii XXXμYε −=
( )pipiiii XβXβXββYε ˆ...ˆˆˆˆ 22110 +++−=
se buscan los valores de las β de tal manera que la
suma de cuadrados de los errores estimados o
residuos sea lo más pequeña posible. Una manera
de evaluar el grado en que el modelo representa
los datos es la suma de cuadrados de los errores,
alcanzada con los estimadores que la minimizan.
^
( )
2
11
2 ˆˆ ∑∑ ==
−==
n
i
ii
n
i
YYεSCE
( ){ }2
22110
1
ˆ...ˆˆˆ
pipiii
n
i
XβXβXββYSCE +++−= ∑=

121
( )
2
11
2 ˆˆ ∑∑ ==
−==
n
i
ii
n
i
YYεSCE
( ){ }2
22110
1
ˆ...ˆˆˆ
pipiii
n
i
XβXβXββYSCE +++−= ∑=
La estimación de la varianza del error se tiene
con el CMEmc.
mc
mc
gle
CME
=2
ˆσ

122
Ecuaciones NORMALES
El proceso de minimizar la suma de cuadrados de los
errores conduce a un sistema de ecuaciones llamadas
“normales”. En la época de Fisher era muy díficil
encontrar el inverso de una matriz, de orden,
digamos 12 x 12. Se buscaba entonces que la
codificación y el diseño, balance de bloques y
tratamientos, produjera matrices X´X fáciles de
invertir, incluso diagonales. Ahora esto lo hacen los
programas de computo, aun que no haya balance. El
modelo es:
jpjpjjjj XXXXY εβββββ ++++++= ....3322110

123
Modelo en Forma matricial
11)1(1 nxpxpnxnx XY εβ += +
),0(~ 2
INMV σε

124
nY
Y
Y
Y
...
2
1
=
Considérese como ejemplo una regresión
de Y sobre tres variables independientes.
Se tendrán entonces los siguientes
vectores y matrices
nnn XXX
XXX
XXX
X
321
322212
312111
1
............
1
1
=

125
La regresión entre una Y y variables X1
,X2
, ...,Xp
, se
puede considerar como la solución a las ecuaciones
normales que son
donde la matriz (X’X) es la matriz que tiene las sumas
de productos entre las Xj
, quizá con una Xo
idéntica
a 1 siempre (para la ordenada al origen o
intercepto).
( ) YXXX ´´ˆ 1−
=β
3
2
1
0
ˆ
ˆ
ˆ
ˆ
ˆ
β
β
β
β
β =

126
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
====
===
=
n
j
jj
n
j
jj
n
j
jj
n
j
j
n
j
jj
n
j
jj
n
j
jj
n
j
j
n
j
jj
n
j
jj
n
j
jj
n
j
j
n
j
j
n
j
j
n
j
j
XXXXXXX
XXXXXXX
XXXXXXX
XXXn
XX
1
33
1
23
1
13
1
3
1
32
1
22
1
12
1
2
1
31
1
21
1
11
1
1
1
3
1
2
1
1
´

127
y el vector X’Y es:
j
n
j
j
j
n
j
j
j
n
j
j
n
j
j
XY
XY
XY
Y
YX
3
1
2
1
1
1
1
´
∑
∑
∑
∑
=
=
=
=
=

128
aunque se puede establecer relaciones lineales
entre parámetros del tipo:
Pruebas de Hipótesis
En general en el modelo lineal que es:
ipi XXXY εµ += ),...,,( 21 con ),0(~ 2
σε Ni
y
con pipiip XXXXXX ββββµ +++= ...),...,,( 2211021
07654 ==== ββββ
7654 4ββββ +=− y 7654 ββββ =++
La prueba de la hipótesis lineal mas común es la
nulidad de ciertos parámetros, vg,
En todos los casos la forma de someter a
contrastación la hipótesis es mediante la
comparación del ajuste, SCE, de dos modelos, el
modelo sin la hipótesis o modelo completo, mc y el
modelo que cumple con la hipótesis o modelo
reducido, mr.

129
Pasos para la prueba de hipótesisPasos para la prueba de hipótesis
(la derivación formal es la prueba de cociente o razón
de verosimilitud):
1.Se obtienen los estimadores de los parámetros en el
modelo completo, con todos los parámetros libres.
2.Se obtiene la suma de cuadrados de errores en el modelo
completo SCEmc.
3.Se genera el modelo que cumple con la hipótesis, es decir
se imponen los valores de las betas especificadas por la
hipótesis. Es el modelo reducido.
4.Con el modelo reducido se obtienen los estimadores por
mínimos cuadrados.
5.Se obtiene la suma de cuadrados de los errores en el
modelo reducido. SCEmr.

130
6.La diferencia entre ajustes, es decir entre
SCEmc y SCEmr es una medida del grado de
contradicción entre hipótesis y datos. Si el
modelo reducido produce una SCE mucho mayor
que el completo, es por que hacer que se cumpla
la hipótesis genera un modelo que no representa
bien a los datos, o lo hace mucho peor que el
modelo completo, esto será una indicación de
que la hipótesis no es compatible con los datos.
Por el contrario si la SCEmr es casi igual a la
SECmc, será indicativo de que la hipótesis
genera un modelo casi igual al completo y ambos
se ajustan igual casi a los datos.

131
Si la hipótesis es cierta lo que se espera es que
los errores con el modelo completo y el reducido
sean iguales, éste sería el caso de mayor
concordancia de datos con la hipótesis. Por otro
lado aun si la hipótesis es cierta, no se espera
una concordancia exacta de datos observados
con lo esperado, se espera sólo una “buena”
concordancia.
La manera de evaluar el grado de discrepancia
entre datos observados y la hipótesis es con la
llamada Suma de Cuadrados debida a la
Hipótesis SCHo.

132
SCHo=SCEmr-SCEmc
Esta medida de discrepancia es difícil de evaluar
por que depende de la escala de medición cm. m.
mm. o bien gr. Kg. También del tamaño de muestra
y del número de parámetros involucrados en la
hipótesis. Por esto se usa una medida que toma
en cuanta estos aspectos, y que esta derivada bajo
el principio de razón de verosimilitud, es decir el
cociente de la probabilidad de los datos con el
modelo que cumple la hipótesis sobre la
probabilidad de los datos con el modelo que es el
mas general. De nuevo, se esperan probabilidades
semejantes si la hipótesis es cierta, y diferentes si
no lo es.

133
Se tiene así que la estadística de prueba para
la hipótesis es una F calculada como sigue:
1−−
−
==
pn
SCEmc
q
SCEmcSCEmr
CME
CMHo
F
Donde q es el número de parámetros
independientes que son especificados por la
hipótesis. Y p+1 es el número total de parámetros
β en el modelo.

134
Si la hipótesis es cierta se espera que esta
estadística sea cercana a 1. Es decir que el CMHo
sea semejante a CME. Si se encuentra que esta F
es mayor que uno hay discrepancias entre datos e
hipótesis, sin embargo solo si la discrepancia es
“grande”, se considera una contradicción entre
datos e hipótesis. Para decidir que es grande se
toma una discrepancia que sea improbable de
ocurrir si la Ho es cierta. Como se conoce que los
valores de F, si el estudio se repitiera muchas
veces en iguales condiciones, dejando que los
proceso aleatorios produzcan otros conjuntos de
muestras y de datos, se distribuyen según la
distribución F de Fisher Snedecor con q y n-p-1
grados de libertad.

135Ejemplo de una distribución F con su zona de rechazo al 0.05.

136
Los cálculos para llevar a cabo una o más
pruebas de Hipótesis en un modelo lineal se
arreglan en una tabla llamada de:
“Análisis de Varianza”
FV GL SC CM F
Efectos
β4= β5= β6= β7=0
Q=4 SCHo CMHo
CMHo/
CME
Error n-p-1 SCEmc CME
Total n-1 SCT

137
Si la hipótesis que se prueba es la de que
todos los parámetros son cero, salvo β0, es
decir que supone que ninguna variable
independiente del modelo produce cambios
en las medias de las poblaciones, es la
hipótesis que el modelo completo no explica
nada de los cambios en las medias y por tanto
en las Ys. La tabla es:

138
FV GL SC CM F
Efectos
β1= β2= · · · = βp=0
p
SC
Modelo
CM
Modelo
CMMod/
CME
Total n-1 SCT

139
Una medida de que tanta variabilidad es
explicada por el modelo, es el llamado
“Coeficiente de Determinación” que es
también llamado “R2”. Y es:
SCT
SCModelo
R =2
Claramente R2 esta entre 0 y 1. Si vale 0 es
que el modelo no explica nada, la SCT es
igual a la del error SCEmc. Cuando R2 es 1,
no hay error y tenemos un ajuste perfecto,
SCEmc=0 y SCT=SCModelo. Es lo que se
conoce como “modelo saturado”.

140
Siempre conviene tener una R2
grande
cercana a 1, no igual a 1, digamos de 0.9 o
de 0.8. Sin embargo hay que tener cuidado
con esta medida, Si el modelo se quiere
usar para predecir nuevos valores de la
variable Y, entonces si requerimos R2
grandes; pero si el modelo se usa para
explicar o para contrastar hipótesis, se
pueden tener R2
relativamente bajas, de
0.2 o 0.3.

141
Veinte regresiones simples con R2 de 0.75

142
Veinte regresiones simples con R2 de 0.25

143
Si se quiere predecir el valor de la media de Y con
x01, hay mas precisión con R2 de .75 que con una
de .25. ( Predicción)
En ambos casos de manera muy clara se concluye que
al aumentar la X se incrementan las medias de la Y.
(Explicación, relaciones)

144
Análisis de varianza para varias pruebas
(Efectos fijos)
F.V G.L S.C. C.M F
Efecto A a-1 SCA CMA
CMA/
CME
Efecto B b-1 SCB CMB
CMB/
CME
Efecto C c-1 SCC CMC
CMC/
CME
EfectoAC (a-1)(c-1) SCAC CMAC
CMAC/
CME
Total n-1 SCT

145
Los paquetes obtienen el valor de P, para
cada hipótesis. Recuerde que este valor es la
probabilidad de que siendo cierta la hipótesis
los datos presenten una discrepancia con la
hipótesis como la observada o mayor.
Usualmente si P es menor de 0.05 se rechaza
la hipótesis correspondiente.

146
Algunos paquetes estadísticos siempre
separan la prueba del modelo completo y
luego realizan la de los efectos especificados
como parte del modelo.
En los ejemplos que siguen se muestra
además los estimadores de los parámetros
con indicadoras de efectos y la estimación de
las medias.
Realizar ejemplos con el JMP

147
Análisis posterior cuando un factor con mas
de 2 niveles es significativo
Si la hipótesis que establece la nulidad de los
cambios en las medias de las poblaciones al
pasar de un nivel a otro, en un factor con mas de
2 niveles se rechaza, se debe averiguar a que se
debió el rechazo de esta hipótesis. Para esto se
tiene dos caminos, uno de ellos es establecer
contrastes que tengan sentido según los tipos
de niveles que se consideran, y someterlos a
contrastación o establecerles intervalos de
confianza; y el otro las llamadas comparaciones
múltiples, como Tukey, Duncan, etc.

148
En este último caso se considera un problema
muy frecuente en el trabajo estadístico: el
problema de las pruebas múltiples.
Si se efectúan simultáneamente varias
pruebas y se considera como nivel de
significancia el 0.05 en cada una de ellas, en
realidad la probabilidad de cometer un Error
tipo I, (declarar significativo un efecto que no
lo es) en por lo menos una de las pruebas es
mucho mayor del 0.05.

149
Lo que es improbable en una instancia
es probable en muchas
mayor adaptación al medio o mejorando su
capacidad competitiva, por alimento por
parejas, etc.), pero es mucho más probable
en miles de millones de individuos, a lo largo
del tiempo. Esto ayuda a explicar la evolución
biológica.
En la teoría de la evolución biológica,
es muy improbable una mutación
favorable en un individuo dado en una
cierta época (capacitándolo a una

150
Hay varias pruebas para mantener el Error
tipo I en todo el experimento a un nivel de
0.05 o el deseado.
Una de las más recomendables es la de
Tukey, que utiliza el llamado “Rango o
amplitud estudentizado”.
La idea es considerar una muestra de p
promedios muestrales, bajo la hipótesis de
que todos provienen de una misma
población de promedios.

151






≈
n
NX
2
,
σ
µ entonces, ( )1,0
2
N
n
X
≈
−
σ
µ
Tukey consideró la distribución del rango de
una muestra aleatoria de p normales.
( ){ ( ) }
2,
minmax
n
XX
Q jjj
p
σ
−
=

152
Como no se conoce la varianza se estima y
se tiene el rango “estudentizado”, con un
nuevo parámetro, los grados de libertad de
la estimación de la varianza, que usualmente
son los del error, gle.
( ){ ( ) }
2,
ˆ
minmax
n
XX
q jjj
glep
σ
−
=

153
De esta distribución se han tabulado sus
cuantíles.
Si la hipótesis de que las p medias son iguales
es cierta μ1= μ2= = μ3= · · · = μp
Tukey demostró que la probabilidad de que
alguna o más de las diferencias xj – xj´ sea
mayor que la cantidad DMSH es del 0.05.
Donde DMSH es la diferencia mínima
significativa honesta.
n
qDMSH glep
2
.,95.0
σ
=

154
Entonces la regla de decisión de la prueba de
Tukey es declárese significativa la diferencia
entre pares de medias poblacionales si la
diferencia entre pares de medias muestrales
es mayor que la DMSH.
Para cada pareja de medias poblacionales,
con j y j* se somete a contrastación la
hipótesis de igualdad de medias , con la
siguiente regla de decisión:
DMSHXXsirechazaseHo jjjj ≥−= ** ......................: µµ

155
se acostumbra reportar el resultado usando
líneas o letras comunes que abarcan las
poblaciones (tratamientos) para los que la
hipótesis de igualdad no se rechazó.

156
Ejemplo hipotético
Tratamiento Media
estimada
Categoría de
Significancia
B 45.2 a
F 43.1 a
A 40.2 a b
G 38.0 b
D 33.8 b c
E 28.3 c
C 26.1 c

157
Tratamientos B, F y A son iguales
estadísticamente; A, G y D lo son; y D, E y C
a su vez son iguales estadísticamente. La
igualdad estadística es el no rechazo de la
correspondiente hipótesis de igualdad de las
medias poblacionales. Nótese que aquí si
puede haber dos cosas iguales a una tercera,
que no son iguales entre si. A es igual a D y
E es igual a D, pero A no es igual a E. Esto
por que no es igualdad matemática.

158
Least Squares Means Table Caso con tres
tratamientos
Level
Least Sq
Mean
Std Error Mean Categories
I 5.300000 1.9197801 5.3000 a
II 6.100000 1.9197801 6.1000 ab
III 12.300000 1.9197801 12.300
0
b

159
LSMeans Differences Tukey HSD
Alpha=0.050 Q=2.47942
LSMean[i] By LSMean[j]
Mean[i]-Mean[j]
Std Err Dif
Lower CL Dif
Upper CL Dif
I II III
I 0
0
0
0
-0.8
2.71498
-7.5316
5.93157
-7
2.71498
-13.732
-0.2684
II 0.8
2.71498
-5.9316
7.53157
0
0
0
0
-6.2
2.71498
-12.932
0.53157
III 7
2.71498
0.26843
13.7316
6.2
2.71498
-0.5316
12.9316
0
0
0
0

160
Caso de 4 tratamientos (factorial 2x2)
Least Squares Means Table
Level
Least Sq Mean Std Error Mean Categoria
nmorphine -1.9995998 0.43258055 -1.99960 a
ntrimeth -0.1738823 0.43258055 -0.17388 b
ymorphine -2.4924068 0.43258055 -2.49241 a
ytrimeth -2.4829718 0.43258055 -2.48297 a

161
LSMeans Differences Tukey HSD
Alpha=0.050 Q=2.96883 LSMean[i] By LSMean[j]
Mean[i]-Mean[j]
Std Err Dif
Lower CL Dif
Upper CL Dif
nmorphine ntrimeth ymorphine ytrimeth
nmorphine 0
0
0
0
-1.8257
0.61176
-3.6419
-0.0095
0.49281
0.61176
-1.3234
2.30902
0.48337
0.61176
-1.3328
2.29959
ntrimeth 1.82572
0.61176
0.0095
3.64193
0
0
0
0
2.31852
0.61176
0.50231
4.13474
2.30909
0.61176
0.49288
4.1253
ymorphine -0.4928
0.61176
-2.309
1.32341
-2.3185
0.61176
-4.1347
-0.5023
0
0
0
0
-0.0094
0.61176
-1.8256
1.80678
ytrimeth -0.4834
0.61176
-2.2996
1.33284
-2.3091
0.61176
-4.1253
-0.4929
0.00944
0.61176
-1.8068
1.82565
0
0
0
0

162
Una modificación a la prueba de Tukey, llamada
SNK (Student-Newman-Keuls) es usar el valor de
q, en forma secuencial, con un número de
medias igual a las que están entre las medias en
un orden dado, así si se ordenan las medias
estimadas de menor a mayor, para medias
consecutivas se usa q2, .95,gle, si la diferencia es
para medias con una intermedia, se usa q3, .95,gle, si
hay dos medias entre las que se comparan q4,
95,gle. Y así sucesivamente:

163
q2, .95,gle
q3, .95,gle
q4, .95,gle
Tratamiento Media estimada
B 45.2
F 43.1
A 40.2
G 38.0
D 33.8
E 28.3
C 26.1

164
Otra manera de tomar en cuenta el problema de
comparaciones múltiples, es ajustando los niveles
de significancia. El llamado ajuste de Bonferroni,
cuando se hacen c pruebas estadísticas,
pretendiendo que el error tipo I en una o más se
cometa con una probabilidad de 0.05 o menor,
consiste en realizar cada una de las pruebas con
un nivel de significancia ajustado de 0.05/c. Este
ajuste es demasiado fuerte cuando c es grande
(p.e. de mas de 10). También se puede hacer un
ajuste secuencial si se ordenan las medias, el
valor de p se divide entre el número de medias
involucradas en cada comparación.

165
Comparación medias Orden decreciente de la
diferencia
Nivel de Significancia
3 con 4 1 α
3 con 1 2 α/2
2 con 4 3 α/3
4 con 5 4 α/4
…. 5 …
…
…
…
3 con 5 10 … α/10
Paul Wrigh “Adjusted P values for simultaneous
inference”. Biometrics 48. pp 1005-1013, 1992

166
Comparación medias Orden creciente del
valor de P
Significativo si
3 con 4 1 p<α
3 con 1 2 p< α/2
2 con 4 3 p< α/3
4 con 5 4 p< α/4
…. 5 …
…
…
…
3 con 5 10 … p< α/10
Si se encuentra significancia en un orden dado digamos, 4;
las diferencias mayores se declaran significactivas.
Nótese que con este procedimiento se pueden tener
pruebas diferentes, vg. Una t, otra Ji2
, dos F, etc.

1. conceptos de modelos lineales

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Último

Último (20)

1. conceptos de modelos lineales