Se presenta la regresión PLS (partial least squares) desde el punto de vista teórico y geométrico, con un ejemplo de ilustración y la aplicación a datos reales de los parlamentos centroamericanos.
4. Regresión PLS
Objetivos
Supóngase que se dispone de dos tablas de datos con variables
cuantitativas, X y Y, observadas sobre las mismas n unidades
estadı́sticas
Se quiere usar las variables de X para explicar a toda la tabla
Y simultáneamente.
X es n × p y Y es n × q
La regresión PLS puede verse como un Análisis en
Componentes Principales (ACP) de Y pero que tome en
cuenta la relación con la estructura de X
Ahora bien, como también se quiere explicar Y a partir de X,
se hacen regresiones de las yk sobre los factores obtenidos de
las xj.
En suma, se trata de un ACP de las variables explicativas xj
orientado hacia la explicación global de las yk.
5. Regresión PLS
Objetivos
Consideremos unas combinación lineal cualquiera de las xj,
dada por Xu
Para estudiar su relación con el grupo de variables de Y, se
desea tener la variable Yv, combinación lineal de las variables
de Y, que tenga covarianza máxima con Xu.
En general, se puede plantear que se buscan variables,
combinaciones lineales, en cada grupo, que tengan máxima
covarianza.
Sean u1 y v1 los vectores unitarios buscados y denotemos
Xu1 ∈ Rn y Yv1 ∈ Rn los factores que se deducen.
Sea D la métrica de pesos
Dispersión de cada factor:
var(Xu1) = (Xu1)t
D(Xu1) = ut
1(Xt
DX)u1
6. Regresión PLS
Criterio
Covarianza entre Xu1 y Yv1 es:
cov(Xu1, Yv1) = ut
1(Xt
DY)v1
= r(Xu1, Yv1)
p
var(Xu1)
p
var(Yv1).
Al maximizar de esta covarianza se obtiene un compromiso
entre su correlación, como en el Análisis Canónico, y la
amplitud de la dispersión de las unidades estadı́sticas sobre el
eje correspondiente a cada factor.
Se quiere resolver el problema
max
kuk=1=kvk
cov(Xu, Yv).
7. Regresión PLS
Solución
El lagrangeano es
L = ut
Xt
DYv − λ(ut
ut
− 1) − µ(vt
vt
− 1).
Al derivar se obtiene:
∂L
∂u
= Xt
DYv − λu = 0 ⇔ Xt
DYv = λu (1)
∂L
∂v
= Yt
DXu − µv = 0 ⇔ Yt
DXu = µv, (2)
bajo las restricciones kuk = 1 = kvk, que son utu = 1 = vtv.
Multiplicando a la izquierda por ut en (1) y por vt en (2) se
tiene
ut
Xt
DYv = λ = µ = vt
Yt
DXu.
Además, multiplicando (1) a la izquierda por YtDX y (2) por
XtDY se obtiene
Yt
DXXt
DYv = λYt
DXu = λ2
v (3)
Xt
DYYt
DXu = µXt
DYv = λ2
u. (4)
8. Regresión PLS
Solución
Puede verse entonces que u y v son vectores propios de
XtDYYtDX y YtDXXtDY, respectivamente.
Véase que XtDY es la matriz p × q de correlaciones cruzadas
entre las variables de X y Y, que podemos denotar RXY ,
cuya transpuesta es RY X = YtDX.
Por lo tanto, se debe diagonalizar RXY RY X y RY XRXY .
Se denota λ1 al primer valor propio que resulta de las
diagonalizaciones anteriores, y u1, v1 los primeros vectores
propios respectivos.
Debe notarse que el segundo vector propio de cada
diagonalización no es necesariamente ortogonal al primero,
por lo que estos segundos vectores propios no se conservan.
El primer factor f1 = Xu1 es entonces la combinación lineal
de las xj que resume mejor el grupo X desde el punto de
vista de una explicación de las yk. Se llama el primer factor
explicativo, también conocido como variable latente.
9. Regresión PLS
Solución
Ahora podemos hacer la regresión de todas las variables de los
grupos X y Y sobre este primer factor, obteniéndose
xj = bj1 f1 + xj1 (5)
yk = ck1 f1 + yk1 (6)
siendo xj1 y yk1 los residuos de las regresiones, los cuales
representan lo que el primer factor no explica en cada una de
las variables.
Matricialmente, se puede escribir
X = f1bt
1 + X1, Y = f1ct
1 + Y1,
donde las matrices X1 y Y contienen a los vectores de
residuos en columnas, y b1 y c1 son vectores con los
coeficientes de regresión.
10. Regresión PLS
Segundo factor
Se toman ahora los residuos X1 y Y1 para obtener un
segundo factor explicativo
Diagonalizando RX1Y1 RY1X1 y RY1X1 RX1Y1 se obtiene el
valor propio λ2 y los vectores propios u2, v2.
El segundo factor explicativo es f2 = X1u2.
Debe notarse que f2 es ortogonal a f1 pues, por construcción,
X1 es ortogonal al espacio que generan las columnas de X al
ser una matriz de residuos de regresiones.
Ahora se hacen las regresiones de todas las columnas de X1
sobre f2 ası́ como las regresiones de todas las columnas de Y1
sobre f2, obteniéndose:
xj1 = bj2 f2 + xj2 , (7)
yk1 = ck2 f2 + yk2 . (8)
11. Regresión PLS
Segundo factor
Combinando (5) con (7) por una parte, y (6) con (8) por
otra, se obtiene:
xj = bj1 f1 + bj2 f2 + xj2 (9)
yk = ck1 f1 + ck2 f2 + yk2 , (10)
Se puede escribir matricialmente como:
X = f1bt
1 + f2bt
2 + X2,
Y = f1ct
1 + f2ct
2 + Y2.
12. Regresión PLS
Factores siguientes
Para el tercer factor, se usan los residuos X2 y Y2 para
obtener el factor f3, ortogonal a los dos anteriores, y los
coeficientes de regresión respectivos.
En general, en la etapa s se construye un factor fs = Xs−1us
y se escriben las ecuaciones de regresión:
xj = bj1 f1 + bj2 f2 + · · · + bjs fs + xjs (11)
yk = ck1 f1 + ck2 f2 + · · · + cks fs + yks , (12)
con residuos xjs y yks .
se trata de las regresiones de las xj (respectivamente de las
yk) sobre los factores explicativos.
Por construcción, los factores explicativos son dos a dos
ortogonales.
Las igualdades (11) y (12) se escriben
X = f1bt
1 + f2bt
2 + · · · + fsbt
s + Xs, (13)
Y = f1ct
1 + f2ct
2 + · · · + fsct
s + Ys. (14)
13. Regresión PLS
Parte de varianza explicada
En vista de que las variables yk son centradas entonces su
varianza se calcula como su norma definida por la matriz de
pesos D.
como los factores explicativos son dos a dos ortogonales,
entonces, gracias al teorema de Pitágoras se tiene:
var(yk) = kykk2
D =
s
X
t=1
kckt ftk2
D + kyks k2
D.
Esto se puede interpretar entonces como que la varianza de
yk es la suma de las varianzas explicadas por cada factor más
la varianza residual.
Lo mismo se puede definir para X con base en (11).
14. Regresión PLS
Expresión de Y a partir de X
Los factores explicativos son combinaciones lineales de las
columnas de X:
f1 = Xu1, f2 = X1u2, . . . , fs = Xs−1us.
Entonces
f2 = X1u2 = (X−f1bt
1)u2 = (X−Xu1bt
1)u2 = X(I−u1bt
1)u2.
También
f3 = X2u3 = (X1−f2bt
2)u3 = (X(I−u1bt
1)−X(I−u1bt
1)u2bt
2)u3.
Luego
f3 = X((I − u1bt
1) − (I − u1bt
1)u2bt
2)u3,
combinación lineal de las columnas de X.
15. Regresión PLS
Expresión de Y a partir de X
Para el caso de 3 factores explicativos, se puede expresar Y
en términos de X de la siguiente forma, usando (14) (salvo
por el residuo yk3 ):
Y = Xu1ct
1 + X(I − u1bt
1)u2ct
2 +
+X((I − u1bt
1) − (I − u1bt
1)u2bt
2)u3ct
3 + Y3
= X
u1ct
1 + (I − u1bt
1)u2ct
2+
+ (I − u1bt
1) − (I − u1bt
1)u2bt
2u3ct
3
+ Y3.
Desde luego, esta expresión también se puede hacer para cada
variable yk:
yk = X
ck1 u1 + (I − u1bt
1)ck2 u2+
+ (I − u1bt
1) − (I − u1bt
1)u2bt
2ck3 u3
+ yk3 .
Estas expresiones dan los coeficientes en que las variables a
explicar yk se escriben como correlación lineal de las variables
explicativas xj.
16. Regresión PLS
Comentarios: comparación con la regresión lineal múltiple
A pesar de que haya poca asociación entre las yk y cada una
de las xj, en la regresión lineal múltiple puede parecer que hay
relación entre las yk y el espacio hXi que generan las xj
porque ese tipo de regresión hace una proyección ortogonal
sobre ese espacio, obteniendo —para cada yk— una
correlación lineal de las xj muy correlacionada con yk (ver
figura 1).
En cambio, en la regresión PLS se detecta la poca relación
existente entre cada yk y las xj, debido a que este análisis
toma en cuenta la estructura de covarianzas entre los dos
conjuntos de variables.
17. Regresión PLS
Comentarios: comparación con la regresión lineal múltiple
Figura: Ilustración de la regresión múltiple y la regresión PLS cuando no
hay fuerte asociación entre las xj y las yk.
18. Regresión PLS
Aplicación
La tabla X se refiere a valores de precio, azúcar, alcohol y
acidez asignados a 5 tipos de vino.
Vino Precio Azúcar Alcohol Acidez
1 7 7 13 7
2 4 3 14 7
3 10 5 12 5
4 16 7 11 3
5 13 3 10 3
Tabla: Matriz X de variables explicativas.
19. Regresión PLS
Aplicación
La tabla Y se refiere valoraciones subjetivas de un panel de
expertos sobre esos vinos, dadas por un experto (hedonista,
combina con carne y combina con postre).
Vino Hedonista Combina con carne Combina con postre
1 14 7 8
2 10 7 6
3 8 5 5
4 2 4 7
5 6 2 4
Tabla: Matriz Y de variables explicativas.
Se quiere explicar Y a partir de X.
20. Regresión PLS
Aplicación
El primer vector propio de RXY RY X es
u1 =
−0.5137
0.2010
0.5705
0.6085
El primer factor principal (visto como vector normalizado) es
f1 =
0.4538
0.5399
0
−0.4304
−0.5633
21. Regresión PLS
Aplicación
Al continuar con el procedimiento, se encuentran los dos
siguientes factores principales:
f2 =
−0.4662
0.4949
0
−0.5327
0.5049
f3 =
0.5716
−0.4631
0
−0.5301
0.4217
En la expresión Y = XB, de Y como combinación de las X,
entonces la matriz B es dada por la tabla 3 cuando se usan 2
factores explicativos, y por la tabla 4 cuando se usan 3
factores explicativos.
22. Regresión PLS
Aplicación
Vino Hedonista Combina con carne Combina con postre
Precio −0.2662 −0.2498 0.0121
Azúcar 0.0616 0.3197 0.7900
Alcohol 0.2969 0.3679 0.2568
Acidez 0.3011 0.3699 0.2506
Tabla: Matriz de coeficientes B cuando se usan 2 factores explicativos.
Vino Hedonista Combina con carne Combina con postre
Precio −1.0607 −0.0745 0.1250
Azúcar 0.3354 0.2593 0.7510
Alcohol −1.4142 0.7454 0.5000
Acidez 1.2298 0.1650 0.1186
Tabla: Matriz de coeficientes B cuando se usan 3 factores explicativos.
23. Regresión PLS
Aplicación
Los porcentajes de varianza explicada por cada factor se
muestran en la tabla 23. Puede verse que con 2 factores
explicativos se puede explicar 98% de la varianza de X y 85%
de la de Y.
Porcentajes de varianza explicada por cada factor:
Porcentaje Porcentaje Porcentaje Porcentaje
Factor de varianza de varianza de varianza de varianza
explicativo explicada acumulada explicada acumulada
por X para X por Y para Y
1 70 70 63 63
2 28 98 22 85
3 2 100 10 95
24. Regresión PLS
Aplicación
Considerando entonces 2 factores, puede verse de la tabla 3
que el azúcar es el principal responsable en la escogencia del
vino para el postre, y que el precio está negativamente
correlacionado con la calidad percibida del vino, mientras que
el alcohol está correlacionado positivamente con ella. Grosso
modo, f1 refleja el precio y f2 refleja el contenido de azúcar.
25. Regresión PLS
Aplicación: representaciones gráficas
Nótese que en regresión PLS eventualmente se pueden hacer
representaciones gráficas en un cı́rculo de correlaciones. En
efecto, si se toma la base f1, f2 de los dos primeros factores
explicativos, entonces se pueden calcular las correlaciones de
las variables en X y en Y, y usar los valores de estas
correlaciones como coordenadas en un cı́rculo de correlaciones.
Por su parte, las n unidades estadı́sticas son directamente
representables en un plano principal por sus valores en los
factores explicativos. Los gráficos que se obtienen muestran la
dispersión de las unidades extadı́sticas en el espacio de las xj,
tratando de tomar en cuenta también su dispersión desde el
punto de vista de las yk, es decir, son representaciones de
compromiso.
Eventualmente, los gráficos anteriores se podrı́an construir a
partir de los vectores propios vk de RY XRXY en lugar de los
de RXY RY X. Estos gráficos serı́an complementarios de los
primeros.
26. Aplicación de la Regresión PLS
Datos Parlamentarios
Se dispone de datos de los congresos en los 5 paı́ses de
Centroamérica
Variables explicativas: caracterización de los diputados
Variables a explicar: temas de opinión opinión
Se tiene alguna información sociodemográfica
Veremos el caso de Honduras
27. Datos Parlamentarios: Honduras
Variables Explicativas
Variables explicativas X71×7 que caracterizan a los diputados
del plenario
experiencia parlamentaria previa
años de trayectorias polı́tica
experiencia previa en otros cargos polı́ticos
nivel de escolaridad del padre
origen socioeconómico
influencia de la opinión pública sobre la toma de decisiones
influencia de los medios de comunicación para la toma de
decisiones.
Manejo de datos faltantes: se llenó con la mediana un dato
para la variable experiencia previa parlamentaria, y la variable
origen socoeconómico.
28. Datos Parlamentarios: Honduras
Variables Explicativas
Codificación ordinal Variables explicativas
Grado importancia Código Variable Nemotécnico
Mucha 1 Experiencia parlamentaria previa EPP
Bastante 2 Años trayectoria polı́tica ATP
Poca 3 Experiencia previa otros cargos EPOCP
Ninguna 4 Nivel de escolaridad NE
No sabe NS Origen socieconómico OS
No contesta NC Influencia opinión pública IOP
Influencia medios comunicación IMC
Tabla: Grados de importancia y nemotécnicos de variables predictoras.
29. Datos Parlamentarios: Honduras
Variables a Explicar
Tabla de datos de Y71×13,
Contiene el grado de importancia (mucha, bastante, poca o
ninguna) que dan los diputados de los partidos polı́ticos PN,
PL, PINUSD y PDCH de Honduras a los problemas del paı́s:
económicos (Inflación, Deuda Externa y Estancamiento
económico),
sociales (Desempleo, Sanidad, Inseguridad, Educación,
Derechos Humanos, Medio Ambiente y Narcotráfico)
polı́ticos (Conflictos entre poderes, Corrupción y Violencia
polı́tica)
Datos completos.
30. Datos Parlamentarios: Honduras
Variables a Explicar
Codificación ordinal Nemotécnicos de variables
Grado importancia Código Categoria Variables a ex-
plicar
Nemotécnico
Mucha 1 Económicas Inflación Inf
Bastante 2 Deuda Externa DE
Poca 3 Estancamiento
Económico
EE
Ninguna 4 Sociales Desempleo D
No sabe NS Sanidad S
No contesta NC Inseguridad Ins
Educación E
Derechos Hu-
manos
DH
Medio Ambi-
ente
MA
Narcotráfico N
Polı́ticas Conflicto Entre
Poderes
CEP
Corrupción C
Violencia
Polı́tica
VP
Tabla: Grados de importancia y nemotécnicos de variables a explicar.
31. Datos Parlamentarios: Honduras
Resultados: Factores
Con la Regresión PLS se obtuvo una matriz de 6 factores, los
cuales explicaron entre el 89.59% y 99.97% de la variabilidad
de los modelos.
Varianza explicada por las variables latentes para datos X y Y
Variable latente % varianza para X % acumulado % varianza para Y % acumulado
1 98.20% 98.20% 73.45% 73.45%
2 1.09% 99.29% 14.53% 87.98%
3 0.40% 99.69% 1.07% 89.05%
4 0.14% 99.83% 0.33% 89.38%
5 0.10% 99.93% 0.09% 89.47%
6 0.04% 99.97% 0.12% 89.59%
Tabla: Porcentajes de varianza explicados para X y Y.
32. Datos Parlamentarios: Honduras
Resultados
Las variables dependientes:
derechos humanos (DH),
deuda externa (DE),
medio ambiente (MA) y
corrupción
tienen un menor error cuadrático medio, indicando que el
ajuste de regresión es mejor en comparación a los obtenidos
para las demás variables
33. Datos Parlamentarios: Honduras
Resultados: Coeficientes de la Regresión
A explicar
Explicativas Inf DE EE CEP C VP
EPP -7,96% -2,45% 7,82% -13,37% -15,90% 1,74%
ATP -2,11% 1,03% -0,92% -20,17% -12,62% -21,01%
EPOCP 10,88% 28,79% 6,08% -5,01% 26,23% -4,65%
NE -5,83% 13,78% 1,46% 7,62% 12,53% 12,90%
OS -5,57% 4,20% -4,22% 11,13% -2,10% 1,14%
IOP 12,67% 24,35% 23,93% 2,73% 0,85% 13,16%
IMC 6,13% -0,36% -24,34% 16,07% -12,55% 1,32%
ECM 92,20% 81,75% 93,08% 85,78% 84,17% 90,59%
A explicar
Predictivas D S Ins E DH MA N
EPP 6,38% -1,04% 9,62% 18,18% -24,28% 22,98% -5,07%
ATP 7,64% -15,34% 4,13% 3,14% -9,79% -7,19% -16,81%
EPOCP 13,71% 15,40% -8,18% -2,68% 4,82% 11,22% -0,96%
NE 6,59% 7,21% -14,62% -4,56% -15,72% 23,99% 0,64%
OS 2,59% -12,90% -12,63% -16,66% 5,19% -13,99% -5,12%
IOP 17,15% 22,87% 16,02% 18,97% 21,40% 14,15% 13,74%
IMC -2,55% -2,66% -5,49% -5,68% 9,65% 2,56% 5,61%
ECM 91,99% 88,01% 92,12% 90,57% 78,16% 83,98% 92,22%
34. Datos Parlamentarios: Honduras
Resultados
Determinantes en la toma de decisione: Económicos
Se destaca la elevada influencia de la opinión pública (IOP)en
sentido positivo sobre todos los problemas de caracter
económico.
La experiencia previa en otros cargos polı́ticos (EPOCP),
influye positivamente sobre las decisiones en materia del costo
de la vida (inflación o Inf) y deuda externa (DE).
35. Datos Parlamentarios: Honduras
Resultados
Determinantes en la toma de decisione: Sociales
Se destaca la elevada influencia positiva de la experiencia
parlamentaria previa(EPP) para la toma de decisiones en materia de
educación (E), y medio ambiente (MA); pero influye negativamente
sobre las decisiones concernientes a los derechos humanos(DH),
Se destaca la elevada influencia positiva de la experiencia
parlamentaria previa(EPP) para la toma de decisiones en materia de
educación (E), y medio ambiente (MA); pero influye negativamente
sobre las decisiones concernientes a los derechos humanos(DH),
La experiencia previa en otros cargos polı́ticos (EPOCP) influye
positiva y fuertemente sobre las decisiones en materia de
desempleo(D) y sanidad(S);
La opinión pública influye fuertemente en la toma de decisiones en
todos los problemas sociales.
El origen socioeconómico(OS) tiene una fuerte y negativa influencia
sobre las decisiones en materia de educación(E), inseguridad (Ins),
medio ambiente(MA) y sanidad (S).
36. Datos Parlamentarios: Honduras
Resultados
Determinantes en la toma de decisione: Polı́ticos
Se destaca la relación inversa entre la experiencia
parlamentaria previa (EPP) con los conflictos entre poderes
polı́ticos; esto indica que entre mayor sea la experiencia
parlamentaria entre los diputados no habrán conflictos
poı́ticos(CEP) ni corrupción(C).
A mayor años de trayectorias polı́ticas de los diputados, menor
son los problemas de caracter polı́ticos.
Existe una relación fuerte y positiva, entre el nivel de
escolaridad y los problemas polı́ticos.
Los medios de comunicación influyen positivamente en
conflictos entre poderes polı́ticos, pero negativamente en la
corrupción.
37. Datos Parlamentarios: Honduras
Resultados: Proyecciones en los planos principales
La figura que sigue muestra las proyecciones de los problemas
e individuos sobre el plano principal latente 1-2
Se escoge el plano definido por las variables latentes 1 y 2
debido a que recogen el 99.29% de varianza explicada para las
variables explicativas y el 87.98% de la varianza explicada
para las variables a explicar
Los diputados ven sus decisiones influenciadas por el origen
socieconómico y el nivel de escolaridad de los padres
La 1a variable latente antepone las influencias de los medios
de comunicación, y de la opinión pública con los años de
trayectorias polı́tica y experiencia previa parlamentaria
La 2a variable latente antepone cualquier relación polı́tica
previa con el origen socieconómico y nivel de escolaridad de
padres.
40. Datos Parlamentarios: Honduras
Resultados: Cı́rculos de correlaciones
Las variable explicativa nivel de escolaridad de los padres
está fuertemente correlacionada con la 2a variable latente y:
conflictos entre poderes polı́ticos,
derechos humanos,
violencia polı́tica y
narcotráfico.
Las variables influencia de los medios de comunicación,
influencia de la opinión pública y la experiencia previa
con otros cargos polı́ticos tienen fuerte impacto sobre las
decisiones relacionadas con:
deuda externa,
inflación,
estancamiento económico,
sanidad y
desempleo.
Otras variables como experiencia previa parlamentaria y años
de trayectorias polı́tica pesan sobre las decisiones relacionadas
a educación e inseguridad.
41. Datos Parlamentarios: Honduras
Resultados
Sı́ntesis
En el parlamento de Honduras, las decisiones sobre temas
relacionados a los problemas están fuertemente influenciados,
principalmente, por
experiencia previa en otros cargos polı́ticos, e
influencia de la opinión pública.
Lo anterior muestra que es relevante para el parlamento tener
personas con experiencia previa en otros cargos polı́ticos; y que las
decisiones tomadas por el mismo dependen de la influencia que
tenga la opinión pública.