Regresión PLS

Regresión PLS
Javier Trejos
Universidad de Costa Rica
II ciclo 2020

Esquema
1 Situación
2 Objetivos
3 Solución
4 Aplicación
5 Datos parlamentarios

Regresión PLS
Situación
1 p
1
n
X
Variables explicativas
=⇒
q
1
n
Y
Variables a explicar

Regresión PLS
Objetivos
Supóngase que se dispone de dos tablas de datos con variables
cuantitativas, X y Y, observadas sobre las mismas n unidades
estadı́sticas
Se quiere usar las variables de X para explicar a toda la tabla
Y simultáneamente.
X es n × p y Y es n × q
La regresión PLS puede verse como un Análisis en
Componentes Principales (ACP) de Y pero que tome en
cuenta la relación con la estructura de X
Ahora bien, como también se quiere explicar Y a partir de X,
se hacen regresiones de las yk sobre los factores obtenidos de
las xj.
En suma, se trata de un ACP de las variables explicativas xj
orientado hacia la explicación global de las yk.

Regresión PLS
Objetivos
Consideremos unas combinación lineal cualquiera de las xj,
dada por Xu
Para estudiar su relación con el grupo de variables de Y, se
desea tener la variable Yv, combinación lineal de las variables
de Y, que tenga covarianza máxima con Xu.
En general, se puede plantear que se buscan variables,
combinaciones lineales, en cada grupo, que tengan máxima
covarianza.
Sean u1 y v1 los vectores unitarios buscados y denotemos
Xu1 ∈ Rn y Yv1 ∈ Rn los factores que se deducen.
Sea D la métrica de pesos
Dispersión de cada factor:
var(Xu1) = (Xu1)t
D(Xu1) = ut
1(Xt
DX)u1

Regresión PLS
Criterio
Covarianza entre Xu1 y Yv1 es:
cov(Xu1, Yv1) = ut
1(Xt
DY)v1
= r(Xu1, Yv1)
p
var(Xu1)
p
var(Yv1).
Al maximizar de esta covarianza se obtiene un compromiso
entre su correlación, como en el Análisis Canónico, y la
amplitud de la dispersión de las unidades estadı́sticas sobre el
eje correspondiente a cada factor.
Se quiere resolver el problema
max
kuk=1=kvk
cov(Xu, Yv).

Regresión PLS
Solución
El lagrangeano es
L = ut
Xt
DYv − λ(ut
ut
− 1) − µ(vt
vt
− 1).
Al derivar se obtiene:
∂L
∂u
= Xt
DYv − λu = 0 ⇔ Xt
DYv = λu (1)
∂L
∂v
= Yt
DXu − µv = 0 ⇔ Yt
DXu = µv, (2)
bajo las restricciones kuk = 1 = kvk, que son utu = 1 = vtv.
Multiplicando a la izquierda por ut en (1) y por vt en (2) se
tiene
ut
Xt
DYv = λ = µ = vt
Yt
DXu.
Además, multiplicando (1) a la izquierda por YtDX y (2) por
XtDY se obtiene
Yt
DXXt
DYv = λYt
DXu = λ2
v (3)
Xt
DYYt
DXu = µXt
DYv = λ2
u. (4)

Regresión PLS
Solución
Puede verse entonces que u y v son vectores propios de
XtDYYtDX y YtDXXtDY, respectivamente.
Véase que XtDY es la matriz p × q de correlaciones cruzadas
entre las variables de X y Y, que podemos denotar RXY ,
cuya transpuesta es RY X = YtDX.
Por lo tanto, se debe diagonalizar RXY RY X y RY XRXY .
Se denota λ1 al primer valor propio que resulta de las
diagonalizaciones anteriores, y u1, v1 los primeros vectores
propios respectivos.
Debe notarse que el segundo vector propio de cada
diagonalización no es necesariamente ortogonal al primero,
por lo que estos segundos vectores propios no se conservan.
El primer factor f1 = Xu1 es entonces la combinación lineal
de las xj que resume mejor el grupo X desde el punto de
vista de una explicación de las yk. Se llama el primer factor
explicativo, también conocido como variable latente.

Regresión PLS
Solución
Ahora podemos hacer la regresión de todas las variables de los
grupos X y Y sobre este primer factor, obteniéndose
xj = bj1 f1 + xj1 (5)
yk = ck1 f1 + yk1 (6)
siendo xj1 y yk1 los residuos de las regresiones, los cuales
representan lo que el primer factor no explica en cada una de
las variables.
Matricialmente, se puede escribir
X = f1bt
1 + X1, Y = f1ct
1 + Y1,
donde las matrices X1 y Y contienen a los vectores de
residuos en columnas, y b1 y c1 son vectores con los
coeficientes de regresión.

Regresión PLS
Segundo factor
Se toman ahora los residuos X1 y Y1 para obtener un
segundo factor explicativo
Diagonalizando RX1Y1 RY1X1 y RY1X1 RX1Y1 se obtiene el
valor propio λ2 y los vectores propios u2, v2.
El segundo factor explicativo es f2 = X1u2.
Debe notarse que f2 es ortogonal a f1 pues, por construcción,
X1 es ortogonal al espacio que generan las columnas de X al
ser una matriz de residuos de regresiones.
Ahora se hacen las regresiones de todas las columnas de X1
sobre f2 ası́ como las regresiones de todas las columnas de Y1
sobre f2, obteniéndose:
xj1 = bj2 f2 + xj2 , (7)
yk1 = ck2 f2 + yk2 . (8)

Regresión PLS
Segundo factor
Combinando (5) con (7) por una parte, y (6) con (8) por
otra, se obtiene:
xj = bj1 f1 + bj2 f2 + xj2 (9)
yk = ck1 f1 + ck2 f2 + yk2 , (10)
Se puede escribir matricialmente como:
X = f1bt
1 + f2bt
2 + X2,
Y = f1ct
1 + f2ct
2 + Y2.

Regresión PLS
Factores siguientes
Para el tercer factor, se usan los residuos X2 y Y2 para
obtener el factor f3, ortogonal a los dos anteriores, y los
coeficientes de regresión respectivos.
En general, en la etapa s se construye un factor fs = Xs−1us
y se escriben las ecuaciones de regresión:
xj = bj1 f1 + bj2 f2 + · · · + bjs fs + xjs (11)
yk = ck1 f1 + ck2 f2 + · · · + cks fs + yks , (12)
con residuos xjs y yks .
se trata de las regresiones de las xj (respectivamente de las
yk) sobre los factores explicativos.
Por construcción, los factores explicativos son dos a dos
ortogonales.
Las igualdades (11) y (12) se escriben
X = f1bt
1 + f2bt
2 + · · · + fsbt
s + Xs, (13)
Y = f1ct
1 + f2ct
2 + · · · + fsct
s + Ys. (14)

Regresión PLS
Parte de varianza explicada
En vista de que las variables yk son centradas entonces su
varianza se calcula como su norma definida por la matriz de
pesos D.
como los factores explicativos son dos a dos ortogonales,
entonces, gracias al teorema de Pitágoras se tiene:
var(yk) = kykk2
D =
s
X
t=1
kckt ftk2
D + kyks k2
D.
Esto se puede interpretar entonces como que la varianza de
yk es la suma de las varianzas explicadas por cada factor más
la varianza residual.
Lo mismo se puede definir para X con base en (11).

Regresión PLS
Expresión de Y a partir de X
Los factores explicativos son combinaciones lineales de las
columnas de X:
f1 = Xu1, f2 = X1u2, . . . , fs = Xs−1us.
Entonces
f2 = X1u2 = (X−f1bt
1)u2 = (X−Xu1bt
1)u2 = X(I−u1bt
1)u2.
También
f3 = X2u3 = (X1−f2bt
2)u3 = (X(I−u1bt
1)−X(I−u1bt
1)u2bt
2)u3.
Luego
f3 = X((I − u1bt
1) − (I − u1bt
1)u2bt
2)u3,
combinación lineal de las columnas de X.

Regresión PLS
Expresión de Y a partir de X
Para el caso de 3 factores explicativos, se puede expresar Y
en términos de X de la siguiente forma, usando (14) (salvo
por el residuo yk3 ):
Y = Xu1ct
1 + X(I − u1bt
1)u2ct
2 +
+X((I − u1bt
1) − (I − u1bt
1)u2bt
2)u3ct
3 + Y3
= X

u1ct
1 + (I − u1bt
1)u2ct
2+
+ (I − u1bt
1) − (I − u1bt
1)u2bt
2u3ct
3

+ Y3.
Desde luego, esta expresión también se puede hacer para cada
variable yk:
yk = X

ck1 u1 + (I − u1bt
1)ck2 u2+
+ (I − u1bt
1) − (I − u1bt
1)u2bt
2ck3 u3

+ yk3 .
Estas expresiones dan los coeficientes en que las variables a
explicar yk se escriben como correlación lineal de las variables
explicativas xj.

Regresión PLS
Comentarios: comparación con la regresión lineal múltiple
A pesar de que haya poca asociación entre las yk y cada una
de las xj, en la regresión lineal múltiple puede parecer que hay
relación entre las yk y el espacio hXi que generan las xj
porque ese tipo de regresión hace una proyección ortogonal
sobre ese espacio, obteniendo —para cada yk— una
correlación lineal de las xj muy correlacionada con yk (ver
figura 1).
En cambio, en la regresión PLS se detecta la poca relación
existente entre cada yk y las xj, debido a que este análisis
toma en cuenta la estructura de covarianzas entre los dos
conjuntos de variables.

Regresión PLS
Comentarios: comparación con la regresión lineal múltiple
Figura: Ilustración de la regresión múltiple y la regresión PLS cuando no
hay fuerte asociación entre las xj y las yk.

Regresión PLS
Aplicación
La tabla X se refiere a valores de precio, azúcar, alcohol y
acidez asignados a 5 tipos de vino.
Vino Precio Azúcar Alcohol Acidez
1 7 7 13 7
2 4 3 14 7
3 10 5 12 5
4 16 7 11 3
5 13 3 10 3
Tabla: Matriz X de variables explicativas.

Regresión PLS
Aplicación
La tabla Y se refiere valoraciones subjetivas de un panel de
expertos sobre esos vinos, dadas por un experto (hedonista,
combina con carne y combina con postre).
Vino Hedonista Combina con carne Combina con postre
1 14 7 8
2 10 7 6
3 8 5 5
4 2 4 7
5 6 2 4
Tabla: Matriz Y de variables explicativas.
Se quiere explicar Y a partir de X.

Regresión PLS
Aplicación
El primer vector propio de RXY RY X es
u1 =




−0.5137
0.2010
0.5705
0.6085




El primer factor principal (visto como vector normalizado) es
f1 =






0.4538
0.5399
0
−0.4304
−0.5633







Regresión PLS
Aplicación
Al continuar con el procedimiento, se encuentran los dos
siguientes factores principales:
f2 =






−0.4662
0.4949
0
−0.5327
0.5049






f3 =






0.5716
−0.4631
0
−0.5301
0.4217






En la expresión Y = XB, de Y como combinación de las X,
entonces la matriz B es dada por la tabla 3 cuando se usan 2
factores explicativos, y por la tabla 4 cuando se usan 3
factores explicativos.

Regresión PLS
Aplicación
Precio −0.2662 −0.2498 0.0121
Azúcar 0.0616 0.3197 0.7900
Alcohol 0.2969 0.3679 0.2568
Acidez 0.3011 0.3699 0.2506
Tabla: Matriz de coeficientes B cuando se usan 2 factores explicativos.
Precio −1.0607 −0.0745 0.1250
Azúcar 0.3354 0.2593 0.7510
Alcohol −1.4142 0.7454 0.5000
Acidez 1.2298 0.1650 0.1186
Tabla: Matriz de coeficientes B cuando se usan 3 factores explicativos.

Regresión PLS
Aplicación
Los porcentajes de varianza explicada por cada factor se
muestran en la tabla 23. Puede verse que con 2 factores
explicativos se puede explicar 98% de la varianza de X y 85%
de la de Y.
Porcentajes de varianza explicada por cada factor:
Porcentaje Porcentaje Porcentaje Porcentaje
Factor de varianza de varianza de varianza de varianza
explicativo explicada acumulada explicada acumulada
por X para X por Y para Y
1 70 70 63 63
2 28 98 22 85
3 2 100 10 95

Regresión PLS
Aplicación
Considerando entonces 2 factores, puede verse de la tabla 3
que el azúcar es el principal responsable en la escogencia del
vino para el postre, y que el precio está negativamente
correlacionado con la calidad percibida del vino, mientras que
el alcohol está correlacionado positivamente con ella. Grosso
modo, f1 refleja el precio y f2 refleja el contenido de azúcar.

Regresión PLS
Aplicación: representaciones gráficas
Nótese que en regresión PLS eventualmente se pueden hacer
representaciones gráficas en un cı́rculo de correlaciones. En
efecto, si se toma la base f1, f2 de los dos primeros factores
explicativos, entonces se pueden calcular las correlaciones de
las variables en X y en Y, y usar los valores de estas
correlaciones como coordenadas en un cı́rculo de correlaciones.
Por su parte, las n unidades estadı́sticas son directamente
representables en un plano principal por sus valores en los
factores explicativos. Los gráficos que se obtienen muestran la
dispersión de las unidades extadı́sticas en el espacio de las xj,
tratando de tomar en cuenta también su dispersión desde el
punto de vista de las yk, es decir, son representaciones de
compromiso.
Eventualmente, los gráficos anteriores se podrı́an construir a
partir de los vectores propios vk de RY XRXY en lugar de los
de RXY RY X. Estos gráficos serı́an complementarios de los
primeros.

Aplicación de la Regresión PLS
Datos Parlamentarios
Se dispone de datos de los congresos en los 5 paı́ses de
Centroamérica
Variables explicativas: caracterización de los diputados
Variables a explicar: temas de opinión opinión
Se tiene alguna información sociodemográfica
Veremos el caso de Honduras

Datos Parlamentarios: Honduras
Variables Explicativas
Variables explicativas X71×7 que caracterizan a los diputados
del plenario
experiencia parlamentaria previa
años de trayectorias polı́tica
experiencia previa en otros cargos polı́ticos
nivel de escolaridad del padre
origen socioeconómico
influencia de la opinión pública sobre la toma de decisiones
influencia de los medios de comunicación para la toma de
decisiones.
Manejo de datos faltantes: se llenó con la mediana un dato
para la variable experiencia previa parlamentaria, y la variable
origen socoeconómico.

Variables Explicativas
Codificación ordinal Variables explicativas
Grado importancia Código Variable Nemotécnico
Mucha 1 Experiencia parlamentaria previa EPP
Bastante 2 Años trayectoria polı́tica ATP
Poca 3 Experiencia previa otros cargos EPOCP
Ninguna 4 Nivel de escolaridad NE
No sabe NS Origen socieconómico OS
No contesta NC Influencia opinión pública IOP
Influencia medios comunicación IMC
Tabla: Grados de importancia y nemotécnicos de variables predictoras.

Variables a Explicar
Tabla de datos de Y71×13,
Contiene el grado de importancia (mucha, bastante, poca o
ninguna) que dan los diputados de los partidos polı́ticos PN,
PL, PINUSD y PDCH de Honduras a los problemas del paı́s:
económicos (Inflación, Deuda Externa y Estancamiento
económico),
sociales (Desempleo, Sanidad, Inseguridad, Educación,
Derechos Humanos, Medio Ambiente y Narcotráfico)
polı́ticos (Conflictos entre poderes, Corrupción y Violencia
polı́tica)
Datos completos.

Variables a Explicar
Codificación ordinal Nemotécnicos de variables
Grado importancia Código Categoria Variables a ex-
plicar
Nemotécnico
Mucha 1 Económicas Inflación Inf
Bastante 2 Deuda Externa DE
Poca 3 Estancamiento
Económico
EE
Ninguna 4 Sociales Desempleo D
No sabe NS Sanidad S
No contesta NC Inseguridad Ins
Educación E
Derechos Hu-
manos
DH
Medio Ambi-
ente
MA
Narcotráfico N
Polı́ticas Conflicto Entre
Poderes
CEP
Corrupción C
Violencia
Polı́tica
VP
Tabla: Grados de importancia y nemotécnicos de variables a explicar.

Resultados: Factores
Con la Regresión PLS se obtuvo una matriz de 6 factores, los
cuales explicaron entre el 89.59% y 99.97% de la variabilidad
de los modelos.
Varianza explicada por las variables latentes para datos X y Y
Variable latente % varianza para X % acumulado % varianza para Y % acumulado
1 98.20% 98.20% 73.45% 73.45%
2 1.09% 99.29% 14.53% 87.98%
3 0.40% 99.69% 1.07% 89.05%
4 0.14% 99.83% 0.33% 89.38%
5 0.10% 99.93% 0.09% 89.47%
6 0.04% 99.97% 0.12% 89.59%
Tabla: Porcentajes de varianza explicados para X y Y.

Resultados
Las variables dependientes:
derechos humanos (DH),
deuda externa (DE),
medio ambiente (MA) y
corrupción
tienen un menor error cuadrático medio, indicando que el
ajuste de regresión es mejor en comparación a los obtenidos
para las demás variables

Resultados: Coeficientes de la Regresión
A explicar
Explicativas Inf DE EE CEP C VP
EPP -7,96% -2,45% 7,82% -13,37% -15,90% 1,74%
ATP -2,11% 1,03% -0,92% -20,17% -12,62% -21,01%
EPOCP 10,88% 28,79% 6,08% -5,01% 26,23% -4,65%
NE -5,83% 13,78% 1,46% 7,62% 12,53% 12,90%
OS -5,57% 4,20% -4,22% 11,13% -2,10% 1,14%
IOP 12,67% 24,35% 23,93% 2,73% 0,85% 13,16%
IMC 6,13% -0,36% -24,34% 16,07% -12,55% 1,32%
ECM 92,20% 81,75% 93,08% 85,78% 84,17% 90,59%
A explicar
Predictivas D S Ins E DH MA N
EPP 6,38% -1,04% 9,62% 18,18% -24,28% 22,98% -5,07%
ATP 7,64% -15,34% 4,13% 3,14% -9,79% -7,19% -16,81%
EPOCP 13,71% 15,40% -8,18% -2,68% 4,82% 11,22% -0,96%
NE 6,59% 7,21% -14,62% -4,56% -15,72% 23,99% 0,64%
OS 2,59% -12,90% -12,63% -16,66% 5,19% -13,99% -5,12%
IOP 17,15% 22,87% 16,02% 18,97% 21,40% 14,15% 13,74%
IMC -2,55% -2,66% -5,49% -5,68% 9,65% 2,56% 5,61%
ECM 91,99% 88,01% 92,12% 90,57% 78,16% 83,98% 92,22%

Resultados
Determinantes en la toma de decisione: Económicos
Se destaca la elevada influencia de la opinión pública (IOP)en
sentido positivo sobre todos los problemas de caracter
económico.
La experiencia previa en otros cargos polı́ticos (EPOCP),
influye positivamente sobre las decisiones en materia del costo
de la vida (inflación o Inf) y deuda externa (DE).

Resultados
Determinantes en la toma de decisione: Sociales
Se destaca la elevada influencia positiva de la experiencia
parlamentaria previa(EPP) para la toma de decisiones en materia de
educación (E), y medio ambiente (MA); pero influye negativamente
sobre las decisiones concernientes a los derechos humanos(DH),
Se destaca la elevada influencia positiva de la experiencia
parlamentaria previa(EPP) para la toma de decisiones en materia de
educación (E), y medio ambiente (MA); pero influye negativamente
sobre las decisiones concernientes a los derechos humanos(DH),
La experiencia previa en otros cargos polı́ticos (EPOCP) influye
positiva y fuertemente sobre las decisiones en materia de
desempleo(D) y sanidad(S);
La opinión pública influye fuertemente en la toma de decisiones en
todos los problemas sociales.
El origen socioeconómico(OS) tiene una fuerte y negativa influencia
sobre las decisiones en materia de educación(E), inseguridad (Ins),
medio ambiente(MA) y sanidad (S).

Resultados
Determinantes en la toma de decisione: Polı́ticos
Se destaca la relación inversa entre la experiencia
parlamentaria previa (EPP) con los conflictos entre poderes
polı́ticos; esto indica que entre mayor sea la experiencia
parlamentaria entre los diputados no habrán conflictos
poı́ticos(CEP) ni corrupción(C).
A mayor años de trayectorias polı́ticas de los diputados, menor
son los problemas de caracter polı́ticos.
Existe una relación fuerte y positiva, entre el nivel de
escolaridad y los problemas polı́ticos.
Los medios de comunicación influyen positivamente en
conflictos entre poderes polı́ticos, pero negativamente en la
corrupción.

Resultados: Proyecciones en los planos principales
La figura que sigue muestra las proyecciones de los problemas
e individuos sobre el plano principal latente 1-2
Se escoge el plano definido por las variables latentes 1 y 2
debido a que recogen el 99.29% de varianza explicada para las
variables explicativas y el 87.98% de la varianza explicada
para las variables a explicar
Los diputados ven sus decisiones influenciadas por el origen
socieconómico y el nivel de escolaridad de los padres
La 1a variable latente antepone las influencias de los medios
de comunicación, y de la opinión pública con los años de
trayectorias polı́tica y experiencia previa parlamentaria
La 2a variable latente antepone cualquier relación polı́tica
previa con el origen socieconómico y nivel de escolaridad de
padres.

Resultados: Proyecciones en los planos principales
Figura: Plano principal latente 1-2

Resultados: Cı́rculos de correlaciones
Figura: Cı́rculo de correlaciones 1-2

Resultados: Cı́rculos de correlaciones
Las variable explicativa nivel de escolaridad de los padres
está fuertemente correlacionada con la 2a variable latente y:
conflictos entre poderes polı́ticos,
derechos humanos,
violencia polı́tica y
narcotráfico.
Las variables influencia de los medios de comunicación,
influencia de la opinión pública y la experiencia previa
con otros cargos polı́ticos tienen fuerte impacto sobre las
decisiones relacionadas con:
deuda externa,
inflación,
estancamiento económico,
sanidad y
desempleo.
Otras variables como experiencia previa parlamentaria y años
de trayectorias polı́tica pesan sobre las decisiones relacionadas
a educación e inseguridad.

Resultados
Sı́ntesis
En el parlamento de Honduras, las decisiones sobre temas
relacionados a los problemas están fuertemente influenciados,
principalmente, por
experiencia previa en otros cargos polı́ticos, e
influencia de la opinión pública.
Lo anterior muestra que es relevante para el parlamento tener
personas con experiencia previa en otros cargos polı́ticos; y que las
decisiones tomadas por el mismo dependen de la influencia que
tenga la opinión pública.

Regresión PLS

Recomendados

Recomendados

Más contenido relacionado

Similar a Regresión PLS

Similar a Regresión PLS (20)

Más de Facultad de Ciencias, UCR

Más de Facultad de Ciencias, UCR (16)

Último

Último (20)

Regresión PLS