2. Arthur Hotelling
• Plantea (1933) el problema del
Análisis en Componentes
Principales (ACP)
• Obtiene la solución general para
v.a. normales
• Plantea el Análisis Canónico
(1936) y lo resuelve
4. Esquema en los espacios vectoriales
• Espacio de variables n
Wy
Wx
0
5. Situacion del Analisis Canónico
• Situación: se tiene dos paquetes de variables cuantitativas
observadas o medidas en n individuos
• Objetivo: hallar
tales que
n
p
x
x
x
,
,
, 2
1
n
q
y
y
y
,
,
, 2
1
q
q
y
q
q
x
y
b
y
b
x
a
x
a
+
+
=
+
+
=
1
1
1
1
máxima
sea
)
,
(
2
y
x
7. Hallar a1 generada por las variables de X y
b1 generada por las variables de Y tales que
Max r2(Xa1,Yb1), || a1|| = 1 = || b1||
Solución:
a1 = (Xt X)-1 Xt Y b1 /
b1 = (Yt Y)-1 Yt Xa1 /
= cos() = cos(Xa1, Yb1)
Correlación canónica
0
Xa1
Yb1
Wx
Wy
Objetivo
8. Análisis Canónico: Aplicaciones
Contaminación de ríos
Dos laboratorios, A y B, miden las variables
químicas relacionadas con la contaminación
en n puntos del río.
¿Es la información de A y B idéntica?
¿Puede definirse un índice de
contaminación?
¿Cuál es la información común y cuál la
específica?
9. •Indices bancarios
X: incidentes bancarios de n clientes
- # cheques sin fondos
- retrasos en pagos
- # errores
Y: características de los clientes
- categoría socioprofesional
- antigüedad
- región de origen
¿Pueden explicarse los incidentes a partir de las características?
10. •Pruebas escolares
X: resultados (notas) en distintas materias
Y: resultados en distintos tests
¿Pueden los tests explicar los resultados
escolares?
29. Ex= Rp
xt
Fx
Yt
Ey = Rq
Vy My
Ey
F=Rn
Y
X
E X
X
Vx
Mx
a
x
1, y
1
b
Esquema de dualidad
30. Regresión Lineal: Caso de Análisis Canónico
Situación: Xnxp p variables cuantitativas centradas
Ynx1 = [y] 1 variable cuantitativa centrada
Usamos D =
Vy = yt
I
n
1
=
=
−
y
y
n
V
y
y
n
Iy
n t
y
t 1
1
1
R
31. Como dim Wy= 1 b = [b] tiene sólo una componente
(factor canónico)
El factor canónico b R cumple
2
2
2
1
1
1
1
1
1
1
1
1
ˆ
ˆ
ˆ
)
(
)
(
)
)(
(
)
(
)
(
1
)
1
(
1
R
y
y
y
y
y
y
y
y
y
X
X
X
X
X
X
X
X
y
y
y
y
X
X
X
X
X
X
X
X
y
y
y
y
X
X
X
X
y
y
y
y
n
X
IX
n
X
IX
n
ny
y
y
V
V
nV
b
b
V
V
V
V
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
xy
x
yx
xy
x
yx
y
=
=
=
=
=
=
=
=
=
−
−
−
−
−
−
−
−
−
32. La correlación canónica es el coeficiente de determinación
La variable canónica a cumple:
Como
y
X
X
X
b
a
b
V
V
a
t
t
xy
x
1
1
)
(
1
−
−
=
=
Coef. regresión
y
y
n
b
y
y
n
b
I
n
by
Yb
y
t
t
t
=
=
=
=
2
1
1
1
y b = 1
33. Análisis Canónico: Ejemplo
n=40 Fuente: R. Thomas (1975) y Bouroche- Saporta (1981)
X: características físicas y dinámicas de los atletas
TAM: estatura (cms)
PESO: peso (kgs)
DTH: salto largo, sin impulso,con pies juntos (cms)
DTV: salto alto, sin impulso, manos levantadas, talón al suelo
(cms)
FPIE: fuerza piernas (kgs): peso levantado sobre los hombros
VELO: velocidad (decena de seg): tiempo para recorrer 30 mts
SALR: salto largo (cms): mejor resultado
3SAL: triple salto (mts): mejor resultado
34. Y: promedio de nota (sobre 20) dada por 3 jueces al rendimiento de los atletas
NSAL: nota en salto
NELA: nota en impulso (estilo)
NIMP: nota en impulso
NISUR: nota de suspensión recepción
x x
TAM 178 6.1 NSAL 10.1 1.8
PESO 72.5 7.6 NELA 9.9 1.8
DTH 261 15.7 NINP 10.1 1.1
DTV 65.5 5.1 NSUR 10 1.7
FPIE 109 17.8
VELO 33.5 1.3
SALR 583 39.1
SAL3 11.4 0.9
x x
38. Análisis Canónico: Atletas
²
FPIE
Círculo de correlaciones (81%)
•
•
PESO
•
VELO
3SAL •
DTV DTH
• •
•
TAM
NSUR
•• SALR
• NIMP
1
•
NSAL
•
NELA
• Relación: -Notas de los jueces
-Rendimiento en salto (SALR, 3SAL)
•Velocidad parece oponerse a las notas y rendimiento en salto
39. Análisis Canónico
Ventajas: • valor teórico
• generaliza
(ACP,AFC,ACM,AFD,Regresión L.M.,ANOVA)
Limitaciones: • se trabaja sólo en Rn: espacio de variables
• se estudia únicamente la estructura de las
correlaciones y no una representación fiel,
una proyección, de las tablas de datos
originales.
Propiedad: El análisis canónico de X,Y equivale al ACP de
Z = [X:Y] con la métrica
= −
−
1
1
0
0
y
x
z
V
V
M
41. Hallar la variable y más “correlacionada” con todos los grupos de variables
R2(y,k) =
Pk= Xk
y
y
y
P
y
t
k
t
( ) t
k
k
t
k X
X
X
1
−
operador de proyección
ortogonal sobre Wk=
X
Nota: si los Xk centrados, R2 (y , k) = Corr. Múltiple (y, k)
ACG: Problema
42. ACG: Solución
Max
y
Max yt S y con S =
Usando multiplicaciones de Lagrange:
L= y t S y - (yty – 1)
1
=
y
( ) ( ) y
X
X
X
X
y
k
y
R
t
k
q
k
k
k
t
k
t
q
k
1
1
1
2
,
−
=
=
=
t
k
k
t
k
q
k
k X
X
X
X
1
1
)
(
−
=
y
Sy
y
Sy
y
L
=
=
−
= 0
2
2
43. Luego, es valor propio de S
y es vector propio de S y1
Luego, se encuentran y2,y3,. . . yq maximizan
con restricciones de ortogonalidad:
( )
k
y
R
q
k
,
1
2
=
1
2 y
y ⊥
,
1
3 y
y ⊥ 2
3
, y
y ⊥
44. ACG: Es Análisis Canónico
Sea q = 2:
Sy= y X1(X1
tX1)-1X1
ty + X2(X2
tX2)-1X2
ty = y
Sean
( )
( )
y
b
X
a
X
y
X
X
X
b
y
X
X
X
a
t
t
t
t
=
+
=
=
−
−
2
1
2
1
2
2
1
1
1
1
45. (X1
tX1)-1X1
t(X1a + X2b) = (X1
tX1)-1X1
ty
a + (X1
tX1)-1X1
tX2b = a
(X1
t X1)-1 X1
tX2b = ( - 1)a
Análogamente (X2
tX2)-1 X2
t X1a = ( - 1)b (*)
Sustituyendo
( 1): (X2
tX2)-1X2
tX1
( ) b
b
X
X
X
X
t
t
)
1
(
1
1
2
1
1
1
1 −
=
−
−
(*)
(X2
tX2)-1 X2
tX1 (X1
tX1)-1 X1
tX2b = ( - 1)2b
V2
-1 V21V1
-1V12b = ( - 1)2b
Se ve que del AC: = - 1
46. ACG: Es un ACP Normado
Sea þk= 1 q = þ: cada grupo tiene sólo una variable
cuantitativa (Xk Xk) centrada
t
k
k
p
k k
t
k
k
t
k
p
k
k
x
x
n
x
x
x
x
S
=
−
=
=
=
1
2
1
1
1
Con
t
t
k
k x
x
n
1
2
=
la variancia de xk
47. Sea T: matriz de variables centradas reducidas k- ésima columna de T es: tk=
Luego
Si
k
k
x
t
TT
n
S
1
=
y
y
TT
n
y
Sy
y
T
u t
t
=
=
=
1
:
u
Ru
u
Tu
T
n
t
=
=
1
Con :
1
T
T
n
R
t
= matriz de correlaciones
ACP: Búsqueda de una variable artificial y que maximiza la suma de correlaciones con las
variables activas.
48. ACG: ES UN ACM
( ):
2
1 q
Z
Z
Z
Z
X
=
= Tabla disyuntiva completa
Dk: Zk
tZk: diagonal Pk x Pk con márgenes de Zk
D: diagonal con q bloques Dk
Sy=
=
−
q
k
t
k
k
k Z
D
Z
y
1
1
y = y (*)
Sean
u
y
Z
y
Z
u t
t
k
k =
= con ( )
t
q
t
t
t
u
u
u
u
2
1
=
49. Multiplicando (*) por Z t
h
u
u
ZD
Z
q
u
u
ZD
Z
u
u
D
Z
Z
t
t
k
k
k
k
q
k
t
h
1
1
1
1
1
1
=
=
=
−
−
−
=
con
q
=
1
50. ACG: Conclusión
El Análisis Canónico Generalizado es un caso general
de:
• ACP normado
• Análisis canónico clásico (q = 2)
- AF Correspondencias
- AF Discriminante
- Regresión Lineal Múltiple
• Análisis de Correspondencias Múltiples