Analisis Canonico

Tablas Múltiples:
Análisis Canónico
Prof. Javier Trejos Zelaya
II ciclo 2020

Arthur Hotelling
• Plantea (1933) el problema del
Análisis en Componentes
Principales (ACP)
• Obtiene la solución general para
v.a. normales
• Plantea el Análisis Canónico
(1936) y lo resuelve

Esquema en los espacios vectoriales
• Espacio de variables n

Wy
Wx
0

Situacion del Analisis Canónico
• Situación: se tiene dos paquetes de variables cuantitativas
observadas o medidas en n individuos
• Objetivo: hallar
tales que
n
p
x
x
x 

,
,
, 2
1

n
q
y
y
y 

,
,
, 2
1

q
q
y
q
q
x
y
b
y
b
x
a
x
a






+
+
=
+
+
=
1
1
1
1


máxima
sea
)
,
(
2
y
x 



x1 xj xp
1
n
X
y1 y2 yq
1
i i
n
y
Wx
Wy
y
x


Hallar a1 generada por las variables de X y
b1 generada por las variables de Y tales que
Max r2(Xa1,Yb1), || a1|| = 1 = || b1||
Solución:
a1 = (Xt X)-1 Xt Y b1 / 
b1 = (Yt Y)-1 Yt Xa1 / 
 = cos() = cos(Xa1, Yb1)
Correlación canónica
0
 Xa1
Yb1
Wx
Wy
Objetivo

Análisis Canónico: Aplicaciones
Contaminación de ríos
Dos laboratorios, A y B, miden las variables
químicas relacionadas con la contaminación
en n puntos del río.
¿Es la información de A y B idéntica?
¿Puede definirse un índice de
contaminación?
¿Cuál es la información común y cuál la
específica?

•Indices bancarios
X: incidentes bancarios de n clientes
- # cheques sin fondos
- retrasos en pagos
- # errores
Y: características de los clientes
- categoría socioprofesional
- antigüedad
- región de origen
¿Pueden explicarse los incidentes a partir de las características?

•Pruebas escolares
X: resultados (notas) en distintas materias
Y: resultados en distintos tests
¿Pueden los tests explicar los resultados
escolares?

•Pruebas atléticas
X: características físicas y dinámicas de n atletas
Y: notas dadas por jueces respecto al rendimiento

Casos particulares del Análisis Canónico
Regresión lineal Múltiple
x1 xp
P cuantitativas
y
1 cuantitativa

Discriminación Factorial
x1 xp
P cuantitativas
y1 yq
1 cualitativa con
q modalidades
(indicatrices)

Análisis de Correspondencias Simples
x1 xp
1 cualitativa
con p modalidades
y1 yq
1 cualitativa
con q modalidades
indicatrices

Análisis de Varianza
x1 xp
1 cualitativa
con p modalidades
(indicatrices)
1 cuantitativa
y

Análisis Canónico:Formulación
Geométrica
centrados
R
y
y
R
x
x
n
q
n
p





,...,
,...,
1
1 Ponderación
pi>0,
1
1
=

=
n
i
i
p
Espacios generados: Wx= {x  Rn / x= Xa, a  Rp}
Wy= {y  Rn / y = Yb, b  Rq}
Supongamos:
( ) ( )
( ) ( )



=

=
=

=
q
W
q
Y
rang
p
W
p
X
rang
y
x
dim
dim

Cálculo de variables canónicas

Objetivo en formulación matemática

Cálculo de factores canónicos

Representaciones gráficas: variables

Representaciones gráficas: individuos

Ex= Rp
xt
Fx
Yt
Ey = Rq
Vy My
Ey
F=Rn
Y
X
E X
X
Vx
Mx

a

x
1, y
1

b
Esquema de dualidad

Regresión Lineal: Caso de Análisis Canónico
Situación: Xnxp p variables cuantitativas centradas
Ynx1 = [y] 1 variable cuantitativa centrada
Usamos D =
Vy = yt
I
n
1

=

=
−
y
y
n
V
y
y
n
Iy
n t
y
t 1
1
1
R

Como dim Wy= 1  b = [b] tiene sólo una componente
(factor canónico)
El factor canónico b  R cumple
2
2
2
1
1
1
1
1
1
1
1
1
ˆ
ˆ
ˆ
)
(
)
(
)
)(
(
)
(
)
(
1
)
1
(
1
R
y
y
y
y
y
y
y
y
y
X
X
X
X
X
X
X
X
y
y
y
y
X
X
X
X
X
X
X
X
y
y
y
y
X
X
X
X
y
y
y
y
n
X
IX
n
X
IX
n
ny
y
y
V
V
nV
b
b
V
V
V
V
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
t
xy
x
yx
xy
x
yx
y
=
=
=

=
=
=
=
=

=
−
−
−
−
−
−
−
−
−



La correlación canónica es el coeficiente de determinación
La variable canónica a cumple:
Como
y
X
X
X
b
a
b
V
V
a
t
t
xy
x
1
1
)
(
1
−
−
=

=


Coef. regresión
y
y
n
b
y
y
n
b
I
n
by
Yb
y
t
t
t
=

=


=

=
2
1
1
1
y b = 1

Análisis Canónico: Ejemplo
n=40 Fuente: R. Thomas (1975) y Bouroche- Saporta (1981)
X: características físicas y dinámicas de los atletas
TAM: estatura (cms)
PESO: peso (kgs)
DTH: salto largo, sin impulso,con pies juntos (cms)
DTV: salto alto, sin impulso, manos levantadas, talón al suelo
(cms)
FPIE: fuerza piernas (kgs): peso levantado sobre los hombros
VELO: velocidad (decena de seg): tiempo para recorrer 30 mts
SALR: salto largo (cms): mejor resultado
3SAL: triple salto (mts): mejor resultado

Y: promedio de nota (sobre 20) dada por 3 jueces al rendimiento de los atletas
NSAL: nota en salto
NELA: nota en impulso (estilo)
NIMP: nota en impulso
NISUR: nota de suspensión recepción
x x
TAM 178 6.1 NSAL 10.1 1.8
PESO 72.5 7.6 NELA 9.9 1.8
DTH 261 15.7 NINP 10.1 1.1
DTV 65.5 5.1 NSUR 10 1.7
FPIE 109 17.8
VELO 33.5 1.3
SALR 583 39.1
SAL3 11.4 0.9
x x

Análisis Canónico: Atletas
²
FPIE
Círculo de correlaciones (81%)
•
•
PESO
•
VELO
3SAL •
DTV DTH
• •
•
TAM
NSUR
•• SALR
• NIMP
1
•
NSAL
•
NELA
• Relación: -Notas de los jueces
-Rendimiento en salto (SALR, 3SAL)
•Velocidad parece oponerse a las notas y rendimiento en salto

Análisis Canónico
Ventajas: • valor teórico
• generaliza
(ACP,AFC,ACM,AFD,Regresión L.M.,ANOVA)
Limitaciones: • se trabaja sólo en Rn: espacio de variables
• se estudia únicamente la estructura de las
correlaciones y no una representación fiel,
una proyección, de las tablas de datos
originales.
Propiedad: El análisis canónico de X,Y equivale al ACP de
Z = [X:Y] con la métrica








= −
−
1
1
0
0
y
x
z
V
V
M

Análisis Canónico Generalizado
X1 X2
. . . Xq
X =
1
1 p1 1 p2 1 pq
P= 
=
q
k
Pk
1
Objetivo:
Max S =
=
q
k
k
y
R
1
2
)
,
(
y

Hallar la variable y más “correlacionada” con todos los grupos de variables
R2(y,k) =
Pk= Xk
y
y
y
P
y
t
k
t
( ) t
k
k
t
k X
X
X
1
−
operador de proyección
ortogonal sobre Wk=

X
Nota: si los Xk centrados, R2 (y , k) = Corr. Múltiple (y, k)
ACG: Problema

ACG: Solución
Max
y
Max yt S y con S =
Usando multiplicaciones de Lagrange:
L= y t S y - (yty – 1)
1
=
y
( ) ( ) y
X
X
X
X
y
k
y
R
t
k
q
k
k
k
t
k
t
q
k
1
1
1
2
,
−
=
=

 =
t
k
k
t
k
q
k
k X
X
X
X
1
1
)
(
−
=

y
Sy
y
Sy
y
L




=

=
−
= 0
2
2

Luego,  es valor propio de S
y es vector propio de S y1
Luego, se encuentran y2,y3,. . . yq maximizan
con restricciones de ortogonalidad:
( )
k
y
R
q
k
,
1
2

=
1
2 y
y ⊥
,
1
3 y
y ⊥ 2
3
, y
y ⊥

ACG: Es Análisis Canónico
Sea q = 2:
Sy= y  X1(X1
tX1)-1X1
ty + X2(X2
tX2)-1X2
ty =  y
Sean
( )
( )
y
b
X
a
X
y
X
X
X
b
y
X
X
X
a
t
t
t
t

=
+






=
=
−
−
2
1
2
1
2
2
1
1
1
1

(X1
tX1)-1X1
t(X1a + X2b) = (X1
tX1)-1X1
ty
 a + (X1
tX1)-1X1
tX2b =  a
(X1
t X1)-1 X1
tX2b = ( - 1)a
Análogamente (X2
tX2)-1 X2
t X1a = ( - 1)b (*)
Sustituyendo
( 1): (X2
tX2)-1X2
tX1
( ) b
b
X
X
X
X
t
t
)
1
(
1
1
2
1
1
1
1 −
=
−
−

 

 


 

(*)
(X2
tX2)-1 X2
tX1 (X1
tX1)-1 X1
tX2b = ( - 1)2b
 V2
-1 V21V1
-1V12b = ( - 1)2b
Se ve que  del AC:  =  - 1

ACG: Es un ACP Normado
Sea þk= 1  q = þ: cada grupo tiene sólo una variable
cuantitativa (Xk  Xk) centrada
     t
k
k
p
k k
t
k
k
t
k
p
k
k
x
x
n
x
x
x
x
S 
 =
−
=
=






=
1
2
1
1
1

Con
  t
t
k
k x
x
n
1
2
=
 la variancia de xk

Sea T: matriz de variables centradas reducidas k- ésima columna de T es: tk=
Luego
Si
k
k
x

t
TT
n
S
1
=
y
y
TT
n
y
Sy
y
T
u t
t

 =

=
=
1
:
u
Ru
u
Tu
T
n
t


=

=

1
Con :
1
T
T
n
R
t
= matriz de correlaciones
ACP: Búsqueda de una variable artificial y que maximiza la suma de correlaciones con las
variables activas.

ACG: ES UN ACM
( ):
2
1 q
Z
Z
Z
Z
X 



=
= Tabla disyuntiva completa
Dk: Zk
tZk: diagonal Pk x Pk con márgenes de Zk
D: diagonal con q bloques Dk
Sy=

=
−

q
k
t
k
k
k Z
D
Z
y
1
1
 y = y (*)
Sean
u
y
Z
y
Z
u t
t
k
k =

= con ( )
t
q
t
t
t
u
u
u
u 


 2
1
=

Multiplicando (*) por Z t
h
u
u
ZD
Z
q
u
u
ZD
Z
u
u
D
Z
Z
t
t
k
k
k
k
q
k
t
h
1
1
1
1
1
1



=

=

=
−
−
−
=

con
q

 =
1

ACG: Conclusión
El Análisis Canónico Generalizado es un caso general
de:
• ACP normado
• Análisis canónico clásico (q = 2)
- AF Correspondencias
- AF Discriminante
- Regresión Lineal Múltiple
• Análisis de Correspondencias Múltiples

Analisis Canonico

Más contenido relacionado

Similar a Analisis Canonico

Más de Facultad de Ciencias, UCR

Analisis Canonico