SlideShare una empresa de Scribd logo
1 de 22
Análisis multivariable
Tema 3
Itziar Aretxaga
Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
1. ¿Se ve a ojo alguna correlación? Si no es así, el cálculo formal de un
coeficiente de correlación es, probablemente, una pérdida de tiempo.
2. ¿Qué puntos crean la correlación? Si con el dedo pulgar tapas el 10%
de los puntos y la correlación desaparece, ¡cuidado!
Errores en los
datos o efectos
de selección
Búsqueda de correlaciones: “La salida de pesca”
Límite de detección de la
densidad de flujo radio del
catálogo 3CR
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
3. ¿Puede estar causada por efectos de selección?
4. Si 1. 2. 3. resultan negativos, calcúlese la significancia de la
correlación con alguno de los métodos que se detallan a continuación.
Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
5. ¿Tiene la línea de regresión algún significado?
• ¿Tiene sentido ajustar por
mínimos cuadrados alguna
curva? (d)
• ¿Cuales son los errores en
los parámetros del ajuste? (c)
• ¿Por qué el ajuste tiene que
ser lineal? (b)
• Si no sabemos qué variable
actua como causa de la
correlación, ¿cuál de las dos
variables debemos utilizar
como independiente en el
ajuste? (a)
(véase lección sobre ajustes)
Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
6. ¿Existe alguna relación causal? ¿Por qué? La relación puede
simplemente indicar la dependencia de las dos variable, de una tercera,
y eso crea una correlación espuria.
Ejemplo: diagramas L−L. Sin embargo, el Statistical Consulting Center for Astrophysics,
recomienda utilizarlos siempre que se utilice análisis de supervivencia.
7. Grafíquense las variables de forma que la correlación se vea de forma
evidente en el diagrama, si hace falta, recurriendo a encasillar las
variables y a realizar promedios.
Ejemplo: la mediana del índice de variabilidad (σv) de
QSOs ópticamente seleccionados para cada intervalo MB
muestra gráficamente la correlación medida por
métodos estadísticos. De otra forma, los puntos del
diagrama de dispersión muestran una correlación
cuanto menos cuestionable para el lector novel.
(Hook et al. 1994)
mediana
Correlaciones entre variables de tipo nominal
Definiciones:
• Variable nominal es aquella que conlleva información sobre un conjunto
de valores no ordenado.
Ejemplo: sistema de clasificación morfológica de galaxias (E, S0, Sa, Sb, ...).
• Tabla de contingencia, recoge las incidencias Nij entre dos variables
nominales xi, yj.






y
y
y
Nj
Nj
Nj
NN
NN
yy
NNx
NNx
yy
22
11
22212
12111
21
yxx
y
xxx
NNjN
iNij
NNN
iii
NN
NN
NNx
NNx






21
21
{ } xNiixx ,...,1=
=
{ } yNjjyy ,...,1=
=
∑≡
j
iji NN .
∑≡
i
ijj NN.
∑∑ ==
j
j
i
i NNN ..
Correlaciones entre variables de tipo nominal
Ejemplo: comparación de la
determinación del tipo espectral
de estrellas, por métodos
espectroscópicos y fotométricos
(Selman et al. 1999, A&A).
Correlaciones entre variables de tipo nominal:
test χ2
♦ Método: probar que es erronea la suposición que las variables no están
asociadas. Si es así, el número de incidencias esperado en el casillero
(i,j) será .
Se define la función
La significancia de que ambas distribuciones estén asociadas viene dada
por función de probabilidad χ2
con ν grados de libertad
♦ Comparación de la intensidad de dos correlaciones:
● V de Cramer, tal que (no corr.) 0 ≤ V ≤ 1 (corr. perfecta)
● Coeficiente C, a utilizarse sólo cuando las tablas de
contingencia . . . . . tienen la misma dimensión, tal que 0 ≤ C ≤ 1.
NNNn jiij /..=
∑
−
≡
ji ij
ijij
n
nN
,
2
2
)(
χ
1
)(
1
)( 12
2
+−−=
Γ
= −
∞
−
∫ yxyx
t
NNNNdtteQ ν
ν
νχ ν
χ
donde
)1,1min(
2
−−
≡
yx NNN
V
χ
N
C
+
≡ 2
2
χ
χ
(Press et al., “Numerical Recipes”)
Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de Pearson
♦ Definiciones: se denomina variable ordinal aquella cuyos valores
discretos se pueden ordenar, y variable continua, aquella cuyos valores
continuos se pueden ordenar.
Ejemplos: orden de las galaxias más luminosas en un cúmulo (1,2,3...), temperatura efectiva
de una nebulosa, ...
♦ Coeficiente de correlación lineal de Pearson
● Suposición: las variables están distribuidas de forma gaussiana. Es
un . test paramétrico.
● Método: mide la desviación de las variables respecto a una línea
recta.
Dados los puntos {xi, yi }i=1,..,N se define el coeficiente de correlación
tal que −1 ≤ r ≤ 1,
donde ±1 indica correlación perfecta, y 0 indica no
correlación.
La significancia de que no exista una correlación viene dada por
la distribución t-Student con N−2 grados de libertad, donde
∑∑
∑
−−
−−
≡
i ii i
i ii
yyxx
yyxx
r
22
)()(
))((
2
1
2
r
Nr
t
−
−
≡
Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de rangos de Spearman
● Suposiciones: ninguna, es un test no-paramétrico, y por lo tanto, muy
utilizado en Astrofísica.
● Método: dados los puntos { xi, yi }i=1,..,N se definen las variables Ri , rango
cuando las xi están ordenadas ascendentemente, y Si , rango cuando las
yi están ordenadas ascendentemente.
Si no se producen repeticiones (ligas) en los
valores de xi, yi , se define el coeficiente de Spearman
Si se producen fk repeticiones entre las
xi , y gm repeticiones entre las yi
que tiene la propiedad ρ 0 cuando no existe correlación.
NN
SRi ii
−
−
−≡
∑
3
2
)(
61ρ
2/1
3
32/1
3
3
332
3
)(
1
)(
1
)(
12
1
)(
12
1
)(
6
1








−
−
−








−
−
−






−+−+−
−
−
≡
∑∑
∑ ∑ ∑
NN
gg
NN
ff
ggffSR
NN
m mmk kk
i k m mmkkii
ρ
2
1
2
ρ
ρ
−
−
≡
N
t
(Press et al. , Numerical Recipes)
Correlaciones entre
variables de tipo
ordinal o continuo:
coeficiente de Spearman
Tablas de significancias
para N≤50
(Wall, 1996, QJRaS, 37, 719):
Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de rangos de Kendall
● Suposiciones: ninguna, es un test no-paramétrico. De hecho, los
resultados de los tests de Spearman y Kendall están fuertemente
correlacionados.
● Método: se crean todas las combinaciones de puntos posibles
[(xi, yi), (xj, yj)] tal que i ≠ j y se definen
c = número de parejas concordantes (xi>xj y yi>yj) o (xi<xj y
yi<yj) d = número de parejas discordantes (xi>xj y yi<yj) o (xi<xj y
yi>yj) ey=número de ligas en y, con xi≠xj
ex=número de ligas en x, con yi≠yj
El coeficiente de Kendall se define
tal que −1 ≤ τ ≤ 1 donde ±1 indica
correlación perfecta, y 0 indica no correlación.
La significancia de no asociación viene dada por una distribución normal
exdceydc
dc
++++
−
≡τ
)1(24264.4
104
2
1
1)(
2
−
+
=−= ∫ ∞−
−
NN
N
xdtexP
x
t τ
π
(Press et al. , Numerical Recipes)
Correlaciones entre variables
de tipo ordinal o continuo:
coeficiente de rangos de Kendall
Ejemplo: anticorrelación entre
variabilidad (σv) y luminosidad (MB)
en QSOs. Nótese que incluso para
valores pequeños del coeficiente de
rangos de Kendall, la significancia
de asociación es grande. Por
comparación, la variabilidad (σv) y
el redshift (z) no están
significativamente asociados.
(Hook et al. 1994, MNRAS, 268, 305)
Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de rangos parciales
● Utilidad: comprobar si la correlación encontrada entre dos variables
x,y está generada por la asociación de ambas con una tercera variable
z.
● Método: se pueden utilizar tanto el coeficiente de rangos ρ de
Spearman como el τ de Kendall. Es un test no-paramétrico.
Se define el coeficiente de rangos parciales
La significancia de que la correlación entre x,y se deba enteramente a
la correlación de ambas con z viene dada por
[ ] 2/122,
)1()1( zxyz
zxyzxy
zyx
ττ
τττ
τ
−−
−
≡
zxy
zxy
zyx ND
,
,
,
1
1
ln4
2
1
τ
τ
−
+
−= que se encuentra distribuida de forma normal,
en el caso de total dependencia (Macklin J.T.,
1982, MNRAS, 199, 1119).
Ejemplo: relación entre tamaño
angular (θ), índice espectral (α) y
redshift (z) de las fuentes del
catálogo 3CR
Análisis multivariable: componentes principales
● Utilidad: es muy potente para analizar las relaciones entre muchas
variables.
● Método: dadas p variables con n puntos cada una, se define el sistema
de componentes principales como aquel sistema de referencia de p ejes
ortogonales en el que se maximiza la variancia de los n puntos, de forma
decreciente del primero de los ejes, al último.
Sea el vector de p coordenadas, Y’ la matriz de p×n
observaciones. La media de las observaciones se puede expresar como
),...,,( 21 pyyyy =′
. , donde I es el vector unitario
de dimensión n, y la matriz de covariancia
, donde Y’ es una .
. matriz p×n cuyas
filas son todas iguales a y’ .
Se puede demostrar que
define un sistema de elipsoides centrados
en el centro de gravedad de la nube de
puntos cuyos ejes trazan, de forma
descendiente, la máxima variancia.
IY
n
y ′≡ 1
))((
1
1
′−−
−
≡ YYYY
n
C
cte=−′− −
)()( 1
yyCyy
Ejes propios de
la matriz de
covariancia
Puesto que por definición C es simétrica, se puede calcular la base
ortogonal que minimiza la variancia de la nube de puntos a través de sus
valores propios (λi ) y vectores propios (ai) o eigenvalues y eigenvectors:
C ai = λi ai , i=1, ..., p .
Estos valores se pueden obtener al resolver la ecuación característica
C − λI= 0 ,
donde I, ahora, es la matriz unidad de orden igual al de la matriz C.
Llamamos A a la matriz generada por los vectores propios ai arreglados
como filas. Si transformamos el vector de variables y, obtenemos
z = A(y−y)
las coordenadas sobre el sistema de ejes ortogonales definido por los
vectores propios de la matriz de covariancia. Se puede reconstruir y de z
invirtiendo la ecuación anterior
y = A’z + y
en virtud de que A es una matriz ortogonal, A−1
= A′.
Análisis multivariable: componentes principales
En el nuevo sistema de coordenadas, la nube de puntos de las
observaciones muestran una variancia decreciente si se ordenan los ejes
según el orden decreciente de sus valores propios. Así el eje definido por
a1, donde λ1 es el valor propio más grande, es el eje principal sobre cuya
proyección los puntos tienen la mayor variancia. Para evaluar la
importancia de la proyección sobre el eje j se compara el valor de λj
respecto de la suma de todos los valores propios. Si un valor propio añade
poco al valor total de la suma, la variancia sobre el eje correspondiente es
pequeña, y por lo tanto, ésta es una dimensión con muy poca información,
que se puede obviar.
Si denotamos como AK la matriz que contiene los primeros k vectores
propios, podemos comprimir los datos sin perder mucha información
mediante las transformaciones,
z = AK(y−y) y = A’Kz + y
Por lo tanto PCA puede reducir la dimensionalidad del problema.
Análisis multivariable: componentes principales
Ejemplo: PCA aplicado a la catalogación
de ~230 espectros de QSOs
(Francis et al. 1992, ApJ, 398, 476)
pendiente, y líneas estrechas
bosque de absorción
BLR
a1
a2
a3
a4
Análisis
multivariable:
componentes
principales
Ejem: análisis multivariable de las propiedades de supernovas (Patat et al. 1994, AA,
282, 731).
Correlaciones entre:
• el decaimiento en banda B en los primeros 100 días, βB
100
• el decaimiento del color B-V en los primeros 100 días, βB-V
100
• la anchura de la línea Hα, vHα
• el cociente entre las intensidades de la emisión y la absorción de Hα, e/a
• la magnitud absoluta en banda B en el máximo, MB
max
• el color B-V en el máximo de la curva de luz, (B-V)max
Proyecciones de las variables a analizar
sobre los ejes definidos por los dos
primeros autovectores de su matriz de
covariancia. Estas proyecciones
comprenden el 59% de la variancia de los
datos.
Análisis multivariable: redes neuronales
● Propiedades: es una técnica muy potente para analizar relaciones no
necesariamente lineales en problemas con un gran número de variables.
No se necesita formular un modelo, ya que la red aprende de ejemplos,
derivando las relaciones entre las variables de forma heurística a través
de un conjunto de datos de entrenamiento.
• Aplicaciones en Astrofísica: clasificación de objetos (Storrie-Lombardi et al.
1992, MNRAS, 259, 8), detección de señales débiles (Bacigaluppi et al. MNRAS 2000,
318, 769), determinación de períodos de variabilidad (Cornway 1998, NewAR, 42,
343, Tagliaferri et al. 1999, A&AS, 137, 391), determinación de corrimientos al rojo
(Firth et al, astro-ph/0203250), detección de frentes de onda en sistemas con
óptica adaptativa (Angel et al. 2000, Nat, 348,221; Sandler et al. 1991, Nat, 351, 300).
nodos de entrada nodos de salida
(Figura de StatSoft: www.statsoft.com/textbookstathome.html)
Análisis multivariable: redes neuronales
Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi
et al. 1992, MNRAS, 259, 8P) .
La entrada a la capa s de la red es:
donde los w son pesos a ajustar; y la
salida es una señal
que depende de forma no-lineal de las
entradas.
Los pesos se determinan por un método
de mínimos cuadrados para un conjunto
de datos de entrenamiento. Se define
una función de coste, con las diferencias
entre la salida (clasificación) deseada y
la obtenida:
y se ajustan los pesos hacia las capas
de atrás (retropropagación)
donde el coeficiente de aprendizaje η y el momento α se prefijan para determinar la rapidez del
∑ −
= i
s
i
s
ij
s
j xwI 1
s
j
s
j Iz
z
zfzfx =
−+
== y
)exp(1
1
)(donde)(
∑ −≡ k kk doE 2
)(2/1
)()1( tw
w
E
tw ij
ij
ij ∆+
∂
∂
−=+∆ αη
aprendizaje.
Análisis multivariable: redes neuronales
Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi
et al. 1992, MNRAS, 259, 8P) .
Una vez se ha entrenada la red, se fijan los pesos, y se pasan como entradas de la red neuronal
el conjunto de datos problema. Los nodos de salida dan la probabilidad de que la clasificación
sea C dada el conjunto de datos x, es decir, el resultado es bayesiano.

Más contenido relacionado

La actualidad más candente

Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simpleJulio Oseda
 
Unidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monicaUnidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monicamovapa
 
Regresión y Correlación Lineal
Regresión y Correlación LinealRegresión y Correlación Lineal
Regresión y Correlación Linealjmconforte
 
Aplicacion de las ecuaciones diferenciales de orden superior
Aplicacion de las ecuaciones diferenciales de orden superiorAplicacion de las ecuaciones diferenciales de orden superior
Aplicacion de las ecuaciones diferenciales de orden superiorIsai Esparza Agustin
 
análisis de correlación y regresión lineales
análisis de correlación y regresión linealesanálisis de correlación y regresión lineales
análisis de correlación y regresión linealesTania Garcia
 
Aplicaciones de las ecuaciones diferenciales
Aplicaciones de las ecuaciones diferencialesAplicaciones de las ecuaciones diferenciales
Aplicaciones de las ecuaciones diferencialesjuliocesarmontoya
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 
Tema 2.1 regresión lineal
Tema 2.1  regresión linealTema 2.1  regresión lineal
Tema 2.1 regresión linealAnthony Maule
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSSJosé Felipe
 
Regresion por mínimos cuadrados
Regresion por mínimos cuadradosRegresion por mínimos cuadrados
Regresion por mínimos cuadradosEmma
 

La actualidad más candente (20)

Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 
Unidad ii, graficos. su importancia en fisica
Unidad ii, graficos.  su importancia en fisicaUnidad ii, graficos.  su importancia en fisica
Unidad ii, graficos. su importancia en fisica
 
17.regresión y correlación simple
17.regresión y correlación simple17.regresión y correlación simple
17.regresión y correlación simple
 
Regresion y Correlacion
Regresion y CorrelacionRegresion y Correlacion
Regresion y Correlacion
 
Unidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monicaUnidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monica
 
Regresión y Correlación Lineal
Regresión y Correlación LinealRegresión y Correlación Lineal
Regresión y Correlación Lineal
 
5. regresión lineal multiple
5.  regresión lineal multiple5.  regresión lineal multiple
5. regresión lineal multiple
 
Aplicacion de las ecuaciones diferenciales de orden superior
Aplicacion de las ecuaciones diferenciales de orden superiorAplicacion de las ecuaciones diferenciales de orden superior
Aplicacion de las ecuaciones diferenciales de orden superior
 
análisis de correlación y regresión lineales
análisis de correlación y regresión linealesanálisis de correlación y regresión lineales
análisis de correlación y regresión lineales
 
Aplicaciones de las ecuaciones diferenciales
Aplicaciones de las ecuaciones diferencialesAplicaciones de las ecuaciones diferenciales
Aplicaciones de las ecuaciones diferenciales
 
Analisis De Regresion Y Correlacion
Analisis De Regresion Y CorrelacionAnalisis De Regresion Y Correlacion
Analisis De Regresion Y Correlacion
 
Regrecion lineal simple
Regrecion lineal simpleRegrecion lineal simple
Regrecion lineal simple
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 
Tema 2.1 regresión lineal
Tema 2.1  regresión linealTema 2.1  regresión lineal
Tema 2.1 regresión lineal
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
Regresión lineal
Regresión linealRegresión lineal
Regresión lineal
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
 
T6
T6T6
T6
 
Teoría de regresión y correlación lineal
Teoría de regresión y correlación linealTeoría de regresión y correlación lineal
Teoría de regresión y correlación lineal
 
Regresion por mínimos cuadrados
Regresion por mínimos cuadradosRegresion por mínimos cuadrados
Regresion por mínimos cuadrados
 

Destacado

Ejemplo de analisis multivariado
Ejemplo de analisis multivariadoEjemplo de analisis multivariado
Ejemplo de analisis multivariadoJose Loaiza Torres
 
Taller 1 presentacion taller no inferioridad blog sefap
Taller 1 presentacion taller no inferioridad blog sefapTaller 1 presentacion taller no inferioridad blog sefap
Taller 1 presentacion taller no inferioridad blog sefap17CongresoSefap
 
Nosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealNosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealMiguel Jerez
 
Polinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasPolinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasJIE MA ZHOU
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte IIjpgv84
 
Ejercicios hessiano orlado
Ejercicios hessiano orladoEjercicios hessiano orlado
Ejercicios hessiano orladoCerveza13
 
Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariableveresnina
 
metodo clinico y epidemilogico
metodo clinico y epidemilogicometodo clinico y epidemilogico
metodo clinico y epidemilogicopedroysara2020
 
Supply Chain Risk Management Study slide deck - 18 NOV 2015
Supply Chain Risk Management Study slide deck - 18 NOV 2015Supply Chain Risk Management Study slide deck - 18 NOV 2015
Supply Chain Risk Management Study slide deck - 18 NOV 2015Lora Cecere
 
Discriminante o-hessiano
Discriminante o-hessianoDiscriminante o-hessiano
Discriminante o-hessianoMARY ANBEL
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 
El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...
El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...
El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...Xiadeni Botello
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariadoLB: El Palmar
 
Ejercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableEjercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableJair Ospino Ardila
 

Destacado (20)

Ejemplo de analisis multivariado
Ejemplo de analisis multivariadoEjemplo de analisis multivariado
Ejemplo de analisis multivariado
 
25 motivos
25 motivos25 motivos
25 motivos
 
Taller 1 presentacion taller no inferioridad blog sefap
Taller 1 presentacion taller no inferioridad blog sefapTaller 1 presentacion taller no inferioridad blog sefap
Taller 1 presentacion taller no inferioridad blog sefap
 
Tema 8
Tema 8Tema 8
Tema 8
 
Formas cuadraticas
Formas cuadraticasFormas cuadraticas
Formas cuadraticas
 
3 remedial sesgos 2010
3 remedial sesgos 20103 remedial sesgos 2010
3 remedial sesgos 2010
 
Nosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealNosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo lineal
 
Analisis multivariante 2012
Analisis multivariante 2012Analisis multivariante 2012
Analisis multivariante 2012
 
Polinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasPolinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticas
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II
 
Ejercicios hessiano orlado
Ejercicios hessiano orladoEjercicios hessiano orlado
Ejercicios hessiano orlado
 
Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariable
 
metodo clinico y epidemilogico
metodo clinico y epidemilogicometodo clinico y epidemilogico
metodo clinico y epidemilogico
 
Supply Chain Risk Management Study slide deck - 18 NOV 2015
Supply Chain Risk Management Study slide deck - 18 NOV 2015Supply Chain Risk Management Study slide deck - 18 NOV 2015
Supply Chain Risk Management Study slide deck - 18 NOV 2015
 
Discriminante o-hessiano
Discriminante o-hessianoDiscriminante o-hessiano
Discriminante o-hessiano
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...
El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...
El cálculo vectorial es un campo de las matemáticas referidas al análisis rea...
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Ejercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableEjercicios de Calculo Multivariable
Ejercicios de Calculo Multivariable
 
Ensayo clínico
Ensayo clínicoEnsayo clínico
Ensayo clínico
 

Similar a 3 analisis multivariable

1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresionSociedadIncluyente
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptxPEALOZACASTILLOCINTI
 
Ud 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionalesUd 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionalesalfonnavarro
 
Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Juan Carlos Valdez
 
Distribuciones poisson, rayleigh y student
Distribuciones poisson, rayleigh y studentDistribuciones poisson, rayleigh y student
Distribuciones poisson, rayleigh y studentRosa E Padilla
 
Estimacion de intervalos 1
Estimacion de intervalos 1 Estimacion de intervalos 1
Estimacion de intervalos 1 Francisco Gomez
 
Estimacion de intervalos 1 poblacion- 04-06-2019
Estimacion de intervalos 1 poblacion- 04-06-2019Estimacion de intervalos 1 poblacion- 04-06-2019
Estimacion de intervalos 1 poblacion- 04-06-2019Francisco Gomez
 
Estadística ii
Estadística iiEstadística ii
Estadística iithomas669
 
Estadística ii 1
Estadística ii 1 Estadística ii 1
Estadística ii 1 thomas669
 
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Néstor Valles Villarreal
 
Regresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaRegresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaBryanRoyCordovaGomez
 
10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multipleAnniFenty
 

Similar a 3 analisis multivariable (20)

Formulario correlacion
Formulario correlacion Formulario correlacion
Formulario correlacion
 
Tutorial eviews (normalidad)
Tutorial eviews (normalidad)Tutorial eviews (normalidad)
Tutorial eviews (normalidad)
 
Unidad V
Unidad VUnidad V
Unidad V
 
1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
Diagonalización de matrices
Diagonalización de matricesDiagonalización de matrices
Diagonalización de matrices
 
Ud 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionalesUd 12 distribuciones bidimensionales
Ud 12 distribuciones bidimensionales
 
Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2Unidad 2 Estadistica inferencial 2
Unidad 2 Estadistica inferencial 2
 
Distribuciones poisson, rayleigh y student
Distribuciones poisson, rayleigh y studentDistribuciones poisson, rayleigh y student
Distribuciones poisson, rayleigh y student
 
apuntes.pdf
apuntes.pdfapuntes.pdf
apuntes.pdf
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Analisis de experimento
Analisis de experimentoAnalisis de experimento
Analisis de experimento
 
O
OO
O
 
Estimacion de intervalos 1
Estimacion de intervalos 1 Estimacion de intervalos 1
Estimacion de intervalos 1
 
Estimacion de intervalos 1 poblacion- 04-06-2019
Estimacion de intervalos 1 poblacion- 04-06-2019Estimacion de intervalos 1 poblacion- 04-06-2019
Estimacion de intervalos 1 poblacion- 04-06-2019
 
Estadística ii
Estadística iiEstadística ii
Estadística ii
 
Estadística ii 1
Estadística ii 1 Estadística ii 1
Estadística ii 1
 
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
 
Regresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaRegresion aplicada a la ingenieria
Regresion aplicada a la ingenieria
 
10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple
 

Más de Carmen Mejia

Teoriasdeenfermera 3
Teoriasdeenfermera 3Teoriasdeenfermera 3
Teoriasdeenfermera 3Carmen Mejia
 
Usoyconsumodedrogas
UsoyconsumodedrogasUsoyconsumodedrogas
UsoyconsumodedrogasCarmen Mejia
 
Clase 2 hipertension
Clase 2 hipertensionClase 2 hipertension
Clase 2 hipertensionCarmen Mejia
 
Clase 2 hipertension
Clase 2 hipertensionClase 2 hipertension
Clase 2 hipertensionCarmen Mejia
 
028 himno de la batalla de la republica
028 himno de la batalla de la republica028 himno de la batalla de la republica
028 himno de la batalla de la republicaCarmen Mejia
 
Organización y protocolos de tratamiento del dolor postoperatorio de la unida...
Organización y protocolos de tratamiento del dolor postoperatorio de la unida...Organización y protocolos de tratamiento del dolor postoperatorio de la unida...
Organización y protocolos de tratamiento del dolor postoperatorio de la unida...Carmen Mejia
 

Más de Carmen Mejia (8)

Teoriasdeenfermera 3
Teoriasdeenfermera 3Teoriasdeenfermera 3
Teoriasdeenfermera 3
 
Tema 8
Tema 8Tema 8
Tema 8
 
Via endovenosa
Via endovenosaVia endovenosa
Via endovenosa
 
Usoyconsumodedrogas
UsoyconsumodedrogasUsoyconsumodedrogas
Usoyconsumodedrogas
 
Clase 2 hipertension
Clase 2 hipertensionClase 2 hipertension
Clase 2 hipertension
 
Clase 2 hipertension
Clase 2 hipertensionClase 2 hipertension
Clase 2 hipertension
 
028 himno de la batalla de la republica
028 himno de la batalla de la republica028 himno de la batalla de la republica
028 himno de la batalla de la republica
 
Organización y protocolos de tratamiento del dolor postoperatorio de la unida...
Organización y protocolos de tratamiento del dolor postoperatorio de la unida...Organización y protocolos de tratamiento del dolor postoperatorio de la unida...
Organización y protocolos de tratamiento del dolor postoperatorio de la unida...
 

3 analisis multivariable

  • 2. Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 1. ¿Se ve a ojo alguna correlación? Si no es así, el cálculo formal de un coeficiente de correlación es, probablemente, una pérdida de tiempo. 2. ¿Qué puntos crean la correlación? Si con el dedo pulgar tapas el 10% de los puntos y la correlación desaparece, ¡cuidado! Errores en los datos o efectos de selección
  • 3. Búsqueda de correlaciones: “La salida de pesca” Límite de detección de la densidad de flujo radio del catálogo 3CR Recomendaciones (Wall, 1996, QJRaS, 37, 719): 3. ¿Puede estar causada por efectos de selección? 4. Si 1. 2. 3. resultan negativos, calcúlese la significancia de la correlación con alguno de los métodos que se detallan a continuación.
  • 4. Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 5. ¿Tiene la línea de regresión algún significado? • ¿Tiene sentido ajustar por mínimos cuadrados alguna curva? (d) • ¿Cuales son los errores en los parámetros del ajuste? (c) • ¿Por qué el ajuste tiene que ser lineal? (b) • Si no sabemos qué variable actua como causa de la correlación, ¿cuál de las dos variables debemos utilizar como independiente en el ajuste? (a) (véase lección sobre ajustes)
  • 5. Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 6. ¿Existe alguna relación causal? ¿Por qué? La relación puede simplemente indicar la dependencia de las dos variable, de una tercera, y eso crea una correlación espuria. Ejemplo: diagramas L−L. Sin embargo, el Statistical Consulting Center for Astrophysics, recomienda utilizarlos siempre que se utilice análisis de supervivencia. 7. Grafíquense las variables de forma que la correlación se vea de forma evidente en el diagrama, si hace falta, recurriendo a encasillar las variables y a realizar promedios. Ejemplo: la mediana del índice de variabilidad (σv) de QSOs ópticamente seleccionados para cada intervalo MB muestra gráficamente la correlación medida por métodos estadísticos. De otra forma, los puntos del diagrama de dispersión muestran una correlación cuanto menos cuestionable para el lector novel. (Hook et al. 1994) mediana
  • 6. Correlaciones entre variables de tipo nominal Definiciones: • Variable nominal es aquella que conlleva información sobre un conjunto de valores no ordenado. Ejemplo: sistema de clasificación morfológica de galaxias (E, S0, Sa, Sb, ...). • Tabla de contingencia, recoge las incidencias Nij entre dos variables nominales xi, yj.       y y y Nj Nj Nj NN NN yy NNx NNx yy 22 11 22212 12111 21 yxx y xxx NNjN iNij NNN iii NN NN NNx NNx       21 21 { } xNiixx ,...,1= = { } yNjjyy ,...,1= = ∑≡ j iji NN . ∑≡ i ijj NN. ∑∑ == j j i i NNN ..
  • 7. Correlaciones entre variables de tipo nominal Ejemplo: comparación de la determinación del tipo espectral de estrellas, por métodos espectroscópicos y fotométricos (Selman et al. 1999, A&A).
  • 8. Correlaciones entre variables de tipo nominal: test χ2 ♦ Método: probar que es erronea la suposición que las variables no están asociadas. Si es así, el número de incidencias esperado en el casillero (i,j) será . Se define la función La significancia de que ambas distribuciones estén asociadas viene dada por función de probabilidad χ2 con ν grados de libertad ♦ Comparación de la intensidad de dos correlaciones: ● V de Cramer, tal que (no corr.) 0 ≤ V ≤ 1 (corr. perfecta) ● Coeficiente C, a utilizarse sólo cuando las tablas de contingencia . . . . . tienen la misma dimensión, tal que 0 ≤ C ≤ 1. NNNn jiij /..= ∑ − ≡ ji ij ijij n nN , 2 2 )( χ 1 )( 1 )( 12 2 +−−= Γ = − ∞ − ∫ yxyx t NNNNdtteQ ν ν νχ ν χ donde )1,1min( 2 −− ≡ yx NNN V χ N C + ≡ 2 2 χ χ (Press et al., “Numerical Recipes”)
  • 9. Correlaciones entre variables de tipo ordinal o continuo: coeficiente de Pearson ♦ Definiciones: se denomina variable ordinal aquella cuyos valores discretos se pueden ordenar, y variable continua, aquella cuyos valores continuos se pueden ordenar. Ejemplos: orden de las galaxias más luminosas en un cúmulo (1,2,3...), temperatura efectiva de una nebulosa, ... ♦ Coeficiente de correlación lineal de Pearson ● Suposición: las variables están distribuidas de forma gaussiana. Es un . test paramétrico. ● Método: mide la desviación de las variables respecto a una línea recta. Dados los puntos {xi, yi }i=1,..,N se define el coeficiente de correlación tal que −1 ≤ r ≤ 1, donde ±1 indica correlación perfecta, y 0 indica no correlación. La significancia de que no exista una correlación viene dada por la distribución t-Student con N−2 grados de libertad, donde ∑∑ ∑ −− −− ≡ i ii i i ii yyxx yyxx r 22 )()( ))(( 2 1 2 r Nr t − − ≡
  • 10. Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Spearman ● Suposiciones: ninguna, es un test no-paramétrico, y por lo tanto, muy utilizado en Astrofísica. ● Método: dados los puntos { xi, yi }i=1,..,N se definen las variables Ri , rango cuando las xi están ordenadas ascendentemente, y Si , rango cuando las yi están ordenadas ascendentemente. Si no se producen repeticiones (ligas) en los valores de xi, yi , se define el coeficiente de Spearman Si se producen fk repeticiones entre las xi , y gm repeticiones entre las yi que tiene la propiedad ρ 0 cuando no existe correlación. NN SRi ii − − −≡ ∑ 3 2 )( 61ρ 2/1 3 32/1 3 3 332 3 )( 1 )( 1 )( 12 1 )( 12 1 )( 6 1         − − −         − − −       −+−+− − − ≡ ∑∑ ∑ ∑ ∑ NN gg NN ff ggffSR NN m mmk kk i k m mmkkii ρ 2 1 2 ρ ρ − − ≡ N t (Press et al. , Numerical Recipes)
  • 11. Correlaciones entre variables de tipo ordinal o continuo: coeficiente de Spearman Tablas de significancias para N≤50 (Wall, 1996, QJRaS, 37, 719):
  • 12. Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Kendall ● Suposiciones: ninguna, es un test no-paramétrico. De hecho, los resultados de los tests de Spearman y Kendall están fuertemente correlacionados. ● Método: se crean todas las combinaciones de puntos posibles [(xi, yi), (xj, yj)] tal que i ≠ j y se definen c = número de parejas concordantes (xi>xj y yi>yj) o (xi<xj y yi<yj) d = número de parejas discordantes (xi>xj y yi<yj) o (xi<xj y yi>yj) ey=número de ligas en y, con xi≠xj ex=número de ligas en x, con yi≠yj El coeficiente de Kendall se define tal que −1 ≤ τ ≤ 1 donde ±1 indica correlación perfecta, y 0 indica no correlación. La significancia de no asociación viene dada por una distribución normal exdceydc dc ++++ − ≡τ )1(24264.4 104 2 1 1)( 2 − + =−= ∫ ∞− − NN N xdtexP x t τ π (Press et al. , Numerical Recipes)
  • 13. Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Kendall Ejemplo: anticorrelación entre variabilidad (σv) y luminosidad (MB) en QSOs. Nótese que incluso para valores pequeños del coeficiente de rangos de Kendall, la significancia de asociación es grande. Por comparación, la variabilidad (σv) y el redshift (z) no están significativamente asociados. (Hook et al. 1994, MNRAS, 268, 305)
  • 14. Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos parciales ● Utilidad: comprobar si la correlación encontrada entre dos variables x,y está generada por la asociación de ambas con una tercera variable z. ● Método: se pueden utilizar tanto el coeficiente de rangos ρ de Spearman como el τ de Kendall. Es un test no-paramétrico. Se define el coeficiente de rangos parciales La significancia de que la correlación entre x,y se deba enteramente a la correlación de ambas con z viene dada por [ ] 2/122, )1()1( zxyz zxyzxy zyx ττ τττ τ −− − ≡ zxy zxy zyx ND , , , 1 1 ln4 2 1 τ τ − + −= que se encuentra distribuida de forma normal, en el caso de total dependencia (Macklin J.T., 1982, MNRAS, 199, 1119). Ejemplo: relación entre tamaño angular (θ), índice espectral (α) y redshift (z) de las fuentes del catálogo 3CR
  • 15. Análisis multivariable: componentes principales ● Utilidad: es muy potente para analizar las relaciones entre muchas variables. ● Método: dadas p variables con n puntos cada una, se define el sistema de componentes principales como aquel sistema de referencia de p ejes ortogonales en el que se maximiza la variancia de los n puntos, de forma decreciente del primero de los ejes, al último. Sea el vector de p coordenadas, Y’ la matriz de p×n observaciones. La media de las observaciones se puede expresar como ),...,,( 21 pyyyy =′ . , donde I es el vector unitario de dimensión n, y la matriz de covariancia , donde Y’ es una . . matriz p×n cuyas filas son todas iguales a y’ . Se puede demostrar que define un sistema de elipsoides centrados en el centro de gravedad de la nube de puntos cuyos ejes trazan, de forma descendiente, la máxima variancia. IY n y ′≡ 1 ))(( 1 1 ′−− − ≡ YYYY n C cte=−′− − )()( 1 yyCyy Ejes propios de la matriz de covariancia
  • 16. Puesto que por definición C es simétrica, se puede calcular la base ortogonal que minimiza la variancia de la nube de puntos a través de sus valores propios (λi ) y vectores propios (ai) o eigenvalues y eigenvectors: C ai = λi ai , i=1, ..., p . Estos valores se pueden obtener al resolver la ecuación característica C − λI= 0 , donde I, ahora, es la matriz unidad de orden igual al de la matriz C. Llamamos A a la matriz generada por los vectores propios ai arreglados como filas. Si transformamos el vector de variables y, obtenemos z = A(y−y) las coordenadas sobre el sistema de ejes ortogonales definido por los vectores propios de la matriz de covariancia. Se puede reconstruir y de z invirtiendo la ecuación anterior y = A’z + y en virtud de que A es una matriz ortogonal, A−1 = A′. Análisis multivariable: componentes principales
  • 17. En el nuevo sistema de coordenadas, la nube de puntos de las observaciones muestran una variancia decreciente si se ordenan los ejes según el orden decreciente de sus valores propios. Así el eje definido por a1, donde λ1 es el valor propio más grande, es el eje principal sobre cuya proyección los puntos tienen la mayor variancia. Para evaluar la importancia de la proyección sobre el eje j se compara el valor de λj respecto de la suma de todos los valores propios. Si un valor propio añade poco al valor total de la suma, la variancia sobre el eje correspondiente es pequeña, y por lo tanto, ésta es una dimensión con muy poca información, que se puede obviar. Si denotamos como AK la matriz que contiene los primeros k vectores propios, podemos comprimir los datos sin perder mucha información mediante las transformaciones, z = AK(y−y) y = A’Kz + y Por lo tanto PCA puede reducir la dimensionalidad del problema. Análisis multivariable: componentes principales
  • 18. Ejemplo: PCA aplicado a la catalogación de ~230 espectros de QSOs (Francis et al. 1992, ApJ, 398, 476) pendiente, y líneas estrechas bosque de absorción BLR a1 a2 a3 a4 Análisis multivariable: componentes principales
  • 19. Ejem: análisis multivariable de las propiedades de supernovas (Patat et al. 1994, AA, 282, 731). Correlaciones entre: • el decaimiento en banda B en los primeros 100 días, βB 100 • el decaimiento del color B-V en los primeros 100 días, βB-V 100 • la anchura de la línea Hα, vHα • el cociente entre las intensidades de la emisión y la absorción de Hα, e/a • la magnitud absoluta en banda B en el máximo, MB max • el color B-V en el máximo de la curva de luz, (B-V)max Proyecciones de las variables a analizar sobre los ejes definidos por los dos primeros autovectores de su matriz de covariancia. Estas proyecciones comprenden el 59% de la variancia de los datos.
  • 20. Análisis multivariable: redes neuronales ● Propiedades: es una técnica muy potente para analizar relaciones no necesariamente lineales en problemas con un gran número de variables. No se necesita formular un modelo, ya que la red aprende de ejemplos, derivando las relaciones entre las variables de forma heurística a través de un conjunto de datos de entrenamiento. • Aplicaciones en Astrofísica: clasificación de objetos (Storrie-Lombardi et al. 1992, MNRAS, 259, 8), detección de señales débiles (Bacigaluppi et al. MNRAS 2000, 318, 769), determinación de períodos de variabilidad (Cornway 1998, NewAR, 42, 343, Tagliaferri et al. 1999, A&AS, 137, 391), determinación de corrimientos al rojo (Firth et al, astro-ph/0203250), detección de frentes de onda en sistemas con óptica adaptativa (Angel et al. 2000, Nat, 348,221; Sandler et al. 1991, Nat, 351, 300). nodos de entrada nodos de salida (Figura de StatSoft: www.statsoft.com/textbookstathome.html)
  • 21. Análisis multivariable: redes neuronales Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi et al. 1992, MNRAS, 259, 8P) . La entrada a la capa s de la red es: donde los w son pesos a ajustar; y la salida es una señal que depende de forma no-lineal de las entradas. Los pesos se determinan por un método de mínimos cuadrados para un conjunto de datos de entrenamiento. Se define una función de coste, con las diferencias entre la salida (clasificación) deseada y la obtenida: y se ajustan los pesos hacia las capas de atrás (retropropagación) donde el coeficiente de aprendizaje η y el momento α se prefijan para determinar la rapidez del ∑ − = i s i s ij s j xwI 1 s j s j Iz z zfzfx = −+ == y )exp(1 1 )(donde)( ∑ −≡ k kk doE 2 )(2/1 )()1( tw w E tw ij ij ij ∆+ ∂ ∂ −=+∆ αη aprendizaje.
  • 22. Análisis multivariable: redes neuronales Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi et al. 1992, MNRAS, 259, 8P) . Una vez se ha entrenada la red, se fijan los pesos, y se pasan como entradas de la red neuronal el conjunto de datos problema. Los nodos de salida dan la probabilidad de que la clasificación sea C dada el conjunto de datos x, es decir, el resultado es bayesiano.

Notas del editor

  1. Es este el coeficiente en el que trabajo fisher? Es la formula de probabilidad debida a el? Pearson hizo los calculos a mano y todos eran corroborados por la formula de Fisher????
  2. All tied entries have the same rank, which ahs a mean rank value.