MONTECARLO
BASADO EN
CADENAS DE
MARKOV
Jeffeson Llerena
Simulacion
5to Sistemas
CONTENIDO
• Planteamiento. Posibles enfoques de Montecarlo
• Algoritmo general de Metropolis-Hastings
• Algoritmo de Metrópolis
• Muestreador de independencia
• Metropolis-Hastings paso a paso Condicionales
completas
• Muestreo de Gibbs
• Algunas cuestiones abiertas
PLANTEAMIENTO
• El método de Montecarlo permite determinar la
distribución, p(y), de un estadístico, o algún aspecto
de la misma (media, varianza)
• Ejemplos:
• distribución posterior en un análisis bayesiano:
• varianza de un estadístico (caso frecuentista):
POSIBLES ENFOQUES DE
MONTECARLO
• Típico “algoritmo de Montecarlo” para aproximar
esta distribución: generar n muestras iid, x, evaluar
repetidamente el estadístico sobre ellas t(x), y
aproximar p mediante la distribución empírica de
valores obtenidos.
• Alternativamente: generar proceso estocástico cuya
distribución estacionaria sea p. Después de fase
transitoria (“fase de calentamiento”), recolectar
valores t(xt), t=1,...,n, no independientes pero con
distribución, muy aproximadamente, p.
ALGORITMO DE
METROPOLIS-HASTINGS
• Posible generador: proceso de Markov, p(xt+1|Xt=xt,...,
X0=x0)=p(xt+1|Xt=xt).
• Algoritmo de Metropolis-Hastings: en fase t, próximo
valor Xt+1 generado a partir de Xt=xt proponiendo valor
Y a partir de densidad q(y| Xt=xt). Este valor se acepta
como el siguiente Xt+1 con probabilidad (xt,y), o se
rechaza y se vuelve a generar un nuevo y, etc.
• Ciertamente, genera una cadena de Markov. Pero
objetivo es que distribución estacionaria sea p.
ALGORITMO DE
METROPOLIS-HASTINGS
• ¿Qué densidad q hay que utilizar?: cualquiera sirve
(bajo ciertas condiciones) siempre que
• No todas las q igual de eficientes, compromiso:
• Alta probabilidad de aceptación
• Fase de calentamiento corta
• Que no sean slow mixing chains
• Los distintos métodos de Montecarlo de Markov
difieren en la elección de q.
( )
( ) ( )
( ) ( ){ }, min 1,
p q
p q
a =
y x y
x y
x y x
ALGORITMO DE
METRÓPOLIS
• Densidades simétricas q(x|y)=q(y|x) para todo x,y.
Ejemplo: q(·|x) normal multivariante de media x y 
constante. También caminata aleatoria de Metropolis
q(y|x)=q(|xy|).
• Probabilidad de aceptación:
• Elección del parámetro de escala () delicada: si yxt
tiende a ser pequeño (y,xt) grande pero con lenta
velocidad de mixtura.
( )
( )
( ){ }, min 1,
p
p
a =
y
x y
x
MUESTREADOR DE
INDEPENDENCIA
• Basado en q(y|x)=q(y). Conduce a
• Suele funcionar bien cuando q es una buena
aproximación a p, pero con colas más pesadas.
• Típica elección si aplicable TCL: q normal
multivariante de media igual a la moda de p y matriz
de covarianzas “algo mayor que”
( )
( ) ( )
( ) ( ){ }, min 1,
p q
p q
a =
x y
x y
y x
( )
12
log
i j
p
x x
-
é ù¶ê ú-
ê ú¶ ¶ë û
x
METROPOLIS-HASTINGS
PASO A PASO (SINGLE
COMPONENT)
• En lugar de actualizar X en bloque, mejor considerar
componentes {X1,X2,...,Xh} y actualitzarlas una a una.
• Notación: Xi = {X1,X2,...,Xi1, Xi+1,...,Xh}
• Cada iteración dividida en h etapas. Etapa i de
t→t+1 actualiza Xt.i: se propone Yi según qi(yi|xt.i,xt.i),
con xt.i = {xt+1.1,xt+1.2,...,xt+1.i1, xt.i+1,...,xt.h}. Aceptado con
probabilidad
( )
( ) ( )
( ) ( )
. . . . .
. . .
. . . . .
,
, , min 1,
,
t i t i i t i t i t i
t i t i t i
t i t i i t i t i t i
p y x q x y x
x x y
p x x q y x x
a -
-
-
ì üï ïï ï= í ý
ï ïï ïî þ
MUESTREO DE GIBBS
• Es el algoritmo de Montecarlo de Markov más
conocido y utilizado.
• Caso particular de Metropolis-Hastings paso a paso:
emplear
• Seguridad total de aceptación: (x,y)=1.
• Existen muy buenos métodos para generar valores a
partir de condicionales totales.
• Conocido de antiguo en Mecánica estadística
“descubierto” en los años 80 por estadísticos.
( ) ( ),i i i i iq y x x p y x- -=
CONDICIONALES
COMPLETAS
• p(xi|xi) se conoce como la distribución condicional
completa, la distribución de xi dadas las restantes
componentes.
• Algoritmo de Metropolis-Hastings continua siendo
válido ya que el conjunto de todas las condicionales
completas determina unívocamente p. Resultado
importante en estadística espacial.
• Algoritmo paso a paso: ventajas computacionales,
simplificación de , ...
ALGUNAS CUESTIONES
ABIERTAS, MAL CONOCIDAS
TODAVÍA
• Orden de actualización en algoritmos paso a paso, no
necesariamente actualizar siempre en orden i=1,2,...,h.
(Incluso se ha propuesto que orden aleatorio es mejor
en ciertos casos).
• Número de cadenas: ¿muestrear de varias cadenas
de Markov cortas (independientes entre ellas) o de
una única, larga?
• Elección de valores iniciales x0. Teóricamente no
importan pero pueden influir en longitud de “fase de
calentamiento”.
MÁS CUESTIONES
ABIERTAS
• Longitud de la fase de calentamiento
• Difícil determinarla analíticamente
• Criterios empíricos basados en datos generados:
• Diagnósticos gráficos: los más utilizados
• Serían preferibles criterios de decisión más rigurosos
(diagnósticos de convergencia): existen muchos, tema
difícil y dependiente de decisiones como una o muchas
cadenas, funciones que expresan el grado de
estacionariedad, etc
• Momento de interrupción
• Vinculado a estimación de la precisión
• Difícil debido a la dependencia entre observaciones

Montecarlo de markov

  • 1.
    MONTECARLO BASADO EN CADENAS DE MARKOV JeffesonLlerena Simulacion 5to Sistemas
  • 2.
    CONTENIDO • Planteamiento. Posiblesenfoques de Montecarlo • Algoritmo general de Metropolis-Hastings • Algoritmo de Metrópolis • Muestreador de independencia • Metropolis-Hastings paso a paso Condicionales completas • Muestreo de Gibbs • Algunas cuestiones abiertas
  • 3.
    PLANTEAMIENTO • El métodode Montecarlo permite determinar la distribución, p(y), de un estadístico, o algún aspecto de la misma (media, varianza) • Ejemplos: • distribución posterior en un análisis bayesiano: • varianza de un estadístico (caso frecuentista):
  • 4.
    POSIBLES ENFOQUES DE MONTECARLO •Típico “algoritmo de Montecarlo” para aproximar esta distribución: generar n muestras iid, x, evaluar repetidamente el estadístico sobre ellas t(x), y aproximar p mediante la distribución empírica de valores obtenidos. • Alternativamente: generar proceso estocástico cuya distribución estacionaria sea p. Después de fase transitoria (“fase de calentamiento”), recolectar valores t(xt), t=1,...,n, no independientes pero con distribución, muy aproximadamente, p.
  • 5.
    ALGORITMO DE METROPOLIS-HASTINGS • Posiblegenerador: proceso de Markov, p(xt+1|Xt=xt,..., X0=x0)=p(xt+1|Xt=xt). • Algoritmo de Metropolis-Hastings: en fase t, próximo valor Xt+1 generado a partir de Xt=xt proponiendo valor Y a partir de densidad q(y| Xt=xt). Este valor se acepta como el siguiente Xt+1 con probabilidad (xt,y), o se rechaza y se vuelve a generar un nuevo y, etc. • Ciertamente, genera una cadena de Markov. Pero objetivo es que distribución estacionaria sea p.
  • 6.
    ALGORITMO DE METROPOLIS-HASTINGS • ¿Quédensidad q hay que utilizar?: cualquiera sirve (bajo ciertas condiciones) siempre que • No todas las q igual de eficientes, compromiso: • Alta probabilidad de aceptación • Fase de calentamiento corta • Que no sean slow mixing chains • Los distintos métodos de Montecarlo de Markov difieren en la elección de q. ( ) ( ) ( ) ( ) ( ){ }, min 1, p q p q a = y x y x y x y x
  • 7.
    ALGORITMO DE METRÓPOLIS • Densidadessimétricas q(x|y)=q(y|x) para todo x,y. Ejemplo: q(·|x) normal multivariante de media x y  constante. También caminata aleatoria de Metropolis q(y|x)=q(|xy|). • Probabilidad de aceptación: • Elección del parámetro de escala () delicada: si yxt tiende a ser pequeño (y,xt) grande pero con lenta velocidad de mixtura. ( ) ( ) ( ){ }, min 1, p p a = y x y x
  • 8.
    MUESTREADOR DE INDEPENDENCIA • Basadoen q(y|x)=q(y). Conduce a • Suele funcionar bien cuando q es una buena aproximación a p, pero con colas más pesadas. • Típica elección si aplicable TCL: q normal multivariante de media igual a la moda de p y matriz de covarianzas “algo mayor que” ( ) ( ) ( ) ( ) ( ){ }, min 1, p q p q a = x y x y y x ( ) 12 log i j p x x - é ù¶ê ú- ê ú¶ ¶ë û x
  • 9.
    METROPOLIS-HASTINGS PASO A PASO(SINGLE COMPONENT) • En lugar de actualizar X en bloque, mejor considerar componentes {X1,X2,...,Xh} y actualitzarlas una a una. • Notación: Xi = {X1,X2,...,Xi1, Xi+1,...,Xh} • Cada iteración dividida en h etapas. Etapa i de t→t+1 actualiza Xt.i: se propone Yi según qi(yi|xt.i,xt.i), con xt.i = {xt+1.1,xt+1.2,...,xt+1.i1, xt.i+1,...,xt.h}. Aceptado con probabilidad ( ) ( ) ( ) ( ) ( ) . . . . . . . . . . . . . , , , min 1, , t i t i i t i t i t i t i t i t i t i t i i t i t i t i p y x q x y x x x y p x x q y x x a - - - ì üï ïï ï= í ý ï ïï ïî þ
  • 10.
    MUESTREO DE GIBBS •Es el algoritmo de Montecarlo de Markov más conocido y utilizado. • Caso particular de Metropolis-Hastings paso a paso: emplear • Seguridad total de aceptación: (x,y)=1. • Existen muy buenos métodos para generar valores a partir de condicionales totales. • Conocido de antiguo en Mecánica estadística “descubierto” en los años 80 por estadísticos. ( ) ( ),i i i i iq y x x p y x- -=
  • 11.
    CONDICIONALES COMPLETAS • p(xi|xi) seconoce como la distribución condicional completa, la distribución de xi dadas las restantes componentes. • Algoritmo de Metropolis-Hastings continua siendo válido ya que el conjunto de todas las condicionales completas determina unívocamente p. Resultado importante en estadística espacial. • Algoritmo paso a paso: ventajas computacionales, simplificación de , ...
  • 12.
    ALGUNAS CUESTIONES ABIERTAS, MALCONOCIDAS TODAVÍA • Orden de actualización en algoritmos paso a paso, no necesariamente actualizar siempre en orden i=1,2,...,h. (Incluso se ha propuesto que orden aleatorio es mejor en ciertos casos). • Número de cadenas: ¿muestrear de varias cadenas de Markov cortas (independientes entre ellas) o de una única, larga? • Elección de valores iniciales x0. Teóricamente no importan pero pueden influir en longitud de “fase de calentamiento”.
  • 13.
    MÁS CUESTIONES ABIERTAS • Longitudde la fase de calentamiento • Difícil determinarla analíticamente • Criterios empíricos basados en datos generados: • Diagnósticos gráficos: los más utilizados • Serían preferibles criterios de decisión más rigurosos (diagnósticos de convergencia): existen muchos, tema difícil y dependiente de decisiones como una o muchas cadenas, funciones que expresan el grado de estacionariedad, etc • Momento de interrupción • Vinculado a estimación de la precisión • Difícil debido a la dependencia entre observaciones

Notas del editor

  • #10 También admisibles otros órdenes de actualización, no necesariamente i= 1,2,..., h . Por ejemplo, existen algoritmos basados en orden aleatorio.