Algoritmo EM
Ejemplos con Modelos de Mixturas Normales
Análisis Cuantitativo del Riesgo
Estadística I
David Solís
2
Resumen
Antecedentes y Origen
Ejemplos
Generalización e Implementación
1
2
3
4
Referencias 5
Agenda
3
Resumen
El algoritmo EM se usa para encontrar estimadores de máxima
verosimilitud de parámetros en modelos probabilísticos que dependen de
variables no observables.
Descripción
Método iterativo que alterna dos pasos:
Paso E. Se calcula la esperanza de la verosimilitud mediante la inclusión de
variables latentes como si fueran observables.
Paso M. Se calculan estimadores de máxima verosimilitud de los
parámetros mediante la maximización de la verosimilitud esperada del paso
E.
Los parámetros que se encuentran en el paso M se usan para comenzar el
paso E siguiente, y así el proceso se repite hasta encontrar los valores
óptimos.
4
Resumen
Antecedentes y Origen
Ejemplos
Generalización e Implementación
1
2
3
4
Referencias 5
Agenda
5
Antecedentes Experimento Weldon-Pearson
En 1894 Pearson modeló una
mixtura de dos distribuciones
u n i v a r i a d a s n o r m a l e s c o n
diferentes medias μ1 y μ2 y
varianzas σ1 y σ2 con proporciones
π1 y π2 a a l g u n o s d a t o s
proporcionados por Weldon.
Consistió en mediciones de los
caparazones de cangrejos(la
proporción del ancho del frente
sobre la longitud del cuerpo) de n
=1000 cangrejos de una muestra
de la bahía de Nápoles.
5
Antecedentes Experimento Weldon-Pearson
En 1894 Pearson modeló una
mixtura de dos distribuciones
u n i v a r i a d a s n o r m a l e s c o n
diferentes medias μ1 y μ2 y
varianzas σ1 y σ2 con proporciones
π1 y π2 a a l g u n o s d a t o s
proporcionados por Weldon.
Consistió en mediciones de los
caparazones de cangrejos(la
proporción del ancho del frente
sobre la longitud del cuerpo) de n
=1000 cangrejos de una muestra
de la bahía de Nápoles.
29 intervalos.
Sesgada a la izquierda.
6
Antecedentes Experimento Weldon-Pearson
Weldon había especulado que la asimetría en el histograma de estos datos
podría ser una señal de que esta población había evolucionando hacia dos
nuevas subespecies.
El resultado del modelo de mixturas de Pearson, mostrado en la parte derecha
sugiere que existen dos subespecies presentes.
Origen
Origen
8
Resumen
Antecedentes y Origen
Ejemplos
Generalización e Implementación
1
2
3
4
Referencias 5
Agenda
Generalización
X- Muestra completa ~ f(x; θ)
Y - Muestra observada (incompleta) ~ f(y;θ) tal que y(x) = y
Se define Q(θ;θp) = E[lnf(x;θ)|Y, θp]
Se obtiene θp+1,
= 0
Se itera hasta que |θp+1 - θp| o |Q(θp+1;θp) - Q(θp;θp)| son
suficientemente pequeñas, es decir se obtienen valores óptimos
para Q(θ;θp) y θ
Se espera que la verosimilitud no decrezca en cada iteración
Q(θp+1;θp) ≥ Q(θp;θp)
9
10
Implementación del Algoritmo en R
10
Implementación del Algoritmo en R
10
Implementación del Algoritmo en R
10
Implementación del Algoritmo en R
10
Implementación del Algoritmo en R
10
Implementación del Algoritmo en R
11
Resumen
Antecedentes y Origen
Ejemplos
Generalización e Implementación
1
2
3
4
Referencias 5
Agenda
12
Simulación de 2 Mixturas Normales
Simulación de una mixtura de 1,000 observaciones con la siguiente función de
densidad
Componente μ 𝜎 p
1 6.9841974 0.4764190 0.7048
2 9.9399546 0.5385381 0.2952
Modelo D p-value Interpretación
Mixtura de 2 normales simulada 0.0286 0.3875
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
13
Ajuste de una Mixtura de 2 Gammas
Se simularon dos mixturas de dos gammas:
Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2:
shape =17, rate = 2, p =1 3
Componente μ 𝜎 p
1 3.9251897 1.0163427 0.4117
2 7.2398009 2.3865015 0.5883
Modelo D p-value Interpretación
Mixtura 1 0.0222 0.7092
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
13
Ajuste de una Mixtura de 2 Gammas
Se simularon dos mixturas de dos gammas:
Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2:
shape =17, rate = 2, p =1 3
Componente μ 𝜎 p
1 3.9251897 1.0163427 0.4117
2 7.2398009 2.3865015 0.5883
Modelo D p-value Interpretación
Mixtura 1 0.0222 0.7092
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
El resultado de la prueba KS nos
permite aceptar la primera
mixtura.
14
Ajuste de una Mixtura de 2 Gammas
Componente μ 𝜎 p
1 1.9133099 0.8917386 0.6345
2 10.1737830 2.6468378 0.3655
Modelo D p-value Interpretación
Mixtura 2 0.0444 0.0386
Hay evidencia moderada en contra de la hipótesis
nula.
Mixtura 2: Componente 1: shape = 4, rate = 2, p = 2 3; componente 2:
shape = 21, rate = 2, p =1 3
14
Ajuste de una Mixtura de 2 Gammas
Componente μ 𝜎 p
1 1.9133099 0.8917386 0.6345
2 10.1737830 2.6468378 0.3655
Modelo D p-value Interpretación
Mixtura 2 0.0444 0.0386
Hay evidencia moderada en contra de la hipótesis
nula.
El resultado de la prueba KS nos permite rechazar o al menos poner en
duda la segunda mixtura. Aunque gráficamente parece aceptable el
ajuste, en realidad fue muy pobre de acuerdo a la prueba de bondad.
Mixtura 2: Componente 1: shape = 4, rate = 2, p = 2 3; componente 2:
shape = 21, rate = 2, p =1 3
15
Ajuste de una Serie de Tiempos Financiera
Ajustar la distribución de los rendimientos logarítmicos de los precios de cierre
de la serie de tiempo de TELMEX de 2011 (de 01/01/2011 a 30/12/2011).
Con la finalidad de conseguir la mejor bondad de ajuste se quitaron 3 outliers.
16
Alternativas a la Normal para Rendimientos
17
Alternativas a la Normal para Rendimientos
18
Componente μ 𝜎 p
1 -0.0001801668 0.0110634290 0.7055
2 0.0009019293 0.0023377669 0.2945
Ajuste de una Serie de Tiempos Financiera
Parte 1. Ajuste con una mixtura de 2 normales
Modelo D p-value Interpretación
Mixtura 0.0781 0.0983
La evidencia en contra de la hipótesis nula es
poco convincente.
18
Componente μ 𝜎 p
1 -0.0001801668 0.0110634290 0.7055
2 0.0009019293 0.0023377669 0.2945
Ajuste de una Serie de Tiempos Financiera
Parte 1. Ajuste con una mixtura de 2 normales
Modelo D p-value Interpretación
Mixtura 0.0781 0.0983
La evidencia en contra de la hipótesis nula es
poco convincente.
El ajuste parece aceptable ya que la estimación de densidad por
núcleo subestima en los picos. Se puede apreciar que las
normales que componen la mixtura están prácticamente
centradas en 0.
19
α β δ μ
80.6667627555 -6.8113636432 0.0076182371 0.0007840097
Ajuste de una Serie de Tiempos Financiera
Parte 2. Ajuste con la distribución Normal Inversa Gausiana
Modelo D p-valúe Interpretación
Normal Inversa Gausiana 0.0716 0.1593
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
19
α β δ μ
80.6667627555 -6.8113636432 0.0076182371 0.0007840097
Ajuste de una Serie de Tiempos Financiera
Parte 2. Ajuste con la distribución Normal Inversa Gausiana
Modelo D p-valúe Interpretación
Normal Inversa Gausiana 0.0716 0.1593
No hay evidencia en contra de la hipótesis nula.
Los datos parecen ser consistentes con la
hipótesis nula.
Para este caso, con la Normal Inversa Gausiana se obtuvo un
mejor ajuste que con la mixtura normal, sin embargo con ambos
modelos se acepta la hipótesis nula.
20
Resumen
Antecedentes y Origen
Ejemplos
Generalización e Implementación
1
2
3
4
Referencias 5
Agenda
21
Referencias
Otras fuentes
978-0-471-00626-8 978-0-471-20170-0 978-3-540-40502-3 978-0-198-52396-3 978-0-412-24620-3 978-0-412-04251-5

Algoritmo EM

  • 1.
    Algoritmo EM Ejemplos conModelos de Mixturas Normales Análisis Cuantitativo del Riesgo Estadística I David Solís
  • 2.
    2 Resumen Antecedentes y Origen Ejemplos Generalizacióne Implementación 1 2 3 4 Referencias 5 Agenda
  • 3.
    3 Resumen El algoritmo EMse usa para encontrar estimadores de máxima verosimilitud de parámetros en modelos probabilísticos que dependen de variables no observables. Descripción Método iterativo que alterna dos pasos: Paso E. Se calcula la esperanza de la verosimilitud mediante la inclusión de variables latentes como si fueran observables. Paso M. Se calculan estimadores de máxima verosimilitud de los parámetros mediante la maximización de la verosimilitud esperada del paso E. Los parámetros que se encuentran en el paso M se usan para comenzar el paso E siguiente, y así el proceso se repite hasta encontrar los valores óptimos.
  • 4.
    4 Resumen Antecedentes y Origen Ejemplos Generalizacióne Implementación 1 2 3 4 Referencias 5 Agenda
  • 5.
    5 Antecedentes Experimento Weldon-Pearson En1894 Pearson modeló una mixtura de dos distribuciones u n i v a r i a d a s n o r m a l e s c o n diferentes medias μ1 y μ2 y varianzas σ1 y σ2 con proporciones π1 y π2 a a l g u n o s d a t o s proporcionados por Weldon. Consistió en mediciones de los caparazones de cangrejos(la proporción del ancho del frente sobre la longitud del cuerpo) de n =1000 cangrejos de una muestra de la bahía de Nápoles.
  • 6.
    5 Antecedentes Experimento Weldon-Pearson En1894 Pearson modeló una mixtura de dos distribuciones u n i v a r i a d a s n o r m a l e s c o n diferentes medias μ1 y μ2 y varianzas σ1 y σ2 con proporciones π1 y π2 a a l g u n o s d a t o s proporcionados por Weldon. Consistió en mediciones de los caparazones de cangrejos(la proporción del ancho del frente sobre la longitud del cuerpo) de n =1000 cangrejos de una muestra de la bahía de Nápoles. 29 intervalos. Sesgada a la izquierda.
  • 7.
    6 Antecedentes Experimento Weldon-Pearson Weldonhabía especulado que la asimetría en el histograma de estos datos podría ser una señal de que esta población había evolucionando hacia dos nuevas subespecies. El resultado del modelo de mixturas de Pearson, mostrado en la parte derecha sugiere que existen dos subespecies presentes.
  • 8.
  • 9.
  • 10.
    8 Resumen Antecedentes y Origen Ejemplos Generalizacióne Implementación 1 2 3 4 Referencias 5 Agenda
  • 11.
    Generalización X- Muestra completa~ f(x; θ) Y - Muestra observada (incompleta) ~ f(y;θ) tal que y(x) = y Se define Q(θ;θp) = E[lnf(x;θ)|Y, θp] Se obtiene θp+1, = 0 Se itera hasta que |θp+1 - θp| o |Q(θp+1;θp) - Q(θp;θp)| son suficientemente pequeñas, es decir se obtienen valores óptimos para Q(θ;θp) y θ Se espera que la verosimilitud no decrezca en cada iteración Q(θp+1;θp) ≥ Q(θp;θp) 9
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
    11 Resumen Antecedentes y Origen Ejemplos Generalizacióne Implementación 1 2 3 4 Referencias 5 Agenda
  • 19.
    12 Simulación de 2Mixturas Normales Simulación de una mixtura de 1,000 observaciones con la siguiente función de densidad Componente μ 𝜎 p 1 6.9841974 0.4764190 0.7048 2 9.9399546 0.5385381 0.2952 Modelo D p-value Interpretación Mixtura de 2 normales simulada 0.0286 0.3875 No hay evidencia en contra de la hipótesis nula. Los datos parecen ser consistentes con la hipótesis nula.
  • 20.
    13 Ajuste de unaMixtura de 2 Gammas Se simularon dos mixturas de dos gammas: Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2: shape =17, rate = 2, p =1 3 Componente μ 𝜎 p 1 3.9251897 1.0163427 0.4117 2 7.2398009 2.3865015 0.5883 Modelo D p-value Interpretación Mixtura 1 0.0222 0.7092 No hay evidencia en contra de la hipótesis nula. Los datos parecen ser consistentes con la hipótesis nula.
  • 21.
    13 Ajuste de unaMixtura de 2 Gammas Se simularon dos mixturas de dos gammas: Mixtura 1: Componente 1: shape = 9, rate = 2, p = 2 3; componente 2: shape =17, rate = 2, p =1 3 Componente μ 𝜎 p 1 3.9251897 1.0163427 0.4117 2 7.2398009 2.3865015 0.5883 Modelo D p-value Interpretación Mixtura 1 0.0222 0.7092 No hay evidencia en contra de la hipótesis nula. Los datos parecen ser consistentes con la hipótesis nula. El resultado de la prueba KS nos permite aceptar la primera mixtura.
  • 22.
    14 Ajuste de unaMixtura de 2 Gammas Componente μ 𝜎 p 1 1.9133099 0.8917386 0.6345 2 10.1737830 2.6468378 0.3655 Modelo D p-value Interpretación Mixtura 2 0.0444 0.0386 Hay evidencia moderada en contra de la hipótesis nula. Mixtura 2: Componente 1: shape = 4, rate = 2, p = 2 3; componente 2: shape = 21, rate = 2, p =1 3
  • 23.
    14 Ajuste de unaMixtura de 2 Gammas Componente μ 𝜎 p 1 1.9133099 0.8917386 0.6345 2 10.1737830 2.6468378 0.3655 Modelo D p-value Interpretación Mixtura 2 0.0444 0.0386 Hay evidencia moderada en contra de la hipótesis nula. El resultado de la prueba KS nos permite rechazar o al menos poner en duda la segunda mixtura. Aunque gráficamente parece aceptable el ajuste, en realidad fue muy pobre de acuerdo a la prueba de bondad. Mixtura 2: Componente 1: shape = 4, rate = 2, p = 2 3; componente 2: shape = 21, rate = 2, p =1 3
  • 24.
    15 Ajuste de unaSerie de Tiempos Financiera Ajustar la distribución de los rendimientos logarítmicos de los precios de cierre de la serie de tiempo de TELMEX de 2011 (de 01/01/2011 a 30/12/2011). Con la finalidad de conseguir la mejor bondad de ajuste se quitaron 3 outliers.
  • 25.
    16 Alternativas a laNormal para Rendimientos
  • 26.
    17 Alternativas a laNormal para Rendimientos
  • 27.
    18 Componente μ 𝜎p 1 -0.0001801668 0.0110634290 0.7055 2 0.0009019293 0.0023377669 0.2945 Ajuste de una Serie de Tiempos Financiera Parte 1. Ajuste con una mixtura de 2 normales Modelo D p-value Interpretación Mixtura 0.0781 0.0983 La evidencia en contra de la hipótesis nula es poco convincente.
  • 28.
    18 Componente μ 𝜎p 1 -0.0001801668 0.0110634290 0.7055 2 0.0009019293 0.0023377669 0.2945 Ajuste de una Serie de Tiempos Financiera Parte 1. Ajuste con una mixtura de 2 normales Modelo D p-value Interpretación Mixtura 0.0781 0.0983 La evidencia en contra de la hipótesis nula es poco convincente. El ajuste parece aceptable ya que la estimación de densidad por núcleo subestima en los picos. Se puede apreciar que las normales que componen la mixtura están prácticamente centradas en 0.
  • 29.
    19 α β δμ 80.6667627555 -6.8113636432 0.0076182371 0.0007840097 Ajuste de una Serie de Tiempos Financiera Parte 2. Ajuste con la distribución Normal Inversa Gausiana Modelo D p-valúe Interpretación Normal Inversa Gausiana 0.0716 0.1593 No hay evidencia en contra de la hipótesis nula. Los datos parecen ser consistentes con la hipótesis nula.
  • 30.
    19 α β δμ 80.6667627555 -6.8113636432 0.0076182371 0.0007840097 Ajuste de una Serie de Tiempos Financiera Parte 2. Ajuste con la distribución Normal Inversa Gausiana Modelo D p-valúe Interpretación Normal Inversa Gausiana 0.0716 0.1593 No hay evidencia en contra de la hipótesis nula. Los datos parecen ser consistentes con la hipótesis nula. Para este caso, con la Normal Inversa Gausiana se obtuvo un mejor ajuste que con la mixtura normal, sin embargo con ambos modelos se acepta la hipótesis nula.
  • 31.
    20 Resumen Antecedentes y Origen Ejemplos Generalizacióne Implementación 1 2 3 4 Referencias 5 Agenda
  • 32.
    21 Referencias Otras fuentes 978-0-471-00626-8 978-0-471-20170-0978-3-540-40502-3 978-0-198-52396-3 978-0-412-24620-3 978-0-412-04251-5