SlideShare una empresa de Scribd logo
1 de 53
Descargar para leer sin conexión
Contenido
                                      Introducci´no
                       El concepto de probabilidad
       La Aproximaci´n Bayesiana a la Estad´
                     o                        ıstica
                          Comparaci´n de modelos
                                    o
Propiedades cl´sicas de la aproximaci´n Bayesiana
              a                       o
                                          Discusi´n
                                                  o
                     Teor´ de la decisi´n robusta
                           ıa           o




                                Teor´ de la Decisi´n
                                    ıa            o

                             Alvaro J. Riascos Villegas
                         Universidad de los Andes y Quantil


                                        Enero 30 de 2012




      M´todos Bayesianos - Banco de Guatemala
       e                                               Alvaro Riascos
Contenido
                                          Introducci´no
                           El concepto de probabilidad
           La Aproximaci´n Bayesiana a la Estad´
                         o                        ıstica
                              Comparaci´n de modelos
                                        o
    Propiedades cl´sicas de la aproximaci´n Bayesiana
                  a                       o
                                              Discusi´n
                                                      o
                         Teor´ de la decisi´n robusta
                               ıa           o

1     Introducci´n
                 o
2     El concepto de probabilidad
3     La Aproximaci´n Bayesiana a la Estad´
                     o                      ıstica
         Teor´ de la decisi´n
              ıa           o
         Riesgo frecuentista
         Riesgo Bayesiano
         Familias Conjugadas
         Estimadores
         Prueba de hip´tesis
                       o
         Predicciones
4     Comparaci´n de modelos
                 o
5     Propiedades cl´sicas de la aproximaci´n Bayesiana
                     a                     o
6     Discusi´n
              o
7     Teor´ de la decisi´n robusta
           ıa            o
          M´todos Bayesianos - Banco de Guatemala
           e                                               Alvaro Riascos
Contenido
                                         Introducci´no
                          El concepto de probabilidad
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                             Comparaci´n de modelos
                                       o
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                             Discusi´n
                                                     o
                        Teor´ de la decisi´n robusta
                              ıa           o


Introducci´n
          o
        La teor´ cl´sica utiliza la informaci´n muestral para hacer
               ıa a                          o
        inferencias sobre los par´metros de inter´s.
                                 a               e
        La importancia de la informaci´n muestral se pone de
                                         o
        manifiesto en este ejemplo de Savage (1961).
  Example (Savage (1961))
  Uso de la informaci´n muestral.
                     o
    1   Una mujer adiciona te a una tasa de leche y afirma poder diferencia
        que ingrediente se utiliz´ primero. En 10 experimentos acierta en
                                 o
        todos.
    2   Un m´sico afirma poder diferenciar entre un partitura de Mozart y
             u
        una de Hayden. En 10 experimentos siempre acierta.
    3   Untodos Bayesianos - Banco afirma poder Alvaro Riascos lado que cae una
        M´
         e
           amigo borracho de Guatemala         predecir el
Introducci´n
          o


      Usualmente existe informaci´n incial sobre los par´metros de
                                 o                      a
      un modelo estructural.
      Probabilidad = Incertidumbre. En la teor´ Bayesiana el
                                                ıa
      concepto de probabilidad tiene una interpretaci´n distinta a la
                                                       o
      teor´ cl´sica o frecuentista. El concepto de probabilidad es
          ıa a
      una medida de la incertidumbre sobre la ocurrencia de un
      evento. A diferencia de la teor´ cl´sica es posible dar
                                      ıa a
      interpetaciones sobre la incertidumbre de un par´metro que
                                                         a
      no est´n basadas en la repetici´n bajo condiciones iguales de
             a                         o
      un experimento (intervalos de confianza). Por ejemplo es
      posible cuantificar en t´rminos probabil´
                              e               ısticos el grado de
      incertidubre con la cu´l se hace un pron´stico.
                            a                  o
Introducci´n
          o


      Permite condicionar a los datos observados. En el an´lisis
                                                            a
      cl´sico se promedia sobre los los datos, aun los no observados.
        a
      Distribuciones exactas. La teor´ cl´sica se basa en muchas
                                     ıa a
      ocasiones en teor´ asint´tica.
                       ıa      o
      Coherencia y racionalidad: La teor´ Bayesiana es una
                                        ıa
      aproximaci´n general al problema de inferencia consistente
                 o
      con la teor´ de la decisi´n.
                 ıa            o
      Las reglas de decisi´n en un contexto Bayesiano son ´ptimas
                          o                               o
      desde un punto de vista cl´sico.
                                 a
      M´canica Bayesiana: Siempre se sabe qu´ hacer.
       e                                    e
      Computacionalmente es dif´
                               ıcil.
Introducci´n
          o




      Razones t´cnicas:
               e
        1   Permite hacer inferenecia estad´
                                           ıstca en modelos no regulares.
        2   Permite introducir incertidumbre en los par´metros para hacer
                                                       a
            prediciciones.
        3   Permite hacer pruebas de modelos no anidados.
        4   Se pueden analizar modelos jer´rquicos de forma
                                           a
            conceptualmente muy coherente.
Contenido
                                         Introducci´no
                          El concepto de probabilidad
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                             Comparaci´n de modelos
                                       o
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                             Discusi´n
                                                     o
                        Teor´ de la decisi´n robusta
                              ıa           o


El concepto de probabilidad



        Existen por lo menos tres interpretaciones del concepto:
        objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey,
        de Finetti, Savage), l´gica.
                              o
        Axiomas de Kolmogorov.




         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
El concepto de probabilidad

      Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna
      contiene 90 bolas donde 30 son rojas. El resto de las bolas son
      amarillas o negras y su distribuci´n es desconocida. Algunas
                                        o
      personas fueron sometidas a una apuesta. Apuesta A: Quien
      saque una bola roja gana una cantidad monetaria, las
      amarillas y las negras pierden. Apuesta B: Quien saque una
      bola amarilla gana, el resto pierde. La mayor´ de las personas
                                                   ıa
      optan por la A. Despu´s cambiamos las apuestas de una
                             e
      manera que en ambos casos, las bolas negras son desde ahora
      ganadoras. Apuesta C: Quien saque una bola roja o negra
      gana, las amarillas pierden. Apuesta D: Quien saque una bola
      amarilla o negra gana, las rojas pierden. En este caso, la
      mayor´ de las personas escogen la D. Lo cual entra en
            ıa
      contradicci´n con la desici´n anterior de escoger la apuesta A,
                 o               o
      a pesar de que la bola negra es ganadora en ambas C y D, lo
      cual no aporta diferencia alguna.
El concepto de probabilidad




      Ellsberg explica ´ste resultado en t´rminos de la diferencia
                       e                  e
      entre el riesgo e incertidumbre. Las personas sometidas a
      estas escogencias suponen prudentemente que la distribuci´n  o
      desconocida entre bolas rojas y amarillas pueden traerles
      desventaja y por lo tanto escogen en ambas ocasiones bajo el
      riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda).
      Llama la atenci´n sobre la necesidad de una teor´ para
                     o                                ıa
      modelar la incertidumbre.
El concepto de probabilidad


      Una forma de interpretar el concepto de probabilidad desde un
      punto de vista l´gico es de acuerdo al concepto de
                      o
      razonamiento plausible (Jaymes): cuano en el mundo real
      observamos un evento B que t´  ıpicamente es consecuencia de
      un evento A, decimos que A es plausible pero usalmente no es
      posible deducir que A ha sucedido. La idea predominante es
      que A es plausible dado que observamos B. La l´gica es que si
                                                      o
      B ha ocurrido, esto arroja evidencia en favor de A.
      Al fundamentar la teor´ de la probabilidad de esta forma se
                             ıa
      obtiene una formalizaci´n de la idea del grado de
                              o
      incertidumbre sobre la ocurrencia de un evento (plausibilidad
      del evento).
El concepto de probabilidad



      Luego la interpretaci´n de la probabilidad de un evento no
                           o
      est´ relacionada con la frecuencia de un evento repetido sino
         a
      con el grado de incertidumbre del evento. Esta es la
      interpreatci´n subjetivista del concepto de probabilidad.
                  o
      Para de Finetti la probabiidad (objetiva) de un evento no
      existe. Es algo tan ficticio y en contradici´n con laevidencia
                                                 o
      cuanto la existencia del ´ter.
                               e
      Cu´l es la probabilidad de cada n´mero cuando se lanza un
        a                              u
      dado al aire?
      La idea de aprendizaje en un ambiente incierto puede ser sutil.
El concepto de probabilidad



      La paradoja del gato I. Una persona est´ frente a tres puertas
                                               a
      cerradas. Se sabe que detr´s de alguna de las puertas hay un
                                 a
      gato. La persona se le pide escoger una puerta. Antes de abrir
      cualquier puerta, una segunda persona que sabe exactamente
      que hay detr´s de cada puerta y conoce tambi´n cu´l fue la
                   a                                 e     a
      puerta elegida por la primera persona, ´ste abre una de las
                                              e
      puertas que sea la elegida por la primera persona y en la que
      no est´ el gato. Ahora, con una puerta abierta en la que no
            e
      est´ el gato, se le pregunta a la primera persona si desear´
         a                                                       ıa
      cambiar de puerta.
El concepto de probabilidad




      El sentido com´n dice que no hace diferencia. Pero la teor´
                      u                                           ıa
      de la probabilidad dice otra cosa. La probabilidad de encontrar
      el gato en alguna de las dos puertas al cambiar la elecci´n
                                                               o
      original es mayor que la probabilidad de que el gato est´ en la
                                                              e
      primera puerta elegida.
El concepto de probabilidad


      Definici´n probabiidad condicional. Dados dos evento A y B,
              o
      tal que P(B) > 0 definimos la probabilidad condicional de A
      dado B como:
                                      P(A ∩ B)
                          P(A |B) =            .                    (1)
                                       P(B)

      El teorema de Bayes (o regla de Bayes) afirma que:

                                   P(B |A) × P(A)
                       P(A |B) =                  .                 (2)
                                        P(B)

      Este resultado es la base de toda la estad´
                                                ıstica Bayesiana.
El concepto de probabilidad
      La paradoja del gato II: Para formalizar este problema,
      supongamos que la primera elecci´n fue la tercera puerta.
                                        o
      Sean A1 , A2 y A3 los eventos en los cuales el gato est´ detr´s
                                                             a     a
      de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los
      eventos en los cuales el segundo jugador abre la puerta 1 o 2
      reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) .
      Entonces dada la informaci´n del problema es natural suponer:
                                  o
                        1
                P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0
                        3

                       P(B1 |A2 ) = P(B2 |A1 ) = 1
      y
                                                 1
                       P(B1 |A3 ) = P(B2 |A3 ) = .
                                                 2
      Entonces si la segunda persona abre la puerta 2 es f´cil
                                                           a
                                                       2
      calcular, usando la regla de Bayes, P A1 |B2 ) = 3 .
Contenido
                                                               Teor´ de la decisi´n
                                                                   ıa            o
                                         Introducci´no
                                                               Riesgo frecuentista
                          El concepto de probabilidad
                                                               Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                               Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                               Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                               Prueba de hip´tesis
                                                                            o
                                             Discusi´n
                                                     o
                                                               Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


La Aproximaci´n Bayesiana a la Estad´
             o                      ıstica
        Sea Θ un espacio de par´metros o estados de la naturaleza y
                               a
        Ξ un espacio de datos observables.
        En t´rminos de funciones de densidad el teorema se puede
            e
        expresar como:

                         f (y |θ)f (θ)
        f(θ |y ) =           f (y )


        donde f (y ) es la distribuci´n marginal de la variable aleatoria
                                     o
        Y (o distribuci´n marginal de los datos):
                        o

                                         f (y ) =             f (y |θ)f (θ)dθ,
                                                          Θ
        f (θ |y ) es la distribuci´n expost (posteriori) del par´metro θ
                                  o                             a
         M´todos Bayesianos - Banco de Guatemala
          e                                                    Alvaro Riascos
La Aproximaci´n Bayesiana a la Estad´
             o                      ıstica




      La funci´n L(θ|y )= f (y |θ) , como funici´n de θ se llama la
              o                                 o
      funci´n de verosimilitud.
           o
      f (θ) es la distribuci´n inicial (prior) sobre los par´metros.
                            o                               a
La Aproximaci´n Bayesiana a la Estad´
             o                      ıstica

      Obs´rvese que no se ha hecho ninguna hip´tesis sobre la
          e                                       o
      forma de la distribuci´n muestral. En general suponemos que
                            o
      y es un vector de obsrevaciones y f (y |θ) es la distribuci´n
                                                                 o
      conjunta o distribuci´n del vector aleatorio Y .
                           o
      En pocas palabras la estad´
                                ıstica Bayesiana es un modelo
      formal de aprendizaje en un ambiente incierto aplicado a la
      inferencia estad´
                      ıstica.
      La mec´nica Bayesiana es siempre la misma. Formule un
              a
      distribuci´n inicial para lo par´metros y calcule la distribuci´n
                o                     a                              o
      expost.
      El resultado final del an´lisis Bayesiano es la distribuci´n
                               a                                o
      expost. En el an´lisis cl´sico, el obejetivo final es un estimador
                      a        a
      que si bien es una variable aleatoria es, conceptualmente, muy
      distinto.
Contenido
                                                          Teor´ de la decisi´n
                                                              ıa            o
                                         Introducci´no
                                                          Riesgo frecuentista
                          El concepto de probabilidad
                                                          Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                          Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                          Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                          Prueba de hip´tesis
                                                                       o
                                             Discusi´n
                                                     o
                                                          Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Teor´ de la decisi´n
    ıa            o

        En la teor´ de decisi´n la idea es combinar la informaci´n
                  ıa         o                                  o
        muestral con informaci´n no muestral con el objeto tomar una
                               o
        decis´n ´ptima.
             o o
        El an´lisis Bayesiano comparte con la teor´ de la decisi´n el
             a                                    ıa            o
        uso de informaci´n no muestral.
                         o
        Recordemos que Θ es el espacio de par´metros o estados de la
                                              a
        naturaleza. θ ∈ Θ es un estado de la naturaleza.
        Sea A el espacio de acciones del tomador de decisiones. a ∈ A
        es una acci´n.
                   o


         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Teor´ de la decisi´n
    ıa            o




      Un problema de decisi´n es una funci´n D : A × θ → C ,
                            o               o
      donde C es un espacion de consecuencias. Suponemos que el
      agente tiene preferencias sobre el conjunto de consecuencias
      que las representamos mediante una funci´n de (des)utilidad.
                                                o
      A continuaci´n definimos la funci´n de p´rdida como la
                  o                   o       e
      composici´n de la funci´n D y la funci´n de (des)utilidad.
               o             o              o
Teor´ de la decisi´n
    ıa            o




      Un problema de desici´n est´ bien puesto cuando el conjunto
                            o     a
      la especificaci´n del conjunto de acciones, estados de la
                    o
      naturaleza y consecuencias son tales que las preferencias del
      tomador de decisiones sobre las consecuencias son totalmente
      independientes de las acciones o estados de la naturaleza.
Teor´ de la decisi´n
    ıa            o



      Sea L(θ, a) una funci´n de p´rdida.
                           o      e
      Definimos la perdida esperada expost o p´rdidad esperada
                                             e
      Bayesiana cuando se toma una decisi´n a ∈ A como:
                                         o

                      ρ(a |y ) =       L(θ, a)f (θ |y )dθ
                                   Θ
      Dada una funci´n de p´rdida y una distribuci´n expost,
                     o      e                     o
      definimos el estimador Bayesiano de θ como:

                       θB (y ) = argmina∈A ρ(a |y )
Teor´ de la decisi´n
    ıa            o




  Example (Funciones de p´rdida)
                         e
  Algunas funciones de p´rdida est´ndar son:
                        e         a
    1   P´rdida cuadr´tica.
         e           a
    2   Error absoluto.
  Los respectivos estimadores son el valor esperado y la mediana
  expost del par´metro respectivamente. Verificar el primer caso es
                a
  inmediato.
Teor´ de la decisi´n
    ıa            o


  Example (Distribuci´n inicial y muestral normal)
                     o
  Supongamos que tenemos una muestra de n observaciones
  y1 , ..., yn , yi i.i.d N(µ, 1) entonces la distribuci´n muestral
                                                        o
  (funci´n de verosimilitud) es:
           o

                               n             1
             p(y |µ) = (2π)− 2 σ −n exp(−              (yi − µ)2 )    (3)
                                            2σ 2
                                                   i

  Ahora supongamos que la distribuci´n inicial p(µ) N µ0 , σ0
                                       o                        2

  donde los par´metros de esta distribuci´n son conocidos (estos se
                 a                        o
  denominan hiperpar´metros). Obs´rvese que antes de observar los
                       a             e
  datos, si el agente tiene una funci´n de p´rdida que es cuadr´tica,
                                     o      e                  a
  entonces el estimador Bayesiano (exante) de µ es µ0 .
Teor´ de la decisi´n
    ıa            o



  La distribuci´n expost es:
               o

                          p(µ |y ) ∝ p(y |µ) p(µ)       (4)
                                 1
                      ∝ exp(− 2         (µ − µ)2 )      (5)
                               2σ
                                      n      1
                                     σ2
                                        y + σ 2 µ0
                                              0
                                µ= n          1
                                                        (6)
                                        σ2
                                           + σ2
                                               0
                                               1
                                   σ2 =   n        1
                                                        (7)
                                          σ2
                                               +    2
                                                   σ0
Teor´ de la decisi´n
    ıa            o



      Cuando la funci´n d´ p´rdida es la funci´n de error
                     o e e                    o
      cuadr´tico. Entonces el estimador Bayesiano (expost) es:
           a

                                E [µ |y ] = µ                      (8)

      Es decir, el valor esperado expost de µ es una combinaci´n
                                                              o
      convexa del estimador cl´sico y de los datos observados y la
                                a
      media inicial.
      Cuando el n´mero de observaciones es grande o la
                 u
      incertidumbre de la distribuci´n inicial es grande, el estimador
                                    o
      Bayesiano se apr´xima al estimador cl´sico.
                      o                       a
Teor´ de la decisi´n
    ıa            o




      δ : Ξ → A es una regla de decisici´n.
                                        o
      Un tipo de reglas de decisi´n importante son las reglas de
                                 o
      decisi´n aleatorias.
            o
      Para un problema sin datos, una regla de decisici´n es
                                                       o
      simplemente una acci´n.
                          o
Contenido
                                                          Teor´ de la decisi´n
                                                              ıa            o
                                         Introducci´no
                                                          Riesgo frecuentista
                          El concepto de probabilidad
                                                          Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                          Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                          Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                          Prueba de hip´tesis
                                                                       o
                                             Discusi´n
                                                     o
                                                          Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Riesgo frecuentista
  Definition (Funci´n de Riesgo Cl´sica)
                  o              a
  Dada una regla de decisi´n δ y una funci´n de p´rdida definimos la
                           o              o      e
  funci´n de riesgo (cl´sica) como:
       o               a


                   R(θ, δ) = EY [L(θ, δ)] =                   L(θ, δ(y ))dF (y |θ)   (9)

        Obs´rvese que la funci´n de riesgo cl´sica promedia sobre
            e                  o               a
        todas las realizaciones posibles de los datos (aun aquellas que
        no han ocurrido!).
        Esta es una funci´n del estado y la regla de decisi´n (la regla
                          o                                o
        de desici´n es t´
                 o      ıpicamente un estimador).
         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Contenido
                                                        Teor´ de la decisi´n
                                                            ıa            o
                                       Introducci´no
                                                        Riesgo frecuentista
                        El concepto de probabilidad
                                                        Riesgo Bayesiano
        La Aproximaci´n Bayesiana a la Estad´
                      o                        ıstica
                                                        Familias Conjugadas
                           Comparaci´n de modelos
                                     o
                                                        Estimadores
 Propiedades cl´sicas de la aproximaci´n Bayesiana
               a                       o
                                                        Prueba de hip´tesis
                                                                     o
                                           Discusi´n
                                                   o
                                                        Predicciones
                      Teor´ de la decisi´n robusta
                            ıa           o


      A diferencia de la p´rdida esperada Bayesiana que es un
                          e
      n´mero, el riegso frecuentista depende del estado. Esto
       u
      dificulta el problema de escoger una regla de decisi´n para
                                                         o
      minimizar el riesgo ya que ´sta va depender del estado.
                                 e
La siguiente definici´n acota el universo razonable de reglas de
                    o
decisi´n.
      o
Definition (Admisibilidad)
Dada una funci´n de p´ridida. Decimos que una regla de decisi´n δ
                o       e                                       o
es inadmisible si existe otra regla de decisi´n que la (domina
                                             o
d´bilmente) para toda realizaci´n posible de los estados. De lo
 e                               o
contrario se llama admisible.



       M´todos Bayesianos - Banco de Guatemala
        e                                               Alvaro Riascos
Riesgo frecuentista



      Bajo condiciones d´biles se puede mostrar que los estimadores
                         e
      Bayesianos son admisibles. Existe un teorema converso
      llamado teorema de completo de clases.
      En la teor´ cl´sica estad´
                 ıa a          ıstica existen algunas formas de
      resolver el problema de decisi´n:
                                    o
        1   M´xima verosimilitud.
              a
        2   M´ınima varianza.
        3   M´ınimos cuadrados ordinarios.
        4   Sesgo nulo.
        5   Soluci´n minimax.
                  o
Riesgo frecuentista



      Una regla de decisi´n δ M satisface el principio minimax si:
                         o

                supθ∈Θ R(θ, δ M ) = infδ∈∆(D) supθ∈Θ R(θ, δ)     (10)

      donde ∆(D) denota e conjunto de reglas de decisi´n  o
      aleatorias (que tienen como rango las acciones mixtas).
      Intuitivamente, una regla de decisi´n satisface el principio
                                         o
      minimax si permite asegurar el m´ınimo riesgo en el pero de los
      casos (peor estado).
      Invarianza: Este principio afirma que las reglas de decisi´n
                                                               o
      deben ser las mismas cuando los problmeas de decisi´n tienen
                                                           o
      la misma estructura.
Contenido
                                                          Teor´ de la decisi´n
                                                              ıa            o
                                         Introducci´no
                                                          Riesgo frecuentista
                          El concepto de probabilidad
                                                          Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                          Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                          Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                          Prueba de hip´tesis
                                                                       o
                                             Discusi´n
                                                     o
                                                          Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Riesgo Bayesiano
  Definition (Riesgo Bayesiano)
  Dada una regla de decisi´n δ, una funci´n de p´ridida L y una
                             o             o     e
  distribuci´n inicial de los par´metros p definimos la funci´n de
            o                    a                          o
  riesgo Bayesiana como:



                        r (δ, p) = Ep [R(θ, δ)] =                  R(θ, δ)dp(θ)   (11)
                                                               Θ

        Obs´rvese que el riesgo Bayesiano promedia sobre el espacio
            e
        de par´metros y es una funci´n unicamente de la regla de
               a                       o ´
        decisi´n y la idstribuci´n inicial de los par´metros.
              o                 o                    a
         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Riesgo Bayesiano




     Asociado a el riesgo Bayesiano hay un principio de decisi´n.
                                                              o
     Una regla de decisi´n δ B es una regla de decisi´n Bayesiana si:
                        o                            o

                        r (θ, δ B ) = infδ∈D R(θ, δ)            (12)

     donde D es el espacio de reglas de decisi´n.
                                              o
Riesgo Bayesiano



     En la teor´ de la decisi´n, la forma est´ndar de resolver el
               ıa            o               a
     problema de decisi´n es usando el principio condicional de
                        o
     Bayes. Una regla de decisi´n condicional Bayesiana δ CB es
                                o
     una regla de decisi´n tal que:
                        o

                      ρ(θ, δ CB (y )) = infa∈A ρ(θ, a)           (13)

     Obs´rvese que en un problema sin datos, la regla de decisi´n
        e                                                      o
     condicional coincide con la regla de desici´n de Bayes.
                                                o
     En general se cumple que la decisi´n usando la regla
                                        o
     condicional es igual a decisi´n usando la regla de Bayes.
                                  o
Contenido
                                                          Teor´ de la decisi´n
                                                              ıa            o
                                         Introducci´no
                                                          Riesgo frecuentista
                          El concepto de probabilidad
                                                          Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                          Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                          Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                          Prueba de hip´tesis
                                                                       o
                                             Discusi´n
                                                     o
                                                          Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Familias Conjugadas



        Dada una familia de de distribuciones muestrales F, decimos
        que una familia de distribuciones iniciales P es una familia
        conjugada para F si la distribucion expost es siempre un
        elemento de P. Decimos que natural conjugada si es
        conjugada y si est´ en la familia de distribuciones muestrales.
                          a




         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Contenido
                                                          Teor´ de la decisi´n
                                                              ıa            o
                                         Introducci´no
                                                          Riesgo frecuentista
                          El concepto de probabilidad
                                                          Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                          Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                          Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                          Prueba de hip´tesis
                                                                       o
                                             Discusi´n
                                                     o
                                                          Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Estimadores


        El estimador de m´ximaverosimilitud generalizado de es aquel
                         a
        que maximiza la distribuci´n expost.
                                  o
        Este es el el valor m´s probable dado la idstribuci´n inical del
                             a                             o
        par´metro y la muestra y .
           a
        El error de un estimador se define como la desviaci´n
                                                          o
        cuadr´tica promedio de los par´metros con respecto al
              a                         a
        estimador utilizando la distribuci´n expost.
                                          o




         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Contenido
                                                          Teor´ de la decisi´n
                                                              ıa            o
                                         Introducci´no
                                                          Riesgo frecuentista
                          El concepto de probabilidad
                                                          Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                          Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                          Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                          Prueba de hip´tesis
                                                                       o
                                             Discusi´n
                                                     o
                                                          Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Prueba de hip´tesis
             o

        Un subconjunto C de Θ es cr´ible con un nivel de confianza
                                     e
        1 − α (condicional a y ) si:

                                               1 − α ≤ P(C |y )                  (14)

        Un conjunto creible tiene un significado probabil´
                                                        ıstico (aunque
        subjetivo). Esto no ocurre siempre en la teor´ cl´sica.
                                                     ıa a
        Un problema con la noci´n Bayesiana de conjunto cre´ (o
                                o                             ıble
        intervalo de confianza) es que pueden existir mucho onjunto
        cre´
           ıbles. Una forma, adhoc, de selecionar uno es calculando
        conjunto cre´ de mayor densidad de expost.
                     ıble

         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Prueba de hip´tesis
             o




      Sea kα el mayor k tal que:

                   P(θ ∈ Θ : f (θ |y ) ≥ k |y ) ≥ 1 − α   (15)

      Entonces definimos el conjunto cre´ CHPD con un nivel de
                                       ıble
      confianza 1 − α como:

                    CHPD = {θ ∈ Θ : f (θ |y ) ≥ kα }      (16)
Prueba de hip´tesis
             o

      La prueba de hip´tesis en estad´
                        o                ıstica cl´sica consiste en
                                                  a
      estudiar los errores tipo I y II (probabilidad que la muestra
      observada resulte en la hip´tesis incorrecta siendo aceptada).
                                   o
      En estad´ıstica Bayesiana la prueba de hip´tesis es
                                                o
      conceptualmente sencillo: comparar la probabilidad expost
      P(Θ1 |y ) y P(Θ2 |y ) donde las pruebas de hip´tesis son:
                                                      o
      H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 .
      La raz´n entre estas dos probabilidades se llama posterior
             o
      odds ratio. La misma raz´n pero con las probabilidades
                                 o
      iniciales se llama prior odd ratios.
      La raz´n entre el posterior y el prior odds se llama factor de
            o
      Bayes (Berger).
      Cuando las hip´tesis son simples, el factor de Bayes es
                    o
      simplemente la raz´n de las funciones de verosimilitud.
                        o
Contenido
                                                             Teor´ de la decisi´n
                                                                 ıa            o
                                         Introducci´no
                                                             Riesgo frecuentista
                          El concepto de probabilidad
                                                             Riesgo Bayesiano
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                                                             Familias Conjugadas
                             Comparaci´n de modelos
                                       o
                                                             Estimadores
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                                             Prueba de hip´tesis
                                                                          o
                                             Discusi´n
                                                     o
                                                             Predicciones
                        Teor´ de la decisi´n robusta
                              ıa           o


Predicciones
        Supongams que queremos pron´sticar una variable z basado
                                         o
        en la variable bservable y . En estad´
                                             ıstica Bayesiana el objeivo
        es determinar p(z |y ) .
        Esto se puede escribir:

                                             p(z |y ) =             p (z, θ |y ) dθ   (17)
                                                                Θ

                                 p(z |y ) =               p (z |y , θ)p(θ |y ) dθ     (18)
                                                     Θ
        p(z |y ) se denomina la densidad predictiva de z dado los datos
        observables y .
        El an´lisis Bayesiano trata de forma sim´trica, par´metros,
              a                                  e         a
        observables y predicciones: son todas variables aleatorias.
         M´todos Bayesianos - Banco de Guatemala
          e                                                  Alvaro Riascos
Contenido
                                         Introducci´no
                          El concepto de probabilidad
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                             Comparaci´n de modelos
                                       o
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                             Discusi´n
                                                     o
                        Teor´ de la decisi´n robusta
                              ıa           o


Comparaci´n de modelos
         o
        Un modelo se define formalmente como una distribuci´n o
        inicial y una distribuci´n muestral.
                                 o
        Supongamos que tenemos m modelos que buscan explicar los
        datos observado y .
        Usando la distribuci´n inicial y muestral de cada modelo
                              o
        calculamos la distribuci´n expost de los datos.
                                   o
                                      P(y |θ, M) P(θ |M)
                        P(θ |y , M) =                            (19)
                                            p(y |M)
        donde p(y |M) es la distribuci´n marginal de los datos
                                      o
        condicional al modelo. Esta tambi´n se denomina la
                                          e
        verosimilitud marginal y se puede obtener mediante la
        integraci´n obvia.
                 o
         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Comparaci´n de modelos
         o


     Ahora podemos tener una distribuci´n inicial de cada uno de
                                          o
     los modelos (grado de confianza que tenemos en el modelo) y
     esto nos permite calcular la distribcui´n expost sobre nuestra
                                            o
     confianza en el modelo condicional a los datos observados:
                                    P(y |M)P(M)
                       P(M |y ) =                               (20)
                                         p(y )

     donde P(M) el la distribuci´n inicial del modelo.
                                o
     Obs´rvese que la verosimilitud marginal se obtiene mediante
         e
     integraci´ny en principio, con ´sta, se puede calcular la
              o                     e
     distribuci´n expost del modelo (dados la distribuci´n inical de
               o                                        o
     los modelos y la distribuci´n marginal de los datos).
                                o
Comparaci´n de modelos
         o




     Como usualmente es dificil determinar la distribuci´n marginal
                                                       o
     de los datos lo que se hace es comparar la raz´n entre las
                                                   o
     distribuciones expost:

                                    P(M i |y )
                           POij =                            (21)
                                    P(M j |y )

     denominado posterior odds ratio.
Comparaci´n de modelos
         o




     Cuando la prior sobre cada modelo es la misma, el posterior
     odds ratio se reduce a la raz´n entre las verosimilitudes
                                  o
     marginales.

                                    P(y M i
                           BFij =                             (22)
                                    P(y |M j )

     El caso de comparar dos modelos lineales bajor normalidad es
     posibels hacerlo a mano.
Contenido
                                         Introducci´no
                          El concepto de probabilidad
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                             Comparaci´n de modelos
                                       o
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                             Discusi´n
                                                     o
                        Teor´ de la decisi´n robusta
                              ıa           o


Propiedades cl´sicas de la aproximaci´n Bayesiana
              a                      o

        Consideremos el problema de consistencia.
        Supongamos que existe una distribuci´n poblacional f (y ).
                                            o
        Sea p(y |θ) la distribuci´n muestral.
                                 o
        Definamos la distancia entre ambas distribuciones como la
        distancia de Kullback - Leibler.
        Sea θ∗ el valor que minimiza la distancia entre la distribuci´n
                                                                     o
        poblacional y la distribuci´n muestral. Uno puede mostrar que
                                   o
        si existe un par´metro verdadero tal que la distribuci´n
                        a                                     o
        muestral es igual a la distribuci´n poblacional entonces θ∗ es
                                         o
        el par´metro verdadero. En este caso decimos que el modelo
               a
        muestral est´ bien especificado.
                     a
         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos
Propiedades cl´sicas de la aproximaci´n Bayesiana
              a                      o

  Theorem (Consistencia)
  Supongamos que es espacio de estados Θ es compacto y sea Θ0
  una vecindad del verdadero par´metro θ0 con probabilidad inicial
                                a
  difeerente de cero. Entonces,



  p(θ ∈ Θ0 |y ) → 1


  cuando el tama˜o de la muestra crece hacia el infinito.
                n

      Es decir, si el modelo est´ bien especificado (distribuci´n
                                a                             o
      muestral es igual a la poblacional para alg´n par´metro)
                                                 u     a
      entonces la distribuci´n expost se va concetrar
                            o
      asint´ticamente alrededor del verdadero par´metro siempre el
            o                                      a
      verdadero par´metro est´ en el soporte de la distribuci´n
                     a         e                              o
      inicial.
Contenido
                                         Introducci´no
                          El concepto de probabilidad
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                             Comparaci´n de modelos
                                       o
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                             Discusi´n
                                                     o
                        Teor´ de la decisi´n robusta
                              ıa           o


Discusi´n
       o
        Obs´rvese que la principal diferencia entre el an´lisis cl´sico y
            e                                            a        a
        el Bayesiano se deriva de la forma radicalmente de intepretar
        los par´metros, modelos y pron´sticos de un modelo. Estos
               a                        o                        ´
        tres se intepretan como variable aleatorias y en ese sentido se
        les da un tratamiento sim´trico con los datos observados.
                                  e
        La diferencia fundamental entre ambas aproximaciones es el
        uso de informaci´n inicial en el proceso de inferencia. La
                         o
        teor´ cl´sica responde
            ıa a
            1   Antes de observar los datos, qu´ podemos esperar.
                                                e
            2   Antes de observar los datos, qu´ tan precisos son los
                                                e
                estimadores.
            3   Dado que la hip´tesis a estudiar es verdadera, que probabilidad
                                o
                existe de que los datos indiquen que es verdadera.
        Laetodos Bayesianos -on Bayesiana considera que las preguntas
         M´ aproximaci´      Banco de Guatemala Alvaro Riascos
Discusi´n
       o


  Example (Distribuci´n inicial y muestral normal)
                     o
  Considere la distribuci´n expost cuando la distribuci´n inical no es
                          o                            o
  informativa. Es f´cil mostrar que el estimador Bayesiano m´s o
                   a                                          a
  menos una distribuci´n est´ndar (de la distribuci´n expost) es:
                        o    a                      o
                                 σ
                             µ=y±√                                (23)
                                   n

  Ahora la distribuci´n del estimador cl´sico y m´s o menos una
                     o                  a         a
  desviaci´n est´ndar es igual. Sin embargo, la intepretaci´n es
          o      a                                         o
  completamente distinta. En el primer caso la interpretaci´n es:
                                                            o
  Qu´ tan preciso es la estimaci´n de mu dado que hemos observado
     e                           o
  ciertos datos.
Discusi´n
       o
      Una cr´ıtica est´ndard al an´lisis Bayesiano es la necesidad de
                      a            a
      definir una distribuci´n inicial de los estados.
                             o
      Bajo condiciones d´biles, siempre existe una prior natural.
                           e
      Decimos que la distribuci´n marginal conjunta de los datos es
                                 o
      intercambiable si es invariante frente a permutaciones de los
      sub´ındices de los datos.
      Suponga que los datos toman valores cero o uno unicamente.
                                                           ´
      Entonces el Teorema de deFinetti afirma que los datos se
      pueden interpeetar como distribuidos condicional i.i.d con yi θ
      distribuido Bernoulli con par´metro θ. Ademas caracteriza la
                                     a
      distribuci´n asint´tica del par´metro θ en t´rminos del la
                o        o             a            e
      media muestral. El converso tambi´n vale.
                                           e
      Luego la intercambiabilidad es una hip´tesis natural en ciertas
                                               o
      circunstancias que racionaliza la escogencia de un modelo de
      mixtura de Bernoulli dejando como grado de libertad la
      distribuci´n asint´tica del θ para lo cal basta con expresar
                o        o
      nuestra distribuci´n inicial sobre la distribuci´n de la media
                         o                            o
      muestral.
Discusi´n
       o



  Example (Laboratorios)
  Una sustancia debe ser analizada y existen dos laboratorios
  igualmente buenos para hacerlo. Para tomar una decisi´n se lanza
                                                          o
  una moneda al aire. Al recibir los resultados del laboratorio
  escogido el agente se pregunta: Deber´ ıamos de llevar en
  consideraci´n que estos resultados dependen de que se lanzo al aire
             o
  una moneda que hubiera podido indicar que fuera el otro
  laboratorio el que hiciera el examen? De acuerdo a la visi´n cl´sica
                                                             o   a
  deber´ıamos de promediar sobre todos los posibles resultados
  incluyendo los del laboratorio que no hizo la prueba.
Discusi´n
       o
  Example (Diferentes distribuciones muestrales)
  Suponga que se lanza de forma independiente 12 monedas al aire y
  se obervan 9 caras y 3 sellos. Esta informaci´n no especifica
                                                 o
  completamente el experimento puesto que pudo ser el resultado de
  dos procedimientos: (1) Se fijo en 12 el n´emro de lanzamientos y
                                             u
  se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio
  la tercer sello. En ambos casos la distribuci´n muestral es
                                                o
  completamente distinta. En el primer caso es Binomial y el el
  segundo es Negativa Binomial. Ahora suponga que queremos
  probar la hip´tesis de que la probabilidad de que salga cara es 1
                o                                                 2
                                              1
  contra la hip´tesis de que sea mayor que 2 . Se dise˜a una prueba
                o                                      n
  que es de la siguinete forma, si el n´emro de caras observadas es
                                       u
  superior a algun umbral c, entonces se se rechaza la hip´tesis de
                                                            o
  que estados (probabilidad de que salga) sea 1 . Por definici´n el
                                                  2           o
  p-valor de esta hip´tesis es la probabilidad de observar 9 o m´s
                      o                                         a
  caras en el experimento. Si calculamos el p-valor bajo para los dos
  procedimientos en el primero aceptamos la hip´tesis nula y en el
                                                    o
Discusi´n
       o




      La forma como en la teor´ cl´sica se eliminan par´metros es
                               ıa a                     a
      mediante la sustituci´n de los mismos por un par´metro. En el
                           o                          a
      an´lisis Bayesiano se promedia sobre todos sus posibles
        a
      valores.
Contenido
                                         Introducci´no
                          El concepto de probabilidad
          La Aproximaci´n Bayesiana a la Estad´
                        o                        ıstica
                             Comparaci´n de modelos
                                       o
   Propiedades cl´sicas de la aproximaci´n Bayesiana
                 a                       o
                                             Discusi´n
                                                     o
                        Teor´ de la decisi´n robusta
                              ıa           o


Teor´ de la decisi´n robusta
    ıa            o




         M´todos Bayesianos - Banco de Guatemala
          e                                               Alvaro Riascos

Más contenido relacionado

Destacado

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destacado (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

1 teoria decision presentacion

  • 1. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o Teor´ de la Decisi´n ıa o Alvaro J. Riascos Villegas Universidad de los Andes y Quantil Enero 30 de 2012 M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 2. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o 1 Introducci´n o 2 El concepto de probabilidad 3 La Aproximaci´n Bayesiana a la Estad´ o ıstica Teor´ de la decisi´n ıa o Riesgo frecuentista Riesgo Bayesiano Familias Conjugadas Estimadores Prueba de hip´tesis o Predicciones 4 Comparaci´n de modelos o 5 Propiedades cl´sicas de la aproximaci´n Bayesiana a o 6 Discusi´n o 7 Teor´ de la decisi´n robusta ıa o M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 3. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o Introducci´n o La teor´ cl´sica utiliza la informaci´n muestral para hacer ıa a o inferencias sobre los par´metros de inter´s. a e La importancia de la informaci´n muestral se pone de o manifiesto en este ejemplo de Savage (1961). Example (Savage (1961)) Uso de la informaci´n muestral. o 1 Una mujer adiciona te a una tasa de leche y afirma poder diferencia que ingrediente se utiliz´ primero. En 10 experimentos acierta en o todos. 2 Un m´sico afirma poder diferenciar entre un partitura de Mozart y u una de Hayden. En 10 experimentos siempre acierta. 3 Untodos Bayesianos - Banco afirma poder Alvaro Riascos lado que cae una M´ e amigo borracho de Guatemala predecir el
  • 4. Introducci´n o Usualmente existe informaci´n incial sobre los par´metros de o a un modelo estructural. Probabilidad = Incertidumbre. En la teor´ Bayesiana el ıa concepto de probabilidad tiene una interpretaci´n distinta a la o teor´ cl´sica o frecuentista. El concepto de probabilidad es ıa a una medida de la incertidumbre sobre la ocurrencia de un evento. A diferencia de la teor´ cl´sica es posible dar ıa a interpetaciones sobre la incertidumbre de un par´metro que a no est´n basadas en la repetici´n bajo condiciones iguales de a o un experimento (intervalos de confianza). Por ejemplo es posible cuantificar en t´rminos probabil´ e ısticos el grado de incertidubre con la cu´l se hace un pron´stico. a o
  • 5. Introducci´n o Permite condicionar a los datos observados. En el an´lisis a cl´sico se promedia sobre los los datos, aun los no observados. a Distribuciones exactas. La teor´ cl´sica se basa en muchas ıa a ocasiones en teor´ asint´tica. ıa o Coherencia y racionalidad: La teor´ Bayesiana es una ıa aproximaci´n general al problema de inferencia consistente o con la teor´ de la decisi´n. ıa o Las reglas de decisi´n en un contexto Bayesiano son ´ptimas o o desde un punto de vista cl´sico. a M´canica Bayesiana: Siempre se sabe qu´ hacer. e e Computacionalmente es dif´ ıcil.
  • 6. Introducci´n o Razones t´cnicas: e 1 Permite hacer inferenecia estad´ ıstca en modelos no regulares. 2 Permite introducir incertidumbre en los par´metros para hacer a prediciciones. 3 Permite hacer pruebas de modelos no anidados. 4 Se pueden analizar modelos jer´rquicos de forma a conceptualmente muy coherente.
  • 7. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o El concepto de probabilidad Existen por lo menos tres interpretaciones del concepto: objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey, de Finetti, Savage), l´gica. o Axiomas de Kolmogorov. M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 8. El concepto de probabilidad Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna contiene 90 bolas donde 30 son rojas. El resto de las bolas son amarillas o negras y su distribuci´n es desconocida. Algunas o personas fueron sometidas a una apuesta. Apuesta A: Quien saque una bola roja gana una cantidad monetaria, las amarillas y las negras pierden. Apuesta B: Quien saque una bola amarilla gana, el resto pierde. La mayor´ de las personas ıa optan por la A. Despu´s cambiamos las apuestas de una e manera que en ambos casos, las bolas negras son desde ahora ganadoras. Apuesta C: Quien saque una bola roja o negra gana, las amarillas pierden. Apuesta D: Quien saque una bola amarilla o negra gana, las rojas pierden. En este caso, la mayor´ de las personas escogen la D. Lo cual entra en ıa contradicci´n con la desici´n anterior de escoger la apuesta A, o o a pesar de que la bola negra es ganadora en ambas C y D, lo cual no aporta diferencia alguna.
  • 9. El concepto de probabilidad Ellsberg explica ´ste resultado en t´rminos de la diferencia e e entre el riesgo e incertidumbre. Las personas sometidas a estas escogencias suponen prudentemente que la distribuci´n o desconocida entre bolas rojas y amarillas pueden traerles desventaja y por lo tanto escogen en ambas ocasiones bajo el riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda). Llama la atenci´n sobre la necesidad de una teor´ para o ıa modelar la incertidumbre.
  • 10. El concepto de probabilidad Una forma de interpretar el concepto de probabilidad desde un punto de vista l´gico es de acuerdo al concepto de o razonamiento plausible (Jaymes): cuano en el mundo real observamos un evento B que t´ ıpicamente es consecuencia de un evento A, decimos que A es plausible pero usalmente no es posible deducir que A ha sucedido. La idea predominante es que A es plausible dado que observamos B. La l´gica es que si o B ha ocurrido, esto arroja evidencia en favor de A. Al fundamentar la teor´ de la probabilidad de esta forma se ıa obtiene una formalizaci´n de la idea del grado de o incertidumbre sobre la ocurrencia de un evento (plausibilidad del evento).
  • 11. El concepto de probabilidad Luego la interpretaci´n de la probabilidad de un evento no o est´ relacionada con la frecuencia de un evento repetido sino a con el grado de incertidumbre del evento. Esta es la interpreatci´n subjetivista del concepto de probabilidad. o Para de Finetti la probabiidad (objetiva) de un evento no existe. Es algo tan ficticio y en contradici´n con laevidencia o cuanto la existencia del ´ter. e Cu´l es la probabilidad de cada n´mero cuando se lanza un a u dado al aire? La idea de aprendizaje en un ambiente incierto puede ser sutil.
  • 12. El concepto de probabilidad La paradoja del gato I. Una persona est´ frente a tres puertas a cerradas. Se sabe que detr´s de alguna de las puertas hay un a gato. La persona se le pide escoger una puerta. Antes de abrir cualquier puerta, una segunda persona que sabe exactamente que hay detr´s de cada puerta y conoce tambi´n cu´l fue la a e a puerta elegida por la primera persona, ´ste abre una de las e puertas que sea la elegida por la primera persona y en la que no est´ el gato. Ahora, con una puerta abierta en la que no e est´ el gato, se le pregunta a la primera persona si desear´ a ıa cambiar de puerta.
  • 13. El concepto de probabilidad El sentido com´n dice que no hace diferencia. Pero la teor´ u ıa de la probabilidad dice otra cosa. La probabilidad de encontrar el gato en alguna de las dos puertas al cambiar la elecci´n o original es mayor que la probabilidad de que el gato est´ en la e primera puerta elegida.
  • 14. El concepto de probabilidad Definici´n probabiidad condicional. Dados dos evento A y B, o tal que P(B) > 0 definimos la probabilidad condicional de A dado B como: P(A ∩ B) P(A |B) = . (1) P(B) El teorema de Bayes (o regla de Bayes) afirma que: P(B |A) × P(A) P(A |B) = . (2) P(B) Este resultado es la base de toda la estad´ ıstica Bayesiana.
  • 15. El concepto de probabilidad La paradoja del gato II: Para formalizar este problema, supongamos que la primera elecci´n fue la tercera puerta. o Sean A1 , A2 y A3 los eventos en los cuales el gato est´ detr´s a a de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los eventos en los cuales el segundo jugador abre la puerta 1 o 2 reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) . Entonces dada la informaci´n del problema es natural suponer: o 1 P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0 3 P(B1 |A2 ) = P(B2 |A1 ) = 1 y 1 P(B1 |A3 ) = P(B2 |A3 ) = . 2 Entonces si la segunda persona abre la puerta 2 es f´cil a 2 calcular, usando la regla de Bayes, P A1 |B2 ) = 3 .
  • 16. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o La Aproximaci´n Bayesiana a la Estad´ o ıstica Sea Θ un espacio de par´metros o estados de la naturaleza y a Ξ un espacio de datos observables. En t´rminos de funciones de densidad el teorema se puede e expresar como: f (y |θ)f (θ) f(θ |y ) = f (y ) donde f (y ) es la distribuci´n marginal de la variable aleatoria o Y (o distribuci´n marginal de los datos): o f (y ) = f (y |θ)f (θ)dθ, Θ f (θ |y ) es la distribuci´n expost (posteriori) del par´metro θ o a M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 17. La Aproximaci´n Bayesiana a la Estad´ o ıstica La funci´n L(θ|y )= f (y |θ) , como funici´n de θ se llama la o o funci´n de verosimilitud. o f (θ) es la distribuci´n inicial (prior) sobre los par´metros. o a
  • 18. La Aproximaci´n Bayesiana a la Estad´ o ıstica Obs´rvese que no se ha hecho ninguna hip´tesis sobre la e o forma de la distribuci´n muestral. En general suponemos que o y es un vector de obsrevaciones y f (y |θ) es la distribuci´n o conjunta o distribuci´n del vector aleatorio Y . o En pocas palabras la estad´ ıstica Bayesiana es un modelo formal de aprendizaje en un ambiente incierto aplicado a la inferencia estad´ ıstica. La mec´nica Bayesiana es siempre la misma. Formule un a distribuci´n inicial para lo par´metros y calcule la distribuci´n o a o expost. El resultado final del an´lisis Bayesiano es la distribuci´n a o expost. En el an´lisis cl´sico, el obejetivo final es un estimador a a que si bien es una variable aleatoria es, conceptualmente, muy distinto.
  • 19. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Teor´ de la decisi´n ıa o En la teor´ de decisi´n la idea es combinar la informaci´n ıa o o muestral con informaci´n no muestral con el objeto tomar una o decis´n ´ptima. o o El an´lisis Bayesiano comparte con la teor´ de la decisi´n el a ıa o uso de informaci´n no muestral. o Recordemos que Θ es el espacio de par´metros o estados de la a naturaleza. θ ∈ Θ es un estado de la naturaleza. Sea A el espacio de acciones del tomador de decisiones. a ∈ A es una acci´n. o M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 20. Teor´ de la decisi´n ıa o Un problema de decisi´n es una funci´n D : A × θ → C , o o donde C es un espacion de consecuencias. Suponemos que el agente tiene preferencias sobre el conjunto de consecuencias que las representamos mediante una funci´n de (des)utilidad. o A continuaci´n definimos la funci´n de p´rdida como la o o e composici´n de la funci´n D y la funci´n de (des)utilidad. o o o
  • 21. Teor´ de la decisi´n ıa o Un problema de desici´n est´ bien puesto cuando el conjunto o a la especificaci´n del conjunto de acciones, estados de la o naturaleza y consecuencias son tales que las preferencias del tomador de decisiones sobre las consecuencias son totalmente independientes de las acciones o estados de la naturaleza.
  • 22. Teor´ de la decisi´n ıa o Sea L(θ, a) una funci´n de p´rdida. o e Definimos la perdida esperada expost o p´rdidad esperada e Bayesiana cuando se toma una decisi´n a ∈ A como: o ρ(a |y ) = L(θ, a)f (θ |y )dθ Θ Dada una funci´n de p´rdida y una distribuci´n expost, o e o definimos el estimador Bayesiano de θ como: θB (y ) = argmina∈A ρ(a |y )
  • 23. Teor´ de la decisi´n ıa o Example (Funciones de p´rdida) e Algunas funciones de p´rdida est´ndar son: e a 1 P´rdida cuadr´tica. e a 2 Error absoluto. Los respectivos estimadores son el valor esperado y la mediana expost del par´metro respectivamente. Verificar el primer caso es a inmediato.
  • 24. Teor´ de la decisi´n ıa o Example (Distribuci´n inicial y muestral normal) o Supongamos que tenemos una muestra de n observaciones y1 , ..., yn , yi i.i.d N(µ, 1) entonces la distribuci´n muestral o (funci´n de verosimilitud) es: o n 1 p(y |µ) = (2π)− 2 σ −n exp(− (yi − µ)2 ) (3) 2σ 2 i Ahora supongamos que la distribuci´n inicial p(µ) N µ0 , σ0 o 2 donde los par´metros de esta distribuci´n son conocidos (estos se a o denominan hiperpar´metros). Obs´rvese que antes de observar los a e datos, si el agente tiene una funci´n de p´rdida que es cuadr´tica, o e a entonces el estimador Bayesiano (exante) de µ es µ0 .
  • 25. Teor´ de la decisi´n ıa o La distribuci´n expost es: o p(µ |y ) ∝ p(y |µ) p(µ) (4) 1 ∝ exp(− 2 (µ − µ)2 ) (5) 2σ n 1 σ2 y + σ 2 µ0 0 µ= n 1 (6) σ2 + σ2 0 1 σ2 = n 1 (7) σ2 + 2 σ0
  • 26. Teor´ de la decisi´n ıa o Cuando la funci´n d´ p´rdida es la funci´n de error o e e o cuadr´tico. Entonces el estimador Bayesiano (expost) es: a E [µ |y ] = µ (8) Es decir, el valor esperado expost de µ es una combinaci´n o convexa del estimador cl´sico y de los datos observados y la a media inicial. Cuando el n´mero de observaciones es grande o la u incertidumbre de la distribuci´n inicial es grande, el estimador o Bayesiano se apr´xima al estimador cl´sico. o a
  • 27. Teor´ de la decisi´n ıa o δ : Ξ → A es una regla de decisici´n. o Un tipo de reglas de decisi´n importante son las reglas de o decisi´n aleatorias. o Para un problema sin datos, una regla de decisici´n es o simplemente una acci´n. o
  • 28. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Riesgo frecuentista Definition (Funci´n de Riesgo Cl´sica) o a Dada una regla de decisi´n δ y una funci´n de p´rdida definimos la o o e funci´n de riesgo (cl´sica) como: o a R(θ, δ) = EY [L(θ, δ)] = L(θ, δ(y ))dF (y |θ) (9) Obs´rvese que la funci´n de riesgo cl´sica promedia sobre e o a todas las realizaciones posibles de los datos (aun aquellas que no han ocurrido!). Esta es una funci´n del estado y la regla de decisi´n (la regla o o de desici´n es t´ o ıpicamente un estimador). M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 29. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o A diferencia de la p´rdida esperada Bayesiana que es un e n´mero, el riegso frecuentista depende del estado. Esto u dificulta el problema de escoger una regla de decisi´n para o minimizar el riesgo ya que ´sta va depender del estado. e La siguiente definici´n acota el universo razonable de reglas de o decisi´n. o Definition (Admisibilidad) Dada una funci´n de p´ridida. Decimos que una regla de decisi´n δ o e o es inadmisible si existe otra regla de decisi´n que la (domina o d´bilmente) para toda realizaci´n posible de los estados. De lo e o contrario se llama admisible. M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 30. Riesgo frecuentista Bajo condiciones d´biles se puede mostrar que los estimadores e Bayesianos son admisibles. Existe un teorema converso llamado teorema de completo de clases. En la teor´ cl´sica estad´ ıa a ıstica existen algunas formas de resolver el problema de decisi´n: o 1 M´xima verosimilitud. a 2 M´ınima varianza. 3 M´ınimos cuadrados ordinarios. 4 Sesgo nulo. 5 Soluci´n minimax. o
  • 31. Riesgo frecuentista Una regla de decisi´n δ M satisface el principio minimax si: o supθ∈Θ R(θ, δ M ) = infδ∈∆(D) supθ∈Θ R(θ, δ) (10) donde ∆(D) denota e conjunto de reglas de decisi´n o aleatorias (que tienen como rango las acciones mixtas). Intuitivamente, una regla de decisi´n satisface el principio o minimax si permite asegurar el m´ınimo riesgo en el pero de los casos (peor estado). Invarianza: Este principio afirma que las reglas de decisi´n o deben ser las mismas cuando los problmeas de decisi´n tienen o la misma estructura.
  • 32. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Riesgo Bayesiano Definition (Riesgo Bayesiano) Dada una regla de decisi´n δ, una funci´n de p´ridida L y una o o e distribuci´n inicial de los par´metros p definimos la funci´n de o a o riesgo Bayesiana como: r (δ, p) = Ep [R(θ, δ)] = R(θ, δ)dp(θ) (11) Θ Obs´rvese que el riesgo Bayesiano promedia sobre el espacio e de par´metros y es una funci´n unicamente de la regla de a o ´ decisi´n y la idstribuci´n inicial de los par´metros. o o a M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 33. Riesgo Bayesiano Asociado a el riesgo Bayesiano hay un principio de decisi´n. o Una regla de decisi´n δ B es una regla de decisi´n Bayesiana si: o o r (θ, δ B ) = infδ∈D R(θ, δ) (12) donde D es el espacio de reglas de decisi´n. o
  • 34. Riesgo Bayesiano En la teor´ de la decisi´n, la forma est´ndar de resolver el ıa o a problema de decisi´n es usando el principio condicional de o Bayes. Una regla de decisi´n condicional Bayesiana δ CB es o una regla de decisi´n tal que: o ρ(θ, δ CB (y )) = infa∈A ρ(θ, a) (13) Obs´rvese que en un problema sin datos, la regla de decisi´n e o condicional coincide con la regla de desici´n de Bayes. o En general se cumple que la decisi´n usando la regla o condicional es igual a decisi´n usando la regla de Bayes. o
  • 35. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Familias Conjugadas Dada una familia de de distribuciones muestrales F, decimos que una familia de distribuciones iniciales P es una familia conjugada para F si la distribucion expost es siempre un elemento de P. Decimos que natural conjugada si es conjugada y si est´ en la familia de distribuciones muestrales. a M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 36. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Estimadores El estimador de m´ximaverosimilitud generalizado de es aquel a que maximiza la distribuci´n expost. o Este es el el valor m´s probable dado la idstribuci´n inical del a o par´metro y la muestra y . a El error de un estimador se define como la desviaci´n o cuadr´tica promedio de los par´metros con respecto al a a estimador utilizando la distribuci´n expost. o M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 37. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Prueba de hip´tesis o Un subconjunto C de Θ es cr´ible con un nivel de confianza e 1 − α (condicional a y ) si: 1 − α ≤ P(C |y ) (14) Un conjunto creible tiene un significado probabil´ ıstico (aunque subjetivo). Esto no ocurre siempre en la teor´ cl´sica. ıa a Un problema con la noci´n Bayesiana de conjunto cre´ (o o ıble intervalo de confianza) es que pueden existir mucho onjunto cre´ ıbles. Una forma, adhoc, de selecionar uno es calculando conjunto cre´ de mayor densidad de expost. ıble M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 38. Prueba de hip´tesis o Sea kα el mayor k tal que: P(θ ∈ Θ : f (θ |y ) ≥ k |y ) ≥ 1 − α (15) Entonces definimos el conjunto cre´ CHPD con un nivel de ıble confianza 1 − α como: CHPD = {θ ∈ Θ : f (θ |y ) ≥ kα } (16)
  • 39. Prueba de hip´tesis o La prueba de hip´tesis en estad´ o ıstica cl´sica consiste en a estudiar los errores tipo I y II (probabilidad que la muestra observada resulte en la hip´tesis incorrecta siendo aceptada). o En estad´ıstica Bayesiana la prueba de hip´tesis es o conceptualmente sencillo: comparar la probabilidad expost P(Θ1 |y ) y P(Θ2 |y ) donde las pruebas de hip´tesis son: o H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 . La raz´n entre estas dos probabilidades se llama posterior o odds ratio. La misma raz´n pero con las probabilidades o iniciales se llama prior odd ratios. La raz´n entre el posterior y el prior odds se llama factor de o Bayes (Berger). Cuando las hip´tesis son simples, el factor de Bayes es o simplemente la raz´n de las funciones de verosimilitud. o
  • 40. Contenido Teor´ de la decisi´n ıa o Introducci´no Riesgo frecuentista El concepto de probabilidad Riesgo Bayesiano La Aproximaci´n Bayesiana a la Estad´ o ıstica Familias Conjugadas Comparaci´n de modelos o Estimadores Propiedades cl´sicas de la aproximaci´n Bayesiana a o Prueba de hip´tesis o Discusi´n o Predicciones Teor´ de la decisi´n robusta ıa o Predicciones Supongams que queremos pron´sticar una variable z basado o en la variable bservable y . En estad´ ıstica Bayesiana el objeivo es determinar p(z |y ) . Esto se puede escribir: p(z |y ) = p (z, θ |y ) dθ (17) Θ p(z |y ) = p (z |y , θ)p(θ |y ) dθ (18) Θ p(z |y ) se denomina la densidad predictiva de z dado los datos observables y . El an´lisis Bayesiano trata de forma sim´trica, par´metros, a e a observables y predicciones: son todas variables aleatorias. M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 41. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o Comparaci´n de modelos o Un modelo se define formalmente como una distribuci´n o inicial y una distribuci´n muestral. o Supongamos que tenemos m modelos que buscan explicar los datos observado y . Usando la distribuci´n inicial y muestral de cada modelo o calculamos la distribuci´n expost de los datos. o P(y |θ, M) P(θ |M) P(θ |y , M) = (19) p(y |M) donde p(y |M) es la distribuci´n marginal de los datos o condicional al modelo. Esta tambi´n se denomina la e verosimilitud marginal y se puede obtener mediante la integraci´n obvia. o M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 42. Comparaci´n de modelos o Ahora podemos tener una distribuci´n inicial de cada uno de o los modelos (grado de confianza que tenemos en el modelo) y esto nos permite calcular la distribcui´n expost sobre nuestra o confianza en el modelo condicional a los datos observados: P(y |M)P(M) P(M |y ) = (20) p(y ) donde P(M) el la distribuci´n inicial del modelo. o Obs´rvese que la verosimilitud marginal se obtiene mediante e integraci´ny en principio, con ´sta, se puede calcular la o e distribuci´n expost del modelo (dados la distribuci´n inical de o o los modelos y la distribuci´n marginal de los datos). o
  • 43. Comparaci´n de modelos o Como usualmente es dificil determinar la distribuci´n marginal o de los datos lo que se hace es comparar la raz´n entre las o distribuciones expost: P(M i |y ) POij = (21) P(M j |y ) denominado posterior odds ratio.
  • 44. Comparaci´n de modelos o Cuando la prior sobre cada modelo es la misma, el posterior odds ratio se reduce a la raz´n entre las verosimilitudes o marginales. P(y M i BFij = (22) P(y |M j ) El caso de comparar dos modelos lineales bajor normalidad es posibels hacerlo a mano.
  • 45. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Consideremos el problema de consistencia. Supongamos que existe una distribuci´n poblacional f (y ). o Sea p(y |θ) la distribuci´n muestral. o Definamos la distancia entre ambas distribuciones como la distancia de Kullback - Leibler. Sea θ∗ el valor que minimiza la distancia entre la distribuci´n o poblacional y la distribuci´n muestral. Uno puede mostrar que o si existe un par´metro verdadero tal que la distribuci´n a o muestral es igual a la distribuci´n poblacional entonces θ∗ es o el par´metro verdadero. En este caso decimos que el modelo a muestral est´ bien especificado. a M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos
  • 46. Propiedades cl´sicas de la aproximaci´n Bayesiana a o Theorem (Consistencia) Supongamos que es espacio de estados Θ es compacto y sea Θ0 una vecindad del verdadero par´metro θ0 con probabilidad inicial a difeerente de cero. Entonces, p(θ ∈ Θ0 |y ) → 1 cuando el tama˜o de la muestra crece hacia el infinito. n Es decir, si el modelo est´ bien especificado (distribuci´n a o muestral es igual a la poblacional para alg´n par´metro) u a entonces la distribuci´n expost se va concetrar o asint´ticamente alrededor del verdadero par´metro siempre el o a verdadero par´metro est´ en el soporte de la distribuci´n a e o inicial.
  • 47. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o Discusi´n o Obs´rvese que la principal diferencia entre el an´lisis cl´sico y e a a el Bayesiano se deriva de la forma radicalmente de intepretar los par´metros, modelos y pron´sticos de un modelo. Estos a o ´ tres se intepretan como variable aleatorias y en ese sentido se les da un tratamiento sim´trico con los datos observados. e La diferencia fundamental entre ambas aproximaciones es el uso de informaci´n inicial en el proceso de inferencia. La o teor´ cl´sica responde ıa a 1 Antes de observar los datos, qu´ podemos esperar. e 2 Antes de observar los datos, qu´ tan precisos son los e estimadores. 3 Dado que la hip´tesis a estudiar es verdadera, que probabilidad o existe de que los datos indiquen que es verdadera. Laetodos Bayesianos -on Bayesiana considera que las preguntas M´ aproximaci´ Banco de Guatemala Alvaro Riascos
  • 48. Discusi´n o Example (Distribuci´n inicial y muestral normal) o Considere la distribuci´n expost cuando la distribuci´n inical no es o o informativa. Es f´cil mostrar que el estimador Bayesiano m´s o a a menos una distribuci´n est´ndar (de la distribuci´n expost) es: o a o σ µ=y±√ (23) n Ahora la distribuci´n del estimador cl´sico y m´s o menos una o a a desviaci´n est´ndar es igual. Sin embargo, la intepretaci´n es o a o completamente distinta. En el primer caso la interpretaci´n es: o Qu´ tan preciso es la estimaci´n de mu dado que hemos observado e o ciertos datos.
  • 49. Discusi´n o Una cr´ıtica est´ndard al an´lisis Bayesiano es la necesidad de a a definir una distribuci´n inicial de los estados. o Bajo condiciones d´biles, siempre existe una prior natural. e Decimos que la distribuci´n marginal conjunta de los datos es o intercambiable si es invariante frente a permutaciones de los sub´ındices de los datos. Suponga que los datos toman valores cero o uno unicamente. ´ Entonces el Teorema de deFinetti afirma que los datos se pueden interpeetar como distribuidos condicional i.i.d con yi θ distribuido Bernoulli con par´metro θ. Ademas caracteriza la a distribuci´n asint´tica del par´metro θ en t´rminos del la o o a e media muestral. El converso tambi´n vale. e Luego la intercambiabilidad es una hip´tesis natural en ciertas o circunstancias que racionaliza la escogencia de un modelo de mixtura de Bernoulli dejando como grado de libertad la distribuci´n asint´tica del θ para lo cal basta con expresar o o nuestra distribuci´n inicial sobre la distribuci´n de la media o o muestral.
  • 50. Discusi´n o Example (Laboratorios) Una sustancia debe ser analizada y existen dos laboratorios igualmente buenos para hacerlo. Para tomar una decisi´n se lanza o una moneda al aire. Al recibir los resultados del laboratorio escogido el agente se pregunta: Deber´ ıamos de llevar en consideraci´n que estos resultados dependen de que se lanzo al aire o una moneda que hubiera podido indicar que fuera el otro laboratorio el que hiciera el examen? De acuerdo a la visi´n cl´sica o a deber´ıamos de promediar sobre todos los posibles resultados incluyendo los del laboratorio que no hizo la prueba.
  • 51. Discusi´n o Example (Diferentes distribuciones muestrales) Suponga que se lanza de forma independiente 12 monedas al aire y se obervan 9 caras y 3 sellos. Esta informaci´n no especifica o completamente el experimento puesto que pudo ser el resultado de dos procedimientos: (1) Se fijo en 12 el n´emro de lanzamientos y u se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio la tercer sello. En ambos casos la distribuci´n muestral es o completamente distinta. En el primer caso es Binomial y el el segundo es Negativa Binomial. Ahora suponga que queremos probar la hip´tesis de que la probabilidad de que salga cara es 1 o 2 1 contra la hip´tesis de que sea mayor que 2 . Se dise˜a una prueba o n que es de la siguinete forma, si el n´emro de caras observadas es u superior a algun umbral c, entonces se se rechaza la hip´tesis de o que estados (probabilidad de que salga) sea 1 . Por definici´n el 2 o p-valor de esta hip´tesis es la probabilidad de observar 9 o m´s o a caras en el experimento. Si calculamos el p-valor bajo para los dos procedimientos en el primero aceptamos la hip´tesis nula y en el o
  • 52. Discusi´n o La forma como en la teor´ cl´sica se eliminan par´metros es ıa a a mediante la sustituci´n de los mismos por un par´metro. En el o a an´lisis Bayesiano se promedia sobre todos sus posibles a valores.
  • 53. Contenido Introducci´no El concepto de probabilidad La Aproximaci´n Bayesiana a la Estad´ o ıstica Comparaci´n de modelos o Propiedades cl´sicas de la aproximaci´n Bayesiana a o Discusi´n o Teor´ de la decisi´n robusta ıa o Teor´ de la decisi´n robusta ıa o M´todos Bayesianos - Banco de Guatemala e Alvaro Riascos