Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
1 teoria decision presentacion
1. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
Teor´ de la Decisi´n
ıa o
Alvaro J. Riascos Villegas
Universidad de los Andes y Quantil
Enero 30 de 2012
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
2. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
1 Introducci´n
o
2 El concepto de probabilidad
3 La Aproximaci´n Bayesiana a la Estad´
o ıstica
Teor´ de la decisi´n
ıa o
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hip´tesis
o
Predicciones
4 Comparaci´n de modelos
o
5 Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
6 Discusi´n
o
7 Teor´ de la decisi´n robusta
ıa o
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
3. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
Introducci´n
o
La teor´ cl´sica utiliza la informaci´n muestral para hacer
ıa a o
inferencias sobre los par´metros de inter´s.
a e
La importancia de la informaci´n muestral se pone de
o
manifiesto en este ejemplo de Savage (1961).
Example (Savage (1961))
Uso de la informaci´n muestral.
o
1 Una mujer adiciona te a una tasa de leche y afirma poder diferencia
que ingrediente se utiliz´ primero. En 10 experimentos acierta en
o
todos.
2 Un m´sico afirma poder diferenciar entre un partitura de Mozart y
u
una de Hayden. En 10 experimentos siempre acierta.
3 Untodos Bayesianos - Banco afirma poder Alvaro Riascos lado que cae una
M´
e
amigo borracho de Guatemala predecir el
4. Introducci´n
o
Usualmente existe informaci´n incial sobre los par´metros de
o a
un modelo estructural.
Probabilidad = Incertidumbre. En la teor´ Bayesiana el
ıa
concepto de probabilidad tiene una interpretaci´n distinta a la
o
teor´ cl´sica o frecuentista. El concepto de probabilidad es
ıa a
una medida de la incertidumbre sobre la ocurrencia de un
evento. A diferencia de la teor´ cl´sica es posible dar
ıa a
interpetaciones sobre la incertidumbre de un par´metro que
a
no est´n basadas en la repetici´n bajo condiciones iguales de
a o
un experimento (intervalos de confianza). Por ejemplo es
posible cuantificar en t´rminos probabil´
e ısticos el grado de
incertidubre con la cu´l se hace un pron´stico.
a o
5. Introducci´n
o
Permite condicionar a los datos observados. En el an´lisis
a
cl´sico se promedia sobre los los datos, aun los no observados.
a
Distribuciones exactas. La teor´ cl´sica se basa en muchas
ıa a
ocasiones en teor´ asint´tica.
ıa o
Coherencia y racionalidad: La teor´ Bayesiana es una
ıa
aproximaci´n general al problema de inferencia consistente
o
con la teor´ de la decisi´n.
ıa o
Las reglas de decisi´n en un contexto Bayesiano son ´ptimas
o o
desde un punto de vista cl´sico.
a
M´canica Bayesiana: Siempre se sabe qu´ hacer.
e e
Computacionalmente es dif´
ıcil.
6. Introducci´n
o
Razones t´cnicas:
e
1 Permite hacer inferenecia estad´
ıstca en modelos no regulares.
2 Permite introducir incertidumbre en los par´metros para hacer
a
prediciciones.
3 Permite hacer pruebas de modelos no anidados.
4 Se pueden analizar modelos jer´rquicos de forma
a
conceptualmente muy coherente.
7. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
El concepto de probabilidad
Existen por lo menos tres interpretaciones del concepto:
objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey,
de Finetti, Savage), l´gica.
o
Axiomas de Kolmogorov.
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
8. El concepto de probabilidad
Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna
contiene 90 bolas donde 30 son rojas. El resto de las bolas son
amarillas o negras y su distribuci´n es desconocida. Algunas
o
personas fueron sometidas a una apuesta. Apuesta A: Quien
saque una bola roja gana una cantidad monetaria, las
amarillas y las negras pierden. Apuesta B: Quien saque una
bola amarilla gana, el resto pierde. La mayor´ de las personas
ıa
optan por la A. Despu´s cambiamos las apuestas de una
e
manera que en ambos casos, las bolas negras son desde ahora
ganadoras. Apuesta C: Quien saque una bola roja o negra
gana, las amarillas pierden. Apuesta D: Quien saque una bola
amarilla o negra gana, las rojas pierden. En este caso, la
mayor´ de las personas escogen la D. Lo cual entra en
ıa
contradicci´n con la desici´n anterior de escoger la apuesta A,
o o
a pesar de que la bola negra es ganadora en ambas C y D, lo
cual no aporta diferencia alguna.
9. El concepto de probabilidad
Ellsberg explica ´ste resultado en t´rminos de la diferencia
e e
entre el riesgo e incertidumbre. Las personas sometidas a
estas escogencias suponen prudentemente que la distribuci´n o
desconocida entre bolas rojas y amarillas pueden traerles
desventaja y por lo tanto escogen en ambas ocasiones bajo el
riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda).
Llama la atenci´n sobre la necesidad de una teor´ para
o ıa
modelar la incertidumbre.
10. El concepto de probabilidad
Una forma de interpretar el concepto de probabilidad desde un
punto de vista l´gico es de acuerdo al concepto de
o
razonamiento plausible (Jaymes): cuano en el mundo real
observamos un evento B que t´ ıpicamente es consecuencia de
un evento A, decimos que A es plausible pero usalmente no es
posible deducir que A ha sucedido. La idea predominante es
que A es plausible dado que observamos B. La l´gica es que si
o
B ha ocurrido, esto arroja evidencia en favor de A.
Al fundamentar la teor´ de la probabilidad de esta forma se
ıa
obtiene una formalizaci´n de la idea del grado de
o
incertidumbre sobre la ocurrencia de un evento (plausibilidad
del evento).
11. El concepto de probabilidad
Luego la interpretaci´n de la probabilidad de un evento no
o
est´ relacionada con la frecuencia de un evento repetido sino
a
con el grado de incertidumbre del evento. Esta es la
interpreatci´n subjetivista del concepto de probabilidad.
o
Para de Finetti la probabiidad (objetiva) de un evento no
existe. Es algo tan ficticio y en contradici´n con laevidencia
o
cuanto la existencia del ´ter.
e
Cu´l es la probabilidad de cada n´mero cuando se lanza un
a u
dado al aire?
La idea de aprendizaje en un ambiente incierto puede ser sutil.
12. El concepto de probabilidad
La paradoja del gato I. Una persona est´ frente a tres puertas
a
cerradas. Se sabe que detr´s de alguna de las puertas hay un
a
gato. La persona se le pide escoger una puerta. Antes de abrir
cualquier puerta, una segunda persona que sabe exactamente
que hay detr´s de cada puerta y conoce tambi´n cu´l fue la
a e a
puerta elegida por la primera persona, ´ste abre una de las
e
puertas que sea la elegida por la primera persona y en la que
no est´ el gato. Ahora, con una puerta abierta en la que no
e
est´ el gato, se le pregunta a la primera persona si desear´
a ıa
cambiar de puerta.
13. El concepto de probabilidad
El sentido com´n dice que no hace diferencia. Pero la teor´
u ıa
de la probabilidad dice otra cosa. La probabilidad de encontrar
el gato en alguna de las dos puertas al cambiar la elecci´n
o
original es mayor que la probabilidad de que el gato est´ en la
e
primera puerta elegida.
14. El concepto de probabilidad
Definici´n probabiidad condicional. Dados dos evento A y B,
o
tal que P(B) > 0 definimos la probabilidad condicional de A
dado B como:
P(A ∩ B)
P(A |B) = . (1)
P(B)
El teorema de Bayes (o regla de Bayes) afirma que:
P(B |A) × P(A)
P(A |B) = . (2)
P(B)
Este resultado es la base de toda la estad´
ıstica Bayesiana.
15. El concepto de probabilidad
La paradoja del gato II: Para formalizar este problema,
supongamos que la primera elecci´n fue la tercera puerta.
o
Sean A1 , A2 y A3 los eventos en los cuales el gato est´ detr´s
a a
de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los
eventos en los cuales el segundo jugador abre la puerta 1 o 2
reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) .
Entonces dada la informaci´n del problema es natural suponer:
o
1
P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0
3
P(B1 |A2 ) = P(B2 |A1 ) = 1
y
1
P(B1 |A3 ) = P(B2 |A3 ) = .
2
Entonces si la segunda persona abre la puerta 2 es f´cil
a
2
calcular, usando la regla de Bayes, P A1 |B2 ) = 3 .
16. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Sea Θ un espacio de par´metros o estados de la naturaleza y
a
Ξ un espacio de datos observables.
En t´rminos de funciones de densidad el teorema se puede
e
expresar como:
f (y |θ)f (θ)
f(θ |y ) = f (y )
donde f (y ) es la distribuci´n marginal de la variable aleatoria
o
Y (o distribuci´n marginal de los datos):
o
f (y ) = f (y |θ)f (θ)dθ,
Θ
f (θ |y ) es la distribuci´n expost (posteriori) del par´metro θ
o a
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
17. La Aproximaci´n Bayesiana a la Estad´
o ıstica
La funci´n L(θ|y )= f (y |θ) , como funici´n de θ se llama la
o o
funci´n de verosimilitud.
o
f (θ) es la distribuci´n inicial (prior) sobre los par´metros.
o a
18. La Aproximaci´n Bayesiana a la Estad´
o ıstica
Obs´rvese que no se ha hecho ninguna hip´tesis sobre la
e o
forma de la distribuci´n muestral. En general suponemos que
o
y es un vector de obsrevaciones y f (y |θ) es la distribuci´n
o
conjunta o distribuci´n del vector aleatorio Y .
o
En pocas palabras la estad´
ıstica Bayesiana es un modelo
formal de aprendizaje en un ambiente incierto aplicado a la
inferencia estad´
ıstica.
La mec´nica Bayesiana es siempre la misma. Formule un
a
distribuci´n inicial para lo par´metros y calcule la distribuci´n
o a o
expost.
El resultado final del an´lisis Bayesiano es la distribuci´n
a o
expost. En el an´lisis cl´sico, el obejetivo final es un estimador
a a
que si bien es una variable aleatoria es, conceptualmente, muy
distinto.
19. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Teor´ de la decisi´n
ıa o
En la teor´ de decisi´n la idea es combinar la informaci´n
ıa o o
muestral con informaci´n no muestral con el objeto tomar una
o
decis´n ´ptima.
o o
El an´lisis Bayesiano comparte con la teor´ de la decisi´n el
a ıa o
uso de informaci´n no muestral.
o
Recordemos que Θ es el espacio de par´metros o estados de la
a
naturaleza. θ ∈ Θ es un estado de la naturaleza.
Sea A el espacio de acciones del tomador de decisiones. a ∈ A
es una acci´n.
o
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
20. Teor´ de la decisi´n
ıa o
Un problema de decisi´n es una funci´n D : A × θ → C ,
o o
donde C es un espacion de consecuencias. Suponemos que el
agente tiene preferencias sobre el conjunto de consecuencias
que las representamos mediante una funci´n de (des)utilidad.
o
A continuaci´n definimos la funci´n de p´rdida como la
o o e
composici´n de la funci´n D y la funci´n de (des)utilidad.
o o o
21. Teor´ de la decisi´n
ıa o
Un problema de desici´n est´ bien puesto cuando el conjunto
o a
la especificaci´n del conjunto de acciones, estados de la
o
naturaleza y consecuencias son tales que las preferencias del
tomador de decisiones sobre las consecuencias son totalmente
independientes de las acciones o estados de la naturaleza.
22. Teor´ de la decisi´n
ıa o
Sea L(θ, a) una funci´n de p´rdida.
o e
Definimos la perdida esperada expost o p´rdidad esperada
e
Bayesiana cuando se toma una decisi´n a ∈ A como:
o
ρ(a |y ) = L(θ, a)f (θ |y )dθ
Θ
Dada una funci´n de p´rdida y una distribuci´n expost,
o e o
definimos el estimador Bayesiano de θ como:
θB (y ) = argmina∈A ρ(a |y )
23. Teor´ de la decisi´n
ıa o
Example (Funciones de p´rdida)
e
Algunas funciones de p´rdida est´ndar son:
e a
1 P´rdida cuadr´tica.
e a
2 Error absoluto.
Los respectivos estimadores son el valor esperado y la mediana
expost del par´metro respectivamente. Verificar el primer caso es
a
inmediato.
24. Teor´ de la decisi´n
ıa o
Example (Distribuci´n inicial y muestral normal)
o
Supongamos que tenemos una muestra de n observaciones
y1 , ..., yn , yi i.i.d N(µ, 1) entonces la distribuci´n muestral
o
(funci´n de verosimilitud) es:
o
n 1
p(y |µ) = (2π)− 2 σ −n exp(− (yi − µ)2 ) (3)
2σ 2
i
Ahora supongamos que la distribuci´n inicial p(µ) N µ0 , σ0
o 2
donde los par´metros de esta distribuci´n son conocidos (estos se
a o
denominan hiperpar´metros). Obs´rvese que antes de observar los
a e
datos, si el agente tiene una funci´n de p´rdida que es cuadr´tica,
o e a
entonces el estimador Bayesiano (exante) de µ es µ0 .
25. Teor´ de la decisi´n
ıa o
La distribuci´n expost es:
o
p(µ |y ) ∝ p(y |µ) p(µ) (4)
1
∝ exp(− 2 (µ − µ)2 ) (5)
2σ
n 1
σ2
y + σ 2 µ0
0
µ= n 1
(6)
σ2
+ σ2
0
1
σ2 = n 1
(7)
σ2
+ 2
σ0
26. Teor´ de la decisi´n
ıa o
Cuando la funci´n d´ p´rdida es la funci´n de error
o e e o
cuadr´tico. Entonces el estimador Bayesiano (expost) es:
a
E [µ |y ] = µ (8)
Es decir, el valor esperado expost de µ es una combinaci´n
o
convexa del estimador cl´sico y de los datos observados y la
a
media inicial.
Cuando el n´mero de observaciones es grande o la
u
incertidumbre de la distribuci´n inicial es grande, el estimador
o
Bayesiano se apr´xima al estimador cl´sico.
o a
27. Teor´ de la decisi´n
ıa o
δ : Ξ → A es una regla de decisici´n.
o
Un tipo de reglas de decisi´n importante son las reglas de
o
decisi´n aleatorias.
o
Para un problema sin datos, una regla de decisici´n es
o
simplemente una acci´n.
o
28. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Riesgo frecuentista
Definition (Funci´n de Riesgo Cl´sica)
o a
Dada una regla de decisi´n δ y una funci´n de p´rdida definimos la
o o e
funci´n de riesgo (cl´sica) como:
o a
R(θ, δ) = EY [L(θ, δ)] = L(θ, δ(y ))dF (y |θ) (9)
Obs´rvese que la funci´n de riesgo cl´sica promedia sobre
e o a
todas las realizaciones posibles de los datos (aun aquellas que
no han ocurrido!).
Esta es una funci´n del estado y la regla de decisi´n (la regla
o o
de desici´n es t´
o ıpicamente un estimador).
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
29. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
A diferencia de la p´rdida esperada Bayesiana que es un
e
n´mero, el riegso frecuentista depende del estado. Esto
u
dificulta el problema de escoger una regla de decisi´n para
o
minimizar el riesgo ya que ´sta va depender del estado.
e
La siguiente definici´n acota el universo razonable de reglas de
o
decisi´n.
o
Definition (Admisibilidad)
Dada una funci´n de p´ridida. Decimos que una regla de decisi´n δ
o e o
es inadmisible si existe otra regla de decisi´n que la (domina
o
d´bilmente) para toda realizaci´n posible de los estados. De lo
e o
contrario se llama admisible.
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
30. Riesgo frecuentista
Bajo condiciones d´biles se puede mostrar que los estimadores
e
Bayesianos son admisibles. Existe un teorema converso
llamado teorema de completo de clases.
En la teor´ cl´sica estad´
ıa a ıstica existen algunas formas de
resolver el problema de decisi´n:
o
1 M´xima verosimilitud.
a
2 M´ınima varianza.
3 M´ınimos cuadrados ordinarios.
4 Sesgo nulo.
5 Soluci´n minimax.
o
31. Riesgo frecuentista
Una regla de decisi´n δ M satisface el principio minimax si:
o
supθ∈Θ R(θ, δ M ) = infδ∈∆(D) supθ∈Θ R(θ, δ) (10)
donde ∆(D) denota e conjunto de reglas de decisi´n o
aleatorias (que tienen como rango las acciones mixtas).
Intuitivamente, una regla de decisi´n satisface el principio
o
minimax si permite asegurar el m´ınimo riesgo en el pero de los
casos (peor estado).
Invarianza: Este principio afirma que las reglas de decisi´n
o
deben ser las mismas cuando los problmeas de decisi´n tienen
o
la misma estructura.
32. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Riesgo Bayesiano
Definition (Riesgo Bayesiano)
Dada una regla de decisi´n δ, una funci´n de p´ridida L y una
o o e
distribuci´n inicial de los par´metros p definimos la funci´n de
o a o
riesgo Bayesiana como:
r (δ, p) = Ep [R(θ, δ)] = R(θ, δ)dp(θ) (11)
Θ
Obs´rvese que el riesgo Bayesiano promedia sobre el espacio
e
de par´metros y es una funci´n unicamente de la regla de
a o ´
decisi´n y la idstribuci´n inicial de los par´metros.
o o a
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
33. Riesgo Bayesiano
Asociado a el riesgo Bayesiano hay un principio de decisi´n.
o
Una regla de decisi´n δ B es una regla de decisi´n Bayesiana si:
o o
r (θ, δ B ) = infδ∈D R(θ, δ) (12)
donde D es el espacio de reglas de decisi´n.
o
34. Riesgo Bayesiano
En la teor´ de la decisi´n, la forma est´ndar de resolver el
ıa o a
problema de decisi´n es usando el principio condicional de
o
Bayes. Una regla de decisi´n condicional Bayesiana δ CB es
o
una regla de decisi´n tal que:
o
ρ(θ, δ CB (y )) = infa∈A ρ(θ, a) (13)
Obs´rvese que en un problema sin datos, la regla de decisi´n
e o
condicional coincide con la regla de desici´n de Bayes.
o
En general se cumple que la decisi´n usando la regla
o
condicional es igual a decisi´n usando la regla de Bayes.
o
35. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Familias Conjugadas
Dada una familia de de distribuciones muestrales F, decimos
que una familia de distribuciones iniciales P es una familia
conjugada para F si la distribucion expost es siempre un
elemento de P. Decimos que natural conjugada si es
conjugada y si est´ en la familia de distribuciones muestrales.
a
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
36. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Estimadores
El estimador de m´ximaverosimilitud generalizado de es aquel
a
que maximiza la distribuci´n expost.
o
Este es el el valor m´s probable dado la idstribuci´n inical del
a o
par´metro y la muestra y .
a
El error de un estimador se define como la desviaci´n
o
cuadr´tica promedio de los par´metros con respecto al
a a
estimador utilizando la distribuci´n expost.
o
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
37. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Prueba de hip´tesis
o
Un subconjunto C de Θ es cr´ible con un nivel de confianza
e
1 − α (condicional a y ) si:
1 − α ≤ P(C |y ) (14)
Un conjunto creible tiene un significado probabil´
ıstico (aunque
subjetivo). Esto no ocurre siempre en la teor´ cl´sica.
ıa a
Un problema con la noci´n Bayesiana de conjunto cre´ (o
o ıble
intervalo de confianza) es que pueden existir mucho onjunto
cre´
ıbles. Una forma, adhoc, de selecionar uno es calculando
conjunto cre´ de mayor densidad de expost.
ıble
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
38. Prueba de hip´tesis
o
Sea kα el mayor k tal que:
P(θ ∈ Θ : f (θ |y ) ≥ k |y ) ≥ 1 − α (15)
Entonces definimos el conjunto cre´ CHPD con un nivel de
ıble
confianza 1 − α como:
CHPD = {θ ∈ Θ : f (θ |y ) ≥ kα } (16)
39. Prueba de hip´tesis
o
La prueba de hip´tesis en estad´
o ıstica cl´sica consiste en
a
estudiar los errores tipo I y II (probabilidad que la muestra
observada resulte en la hip´tesis incorrecta siendo aceptada).
o
En estad´ıstica Bayesiana la prueba de hip´tesis es
o
conceptualmente sencillo: comparar la probabilidad expost
P(Θ1 |y ) y P(Θ2 |y ) donde las pruebas de hip´tesis son:
o
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 .
La raz´n entre estas dos probabilidades se llama posterior
o
odds ratio. La misma raz´n pero con las probabilidades
o
iniciales se llama prior odd ratios.
La raz´n entre el posterior y el prior odds se llama factor de
o
Bayes (Berger).
Cuando las hip´tesis son simples, el factor de Bayes es
o
simplemente la raz´n de las funciones de verosimilitud.
o
40. Contenido
Teor´ de la decisi´n
ıa o
Introducci´no
Riesgo frecuentista
El concepto de probabilidad
Riesgo Bayesiano
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Familias Conjugadas
Comparaci´n de modelos
o
Estimadores
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Prueba de hip´tesis
o
Discusi´n
o
Predicciones
Teor´ de la decisi´n robusta
ıa o
Predicciones
Supongams que queremos pron´sticar una variable z basado
o
en la variable bservable y . En estad´
ıstica Bayesiana el objeivo
es determinar p(z |y ) .
Esto se puede escribir:
p(z |y ) = p (z, θ |y ) dθ (17)
Θ
p(z |y ) = p (z |y , θ)p(θ |y ) dθ (18)
Θ
p(z |y ) se denomina la densidad predictiva de z dado los datos
observables y .
El an´lisis Bayesiano trata de forma sim´trica, par´metros,
a e a
observables y predicciones: son todas variables aleatorias.
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
41. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
Comparaci´n de modelos
o
Un modelo se define formalmente como una distribuci´n o
inicial y una distribuci´n muestral.
o
Supongamos que tenemos m modelos que buscan explicar los
datos observado y .
Usando la distribuci´n inicial y muestral de cada modelo
o
calculamos la distribuci´n expost de los datos.
o
P(y |θ, M) P(θ |M)
P(θ |y , M) = (19)
p(y |M)
donde p(y |M) es la distribuci´n marginal de los datos
o
condicional al modelo. Esta tambi´n se denomina la
e
verosimilitud marginal y se puede obtener mediante la
integraci´n obvia.
o
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
42. Comparaci´n de modelos
o
Ahora podemos tener una distribuci´n inicial de cada uno de
o
los modelos (grado de confianza que tenemos en el modelo) y
esto nos permite calcular la distribcui´n expost sobre nuestra
o
confianza en el modelo condicional a los datos observados:
P(y |M)P(M)
P(M |y ) = (20)
p(y )
donde P(M) el la distribuci´n inicial del modelo.
o
Obs´rvese que la verosimilitud marginal se obtiene mediante
e
integraci´ny en principio, con ´sta, se puede calcular la
o e
distribuci´n expost del modelo (dados la distribuci´n inical de
o o
los modelos y la distribuci´n marginal de los datos).
o
43. Comparaci´n de modelos
o
Como usualmente es dificil determinar la distribuci´n marginal
o
de los datos lo que se hace es comparar la raz´n entre las
o
distribuciones expost:
P(M i |y )
POij = (21)
P(M j |y )
denominado posterior odds ratio.
44. Comparaci´n de modelos
o
Cuando la prior sobre cada modelo es la misma, el posterior
odds ratio se reduce a la raz´n entre las verosimilitudes
o
marginales.
P(y M i
BFij = (22)
P(y |M j )
El caso de comparar dos modelos lineales bajor normalidad es
posibels hacerlo a mano.
45. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Consideremos el problema de consistencia.
Supongamos que existe una distribuci´n poblacional f (y ).
o
Sea p(y |θ) la distribuci´n muestral.
o
Definamos la distancia entre ambas distribuciones como la
distancia de Kullback - Leibler.
Sea θ∗ el valor que minimiza la distancia entre la distribuci´n
o
poblacional y la distribuci´n muestral. Uno puede mostrar que
o
si existe un par´metro verdadero tal que la distribuci´n
a o
muestral es igual a la distribuci´n poblacional entonces θ∗ es
o
el par´metro verdadero. En este caso decimos que el modelo
a
muestral est´ bien especificado.
a
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos
46. Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Theorem (Consistencia)
Supongamos que es espacio de estados Θ es compacto y sea Θ0
una vecindad del verdadero par´metro θ0 con probabilidad inicial
a
difeerente de cero. Entonces,
p(θ ∈ Θ0 |y ) → 1
cuando el tama˜o de la muestra crece hacia el infinito.
n
Es decir, si el modelo est´ bien especificado (distribuci´n
a o
muestral es igual a la poblacional para alg´n par´metro)
u a
entonces la distribuci´n expost se va concetrar
o
asint´ticamente alrededor del verdadero par´metro siempre el
o a
verdadero par´metro est´ en el soporte de la distribuci´n
a e o
inicial.
47. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
Discusi´n
o
Obs´rvese que la principal diferencia entre el an´lisis cl´sico y
e a a
el Bayesiano se deriva de la forma radicalmente de intepretar
los par´metros, modelos y pron´sticos de un modelo. Estos
a o ´
tres se intepretan como variable aleatorias y en ese sentido se
les da un tratamiento sim´trico con los datos observados.
e
La diferencia fundamental entre ambas aproximaciones es el
uso de informaci´n inicial en el proceso de inferencia. La
o
teor´ cl´sica responde
ıa a
1 Antes de observar los datos, qu´ podemos esperar.
e
2 Antes de observar los datos, qu´ tan precisos son los
e
estimadores.
3 Dado que la hip´tesis a estudiar es verdadera, que probabilidad
o
existe de que los datos indiquen que es verdadera.
Laetodos Bayesianos -on Bayesiana considera que las preguntas
M´ aproximaci´ Banco de Guatemala Alvaro Riascos
48. Discusi´n
o
Example (Distribuci´n inicial y muestral normal)
o
Considere la distribuci´n expost cuando la distribuci´n inical no es
o o
informativa. Es f´cil mostrar que el estimador Bayesiano m´s o
a a
menos una distribuci´n est´ndar (de la distribuci´n expost) es:
o a o
σ
µ=y±√ (23)
n
Ahora la distribuci´n del estimador cl´sico y m´s o menos una
o a a
desviaci´n est´ndar es igual. Sin embargo, la intepretaci´n es
o a o
completamente distinta. En el primer caso la interpretaci´n es:
o
Qu´ tan preciso es la estimaci´n de mu dado que hemos observado
e o
ciertos datos.
49. Discusi´n
o
Una cr´ıtica est´ndard al an´lisis Bayesiano es la necesidad de
a a
definir una distribuci´n inicial de los estados.
o
Bajo condiciones d´biles, siempre existe una prior natural.
e
Decimos que la distribuci´n marginal conjunta de los datos es
o
intercambiable si es invariante frente a permutaciones de los
sub´ındices de los datos.
Suponga que los datos toman valores cero o uno unicamente.
´
Entonces el Teorema de deFinetti afirma que los datos se
pueden interpeetar como distribuidos condicional i.i.d con yi θ
distribuido Bernoulli con par´metro θ. Ademas caracteriza la
a
distribuci´n asint´tica del par´metro θ en t´rminos del la
o o a e
media muestral. El converso tambi´n vale.
e
Luego la intercambiabilidad es una hip´tesis natural en ciertas
o
circunstancias que racionaliza la escogencia de un modelo de
mixtura de Bernoulli dejando como grado de libertad la
distribuci´n asint´tica del θ para lo cal basta con expresar
o o
nuestra distribuci´n inicial sobre la distribuci´n de la media
o o
muestral.
50. Discusi´n
o
Example (Laboratorios)
Una sustancia debe ser analizada y existen dos laboratorios
igualmente buenos para hacerlo. Para tomar una decisi´n se lanza
o
una moneda al aire. Al recibir los resultados del laboratorio
escogido el agente se pregunta: Deber´ ıamos de llevar en
consideraci´n que estos resultados dependen de que se lanzo al aire
o
una moneda que hubiera podido indicar que fuera el otro
laboratorio el que hiciera el examen? De acuerdo a la visi´n cl´sica
o a
deber´ıamos de promediar sobre todos los posibles resultados
incluyendo los del laboratorio que no hizo la prueba.
51. Discusi´n
o
Example (Diferentes distribuciones muestrales)
Suponga que se lanza de forma independiente 12 monedas al aire y
se obervan 9 caras y 3 sellos. Esta informaci´n no especifica
o
completamente el experimento puesto que pudo ser el resultado de
dos procedimientos: (1) Se fijo en 12 el n´emro de lanzamientos y
u
se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio
la tercer sello. En ambos casos la distribuci´n muestral es
o
completamente distinta. En el primer caso es Binomial y el el
segundo es Negativa Binomial. Ahora suponga que queremos
probar la hip´tesis de que la probabilidad de que salga cara es 1
o 2
1
contra la hip´tesis de que sea mayor que 2 . Se dise˜a una prueba
o n
que es de la siguinete forma, si el n´emro de caras observadas es
u
superior a algun umbral c, entonces se se rechaza la hip´tesis de
o
que estados (probabilidad de que salga) sea 1 . Por definici´n el
2 o
p-valor de esta hip´tesis es la probabilidad de observar 9 o m´s
o a
caras en el experimento. Si calculamos el p-valor bajo para los dos
procedimientos en el primero aceptamos la hip´tesis nula y en el
o
52. Discusi´n
o
La forma como en la teor´ cl´sica se eliminan par´metros es
ıa a a
mediante la sustituci´n de los mismos por un par´metro. En el
o a
an´lisis Bayesiano se promedia sobre todos sus posibles
a
valores.
53. Contenido
Introducci´no
El concepto de probabilidad
La Aproximaci´n Bayesiana a la Estad´
o ıstica
Comparaci´n de modelos
o
Propiedades cl´sicas de la aproximaci´n Bayesiana
a o
Discusi´n
o
Teor´ de la decisi´n robusta
ıa o
Teor´ de la decisi´n robusta
ıa o
M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos