1 teoria decision presentacion

Contenido
Introduccińo
El concepto de probabilidad
La Aproximaciń Bayesiana a la Estad´
o ıstica
Comparaciń de modelos
o
Propiedades cl´sicas de la aproximaciń Bayesiana
a o
Discusiń
o
Teor´ de la decisiń robusta
ıa o

Teor´ de la Decisiń
ıa o

Alvaro J. Riascos Villegas
Universidad de los Andes y Quantil

Enero 30 de 2012

M´todos Bayesianos - Banco de Guatemala
e Alvaro Riascos

Contenido
Introduccińo
o ıstica
o
a o
Discusiń
o
ıa o

1 Introducciń
o
2 El concepto de probabilidad
3 La Aproximaciń Bayesiana a la Estad´
o ıstica
Teor´ de la decisiń
ıa o
Riesgo frecuentista
Riesgo Bayesiano
Familias Conjugadas
Estimadores
Prueba de hip´tesis
o
Predicciones
4 Comparaciń de modelos
o
5 Propiedades cl´sicas de la aproximaciń Bayesiana
a o
6 Discusiń
o
7 Teor´ de la decisiń robusta
ıa o
e Alvaro Riascos

Contenido
Introduccińo
o ıstica
o
a o
Discusiń
o
ıa o

Introducciń
o
La teor´ cl´sica utiliza la informaciń muestral para hacer
ıa a o
inferencias sobre los par´metros de inter´s.
a e
La importancia de la informaciń muestral se pone de
o
manifiesto en este ejemplo de Savage (1961).
Example (Savage (1961))
Uso de la informaciń muestral.
o
1 Una mujer adiciona te a una tasa de leche y afirma poder diferencia
que ingrediente se utiliz´ primero. En 10 experimentos acierta en
o
todos.
2 Un m´sico afirma poder diferenciar entre un partitura de Mozart y
u
una de Hayden. En 10 experimentos siempre acierta.
3 Untodos Bayesianos - Banco afirma poder Alvaro Riascos lado que cae una
M´
e
amigo borracho de Guatemala predecir el

Introducciń
o

Usualmente existe informaciń incial sobre los par´metros de
o a
un modelo estructural.
Probabilidad = Incertidumbre. En la teor´ Bayesiana el
ıa
concepto de probabilidad tiene una interpretaciń distinta a la
o
teor´ cl´sica o frecuentista. El concepto de probabilidad es
ıa a
una medida de la incertidumbre sobre la ocurrencia de un
evento. A diferencia de la teor´ cl´sica es posible dar
ıa a
interpetaciones sobre la incertidumbre de un par´metro que
a
no estń basadas en la repeticiń bajo condiciones iguales de
a o
un experimento (intervalos de confianza). Por ejemplo es
posible cuantificar en t´rminos probabil´
e ısticos el grado de
incertidubre con la cu´l se hace un pron´stico.
a o

Introducciń
o

Permite condicionar a los datos observados. En el an´lisis
a
cl´sico se promedia sobre los los datos, aun los no observados.
a
Distribuciones exactas. La teor´ cl´sica se basa en muchas
ıa a
ocasiones en teor´ asint´tica.
ıa o
Coherencia y racionalidad: La teor´ Bayesiana es una
ıa
aproximaciń general al problema de inferencia consistente
o
con la teor´ de la decisiń.
ıa o
Las reglas de decisiń en un contexto Bayesiano son ´ptimas
o o
desde un punto de vista cl´sico.
a
Mćanica Bayesiana: Siempre se sabe qu´ hacer.
e e
Computacionalmente es dif´
ıcil.

Introducci´n
o

Razones t´cnicas:
e
1 Permite hacer inferenecia estad´
ıstca en modelos no regulares.
2 Permite introducir incertidumbre en los par´metros para hacer
a
prediciciones.
3 Permite hacer pruebas de modelos no anidados.
4 Se pueden analizar modelos jer´rquicos de forma
a
conceptualmente muy coherente.

Contenido
Introducci´no
o ıstica
o
a o
Discusi´n
o
ıa o


Existen por lo menos tres interpretaciones del concepto:
objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey,
de Finetti, Savage), l´gica.
o
Axiomas de Kolmogorov.

e Alvaro Riascos


Riesgo e incertidumbre: La paradoja de Ellsberg: Una urna
contiene 90 bolas donde 30 son rojas. El resto de las bolas son
amarillas o negras y su distribuciń es desconocida. Algunas
o
personas fueron sometidas a una apuesta. Apuesta A: Quien
saque una bola roja gana una cantidad monetaria, las
amarillas y las negras pierden. Apuesta B: Quien saque una
bola amarilla gana, el resto pierde. La mayor´ de las personas
ıa
optan por la A. Despu´s cambiamos las apuestas de una
e
manera que en ambos casos, las bolas negras son desde ahora
ganadoras. Apuesta C: Quien saque una bola roja o negra
gana, las amarillas pierden. Apuesta D: Quien saque una bola
amarilla o negra gana, las rojas pierden. En este caso, la
mayor´ de las personas escogen la D. Lo cual entra en
ıa
contradicciń con la desiciń anterior de escoger la apuesta A,
o o
a pesar de que la bola negra es ganadora en ambas C y D, lo
cual no aporta diferencia alguna.


Ellsberg explica ´ste resultado en t´rminos de la diferencia
e e
entre el riesgo e incertidumbre. Las personas sometidas a
estas escogencias suponen prudentemente que la distribuci´n o
desconocida entre bolas rojas y amarillas pueden traerles
desventaja y por lo tanto escogen en ambas ocasiones bajo el
riesgo conocido (1/3 en la primera prueba, 2/3 en la segunda).
Llama la atenci´n sobre la necesidad de una teor´ para
o ıa
modelar la incertidumbre.


Una forma de interpretar el concepto de probabilidad desde un
punto de vista l´gico es de acuerdo al concepto de
o
razonamiento plausible (Jaymes): cuano en el mundo real
observamos un evento B que t´ ıpicamente es consecuencia de
un evento A, decimos que A es plausible pero usalmente no es
posible deducir que A ha sucedido. La idea predominante es
que A es plausible dado que observamos B. La l´gica es que si
o
B ha ocurrido, esto arroja evidencia en favor de A.
Al fundamentar la teor´ de la probabilidad de esta forma se
ıa
obtiene una formalizaci´n de la idea del grado de
o
incertidumbre sobre la ocurrencia de un evento (plausibilidad
del evento).


Luego la interpretaciń de la probabilidad de un evento no
o
est´ relacionada con la frecuencia de un evento repetido sino
a
con el grado de incertidumbre del evento. Esta es la
interpreatciń subjetivista del concepto de probabilidad.
o
Para de Finetti la probabiidad (objetiva) de un evento no
existe. Es algo tan ficticio y en contradiciń con laevidencia
o
cuanto la existencia del ´ter.
e
Cu´l es la probabilidad de cada n´mero cuando se lanza un
a u
dado al aire?
La idea de aprendizaje en un ambiente incierto puede ser sutil.


La paradoja del gato I. Una persona est´ frente a tres puertas
a
cerradas. Se sabe que detr´s de alguna de las puertas hay un
a
gato. La persona se le pide escoger una puerta. Antes de abrir
cualquier puerta, una segunda persona que sabe exactamente
que hay detr´s de cada puerta y conoce tambi´n cu´l fue la
a e a
puerta elegida por la primera persona, ´ste abre una de las
e
puertas que sea la elegida por la primera persona y en la que
no est´ el gato. Ahora, con una puerta abierta en la que no
e
est´ el gato, se le pregunta a la primera persona si desear´
a ıa
cambiar de puerta.


El sentido com´n dice que no hace diferencia. Pero la teor´
u ıa
de la probabilidad dice otra cosa. La probabilidad de encontrar
el gato en alguna de las dos puertas al cambiar la elecci´n
o
original es mayor que la probabilidad de que el gato est´ en la
e
primera puerta elegida.


Definiciń probabiidad condicional. Dados dos evento A y B,
o
tal que P(B) > 0 definimos la probabilidad condicional de A
dado B como:
P(A ∩ B)
P(A |B) = . (1)
P(B)

El teorema de Bayes (o regla de Bayes) afirma que:

P(B |A) × P(A)
P(A |B) = . (2)
P(B)

Este resultado es la base de toda la estad´
ıstica Bayesiana.

La paradoja del gato II: Para formalizar este problema,
supongamos que la primera elecciń fue la tercera puerta.
o
Sean A1 , A2 y A3 los eventos en los cuales el gato est´ detr´s
a a
de la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 los
eventos en los cuales el segundo jugador abre la puerta 1 o 2
reespectivamente. Nuetro objetivo es calcular P (Ai |Bj ) .
Entonces dada la informaciń del problema es natural suponer:
o
1
P(Ai ) = , P (B1 |A1 ) = P (A2 |B2 ) = 0
3

P(B1 |A2 ) = P(B2 |A1 ) = 1
y
1
P(B1 |A3 ) = P(B2 |A3 ) = .
2
Entonces si la segunda persona abre la puerta 2 es fćil
a
2
calcular, usando la regla de Bayes, P A1 |B2 ) = 3 .

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

o ıstica
Sea Θ un espacio de par´metros o estados de la naturaleza y
a
Ξ un espacio de datos observables.
En t´rminos de funciones de densidad el teorema se puede
e
expresar como:

f (y |θ)f (θ)
f(θ |y ) = f (y )

donde f (y ) es la distribuciń marginal de la variable aleatoria
o
Y (o distribuciń marginal de los datos):
o

f (y ) = f (y |θ)f (θ)dθ,
Θ
f (θ |y ) es la distribuciń expost (posteriori) del par´metro θ
o a
e Alvaro Riascos

o ıstica

La funciń L(θ|y )= f (y |θ) , como funiciń de θ se llama la
o o
funciń de verosimilitud.
o
f (θ) es la distribuciń inicial (prior) sobre los par´metros.
o a

o ıstica

Obs´rvese que no se ha hecho ninguna hip´tesis sobre la
e o
forma de la distribuciń muestral. En general suponemos que
o
y es un vector de obsrevaciones y f (y |θ) es la distribuciń
o
conjunta o distribuciń del vector aleatorio Y .
o
En pocas palabras la estad´
ıstica Bayesiana es un modelo
formal de aprendizaje en un ambiente incierto aplicado a la
inferencia estad´
ıstica.
La mecńica Bayesiana es siempre la misma. Formule un
a
distribuciń inicial para lo par´metros y calcule la distribuciń
o a o
expost.
El resultado final del an´lisis Bayesiano es la distribuciń
a o
expost. En el an´lisis cl´sico, el obejetivo final es un estimador
a a
que si bien es una variable aleatoria es, conceptualmente, muy
distinto.

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

ıa o

En la teor´ de decisiń la idea es combinar la informaciń
ıa o o
muestral con informaciń no muestral con el objeto tomar una
o
decisń ´ptima.
o o
El an´lisis Bayesiano comparte con la teor´ de la decisiń el
a ıa o
uso de informaciń no muestral.
o
Recordemos que Θ es el espacio de par´metros o estados de la
a
naturaleza. θ ∈ Θ es un estado de la naturaleza.
Sea A el espacio de acciones del tomador de decisiones. a ∈ A
es una acciń.
o

e Alvaro Riascos

ıa o

Un problema de decisiń es una funciń D : A × θ → C ,
o o
donde C es un espacion de consecuencias. Suponemos que el
agente tiene preferencias sobre el conjunto de consecuencias
que las representamos mediante una funciń de (des)utilidad.
o
A continuaciń definimos la funciń de p´rdida como la
o o e
composiciń de la funciń D y la funciń de (des)utilidad.
o o o

ıa o

Un problema de desiciń est´ bien puesto cuando el conjunto
o a
la especificaciń del conjunto de acciones, estados de la
o
naturaleza y consecuencias son tales que las preferencias del
tomador de decisiones sobre las consecuencias son totalmente
independientes de las acciones o estados de la naturaleza.

ıa o

Sea L(θ, a) una funciń de p´rdida.
o e
Definimos la perdida esperada expost o p´rdidad esperada
e
Bayesiana cuando se toma una decisiń a ∈ A como:
o

ρ(a |y ) = L(θ, a)f (θ |y )dθ
Θ
Dada una funciń de p´rdida y una distribuciń expost,
o e o
definimos el estimador Bayesiano de θ como:

θB (y ) = argmina∈A ρ(a |y )

ıa o

Example (Funciones de p´rdida)
e
Algunas funciones de p´rdida est´ndar son:
e a
1 P´rdida cuadr´tica.
e a
2 Error absoluto.
Los respectivos estimadores son el valor esperado y la mediana
expost del par´metro respectivamente. Veriﬁcar el primer caso es
a
inmediato.

ıa o

Example (Distribuciń inicial y muestral normal)
o
Supongamos que tenemos una muestra de n observaciones
y1 , ..., yn , yi i.i.d N(µ, 1) entonces la distribuciń muestral
o
(funciń de verosimilitud) es:
o

n 1
p(y |µ) = (2π)− 2 σ −n exp(− (yi − µ)2 ) (3)
2σ 2
i

Ahora supongamos que la distribuciń inicial p(µ) N µ0 , σ0
o 2

donde los par´metros de esta distribuciń son conocidos (estos se
a o
denominan hiperpar´metros). Obs´rvese que antes de observar los
a e
datos, si el agente tiene una funciń de p´rdida que es cuadr´tica,
o e a
entonces el estimador Bayesiano (exante) de µ es µ0 .

ıa o

La distribuci´n expost es:
o

p(µ |y ) ∝ p(y |µ) p(µ) (4)
1
∝ exp(− 2 (µ − µ)2 ) (5)
2σ
n 1
σ2
y + σ 2 µ0
0
µ= n 1
(6)
σ2
+ σ2
0
1
σ2 = n 1
(7)
σ2
+ 2
σ0

ıa o

Cuando la funciń d´ p´rdida es la funciń de error
o e e o
cuadr´tico. Entonces el estimador Bayesiano (expost) es:
a

E [µ |y ] = µ (8)

Es decir, el valor esperado expost de µ es una combinaciń
o
convexa del estimador cl´sico y de los datos observados y la
a
media inicial.
Cuando el n´mero de observaciones es grande o la
u
incertidumbre de la distribuciń inicial es grande, el estimador
o
Bayesiano se apr´xima al estimador cl´sico.
o a

ıa o

δ : Ξ → A es una regla de decisiciń.
o
Un tipo de reglas de decisiń importante son las reglas de
o
decisiń aleatorias.
o
Para un problema sin datos, una regla de decisiciń es
o
simplemente una acciń.
o

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

Riesgo frecuentista
Definition (Funciń de Riesgo Cl´sica)
o a
Dada una regla de decisiń δ y una funciń de p´rdida definimos la
o o e
funciń de riesgo (cl´sica) como:
o a

R(θ, δ) = EY [L(θ, δ)] = L(θ, δ(y ))dF (y |θ) (9)

Obs´rvese que la funciń de riesgo cl´sica promedia sobre
e o a
todas las realizaciones posibles de los datos (aun aquellas que
no han ocurrido!).
Esta es una funciń del estado y la regla de decisiń (la regla
o o
de desiciń es t´
o ıpicamente un estimador).
e Alvaro Riascos

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

A diferencia de la p´rdida esperada Bayesiana que es un
e
n´mero, el riegso frecuentista depende del estado. Esto
u
dificulta el problema de escoger una regla de decisiń para
o
minimizar el riesgo ya que ´sta va depender del estado.
e
La siguiente definiciń acota el universo razonable de reglas de
o
decisiń.
o
Definition (Admisibilidad)
Dada una funciń de p´ridida. Decimos que una regla de decisiń δ
o e o
es inadmisible si existe otra regla de decisiń que la (domina
o
d´bilmente) para toda realizaciń posible de los estados. De lo
e o
contrario se llama admisible.

e Alvaro Riascos

Riesgo frecuentista

Bajo condiciones d´biles se puede mostrar que los estimadores
e
Bayesianos son admisibles. Existe un teorema converso
llamado teorema de completo de clases.
En la teor´ cl´sica estad´
ıa a ıstica existen algunas formas de
resolver el problema de decisi´n:
o
1 M´xima verosimilitud.
a
2 M´ınima varianza.
3 M´ınimos cuadrados ordinarios.
4 Sesgo nulo.
5 Soluci´n minimax.
o

Riesgo frecuentista

Una regla de decisiń δ M satisface el principio minimax si:
o

supθ∈Θ R(θ, δ M ) = infδ∈∆(D) supθ∈Θ R(θ, δ) (10)

donde ∆(D) denota e conjunto de reglas de decisiń o
aleatorias (que tienen como rango las acciones mixtas).
Intuitivamente, una regla de decisiń satisface el principio
o
minimax si permite asegurar el m´ınimo riesgo en el pero de los
casos (peor estado).
Invarianza: Este principio afirma que las reglas de decisiń
o
deben ser las mismas cuando los problmeas de decisiń tienen
o
la misma estructura.

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

Riesgo Bayesiano
Definition (Riesgo Bayesiano)
Dada una regla de decisiń δ, una funciń de p´ridida L y una
o o e
distribuciń inicial de los par´metros p definimos la funciń de
o a o
riesgo Bayesiana como:

r (δ, p) = Ep [R(θ, δ)] = R(θ, δ)dp(θ) (11)
Θ

Obs´rvese que el riesgo Bayesiano promedia sobre el espacio
e
de par´metros y es una funciń unicamente de la regla de
a o ´
decisiń y la idstribuciń inicial de los par´metros.
o o a
e Alvaro Riascos

Riesgo Bayesiano

Asociado a el riesgo Bayesiano hay un principio de decisiń.
o
Una regla de decisiń δ B es una regla de decisiń Bayesiana si:
o o

r (θ, δ B ) = infδ∈D R(θ, δ) (12)

donde D es el espacio de reglas de decisiń.
o

Riesgo Bayesiano

En la teor´ de la decisiń, la forma estńdar de resolver el
ıa o a
problema de decisiń es usando el principio condicional de
o
Bayes. Una regla de decisiń condicional Bayesiana δ CB es
o
una regla de decisiń tal que:
o

ρ(θ, δ CB (y )) = infa∈A ρ(θ, a) (13)

Obs´rvese que en un problema sin datos, la regla de decisiń
e o
condicional coincide con la regla de desiciń de Bayes.
o
En general se cumple que la decisiń usando la regla
o
condicional es igual a decisiń usando la regla de Bayes.
o

Contenido
ıa o
Introducci´no
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusi´n
o
Predicciones
ıa o

Familias Conjugadas

Dada una familia de de distribuciones muestrales F, decimos
que una familia de distribuciones iniciales P es una familia
conjugada para F si la distribucion expost es siempre un
elemento de P. Decimos que natural conjugada si es
conjugada y si est´ en la familia de distribuciones muestrales.
a

e Alvaro Riascos

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

Estimadores

El estimador de m´ximaverosimilitud generalizado de es aquel
a
que maximiza la distribuciń expost.
o
Este es el el valor m´s probable dado la idstribuciń inical del
a o
par´metro y la muestra y .
a
El error de un estimador se define como la desviaciń
o
cuadr´tica promedio de los par´metros con respecto al
a a
estimador utilizando la distribuciń expost.
o

e Alvaro Riascos

Contenido
ıa o
Introduccińo
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusiń
o
Predicciones
ıa o

o

Un subconjunto C de Θ es críble con un nivel de confianza
e
1 − α (condicional a y ) si:

1 − α ≤ P(C |y ) (14)

Un conjunto creible tiene un significado probabil´
ıstico (aunque
subjetivo). Esto no ocurre siempre en la teor´ cl´sica.
ıa a
Un problema con la nociń Bayesiana de conjunto cre´ (o
o ıble
intervalo de confianza) es que pueden existir mucho onjunto
cre´
ıbles. Una forma, adhoc, de selecionar uno es calculando
conjunto cre´ de mayor densidad de expost.
ıble

e Alvaro Riascos

o

Sea kα el mayor k tal que:

P(θ ∈ Θ : f (θ |y ) ≥ k |y ) ≥ 1 − α (15)

Entonces deﬁnimos el conjunto cre´ CHPD con un nivel de
ıble
conﬁanza 1 − α como:

CHPD = {θ ∈ Θ : f (θ |y ) ≥ kα } (16)

o

La prueba de hip´tesis en estad´
o ıstica cl´sica consiste en
a
estudiar los errores tipo I y II (probabilidad que la muestra
observada resulte en la hip´tesis incorrecta siendo aceptada).
o
En estad´ıstica Bayesiana la prueba de hip´tesis es
o
conceptualmente sencillo: comparar la probabilidad expost
P(Θ1 |y ) y P(Θ2 |y ) donde las pruebas de hip´tesis son:
o
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 .
La razń entre estas dos probabilidades se llama posterior
o
odds ratio. La misma razń pero con las probabilidades
o
iniciales se llama prior odd ratios.
La razń entre el posterior y el prior odds se llama factor de
o
Bayes (Berger).
Cuando las hip´tesis son simples, el factor de Bayes es
o
simplemente la razń de las funciones de verosimilitud.
o

Contenido
ıa o
Introducci´no
Riesgo frecuentista
Riesgo Bayesiano
o ıstica
Familias Conjugadas
o
Estimadores
a o
o
Discusi´n
o
Predicciones
ıa o

Predicciones
Supongams que queremos pron´sticar una variable z basado
o
en la variable bservable y . En estad´
ıstica Bayesiana el objeivo
es determinar p(z |y ) .
Esto se puede escribir:

p(z |y ) = p (z, θ |y ) dθ (17)
Θ

p(z |y ) = p (z |y , θ)p(θ |y ) dθ (18)
Θ
p(z |y ) se denomina la densidad predictiva de z dado los datos
observables y .
El an´lisis Bayesiano trata de forma sim´trica, par´metros,
a e a
observables y predicciones: son todas variables aleatorias.
e Alvaro Riascos

Contenido
Introduccińo
o ıstica
o
a o
Discusiń
o
ıa o

o
Un modelo se define formalmente como una distribuciń o
inicial y una distribuciń muestral.
o
Supongamos que tenemos m modelos que buscan explicar los
datos observado y .
Usando la distribuciń inicial y muestral de cada modelo
o
calculamos la distribuciń expost de los datos.
o
P(y |θ, M) P(θ |M)
P(θ |y , M) = (19)
p(y |M)
donde p(y |M) es la distribuciń marginal de los datos
o
condicional al modelo. Esta tambiń se denomina la
e
verosimilitud marginal y se puede obtener mediante la
integraciń obvia.
o
e Alvaro Riascos

o

Ahora podemos tener una distribuciń inicial de cada uno de
o
los modelos (grado de confianza que tenemos en el modelo) y
esto nos permite calcular la distribcuiń expost sobre nuestra
o
confianza en el modelo condicional a los datos observados:
P(y |M)P(M)
P(M |y ) = (20)
p(y )

donde P(M) el la distribuciń inicial del modelo.
o
Obs´rvese que la verosimilitud marginal se obtiene mediante
e
integracińy en principio, con ´sta, se puede calcular la
o e
distribuciń expost del modelo (dados la distribuciń inical de
o o
los modelos y la distribuciń marginal de los datos).
o

o

Como usualmente es dificil determinar la distribuciń marginal
o
de los datos lo que se hace es comparar la razń entre las
o
distribuciones expost:

P(M i |y )
POij = (21)
P(M j |y )

denominado posterior odds ratio.

o

Cuando la prior sobre cada modelo es la misma, el posterior
odds ratio se reduce a la raz´n entre las verosimilitudes
o
marginales.

P(y M i
BFij = (22)
P(y |M j )

El caso de comparar dos modelos lineales bajor normalidad es
posibels hacerlo a mano.

Contenido
Introduccińo
o ıstica
o
a o
Discusiń
o
ıa o

a o

Consideremos el problema de consistencia.
Supongamos que existe una distribuciń poblacional f (y ).
o
Sea p(y |θ) la distribuciń muestral.
o
Definamos la distancia entre ambas distribuciones como la
distancia de Kullback - Leibler.
Sea θ∗ el valor que minimiza la distancia entre la distribuciń
o
poblacional y la distribuciń muestral. Uno puede mostrar que
o
si existe un par´metro verdadero tal que la distribuciń
a o
muestral es igual a la distribuciń poblacional entonces θ∗ es
o
el par´metro verdadero. En este caso decimos que el modelo
a
muestral est´ bien especificado.
a
e Alvaro Riascos

a o

Theorem (Consistencia)
Supongamos que es espacio de estados Θ es compacto y sea Θ0
una vecindad del verdadero par´metro θ0 con probabilidad inicial
a
difeerente de cero. Entonces,

p(θ ∈ Θ0 |y ) → 1

cuando el tamaõ de la muestra crece hacia el infinito.
n

Es decir, si el modelo est´ bien especificado (distribuciń
a o
muestral es igual a la poblacional para algń par´metro)
u a
entonces la distribuciń expost se va concetrar
o
asint´ticamente alrededor del verdadero par´metro siempre el
o a
verdadero par´metro est´ en el soporte de la distribuciń
a e o
inicial.

Contenido
Introduccińo
o ıstica
o
a o
Discusiń
o
ıa o

Discusiń
o
Obs´rvese que la principal diferencia entre el an´lisis cl´sico y
e a a
el Bayesiano se deriva de la forma radicalmente de intepretar
los par´metros, modelos y pron´sticos de un modelo. Estos
a o ´
tres se intepretan como variable aleatorias y en ese sentido se
les da un tratamiento sim´trico con los datos observados.
e
La diferencia fundamental entre ambas aproximaciones es el
uso de informaciń inicial en el proceso de inferencia. La
o
teor´ cl´sica responde
ıa a
1 Antes de observar los datos, qu´ podemos esperar.
e
2 Antes de observar los datos, qu´ tan precisos son los
e
estimadores.
3 Dado que la hip´tesis a estudiar es verdadera, que probabilidad
o
existe de que los datos indiquen que es verdadera.
Laetodos Bayesianos -on Bayesiana considera que las preguntas
M´ aproximaci´ Banco de Guatemala Alvaro Riascos

Discusiń
o

Example (Distribuciń inicial y muestral normal)
o
Considere la distribuciń expost cuando la distribuciń inical no es
o o
informativa. Es fćil mostrar que el estimador Bayesiano m´s o
a a
menos una distribuciń estńdar (de la distribuciń expost) es:
o a o
σ
µ=y±√ (23)
n

Ahora la distribuciń del estimador cl´sico y m´s o menos una
o a a
desviaciń estńdar es igual. Sin embargo, la intepretaciń es
o a o
completamente distinta. En el primer caso la interpretaciń es:
o
Qu´ tan preciso es la estimaciń de mu dado que hemos observado
e o
ciertos datos.

Discusiń
o
Una cr´ıtica estńdard al an´lisis Bayesiano es la necesidad de
a a
definir una distribuciń inicial de los estados.
o
Bajo condiciones d´biles, siempre existe una prior natural.
e
Decimos que la distribuciń marginal conjunta de los datos es
o
intercambiable si es invariante frente a permutaciones de los
sub´ındices de los datos.
Suponga que los datos toman valores cero o uno unicamente.
´
Entonces el Teorema de deFinetti afirma que los datos se
pueden interpeetar como distribuidos condicional i.i.d con yi θ
distribuido Bernoulli con par´metro θ. Ademas caracteriza la
a
distribuciń asint´tica del par´metro θ en t´rminos del la
o o a e
media muestral. El converso tambiń vale.
e
Luego la intercambiabilidad es una hip´tesis natural en ciertas
o
circunstancias que racionaliza la escogencia de un modelo de
mixtura de Bernoulli dejando como grado de libertad la
distribuciń asint´tica del θ para lo cal basta con expresar
o o
nuestra distribuciń inicial sobre la distribuciń de la media
o o
muestral.

Discusiń
o

Example (Laboratorios)
Una sustancia debe ser analizada y existen dos laboratorios
igualmente buenos para hacerlo. Para tomar una decisiń se lanza
o
una moneda al aire. Al recibir los resultados del laboratorio
escogido el agente se pregunta: Deber´ ıamos de llevar en
consideraciń que estos resultados dependen de que se lanzo al aire
o
una moneda que hubiera podido indicar que fuera el otro
laboratorio el que hiciera el examen? De acuerdo a la visiń cl´sica
o a
deber´ıamos de promediar sobre todos los posibles resultados
incluyendo los del laboratorio que no hizo la prueba.

Discusiń
o
Example (Diferentes distribuciones muestrales)
Suponga que se lanza de forma independiente 12 monedas al aire y
se obervan 9 caras y 3 sellos. Esta informaciń no especifica
o
completamente el experimento puesto que pudo ser el resultado de
dos procedimientos: (1) Se fijo en 12 el némro de lanzamientos y
u
se lanzo la moneda y (2). La moneda se lanzo hasta que aparecio
la tercer sello. En ambos casos la distribuciń muestral es
o
completamente distinta. En el primer caso es Binomial y el el
segundo es Negativa Binomial. Ahora suponga que queremos
probar la hip´tesis de que la probabilidad de que salga cara es 1
o 2
1
contra la hip´tesis de que sea mayor que 2 . Se diseã una prueba
o n
que es de la siguinete forma, si el némro de caras observadas es
u
superior a algun umbral c, entonces se se rechaza la hip´tesis de
o
que estados (probabilidad de que salga) sea 1 . Por definiciń el
2 o
p-valor de esta hip´tesis es la probabilidad de observar 9 o m´s
o a
caras en el experimento. Si calculamos el p-valor bajo para los dos
procedimientos en el primero aceptamos la hip´tesis nula y en el
o

Discusi´n
o

La forma como en la teor´ cl´sica se eliminan par´metros es
ıa a a
mediante la sustituci´n de los mismos por un par´metro. En el
o a
an´lisis Bayesiano se promedia sobre todos sus posibles
a
valores.

Contenido
Introducci´no
o ıstica
o
a o
Discusi´n
o
ıa o

ıa o

e Alvaro Riascos

1 teoria decision presentacion

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

1 teoria decision presentacion