SlideShare una empresa de Scribd logo
1 de 64
Descargar para leer sin conexión
Programação dinâmica em tempo real
para Processos de Decisão Markovianos
com Probabilidades Imprecisas
28 de novembro de 2014 - IME/USP
Daniel Baptista Dias
Orientadora: Karina Valdivia Delgado
1
Agenda
 Introdução
 Introdução
 Motivação / Objetivos
 Stochastic Shortest Path MDP (SSP MDP)
 Definições formais
 Soluções para SSP MDP
 Stochastic Shortest Path MDP-IP (SSP MDP-IP)
 Definições formais
 Soluções síncronas para SSP MDP-IP
 Algoritmos assíncronos para SSP MDP-IPs
 Experimentos e Resultados
 Conclusões
2
Introdução
 Os Processos de Decisão Markovianos (MDPs) tem sido
usados como um arcabouço padrão para problemas de
planejamento probabilístico.
 Eles modelam a interação de um agente em um ambiente,
que executam ações com efeitos probabilísticos que
podem levar o agente a diferentes estados.
3
Introdução
 Exemplo: Navegação de robôs
𝟎, 𝟗
𝟎, 𝟏
4
Introdução
 Entretanto, pode ser difícil obter as medidas precisas das
probabilidades de transição
𝒑 𝟏
𝒑 𝟐Em que:
𝟎, 𝟕 ≤ 𝒑 𝟏 ≤ 𝟎, 𝟗
𝟎, 𝟏 ≤ 𝒑 𝟐 ≤ 𝟎, 𝟑
5
Introdução
 Processos de Decisão Markovianos com Probabilidades
Imprecisas (MDP-IPs)
 As probabilidades imprecisas são dadas através de parâmetros nas
transições de estados restritas por um conjunto de inequações
 Geralmente modelados de duas maneiras:
 MDP-IP enumerativo: estados com informações autocontidas
 MDP-IP fatorado: estados representados por variáveis de estado
 Solução para MDP-IPs fatorados: SPUDD-IP
 Algoritmo de programação dinâmica síncrona fatorada
 Supera o algoritmo clássico enumerativo Iteração de Valor em duas
ordens de magnitude
6
Introdução
 Stochastic Shortest Path MDPs (SSP MDPs)
 Apresentados por Bertsekas eTsitsiklis (1991)
 Considera um estado inicial e um conjunto de estados meta
 Soluções comuns para SSP MDPs
 Algoritmos de programação dinâmica assíncrona
 Exploram a informação de um estado inicial do problema
 Obtêm uma política ótima parcial
 Algoritmos conhecidos: RTDP e SSiPP
 Short Sighted SSP MDPs (Trevizan, 2013)
 São problemas menores criados a partir de SSP MDP
7
Introdução
estados
iniciais
estados
meta
Estados
estados alcançáveis
Exemplo de atualizações assíncronas no espaço de estados
8
Motivação
 Nunca foram propostos algoritmos de programação dinâmica
assíncrona para SSP MDP-IPs com restrições gerais
 Deve-se adaptar algumas características do (L)RTDP e (L)SSiPP
para se criar estes algoritmos para SSP MDP-IPs
 As principais são:
 Como garantir a convergência de soluções de programação dinâmica
assíncrona para SSP MDP-IPs?
 Como amostrar o próximo estado no trial dadas as probabilidades
imprecisas?
 Como criar os Short-Sighted SSP MDP-IPs a partir de SSP MDP-IPs?
9
Objetivos
 O objetivo deste trabalho de mestrado é:
Propor novos algoritmos assíncronos para resolver SSP MDP-IPs
enumerativos e fatorados, estendendo os algoritmos (L)RTDP e
(L)SSiPP para lidar com um conjunto de probabilidades no lugar
de probabilidades precisas.
10
Agenda
 Introdução
 Introdução
 Motivação / Objetivos
 Stochastic Shortest Path MDP (SSP MDP)
 Definições formais
 Soluções para SSP MDP
 Stochastic Shortest Path MDP-IP (SSP MDP-IP)
 Definições formais
 Soluções síncronas para SSP MDP-IP
 Algoritmos assíncronos para SSP MDP-IPs
 Experimentos e Resultados
 Conclusões
11
SSP MDPs – Definição formal
 Um SSP MDP (Bertsekas e Tsitsiklis, 1991), é uma tupla
S, 𝐴, 𝐶, 𝑃, 𝐺, 𝑠0 em que:
 𝑆 é um conjunto finito de estados
 𝐴 é um conjunto finito de ações
 𝐶 ∶ 𝑆 × 𝐴 → ℛ+ é uma função de custo
 𝑃(𝑠′|𝑠, 𝑎) define a probabilidade de transição de se alcançar
um estado 𝑠′ ∈ 𝑆 a partir de um estado 𝑠 ∈ 𝑆, executando a
ação 𝑎 ∈ 𝐴
 𝐺 ⊆ 𝑆 é um conjunto de estados meta, definidos como estados
de absorção. Para cada 𝑠 ∈ 𝐺, 𝑃(𝑠|𝑠, 𝑎) = 1 e 𝐶(𝑠, 𝑎) = 0 para
todo 𝑎 ∈ 𝐴
 𝑠0 ∈ 𝑆 é o estado inicial
12
SSP MDPs – Definição formal
 Este modelo assume dois pressupostos (Bertsekas e
Tsitsiklis, 1991):
 Política apropriada: Cada 𝑠 ∈ 𝑆 deve ter ao menos uma
política apropriada, i.e., uma política que garante que um estado
meta é alcançado com probabilidade 1.
 Política imprópria: Cada política imprópria deve ter custo
∞ em todos os estados que não podem alcançar a meta com
probabilidade 1.
13
Short-Sighted SSP MDPs – Definição formal
 Short-Sighted SSP MDP: um subproblema originado de um SSP
MDP com estados alcançados por 𝑡 ações aplicadas a partir de
𝑠.
 Medida de distância entre os estados é:
𝛿 𝑠, 𝑠′ =
0 , 𝑠𝑒 𝑠 = 𝑠′
1 + min
𝑎∈𝐴
min
𝑠:𝑃 𝑠 𝑠,𝑎 >0
𝛿 𝑠, 𝑠′
, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
14
Short-Sighted SSP MDPs – Definição formal
 Short-Sighted SSP MDP: um subproblema originado de um SSP
MDP com estados alcançados por 𝑡 ações aplicadas a partir de
𝑠.
 Medida de distância entre os estados é:
𝛿 𝑠, 𝑠′ =
0 , 𝑠𝑒 𝑠 = 𝑠′
1 + min
𝑎∈𝐴
min
𝑠:𝑃 𝑠 𝑠,𝑎 >0
𝛿 𝑠, 𝑠′
, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
Exemplo de um Short-Sighted SSP MDP enraizado em 𝑠0 com 𝑡 = 2
15
Short-Sighted SSP MDPs – Definição formal
 Um Short-Sighted SSP MDP enraizado em 𝑠 ∈ 𝑆 e com
profundidade 𝑡 ∈ 𝒩+
é uma tupla 𝑆𝑠,𝑡, 𝐴, 𝐶𝑠,𝑡, 𝑃, 𝐺𝑠,𝑡, 𝑠 , onde:
 𝐴 e 𝑃 são definidos como em SSP MDPs;
 𝑆𝑠,𝑡 = {𝑠′
∈ 𝑆|𝛿 𝑠, 𝑠′
≤ 𝑡}
 𝐺𝑠,𝑡 = 𝑠′ ∈ 𝑆 𝛿 𝑠, 𝑠′ = 𝑡 ∪ 𝐺 ∩ 𝑆𝑠,𝑡
 𝐶𝑠,𝑡 𝑠′, 𝑎, 𝑠′′ =
𝐶 𝑠′, 𝑎, 𝑠′′ + 𝐻(𝑠′′)
𝐶 𝑠′, 𝑎, 𝑠′′
𝑠𝑒 𝑠′′∈𝐺𝑠,𝑡G
𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
 Onde 𝐻(𝑠) é uma heurística definida para o estado 𝑠
 Neste trabalho o custo será considerado dependente apenas
de 𝑠 e 𝑎, i.e., 𝐶(𝑠′, 𝑎) e 𝐻 𝑠′′ = 0
16
SSP MDPs – IV
 Para resolver um SSP MDP é usado equação de Bellman:
𝑉∗
(𝑠) = 𝑚𝑖𝑛 𝑎∈𝐴 𝐶 𝑠, 𝑎 + 𝑃 𝑠′
𝑠, 𝑎 𝑉∗
(𝑠′)
𝑠′∈𝑆
 Iteração de Valor: algoritmo de programação dinâmica
síncrona
𝑉 𝑡+1
𝑠 = 𝐵𝑉 𝑡
𝑠 = min
𝑎∈𝐴
𝑄 𝑡+1
(𝑠, 𝑎)
𝑄 𝑡+1(𝑠, 𝑎) = 𝐶(𝑠, 𝑎) + 𝑃 𝑠′ 𝑠, 𝑎 𝑉 𝑡(𝑠′)
𝑠′∈ 𝑆
17
SSP MDPs – RTDP
 Programação dinâmica em tempo real, proposto por
Barto et al (1995)
 Solução de programação dinâmica assíncrona:
 Simula uma política gulosa a partir do estado inicial (trial)
 A cada visita de estado, seu valor é atualizado usando a
equação de Bellman e uma simulação da execução da melhor
ação é feita a fim de visitar outro estado
18
SSP MDPs – RTDP
 O trial é interrompido quando o algoritmo encontra um
determinado estado meta
 A convergência do algoritmo pode demorar
 Estados visitados com menos frequência sofrem poucas atualizações
19
SSP MDPs – LRTDP
 Extensão do RTDP, proposta por Bonet e Geffner (2003)
 Melhora a convergência através da rotulação dos estados
que convergiram
 Características:
 Os trials são interrompidos quando um estado rotulado é
encontrado
 Ao final de um trial, os estados visitados são atualizados se
necessário e a convergência dos mesmos é verificada (através
do procedimento CheckSolved)
20
SSP MDPs – SSiPP
 SSiPP (Short-Sighted Probabilistic Planner)
 Realiza a atualizações assíncronas a partir do estado inicial de
um Short-Sighted SSP MDPs.
21
Agenda
 Introdução
 Introdução
 Motivação / Objetivos
 Stochastic Shortest Path MDP (SSP MDP)
 Definições formais
 Soluções para SSP MDP
 Stochastic Shortest Path MDP-IP (SSP MDP-IP)
 Definições formais
 Soluções síncronas para SSP MDP-IP
 Algoritmos assíncronos para SSP MDP-IPs
 Experimentos e Resultados
 Conclusões
22
SSP MDP-IPs – Definição formal
 Definido por uma tupla 𝑆, 𝐴, 𝐶, 𝒦, 𝐺, 𝑠0 onde:
 𝑆, 𝐴, 𝐶, 𝐺 e 𝑠0 são definidos como qualquer SSP MDP; e
 𝒦 é um conjunto de conjuntos credais de transição, onde um
conjunto credal de transição 𝐾 é definido para cada par de
estado-ação, i.e., 𝒦 ≤ 𝒦 𝑚𝑎𝑥= S × A .
 São assumidos os pressupostos de políticas apropriadas e
impróprias.
23
SSP MDP-IPs – Definição formal
24
SSP MDP-IPs – Conjunto credal
25
SSP MDP-IPs – Critérios de escolha
 Abordagem baseada em jogos
 Utilizada para definir o valor de uma política
 Assume-se que existe outro agente no sistema, a Natureza
 Ela escolherá uma distribuição de probabilidades em um
conjunto credal assumindo algum critério
 Critério minimax
 O agente seleciona as ações que minimizam o custo futuro
 A Natureza escolhe a probabilidade que maximiza o custo
esperado do agente (i.e., a Natureza é adversária)
26
SSP MDP-IPs – Critérios de escolha
 Assim, a equação de Bellman para SSP MDP-IPs é:
𝑉∗ 𝑠 = min
𝑎∈ 𝐴
max
𝑃∈ 𝐾
𝐶(𝑠, 𝑎) + 𝑃 𝑠′ 𝑠, 𝑎 𝑉∗(𝑠′)
𝑠′∈ 𝑆
 Existe de valor de equilíbrio para um SSP game alternado
(Patek e Bertsekas, 1999)
 Este valor pode ser calculado para SSP MDP-IPs com a
equação de Bellman
27
SSP MDP-IPs – Iteração de Valor
 Iteração deValor para SSP MDP-IPs:
𝑉 𝑡+1
(𝑠) = (𝑇𝑉 𝑡
)(𝑠) = 𝑚𝑖𝑛 𝑎∈𝐴 𝑄 𝑡+1
(𝑠, 𝑎)
𝑄 𝑡+1 𝑠, 𝑎 = 𝐶 𝑠, 𝑎 + max
𝑃∈ 𝐾
𝑃(𝑠′|𝑠, 𝑎)
𝑠′∈ S
𝑉 𝑡(𝑠′)
28
Short-Sighted SSP MDP-IPs
 Um Short-Sighted SSP MDP-IP tem as mesmas definições
que os Short-Sighted SSP MDP, com uma tupla
𝑆𝑠,𝑡, 𝐴, 𝐶𝑠,𝑡, 𝑃, 𝐺𝑠,𝑡, 𝑠 .
 Porém 𝑆𝑠,𝑡 e 𝐺𝑠,𝑡 ao invés de ser definido por 𝛿 𝑠, 𝑠′
,
será definido pela função 𝛿𝐼𝑃 𝑠, 𝑠′
:
𝛿𝐼𝑃 𝑠, 𝑠′
=
0 , 𝑠𝑒 𝑠 = 𝑠′
1 + min
𝑎∈𝐴
min
𝑠:𝑃 𝑠 𝑠,𝑎 >0∀𝑃∈𝐾(⋅|𝑠,𝑎)
𝛿𝐼𝑃 𝑠, 𝑠′
, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
29
SSP MDP-IPs fatorado – definição formal
 Um SSP MDP-IP fatorado é um SSP MDP-IP em que:
 Os estados 𝑥 são especificados como uma atribuição conjunta
para um vetor 𝑋 de 𝑛 variáveis de estado (𝑋1, … , 𝑋 𝑛)
 As redes credais dinâmicas (Cozman, 2000, 2005 , Delgado et al,
2011) são utilizadas para representar a função de transição
 Os PADDs (Delgado et al, 2011) podem ser usados para
representar a função de transição
30
SSP MDP-IPs fatorado – SPUDD-IP
 O SPUDD-IP (Delgado et al, 2011) atualiza os estados
com as seguintes equações:
𝑉𝐷𝐷
𝑡+1
𝑋 = 𝑚𝑖𝑛 𝑎∈𝐴 𝑄 𝐷𝐷
𝑡+1
(𝑋, 𝑎)
𝑄 𝐷𝐷
𝑡+1
𝑋, 𝑎 = 𝐶 𝐷𝐷 𝑋, 𝑎 ⊕
max
𝑝∈𝐾 𝑎
⊗𝑖=1
𝑛
(𝑃 𝐷𝐷(𝑋𝑖
′
|𝑝𝑎 𝑎 𝑋1
′
, 𝑎) ⊗ 𝑉𝐷𝐷
𝑡
(𝑋′
)
𝑥1
′ ,⋅,𝑥 𝑛
′
31
Conversão de SSP MDP-IP fatorados
 Um SSP MDP-IP enumerativo pode ser criado através de
um fatorado pelo cálculo da probabilidades de transição
conjunta:
𝑃 𝑥′
𝑥, 𝑎 = 𝑃(𝑥𝑖
′
|𝑝𝑎 𝑎 𝑋𝑖
′
, 𝑎)
𝑛
𝑖=1
 As probabilidades de transição deste novo SSP MDP-IP
enumerativo não serão mais lineares, pois podem
envolver multiplicação de parâmetros
32
Agenda
 Introdução
 Introdução
 Motivação / Objetivos
 Stochastic Shortest Path MDP (SSP MDP)
 Definições formais
 Soluções para SSP MDP
 Stochastic Shortest Path MDP-IP (SSP MDP-IP)
 Definições formais
 Soluções síncronas para SSP MDP-IP
 Algoritmos assíncronos para SSP MDP-IPs
 Experimentos e Resultados
 Conclusões
33
Algoritmos assíncronos para SSP MDP-IPs
 Neste trabalho foram desenvolvidos os seguintes
algoritmos para SSP MDP-IPs:
 RTDP-IP
 factRTDP-IP
 SSiPP-IP
 LRTDP-IP
 factLRTDP-IP
 LSSiPP-IP
34
RTDP-IP
 Utiliza as mesmas estratégias do algoritmo RTDP, com as
seguintes alterações:
 O Bellman backup para o estado atual visitado é
executado considerando o critério minimax
 A escolha do próximo estado é feita considerando as
probabilidades imprecisas, isto é, dado uma ação gulosa,
primeiro os valores para cada 𝑝𝑖 são escolhidos, sujeitos ao
conjunto de restrições 𝜑, para depois realizar a escolha real
35
RTDP-IP – Bellman Backup
36
RTDP-IP
 Utiliza as mesmas estratégias do algoritmo para SSP
MDPs, com as seguintes alterações:
 O Bellman backup para o estado atual visitado é executado
considerando o critério minimax
 A escolha do próximo estado é feita considerando as
probabilidades imprecisas, isto é, dado uma ação
gulosa, primeiro os valores para cada 𝒑𝒊 são escolhidos,
sujeitos ao conjunto de restrições 𝝋 , para depois
realizar a escolha real
37
RTDP-IP – Escolha do próximo estado
38
RTDP-IP – Escolha do próximo estado
 A escolha do valor das probabilidades imprecisas pode
ser feita de três formas:
 Utilizando o mesmo valor computado pelo Bellman update
(método minimax_parameter_choice)
 Calculando um valor aleatório válido a cada visita de um
estado durante o trial (método rand_parameter_choice)
 Calculando um valor válido pré determinado apenas uma vez
no início do algoritmo (método predefined_parameter_choice)
39
RTDP-IP – Escolha do próximo estado
 Para os métodos:
 rand_parameter_choice
 predefined_parameter_choice
 Procedimento:
 Os vértices 𝑢𝑗 do conjunto credal 𝐾(⋅ |𝑠, 𝑎) são enumerados através do
software LRS;
 Um ponto aleatório é amostrado como uma combinação linear de 𝑢𝑗
(Devroye, 1986) como:
𝑝 = 𝑤𝑗 × 𝑢𝑗
𝑙
𝑗=0
40
RTDP-IP – Prova de convergência
 Considera a prova de Buffet e Aberdeen (2005)
 Que por sua vez estende a prova de Barto et al. (1999)
 Os seguintes pontos são provados para garantir a
convergência do RTDP-IP:
 O operador 𝑇 (Bellman Backup) é uma contração (Patek e
Bertsekas, 1999)
 A admissibilidade da função valor é mantida durante a execução do
algoritmo
 Ao realizar repetidos trials nos estados relevantes utilizando
qualquer método de amostragem do próximo estado, o RTDP-IP
converge.
41
LRTDP-IP
 Semelhante ao RTDP-IP, com as seguintes diferenças:
 O critério de parada do algoritmo e parada do trial são
idênticos ao LRTDP
 No fim de cada trial é verificado se o estado pode ser rotulado
como resolvido através do método CheckSolved-IP
 Ao se buscar os estados sucessores no CheckSolved-IP,
considera-se todas as transições parametrizadas diferentes de
0 (zero)
42
factRTDP-IP e factLRTDP-IP
 Baseado no algoritmo factRTDP (Holguin, 2013), que atualiza um
estado por vez
 Implementa o Bellman Update e a seleção do próximo estado de
forma fatorada
𝑉𝐷𝐷
𝑡+1
𝑥 = 𝑚𝑖𝑛 𝑎∈𝐴 𝑄 𝐷𝐷
𝑡+1
(𝑥, 𝑎)
𝑄 𝐷𝐷
𝑡+1
𝑥, 𝑎 = 𝐸𝑣𝑎𝑙𝑃𝐴𝐷𝐷(𝐶 𝐷𝐷 𝑋, 𝑎 , 𝑥) ⊕
max
𝑝∈𝐾 𝑎
⊗𝑖=1
𝑛
(𝑝𝐸𝑣𝑎𝑙𝑃𝐴𝐷𝐷(𝑃 𝐷𝐷(𝑋𝑖
′
|𝑝𝑎 𝑎 𝑋1
′
, 𝑎), 𝑥) ⊗ 𝑉𝐷𝐷
𝑡
(𝑋′)
𝑥1
′ ,⋅,𝑥 𝑛
′
 O factLRTDP-IP também realiza as operações de forma fatorada,
porém com chamadas ao método factCheckSolved-IP
43
SSiPP-IP e LSSiPP-IP
 Modifica o SSiPP nos seguintes pontos:
 Ao segmentar um SSP MDP-IP ele gera um Short-Sighted SSP
MDP-IP e chama um solver para SSP MDP-IPs para resolvê-lo
 Ao simular a política devolvida pelo solver, ele leva em
consideração os métodos de amostragem de próximo estado
apresentados no RTDP-IP
 O LSSiPP-IP considera os mesmos pontos e também
utiliza o método CheckSolved-IP para rotular os estados
resolvidos, considerando as probabilidades imprecisas.
44
Agenda
 Introdução
 Introdução
 Motivação / Objetivos
 Stochastic Shortest Path MDP (SSP MDP)
 Definições formais
 Soluções para SSP MDP
 Stochastic Shortest Path MDP-IP (SSP MDP-IP)
 Definições formais
 Soluções síncronas para SSP MDP-IP
 Algoritmos assíncronos para SSP MDP-IPs
 Experimentos e Resultados
 Conclusões
45
Experimentos realizados
 Dois experimentos foram realizados:
 Um comparando os algoritmos assíncronos RTDP-IP, LRTDP-IP,
factRTDP-IP e factLRTDP-IP com o algoritmo síncrono estado-
da-arte SPUDD-IP
 Outro comparando os algoritmos assíncronos LRTDP-IP e
LSSiPP-IP
 Todos os algoritmos foram comparados em relação a:
 Tempo de Convergência
 Taxa de Convergência
 Chamadas ao Solver
46
Experimentos realizados
 O primeiro experimento foi realizado considerando os
domínios:
 Navigation (IPPC-2011)
 RelaxedTriangleTireworld (IPPC-2005)
 SysAdmin, topologia Uniring (Guestrin et al, 2003)
 Todos os domínios foram adaptados para SSP MDP-IPs, a
partir do RDDL e do PPDDL.
 Em domínios com deadends, todos os algoritmos tem
tratamento para detectá-los.
47
Experimento 1 – Tempo de convergência
48
Experimento 1 – Tempo de convergência
49
Experimento 1 – Tempo de convergência
50
Experimento 1 – Taxa de convergência
51
Experimento 1 – Taxa de convergência
52
Experimento 1 – Chamadas ao Solver
53
Experimentos realizados
 O segundo experimento foi realizado considerando os
domínios:
 Navigation (IPPC-2011)
 RelaxedTriangleTireworld (IPPC-2005)
 NoRelaxedTriangle Tireworld (IPPC-2005)
 A execução do LSSiPP-IP é feita com 𝑡 = 1, 3, 5 .
 Os algoritmos utilizam o minimax_parameter_choice.
 A detecção de deadends é realizada da mesma forma que
no experimento anterior.
54
Experimento 2 – Tempo de convergência
55
Experimento 2 – Convergência x Solver
56
Agenda
 Introdução
 Introdução
 Motivação / Objetivos
 Stochastic Shortest Path MDP (SSP MDP)
 Definições formais
 Soluções para SSP MDP
 Stochastic Shortest Path MDP-IP (SSP MDP-IP)
 Definições formais
 Soluções síncronas para SSP MDP-IP
 Algoritmos assíncronos para SSP MDP-IPs
 Experimentos e Resultados
 Conclusões
57
Contribuições
 Algoritmos de programação dinâmica assíncrona
enumerativos e fatorados para SSP MDP-IPs
 Criação de métodos de amostragem para o próximo
estado
 Algoritmos de programação dinâmica assíncrona para
Short-Sighted SSP MDP-IP
58
Conclusões
 O (L)RTDP-IP e o fact(L)RTDP-IP se mostraram melhor que o
SPUDD-IP em até três ordens, resolvendo problemas com até
120 variáveis
 Esta melhoria não se aplica em domínios densos
 Os diferentes métodos de amostragem não interferem no
tempo de execução dos algoritmos
 O LSSiPP-IP não consegue ser melhor que o LRTDP-IP, não
reproduzindo o comportamento observado em SSP MDPs
59
Trabalhos futuros
 Adaptação dos algoritmos para considerar deadends
genéricos (Kolobov et al, 2010)
 Propor novas funções valor admissíveis para Short-
Sighted SSP MDP-IPs
 Adaptar outros algoritmos assíncronos de SSP MDPs para
os SSP MDP-IPs
 Investigar abordagens Bayesianas para SSP MDP-IPs
60
Bibliografia
 Barto et al.(1995) Andrew G. Barto, Steven J. Bradtke e Satinder P.
Singh. Learning to act using real-time dynamic programming. Artificial
Intelligence, 72:81 - 138. ISSN 0004-3702.
 Bertsekas e Tsitsiklis(1991) Dimitri P. Bertsekas e John N.
Tsitsiklis. An analysis of stochastic shortest path problems. Math. Oper.
Res., 16(3):580 - 595. ISSN 0364-765X.
 Bonet e Geffner(2003) B. Bonet e H. Geffner. Labeled RTDP:
Improving the convergence of real-time dynamic programming.
Proceedings of 2003 International Conference on Automated
Planning and Scheduling, páginas 12-21.
 Buffet e Aberdeen(2005) Olivier Buffet e Douglas Aberdeen.
Robust planning with LRTDP. Em Proceedings of 2005 International
Joint Conference on Artificial Intelligence, páginas 1214-1219.
61
Bibliografia
 Cozman(2000) F. G. Cozman. Credal networks. Artificial
Intelligence, 120:199-233.
 Cozman(2005) F. G. Cozman. Graphical models for imprecise
probabilities. International Journal of Approximate Reasoning,
39(2-3):167-184.
 Delgado et al.(2011) Karina Valdivia Delgado, Scott Sanner e
Leliane Nunes de Barros. Efficient solutions to factored MDPs
with imprecise transition probabilities. Artificial Intelligence,
175:1498 - 1527. ISSN 0004-3702
 Devroye(1986) Luc Devroye. Non-Uniform Random Variate
Generation. Springer-Verlag.
62
Bibliografia
 Guestrin et al.(2003) Carlos Guestrin, Daphne Koller,
Ronald Parr e Shobha Venkataraman. Efficient solution algorithms
for factored MDPs. Journal of Artificial Intelligence Research,
19:399-468.
 Holguin(2013) Mijail Gamarra Holguin. Planejamento
probabilístico usando programação dinâmica assíncrona e fatorada.
Dissertação de Mestrado, IME-USP.
 Patek e Bertsekas(1999) Stephen D Patek e Dimitri P
Bertsekas. Stochastic shortest path games. SIAM Journal on
Control and Optimization, 37(3):804-824.
 Trevizan(2013) Felipe W Trevizan. Short-sighted Probabilistic
Planning.Tese de Doutorado, Carnegie Melon.
63
Obrigado !
64

Más contenido relacionado

Más de Daniel Baptista Dias

AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaAWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
De 0 ao infinito - Evoluindo um aplicativo Node.js em produção
De 0 ao infinito - Evoluindo um aplicativo Node.js em produçãoDe 0 ao infinito - Evoluindo um aplicativo Node.js em produção
De 0 ao infinito - Evoluindo um aplicativo Node.js em produçãoDaniel Baptista Dias
 
Sistemas distribuídos - uma introdução
Sistemas distribuídos - uma introduçãoSistemas distribuídos - uma introdução
Sistemas distribuídos - uma introduçãoDaniel Baptista Dias
 
Microserviços: uma introdução
Microserviços: uma introduçãoMicroserviços: uma introdução
Microserviços: uma introduçãoDaniel Baptista Dias
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
Domain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDDDomain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDDDaniel Baptista Dias
 
Domain Driven Design - Uma introdução
Domain Driven Design - Uma introduçãoDomain Driven Design - Uma introdução
Domain Driven Design - Uma introduçãoDaniel Baptista Dias
 
Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis StreamsProcessamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis StreamsDaniel Baptista Dias
 
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDPPlanejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDPDaniel Baptista Dias
 

Más de Daniel Baptista Dias (13)

Object calisthenics
Object calisthenicsObject calisthenics
Object calisthenics
 
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS LambdaAWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
AWS Meetup - Processando dados em alta escala com Node.js e AWS Lambda
 
De 0 ao infinito - Evoluindo um aplicativo Node.js em produção
De 0 ao infinito - Evoluindo um aplicativo Node.js em produçãoDe 0 ao infinito - Evoluindo um aplicativo Node.js em produção
De 0 ao infinito - Evoluindo um aplicativo Node.js em produção
 
Sistemas distribuídos - uma introdução
Sistemas distribuídos - uma introduçãoSistemas distribuídos - uma introdução
Sistemas distribuídos - uma introdução
 
Domain Driven Design Tático
Domain Driven Design TáticoDomain Driven Design Tático
Domain Driven Design Tático
 
Microserviços: uma introdução
Microserviços: uma introduçãoMicroserviços: uma introdução
Microserviços: uma introdução
 
Microservices: an introduction
Microservices: an introductionMicroservices: an introduction
Microservices: an introduction
 
Serverless API
Serverless APIServerless API
Serverless API
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
 
Domain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDDDomain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDD
 
Domain Driven Design - Uma introdução
Domain Driven Design - Uma introduçãoDomain Driven Design - Uma introdução
Domain Driven Design - Uma introdução
 
Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis StreamsProcessamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
 
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDPPlanejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP
Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP
 

Programação dinâmica em tempo real para Processos de Decisão Markovianos com Probabilidades Imprecisas

  • 1. Programação dinâmica em tempo real para Processos de Decisão Markovianos com Probabilidades Imprecisas 28 de novembro de 2014 - IME/USP Daniel Baptista Dias Orientadora: Karina Valdivia Delgado 1
  • 2. Agenda  Introdução  Introdução  Motivação / Objetivos  Stochastic Shortest Path MDP (SSP MDP)  Definições formais  Soluções para SSP MDP  Stochastic Shortest Path MDP-IP (SSP MDP-IP)  Definições formais  Soluções síncronas para SSP MDP-IP  Algoritmos assíncronos para SSP MDP-IPs  Experimentos e Resultados  Conclusões 2
  • 3. Introdução  Os Processos de Decisão Markovianos (MDPs) tem sido usados como um arcabouço padrão para problemas de planejamento probabilístico.  Eles modelam a interação de um agente em um ambiente, que executam ações com efeitos probabilísticos que podem levar o agente a diferentes estados. 3
  • 4. Introdução  Exemplo: Navegação de robôs 𝟎, 𝟗 𝟎, 𝟏 4
  • 5. Introdução  Entretanto, pode ser difícil obter as medidas precisas das probabilidades de transição 𝒑 𝟏 𝒑 𝟐Em que: 𝟎, 𝟕 ≤ 𝒑 𝟏 ≤ 𝟎, 𝟗 𝟎, 𝟏 ≤ 𝒑 𝟐 ≤ 𝟎, 𝟑 5
  • 6. Introdução  Processos de Decisão Markovianos com Probabilidades Imprecisas (MDP-IPs)  As probabilidades imprecisas são dadas através de parâmetros nas transições de estados restritas por um conjunto de inequações  Geralmente modelados de duas maneiras:  MDP-IP enumerativo: estados com informações autocontidas  MDP-IP fatorado: estados representados por variáveis de estado  Solução para MDP-IPs fatorados: SPUDD-IP  Algoritmo de programação dinâmica síncrona fatorada  Supera o algoritmo clássico enumerativo Iteração de Valor em duas ordens de magnitude 6
  • 7. Introdução  Stochastic Shortest Path MDPs (SSP MDPs)  Apresentados por Bertsekas eTsitsiklis (1991)  Considera um estado inicial e um conjunto de estados meta  Soluções comuns para SSP MDPs  Algoritmos de programação dinâmica assíncrona  Exploram a informação de um estado inicial do problema  Obtêm uma política ótima parcial  Algoritmos conhecidos: RTDP e SSiPP  Short Sighted SSP MDPs (Trevizan, 2013)  São problemas menores criados a partir de SSP MDP 7
  • 9. Motivação  Nunca foram propostos algoritmos de programação dinâmica assíncrona para SSP MDP-IPs com restrições gerais  Deve-se adaptar algumas características do (L)RTDP e (L)SSiPP para se criar estes algoritmos para SSP MDP-IPs  As principais são:  Como garantir a convergência de soluções de programação dinâmica assíncrona para SSP MDP-IPs?  Como amostrar o próximo estado no trial dadas as probabilidades imprecisas?  Como criar os Short-Sighted SSP MDP-IPs a partir de SSP MDP-IPs? 9
  • 10. Objetivos  O objetivo deste trabalho de mestrado é: Propor novos algoritmos assíncronos para resolver SSP MDP-IPs enumerativos e fatorados, estendendo os algoritmos (L)RTDP e (L)SSiPP para lidar com um conjunto de probabilidades no lugar de probabilidades precisas. 10
  • 11. Agenda  Introdução  Introdução  Motivação / Objetivos  Stochastic Shortest Path MDP (SSP MDP)  Definições formais  Soluções para SSP MDP  Stochastic Shortest Path MDP-IP (SSP MDP-IP)  Definições formais  Soluções síncronas para SSP MDP-IP  Algoritmos assíncronos para SSP MDP-IPs  Experimentos e Resultados  Conclusões 11
  • 12. SSP MDPs – Definição formal  Um SSP MDP (Bertsekas e Tsitsiklis, 1991), é uma tupla S, 𝐴, 𝐶, 𝑃, 𝐺, 𝑠0 em que:  𝑆 é um conjunto finito de estados  𝐴 é um conjunto finito de ações  𝐶 ∶ 𝑆 × 𝐴 → ℛ+ é uma função de custo  𝑃(𝑠′|𝑠, 𝑎) define a probabilidade de transição de se alcançar um estado 𝑠′ ∈ 𝑆 a partir de um estado 𝑠 ∈ 𝑆, executando a ação 𝑎 ∈ 𝐴  𝐺 ⊆ 𝑆 é um conjunto de estados meta, definidos como estados de absorção. Para cada 𝑠 ∈ 𝐺, 𝑃(𝑠|𝑠, 𝑎) = 1 e 𝐶(𝑠, 𝑎) = 0 para todo 𝑎 ∈ 𝐴  𝑠0 ∈ 𝑆 é o estado inicial 12
  • 13. SSP MDPs – Definição formal  Este modelo assume dois pressupostos (Bertsekas e Tsitsiklis, 1991):  Política apropriada: Cada 𝑠 ∈ 𝑆 deve ter ao menos uma política apropriada, i.e., uma política que garante que um estado meta é alcançado com probabilidade 1.  Política imprópria: Cada política imprópria deve ter custo ∞ em todos os estados que não podem alcançar a meta com probabilidade 1. 13
  • 14. Short-Sighted SSP MDPs – Definição formal  Short-Sighted SSP MDP: um subproblema originado de um SSP MDP com estados alcançados por 𝑡 ações aplicadas a partir de 𝑠.  Medida de distância entre os estados é: 𝛿 𝑠, 𝑠′ = 0 , 𝑠𝑒 𝑠 = 𝑠′ 1 + min 𝑎∈𝐴 min 𝑠:𝑃 𝑠 𝑠,𝑎 >0 𝛿 𝑠, 𝑠′ , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 14
  • 15. Short-Sighted SSP MDPs – Definição formal  Short-Sighted SSP MDP: um subproblema originado de um SSP MDP com estados alcançados por 𝑡 ações aplicadas a partir de 𝑠.  Medida de distância entre os estados é: 𝛿 𝑠, 𝑠′ = 0 , 𝑠𝑒 𝑠 = 𝑠′ 1 + min 𝑎∈𝐴 min 𝑠:𝑃 𝑠 𝑠,𝑎 >0 𝛿 𝑠, 𝑠′ , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 Exemplo de um Short-Sighted SSP MDP enraizado em 𝑠0 com 𝑡 = 2 15
  • 16. Short-Sighted SSP MDPs – Definição formal  Um Short-Sighted SSP MDP enraizado em 𝑠 ∈ 𝑆 e com profundidade 𝑡 ∈ 𝒩+ é uma tupla 𝑆𝑠,𝑡, 𝐴, 𝐶𝑠,𝑡, 𝑃, 𝐺𝑠,𝑡, 𝑠 , onde:  𝐴 e 𝑃 são definidos como em SSP MDPs;  𝑆𝑠,𝑡 = {𝑠′ ∈ 𝑆|𝛿 𝑠, 𝑠′ ≤ 𝑡}  𝐺𝑠,𝑡 = 𝑠′ ∈ 𝑆 𝛿 𝑠, 𝑠′ = 𝑡 ∪ 𝐺 ∩ 𝑆𝑠,𝑡  𝐶𝑠,𝑡 𝑠′, 𝑎, 𝑠′′ = 𝐶 𝑠′, 𝑎, 𝑠′′ + 𝐻(𝑠′′) 𝐶 𝑠′, 𝑎, 𝑠′′ 𝑠𝑒 𝑠′′∈𝐺𝑠,𝑡G 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜  Onde 𝐻(𝑠) é uma heurística definida para o estado 𝑠  Neste trabalho o custo será considerado dependente apenas de 𝑠 e 𝑎, i.e., 𝐶(𝑠′, 𝑎) e 𝐻 𝑠′′ = 0 16
  • 17. SSP MDPs – IV  Para resolver um SSP MDP é usado equação de Bellman: 𝑉∗ (𝑠) = 𝑚𝑖𝑛 𝑎∈𝐴 𝐶 𝑠, 𝑎 + 𝑃 𝑠′ 𝑠, 𝑎 𝑉∗ (𝑠′) 𝑠′∈𝑆  Iteração de Valor: algoritmo de programação dinâmica síncrona 𝑉 𝑡+1 𝑠 = 𝐵𝑉 𝑡 𝑠 = min 𝑎∈𝐴 𝑄 𝑡+1 (𝑠, 𝑎) 𝑄 𝑡+1(𝑠, 𝑎) = 𝐶(𝑠, 𝑎) + 𝑃 𝑠′ 𝑠, 𝑎 𝑉 𝑡(𝑠′) 𝑠′∈ 𝑆 17
  • 18. SSP MDPs – RTDP  Programação dinâmica em tempo real, proposto por Barto et al (1995)  Solução de programação dinâmica assíncrona:  Simula uma política gulosa a partir do estado inicial (trial)  A cada visita de estado, seu valor é atualizado usando a equação de Bellman e uma simulação da execução da melhor ação é feita a fim de visitar outro estado 18
  • 19. SSP MDPs – RTDP  O trial é interrompido quando o algoritmo encontra um determinado estado meta  A convergência do algoritmo pode demorar  Estados visitados com menos frequência sofrem poucas atualizações 19
  • 20. SSP MDPs – LRTDP  Extensão do RTDP, proposta por Bonet e Geffner (2003)  Melhora a convergência através da rotulação dos estados que convergiram  Características:  Os trials são interrompidos quando um estado rotulado é encontrado  Ao final de um trial, os estados visitados são atualizados se necessário e a convergência dos mesmos é verificada (através do procedimento CheckSolved) 20
  • 21. SSP MDPs – SSiPP  SSiPP (Short-Sighted Probabilistic Planner)  Realiza a atualizações assíncronas a partir do estado inicial de um Short-Sighted SSP MDPs. 21
  • 22. Agenda  Introdução  Introdução  Motivação / Objetivos  Stochastic Shortest Path MDP (SSP MDP)  Definições formais  Soluções para SSP MDP  Stochastic Shortest Path MDP-IP (SSP MDP-IP)  Definições formais  Soluções síncronas para SSP MDP-IP  Algoritmos assíncronos para SSP MDP-IPs  Experimentos e Resultados  Conclusões 22
  • 23. SSP MDP-IPs – Definição formal  Definido por uma tupla 𝑆, 𝐴, 𝐶, 𝒦, 𝐺, 𝑠0 onde:  𝑆, 𝐴, 𝐶, 𝐺 e 𝑠0 são definidos como qualquer SSP MDP; e  𝒦 é um conjunto de conjuntos credais de transição, onde um conjunto credal de transição 𝐾 é definido para cada par de estado-ação, i.e., 𝒦 ≤ 𝒦 𝑚𝑎𝑥= S × A .  São assumidos os pressupostos de políticas apropriadas e impróprias. 23
  • 24. SSP MDP-IPs – Definição formal 24
  • 25. SSP MDP-IPs – Conjunto credal 25
  • 26. SSP MDP-IPs – Critérios de escolha  Abordagem baseada em jogos  Utilizada para definir o valor de uma política  Assume-se que existe outro agente no sistema, a Natureza  Ela escolherá uma distribuição de probabilidades em um conjunto credal assumindo algum critério  Critério minimax  O agente seleciona as ações que minimizam o custo futuro  A Natureza escolhe a probabilidade que maximiza o custo esperado do agente (i.e., a Natureza é adversária) 26
  • 27. SSP MDP-IPs – Critérios de escolha  Assim, a equação de Bellman para SSP MDP-IPs é: 𝑉∗ 𝑠 = min 𝑎∈ 𝐴 max 𝑃∈ 𝐾 𝐶(𝑠, 𝑎) + 𝑃 𝑠′ 𝑠, 𝑎 𝑉∗(𝑠′) 𝑠′∈ 𝑆  Existe de valor de equilíbrio para um SSP game alternado (Patek e Bertsekas, 1999)  Este valor pode ser calculado para SSP MDP-IPs com a equação de Bellman 27
  • 28. SSP MDP-IPs – Iteração de Valor  Iteração deValor para SSP MDP-IPs: 𝑉 𝑡+1 (𝑠) = (𝑇𝑉 𝑡 )(𝑠) = 𝑚𝑖𝑛 𝑎∈𝐴 𝑄 𝑡+1 (𝑠, 𝑎) 𝑄 𝑡+1 𝑠, 𝑎 = 𝐶 𝑠, 𝑎 + max 𝑃∈ 𝐾 𝑃(𝑠′|𝑠, 𝑎) 𝑠′∈ S 𝑉 𝑡(𝑠′) 28
  • 29. Short-Sighted SSP MDP-IPs  Um Short-Sighted SSP MDP-IP tem as mesmas definições que os Short-Sighted SSP MDP, com uma tupla 𝑆𝑠,𝑡, 𝐴, 𝐶𝑠,𝑡, 𝑃, 𝐺𝑠,𝑡, 𝑠 .  Porém 𝑆𝑠,𝑡 e 𝐺𝑠,𝑡 ao invés de ser definido por 𝛿 𝑠, 𝑠′ , será definido pela função 𝛿𝐼𝑃 𝑠, 𝑠′ : 𝛿𝐼𝑃 𝑠, 𝑠′ = 0 , 𝑠𝑒 𝑠 = 𝑠′ 1 + min 𝑎∈𝐴 min 𝑠:𝑃 𝑠 𝑠,𝑎 >0∀𝑃∈𝐾(⋅|𝑠,𝑎) 𝛿𝐼𝑃 𝑠, 𝑠′ , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 29
  • 30. SSP MDP-IPs fatorado – definição formal  Um SSP MDP-IP fatorado é um SSP MDP-IP em que:  Os estados 𝑥 são especificados como uma atribuição conjunta para um vetor 𝑋 de 𝑛 variáveis de estado (𝑋1, … , 𝑋 𝑛)  As redes credais dinâmicas (Cozman, 2000, 2005 , Delgado et al, 2011) são utilizadas para representar a função de transição  Os PADDs (Delgado et al, 2011) podem ser usados para representar a função de transição 30
  • 31. SSP MDP-IPs fatorado – SPUDD-IP  O SPUDD-IP (Delgado et al, 2011) atualiza os estados com as seguintes equações: 𝑉𝐷𝐷 𝑡+1 𝑋 = 𝑚𝑖𝑛 𝑎∈𝐴 𝑄 𝐷𝐷 𝑡+1 (𝑋, 𝑎) 𝑄 𝐷𝐷 𝑡+1 𝑋, 𝑎 = 𝐶 𝐷𝐷 𝑋, 𝑎 ⊕ max 𝑝∈𝐾 𝑎 ⊗𝑖=1 𝑛 (𝑃 𝐷𝐷(𝑋𝑖 ′ |𝑝𝑎 𝑎 𝑋1 ′ , 𝑎) ⊗ 𝑉𝐷𝐷 𝑡 (𝑋′ ) 𝑥1 ′ ,⋅,𝑥 𝑛 ′ 31
  • 32. Conversão de SSP MDP-IP fatorados  Um SSP MDP-IP enumerativo pode ser criado através de um fatorado pelo cálculo da probabilidades de transição conjunta: 𝑃 𝑥′ 𝑥, 𝑎 = 𝑃(𝑥𝑖 ′ |𝑝𝑎 𝑎 𝑋𝑖 ′ , 𝑎) 𝑛 𝑖=1  As probabilidades de transição deste novo SSP MDP-IP enumerativo não serão mais lineares, pois podem envolver multiplicação de parâmetros 32
  • 33. Agenda  Introdução  Introdução  Motivação / Objetivos  Stochastic Shortest Path MDP (SSP MDP)  Definições formais  Soluções para SSP MDP  Stochastic Shortest Path MDP-IP (SSP MDP-IP)  Definições formais  Soluções síncronas para SSP MDP-IP  Algoritmos assíncronos para SSP MDP-IPs  Experimentos e Resultados  Conclusões 33
  • 34. Algoritmos assíncronos para SSP MDP-IPs  Neste trabalho foram desenvolvidos os seguintes algoritmos para SSP MDP-IPs:  RTDP-IP  factRTDP-IP  SSiPP-IP  LRTDP-IP  factLRTDP-IP  LSSiPP-IP 34
  • 35. RTDP-IP  Utiliza as mesmas estratégias do algoritmo RTDP, com as seguintes alterações:  O Bellman backup para o estado atual visitado é executado considerando o critério minimax  A escolha do próximo estado é feita considerando as probabilidades imprecisas, isto é, dado uma ação gulosa, primeiro os valores para cada 𝑝𝑖 são escolhidos, sujeitos ao conjunto de restrições 𝜑, para depois realizar a escolha real 35
  • 36. RTDP-IP – Bellman Backup 36
  • 37. RTDP-IP  Utiliza as mesmas estratégias do algoritmo para SSP MDPs, com as seguintes alterações:  O Bellman backup para o estado atual visitado é executado considerando o critério minimax  A escolha do próximo estado é feita considerando as probabilidades imprecisas, isto é, dado uma ação gulosa, primeiro os valores para cada 𝒑𝒊 são escolhidos, sujeitos ao conjunto de restrições 𝝋 , para depois realizar a escolha real 37
  • 38. RTDP-IP – Escolha do próximo estado 38
  • 39. RTDP-IP – Escolha do próximo estado  A escolha do valor das probabilidades imprecisas pode ser feita de três formas:  Utilizando o mesmo valor computado pelo Bellman update (método minimax_parameter_choice)  Calculando um valor aleatório válido a cada visita de um estado durante o trial (método rand_parameter_choice)  Calculando um valor válido pré determinado apenas uma vez no início do algoritmo (método predefined_parameter_choice) 39
  • 40. RTDP-IP – Escolha do próximo estado  Para os métodos:  rand_parameter_choice  predefined_parameter_choice  Procedimento:  Os vértices 𝑢𝑗 do conjunto credal 𝐾(⋅ |𝑠, 𝑎) são enumerados através do software LRS;  Um ponto aleatório é amostrado como uma combinação linear de 𝑢𝑗 (Devroye, 1986) como: 𝑝 = 𝑤𝑗 × 𝑢𝑗 𝑙 𝑗=0 40
  • 41. RTDP-IP – Prova de convergência  Considera a prova de Buffet e Aberdeen (2005)  Que por sua vez estende a prova de Barto et al. (1999)  Os seguintes pontos são provados para garantir a convergência do RTDP-IP:  O operador 𝑇 (Bellman Backup) é uma contração (Patek e Bertsekas, 1999)  A admissibilidade da função valor é mantida durante a execução do algoritmo  Ao realizar repetidos trials nos estados relevantes utilizando qualquer método de amostragem do próximo estado, o RTDP-IP converge. 41
  • 42. LRTDP-IP  Semelhante ao RTDP-IP, com as seguintes diferenças:  O critério de parada do algoritmo e parada do trial são idênticos ao LRTDP  No fim de cada trial é verificado se o estado pode ser rotulado como resolvido através do método CheckSolved-IP  Ao se buscar os estados sucessores no CheckSolved-IP, considera-se todas as transições parametrizadas diferentes de 0 (zero) 42
  • 43. factRTDP-IP e factLRTDP-IP  Baseado no algoritmo factRTDP (Holguin, 2013), que atualiza um estado por vez  Implementa o Bellman Update e a seleção do próximo estado de forma fatorada 𝑉𝐷𝐷 𝑡+1 𝑥 = 𝑚𝑖𝑛 𝑎∈𝐴 𝑄 𝐷𝐷 𝑡+1 (𝑥, 𝑎) 𝑄 𝐷𝐷 𝑡+1 𝑥, 𝑎 = 𝐸𝑣𝑎𝑙𝑃𝐴𝐷𝐷(𝐶 𝐷𝐷 𝑋, 𝑎 , 𝑥) ⊕ max 𝑝∈𝐾 𝑎 ⊗𝑖=1 𝑛 (𝑝𝐸𝑣𝑎𝑙𝑃𝐴𝐷𝐷(𝑃 𝐷𝐷(𝑋𝑖 ′ |𝑝𝑎 𝑎 𝑋1 ′ , 𝑎), 𝑥) ⊗ 𝑉𝐷𝐷 𝑡 (𝑋′) 𝑥1 ′ ,⋅,𝑥 𝑛 ′  O factLRTDP-IP também realiza as operações de forma fatorada, porém com chamadas ao método factCheckSolved-IP 43
  • 44. SSiPP-IP e LSSiPP-IP  Modifica o SSiPP nos seguintes pontos:  Ao segmentar um SSP MDP-IP ele gera um Short-Sighted SSP MDP-IP e chama um solver para SSP MDP-IPs para resolvê-lo  Ao simular a política devolvida pelo solver, ele leva em consideração os métodos de amostragem de próximo estado apresentados no RTDP-IP  O LSSiPP-IP considera os mesmos pontos e também utiliza o método CheckSolved-IP para rotular os estados resolvidos, considerando as probabilidades imprecisas. 44
  • 45. Agenda  Introdução  Introdução  Motivação / Objetivos  Stochastic Shortest Path MDP (SSP MDP)  Definições formais  Soluções para SSP MDP  Stochastic Shortest Path MDP-IP (SSP MDP-IP)  Definições formais  Soluções síncronas para SSP MDP-IP  Algoritmos assíncronos para SSP MDP-IPs  Experimentos e Resultados  Conclusões 45
  • 46. Experimentos realizados  Dois experimentos foram realizados:  Um comparando os algoritmos assíncronos RTDP-IP, LRTDP-IP, factRTDP-IP e factLRTDP-IP com o algoritmo síncrono estado- da-arte SPUDD-IP  Outro comparando os algoritmos assíncronos LRTDP-IP e LSSiPP-IP  Todos os algoritmos foram comparados em relação a:  Tempo de Convergência  Taxa de Convergência  Chamadas ao Solver 46
  • 47. Experimentos realizados  O primeiro experimento foi realizado considerando os domínios:  Navigation (IPPC-2011)  RelaxedTriangleTireworld (IPPC-2005)  SysAdmin, topologia Uniring (Guestrin et al, 2003)  Todos os domínios foram adaptados para SSP MDP-IPs, a partir do RDDL e do PPDDL.  Em domínios com deadends, todos os algoritmos tem tratamento para detectá-los. 47
  • 48. Experimento 1 – Tempo de convergência 48
  • 49. Experimento 1 – Tempo de convergência 49
  • 50. Experimento 1 – Tempo de convergência 50
  • 51. Experimento 1 – Taxa de convergência 51
  • 52. Experimento 1 – Taxa de convergência 52
  • 53. Experimento 1 – Chamadas ao Solver 53
  • 54. Experimentos realizados  O segundo experimento foi realizado considerando os domínios:  Navigation (IPPC-2011)  RelaxedTriangleTireworld (IPPC-2005)  NoRelaxedTriangle Tireworld (IPPC-2005)  A execução do LSSiPP-IP é feita com 𝑡 = 1, 3, 5 .  Os algoritmos utilizam o minimax_parameter_choice.  A detecção de deadends é realizada da mesma forma que no experimento anterior. 54
  • 55. Experimento 2 – Tempo de convergência 55
  • 56. Experimento 2 – Convergência x Solver 56
  • 57. Agenda  Introdução  Introdução  Motivação / Objetivos  Stochastic Shortest Path MDP (SSP MDP)  Definições formais  Soluções para SSP MDP  Stochastic Shortest Path MDP-IP (SSP MDP-IP)  Definições formais  Soluções síncronas para SSP MDP-IP  Algoritmos assíncronos para SSP MDP-IPs  Experimentos e Resultados  Conclusões 57
  • 58. Contribuições  Algoritmos de programação dinâmica assíncrona enumerativos e fatorados para SSP MDP-IPs  Criação de métodos de amostragem para o próximo estado  Algoritmos de programação dinâmica assíncrona para Short-Sighted SSP MDP-IP 58
  • 59. Conclusões  O (L)RTDP-IP e o fact(L)RTDP-IP se mostraram melhor que o SPUDD-IP em até três ordens, resolvendo problemas com até 120 variáveis  Esta melhoria não se aplica em domínios densos  Os diferentes métodos de amostragem não interferem no tempo de execução dos algoritmos  O LSSiPP-IP não consegue ser melhor que o LRTDP-IP, não reproduzindo o comportamento observado em SSP MDPs 59
  • 60. Trabalhos futuros  Adaptação dos algoritmos para considerar deadends genéricos (Kolobov et al, 2010)  Propor novas funções valor admissíveis para Short- Sighted SSP MDP-IPs  Adaptar outros algoritmos assíncronos de SSP MDPs para os SSP MDP-IPs  Investigar abordagens Bayesianas para SSP MDP-IPs 60
  • 61. Bibliografia  Barto et al.(1995) Andrew G. Barto, Steven J. Bradtke e Satinder P. Singh. Learning to act using real-time dynamic programming. Artificial Intelligence, 72:81 - 138. ISSN 0004-3702.  Bertsekas e Tsitsiklis(1991) Dimitri P. Bertsekas e John N. Tsitsiklis. An analysis of stochastic shortest path problems. Math. Oper. Res., 16(3):580 - 595. ISSN 0364-765X.  Bonet e Geffner(2003) B. Bonet e H. Geffner. Labeled RTDP: Improving the convergence of real-time dynamic programming. Proceedings of 2003 International Conference on Automated Planning and Scheduling, páginas 12-21.  Buffet e Aberdeen(2005) Olivier Buffet e Douglas Aberdeen. Robust planning with LRTDP. Em Proceedings of 2005 International Joint Conference on Artificial Intelligence, páginas 1214-1219. 61
  • 62. Bibliografia  Cozman(2000) F. G. Cozman. Credal networks. Artificial Intelligence, 120:199-233.  Cozman(2005) F. G. Cozman. Graphical models for imprecise probabilities. International Journal of Approximate Reasoning, 39(2-3):167-184.  Delgado et al.(2011) Karina Valdivia Delgado, Scott Sanner e Leliane Nunes de Barros. Efficient solutions to factored MDPs with imprecise transition probabilities. Artificial Intelligence, 175:1498 - 1527. ISSN 0004-3702  Devroye(1986) Luc Devroye. Non-Uniform Random Variate Generation. Springer-Verlag. 62
  • 63. Bibliografia  Guestrin et al.(2003) Carlos Guestrin, Daphne Koller, Ronald Parr e Shobha Venkataraman. Efficient solution algorithms for factored MDPs. Journal of Artificial Intelligence Research, 19:399-468.  Holguin(2013) Mijail Gamarra Holguin. Planejamento probabilístico usando programação dinâmica assíncrona e fatorada. Dissertação de Mestrado, IME-USP.  Patek e Bertsekas(1999) Stephen D Patek e Dimitri P Bertsekas. Stochastic shortest path games. SIAM Journal on Control and Optimization, 37(3):804-824.  Trevizan(2013) Felipe W Trevizan. Short-sighted Probabilistic Planning.Tese de Doutorado, Carnegie Melon. 63

Notas del editor

  1. Estas probabilidades podem variar por diversas razões, como: Fornecimento de informações imprecisas ou conflitantes de especialistas na hora de modelar o problema. O fato de muitas vezes não haver dados o suficiente para estimar os modelos de transição de forma precisa. O problema ter probabilidades não estacionárias devido a falta de informação sobre os estados. Ocorrerem eventos imprevisíveis no ambiente.
  2. Por exemplo, na figura abaixo
  3. Por exemplo, na figura abaixo
  4. No exemplo anterior
  5. Falar sobre política estacionária
  6. Enquanto o agente tenta minimizar o custo escolhendo as ações a Natureza tenta maximizar o custo esperado da execução desta ação escolhendo as probabilidades
  7. Q é a medida de qualidade da ação e V tenta encontrar a ação que tem a melhor qualidade (no caso, a com Q menor)
  8. 𝑥 𝑖 é usado para representar o valor atribuído para uma variável de estado 𝑋 𝑖 . As variáveis neste trabalho serão consideradas como binárias, i.e., só podem ter os valores 0 ou 1.
  9. Em que 𝑙 é o número de vértices do conjunto credal e 𝑤 𝑗 é gerado por uma amostragem aleatória sobre [0,1] e depois normalizado para garantir que 𝑗=0 𝑙 𝑤 𝑗 =1.
  10. Falar das instâncias resolvidas, dos métodos de amostragem e do tempo