Post on 09-Jul-2015
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
Planejamento ProbabilısticoUma introducao aos MDPs e aos algoritmos IV e RTDP
Daniel Baptista Dias
Grupo de Planejamento, IME/USP
27 de julho de 2011
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
Agenda
1 Processos Markovianos de Decisao (MDPs)IntroducaoModelo FormalModelo Conceitual
2 AlgoritmosIteracao de ValorRTDP
3 ConclusaoBibliografiaDuvidas?
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
Introducao
No planejamento classico, assumimos que as acoes tem umapenas um efeito, que pode ser predito;
Porem em alguns momentos isto nao e verdade.
Exemplo: sistema de manuseio de caixotes em um armazem.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
Introducao
A incerteza destas acoes pode ocorrer devido:
Falha nas acoes: instigada por um agente com a finalidade demudar o estado do sistema, a mesma nao foi bem sucedida;ex: a garra nao segura a caixa corretamente;Evento exogeno: que ocorre no sistema sem o controle oagente; ex: a caixa quebra devido a sua fragilidade,derrubando seu conteudo.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
Um exemplo: Navegacao de robos
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
Navegacao de robos
Problema:
Um robo deve ir do:
ponto de origem (1, 1) ateponto de destino (6, 4)
Ele pode se mover em quatro direcoes:
norte, sul, leste e oeste.
Devido a um defeito no mecanismo de locomocao:
em 20% dos movimentos ele erra direcao em 90 graus,tornando-os incertos;
Desafio:
Como ir ate o destino apesar das adversidades?
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - O que e?
Uma forma de resolver o desafio e modelar e resolver ele comoum Processo Markoviano de Decisao (Markov DecisionProcess, MDP);
Um MDP e um sistema estocastico, que:
Fica em um determinado estado em um ponto no tempo,podendo transitar para outros estados a medida que o sistemaevolui;E alterado em respostas a eventos (acoes ou eventosexogenos);Evolui em estagios, transitando de um estagio para outro aposa ocorrencia de um evento.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Formal
Formalmente, ele pode ser definido como um tuplaM = 〈S ,A, p, r , c〉, onde:
S e um conjunto finito de estados possıveis do ambiente;
A e um conjunto finito de acoes executaveis pelo agente;
p : S × A× S 7→ [0, 1] e uma funcao de transicaoprobabilıstica;
r : S 7→ <+ e uma funcao que associa uma recompensa acada estado;
c : A 7→ <+ e uma funcao que associa um custo a cada acao;
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Estados
Um estado s ′ representa uma configuracao de como osistema esta em um perıodo de tempo;
No nosso exemplo...
O estado pode ser representado com a variacao da posicao dorobo no campo;Sendo assim, temos S = 〈s1, s2, . . . , s18〉, um conjunto com 18estados, com s1 representando a posicao (1, 1), s2 a posicao(1, 2), etc.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Estados
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Acoes e Transicao de Estado
Uma acao a, escolhida pelo agente, altera o sistema, fazendo-otransitar de um estado s para um estado s ′ desejado;
Essa transicao e incerta e esta sujeita a uma probabilidadep(s, a, s ′);
Para cada acao, temos uma tabela de transicao entre estados,indicando as probabilidades de mudanca de um estado paraoutro, respeitando que dado um estado s temos∑
s′∈S p(s, a, s ′) = 1.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Acoes e Transicao de Estado
Ex: na navegacao de robos, o robo escolhe a acao leste para irde s11 para s14 com p(s11, leste, s14) = 0.8
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Funcao Valor, Custo e Recompensa
Para decidir qual tipo de acao o agente ira tomar e qualestado ele ira, ele precisa julgar a qualidade da decisao;
Isto e feito definindo uma funcao valor V (·), que mapeia ohistorico do sistema (quais acoes foram tomadas e quaisestados foram visitados ate o presente momento) em numerosreais, i. e. V : Hs → <;
Compondo esta medida, temos:
a funcao custo, que associa um gasto a uma determinadaacao, sendo subtraido de V (·);a funcao recompensa, que associa um incentivo ao se alcancarum determinado estado, sendo acrescentado a V (·);
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Horizonte
Define quanto estagios do sistema devem ser consideradospara avaliar o curso da acao.
Horizonte finito: a performance do agente e avaliada em umnumero T finito de estados.Neste caso a funcao valor e avaliada como:
V (h) =T−1∑t=0
{R(st)− C (at)}+ R(sT )
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Horizonte
Horizonte infinito: a performance do agente e avaliada sobuma evolucao infinita do sistema.Neste caso a funcao valor e avaliada considerando um fator dedesconto γ, que e fixado entre 0 e 1:
V (h) =∞∑t=0
γt(R(st)− C (at))
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Polıticas
Tambem conhecida como curso de acao ou plano, define qualsera a acao a tomada pelo agente quando o mesmo seencontrar em um determinado estado s;
Ela e representada pela funcao π : S 7→ A, que associa cadaestado a uma acao.
Exemplo:
π(s1) = norte. . .π(s5) = leste. . .π(s13) = sul. . .
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Solucao
Para solucionarmos um MDP, podemos encara-lo como umproblema de otimizacao, onde devemos encontrar a funcaovalor otima para cada estado.
Uma forma de se conseguir alcancar este objetivo e atraves daprogramacao dinamica, considerando o princıpio deotimalidade de Bellman:
V ∗t (s) = R(s) + maxa∈A{−C (a) +∑s′∈S
p(s, a, s ′)V ∗t−1(s ′)}
Uma polıtica otima π∗t (s) encontrada como solucao seraaquela que satisfaz:
V ∗t (s) = R(s) +−C (π∗t (s)) +∑s′∈S
p(π∗t (s), a, s ′)V ∗t−1(s ′)
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Conceitual
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Conceitual
Quais acoes sao possıveis? Que decisao tomar?
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Conceitual
Decisao tomada !
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Conceitual
Sucesso !
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Conceitual
Falha !
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
IntroducaoModelo FormalModelo Conceitual
MDP - Modelo Conceitual
O efeito da recompensa
baseado em [Boutilier, 2007] e [Barros, 2011]
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
Iteracao de ValorRTDP
Algoritmos
Para obter uma polıtica otima, alguns algoritmos conhecidosbaseados em programacao dinamica, utilizando a equacao deBellman, sao:
Iteracao de Valor (IV);Iteracao de Polıtica (IP);Programacao Dinamica em Tempo Real (Real Time DynamicProgramming, RTDP).
Iremos abordar nesta apresentacao o IV e o RTDP.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
Iteracao de ValorRTDP
IV
Utilizando a equacao de Bellman, para cada etapa t a funcaoV e calculada para cada estado, considerando v0(s) = R(s).
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
Iteracao de ValorRTDP
IV - Consideracoes
A complexidade do algoritmo e: O(|A| |S |2);
Consideramos que o algoritmo encontrou um π∗ quando todosos estados convergirem;
Esta convergencia e alcancada quando o resıduo(|vn(s)− vn−1(s)|) para estes estado for menor que ε;
Problema:
Por considerar todos os estados para executar o calculo,inclusive aquele que nao sao alcancaveis pelo agente;
Com o crescimento do conjunto S
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
Iteracao de ValorRTDP
RTDP
Considerando um conjunto de estados iniciais e estados meta,o algoritmo realiza uma busca heurıstica, considerando apenasos estados relevantes para serem atualizados;
Baseado na ideia de execucao e simulacao, executa uma seriede trials, simulando uma polıtica gulosa iniciando no estadoinicial e realizando um Bellman Backup nos estados visitados;
Desta forma, os estados mais provaveis de serem visitadosconvergem primeiro;
A polıtica encontrada no algoritmo sera parcial, obtendovalores otimos para os estados relevantes.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
BibliografiaDuvidas?
Bibliografia
Boutilier, Craig; Dean, Thomas; Hanks, Steve.Decision-Theoretic Planning: Structural Assumptions andComputational Leverage.Journal of Artificial Intelligence Research, 11:1-94, 1999.
Boutilier, Craig;Logical Representations and Computational Methods forMarkov Decision Processes.Apresentacao em curso, 2007.
Ghallab, Malik; Nau, Dana; Traverso, Paolo;Automated Planning: Theory and Practice.San Francisco, California: Morgan Kaufmann Publishers, 2004.
Barros, Leliane Nunes de;Planejamento em Inteligencia Artifical - PlanejamentoProbabilisticoSlides de aula, 2011.Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
BibliografiaDuvidas?
Bibliografia
Pereira, Silvio do Lago; Barros, Leliane Nunes de;Planejamento baseado em Processos de Decisao MarkovianosRelatorio Tecnico do IME/USP (RT-MAC-2007-04), 2007.
Russell, Stuart J.; Norvig, Peter;Artificial Intelligence: A Modern Approach.Englewood Cliffs, New Jersey: Prentice Hall, 1995.
Daniel Baptista Dias Planejamento Probabilıstico
Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao
BibliografiaDuvidas?
Planejamento ProbabilısticoUma introducao aos MDPs e aos algoritmos IV e RTDP
Daniel Baptista Dias
Grupo de Planejamento, IME/USP
27 de julho de 2011
Daniel Baptista Dias Planejamento Probabilıstico