Apresentação MDP

Processos Markovianos de Decisao (MDPs)AlgoritmosConclusao

Planejamento ProbabilısticoUma introducao aos MDPs e aos algoritmos IV e RTDP

Daniel Baptista Dias

Grupo de Planejamento, IME/USP

27 de julho de 2011

Daniel Baptista Dias Planejamento Probabilıstico

Agenda

1 Processos Markovianos de Decisao (MDPs)IntroducaoModelo FormalModelo Conceitual

2 AlgoritmosIteracao de ValorRTDP

3 ConclusaoBibliografiaDuvidas?

IntroducaoModelo FormalModelo Conceitual

Introducao

No planejamento classico, assumimos que as acoes tem umapenas um efeito, que pode ser predito;

Porem em alguns momentos isto nao e verdade.

Exemplo: sistema de manuseio de caixotes em um armazem.

Introducao

A incerteza destas acoes pode ocorrer devido:

Falha nas acoes: instigada por um agente com a finalidade demudar o estado do sistema, a mesma nao foi bem sucedida;ex: a garra nao segura a caixa corretamente;Evento exogeno: que ocorre no sistema sem o controle oagente; ex: a caixa quebra devido a sua fragilidade,derrubando seu conteudo.

Um exemplo: Navegacao de robos

Navegacao de robos

Problema:

Um robo deve ir do:

ponto de origem (1, 1) ateponto de destino (6, 4)

Ele pode se mover em quatro direcoes:

norte, sul, leste e oeste.

Devido a um defeito no mecanismo de locomocao:

em 20% dos movimentos ele erra direcao em 90 graus,tornando-os incertos;

Desafio:

Como ir ate o destino apesar das adversidades?

MDP - O que e?

Uma forma de resolver o desafio e modelar e resolver ele comoum Processo Markoviano de Decisao (Markov DecisionProcess, MDP);

Um MDP e um sistema estocastico, que:

Fica em um determinado estado em um ponto no tempo,podendo transitar para outros estados a medida que o sistemaevolui;E alterado em respostas a eventos (acoes ou eventosexogenos);Evolui em estagios, transitando de um estagio para outro aposa ocorrencia de um evento.

MDP - Modelo Formal

Formalmente, ele pode ser definido como um tuplaM = 〈S ,A, p, r , c〉, onde:

S e um conjunto finito de estados possıveis do ambiente;

A e um conjunto finito de acoes executaveis pelo agente;

p : S × A× S 7→ [0, 1] e uma funcao de transicaoprobabilıstica;

r : S 7→ <+ e uma funcao que associa uma recompensa acada estado;

c : A 7→ <+ e uma funcao que associa um custo a cada acao;

MDP - Estados

Um estado s ′ representa uma configuracao de como osistema esta em um perıodo de tempo;

No nosso exemplo...

O estado pode ser representado com a variacao da posicao dorobo no campo;Sendo assim, temos S = 〈s1, s2, . . . , s18〉, um conjunto com 18estados, com s1 representando a posicao (1, 1), s2 a posicao(1, 2), etc.

MDP - Estados

MDP - Acoes e Transicao de Estado

Uma acao a, escolhida pelo agente, altera o sistema, fazendo-otransitar de um estado s para um estado s ′ desejado;

Essa transicao e incerta e esta sujeita a uma probabilidadep(s, a, s ′);

Para cada acao, temos uma tabela de transicao entre estados,indicando as probabilidades de mudanca de um estado paraoutro, respeitando que dado um estado s temos∑

s′∈S p(s, a, s ′) = 1.

MDP - Acoes e Transicao de Estado

Ex: na navegacao de robos, o robo escolhe a acao leste para irde s11 para s14 com p(s11, leste, s14) = 0.8

MDP - Funcao Valor, Custo e Recompensa

Para decidir qual tipo de acao o agente ira tomar e qualestado ele ira, ele precisa julgar a qualidade da decisao;

Isto e feito definindo uma funcao valor V (·), que mapeia ohistorico do sistema (quais acoes foram tomadas e quaisestados foram visitados ate o presente momento) em numerosreais, i. e. V : Hs → <;

Compondo esta medida, temos:

a funcao custo, que associa um gasto a uma determinadaacao, sendo subtraido de V (·);a funcao recompensa, que associa um incentivo ao se alcancarum determinado estado, sendo acrescentado a V (·);

MDP - Horizonte

Define quanto estagios do sistema devem ser consideradospara avaliar o curso da acao.

Horizonte finito: a performance do agente e avaliada em umnumero T finito de estados.Neste caso a funcao valor e avaliada como:

V (h) =T−1∑t=0

{R(st)− C (at)}+ R(sT )

MDP - Horizonte

Horizonte infinito: a performance do agente e avaliada sobuma evolucao infinita do sistema.Neste caso a funcao valor e avaliada considerando um fator dedesconto γ, que e fixado entre 0 e 1:

V (h) =∞∑t=0

γt(R(st)− C (at))

MDP - Polıticas

Tambem conhecida como curso de acao ou plano, define qualsera a acao a tomada pelo agente quando o mesmo seencontrar em um determinado estado s;

Ela e representada pela funcao π : S 7→ A, que associa cadaestado a uma acao.

Exemplo:

π(s1) = norte. . .π(s5) = leste. . .π(s13) = sul. . .

MDP - Solucao

Para solucionarmos um MDP, podemos encara-lo como umproblema de otimizacao, onde devemos encontrar a funcaovalor otima para cada estado.

Uma forma de se conseguir alcancar este objetivo e atraves daprogramacao dinamica, considerando o princıpio deotimalidade de Bellman:

V ∗t (s) = R(s) + maxa∈A{−C (a) +∑s′∈S

p(s, a, s ′)V ∗t−1(s ′)}

Uma polıtica otima π∗t (s) encontrada como solucao seraaquela que satisfaz:

V ∗t (s) = R(s) +−C (π∗t (s)) +∑s′∈S

p(π∗t (s), a, s ′)V ∗t−1(s ′)

MDP - Modelo Conceitual

baseado em [Boutilier, 2007] e [Barros, 2011]

Quais acoes sao possıveis? Que decisao tomar?

Decisao tomada !

Sucesso !

Falha !

O efeito da recompensa

Iteracao de ValorRTDP

Algoritmos

Para obter uma polıtica otima, alguns algoritmos conhecidosbaseados em programacao dinamica, utilizando a equacao deBellman, sao:

Iteracao de Valor (IV);Iteracao de Polıtica (IP);Programacao Dinamica em Tempo Real (Real Time DynamicProgramming, RTDP).

Iremos abordar nesta apresentacao o IV e o RTDP.

Utilizando a equacao de Bellman, para cada etapa t a funcaoV e calculada para cada estado, considerando v0(s) = R(s).

IV - Consideracoes

A complexidade do algoritmo e: O(|A| |S |2);

Consideramos que o algoritmo encontrou um π∗ quando todosos estados convergirem;

Esta convergencia e alcancada quando o resıduo(|vn(s)− vn−1(s)|) para estes estado for menor que ε;

Problema:

Por considerar todos os estados para executar o calculo,inclusive aquele que nao sao alcancaveis pelo agente;

Com o crescimento do conjunto S

Considerando um conjunto de estados iniciais e estados meta,o algoritmo realiza uma busca heurıstica, considerando apenasos estados relevantes para serem atualizados;

Baseado na ideia de execucao e simulacao, executa uma seriede trials, simulando uma polıtica gulosa iniciando no estadoinicial e realizando um Bellman Backup nos estados visitados;

Desta forma, os estados mais provaveis de serem visitadosconvergem primeiro;

A polıtica encontrada no algoritmo sera parcial, obtendovalores otimos para os estados relevantes.

BibliografiaDuvidas?

Bibliografia

Boutilier, Craig; Dean, Thomas; Hanks, Steve.Decision-Theoretic Planning: Structural Assumptions andComputational Leverage.Journal of Artificial Intelligence Research, 11:1-94, 1999.

Boutilier, Craig;Logical Representations and Computational Methods forMarkov Decision Processes.Apresentacao em curso, 2007.

Ghallab, Malik; Nau, Dana; Traverso, Paolo;Automated Planning: Theory and Practice.San Francisco, California: Morgan Kaufmann Publishers, 2004.

Barros, Leliane Nunes de;Planejamento em Inteligencia Artifical - PlanejamentoProbabilisticoSlides de aula, 2011.Daniel Baptista Dias Planejamento Probabilıstico

Bibliografia

Pereira, Silvio do Lago; Barros, Leliane Nunes de;Planejamento baseado em Processos de Decisao MarkovianosRelatorio Tecnico do IME/USP (RT-MAC-2007-04), 2007.

Russell, Stuart J.; Norvig, Peter;Artificial Intelligence: A Modern Approach.Englewood Cliffs, New Jersey: Prentice Hall, 1995.

Planejamento ProbabilısticoUma introducao aos MDPs e aos algoritmos IV e RTDP

Daniel Baptista Dias

Grupo de Planejamento, IME/USP

27 de julho de 2011

Apresentação MDP

Documents

Transcript of Apresentação MDP

10K MAIPUokeventosweb.com/resultados/file_57df1024a60368.80868490.pdfmadariaga mdp mdp mdp villa gesell tandil mdp mdp batan piran mdp vidal mdp piran mdp mdp mdi' mdp mdi' tandil

PENGUMUMAN - Pegadaian · 198 mdp-4-04773 resky anggi saragih 199 mdp-4-04779 restu gustiono 200 mdp-4-04797 revi nurrokhmi 201 mdp-4-04803 reyga radika 202 mdp-4-04921 rinaldi azis

Online Abstraction with MDP Homomorphisms for Deep …An MDP homomorphism is a mapping from the original MDP to a more compact MDP that preserves the important transition and reward

MDP Secretariat Room 126, Building 1070 MDP HQ ...

Audit pemasaran mdp

Plan de acción Contingencia COVID19 “Juntos por la Salud ......Aliados Consejeros Colaboradores Público en general $244.4 mdp $247.8* mdp Total $714.4 mdp $717.8 mdp Reporte proyecto

Contabilidad - 1erS_10Semana - MDP

Cozinha Inovare Balcão gaveteiro INSTRUCCIONES DE MONTAJEimg.americanas.com.br/produtos/01/02/manual/123694410.pdf · MDP 15mm MDP 15mm MDP 15mm MDP 15mm MDP 15mm MDP 15mm MDP 12mm

Catalogo Decore 2017 - Multivisão · MDP de 1,5 cm com pintura UV ⅝" MDP with UV painting MDP de 1,5 cm con pintura UV MDP de 1,5 cm com pintura UV ⅝" MDP with UV painting MDP

MDP Tutorial

Apresentação do PowerPoint€¦ · Operate and Transfer / Projecto, Construção, Operação e Comissionamento Contrato MdP/NM | Artº 10.1 - Assumpção de riscos: ^10.1.1- Correrão

ABSTRACT - MDP

2001069 - HOME EVEREST 09-12-13 · 19 2 x6 64 x2 15 mdp mdp mdp mdp mdp mdp mdp mdp mdp mdp 528 645 64 5 645 64 5 528 528 528 5 28 64 5 0 56 x4 2 0560 x 450 x 25 16 0 x4 52 40 prat.

(123) - MDP

Escogidos mdp 2012xf

guia - MDP

Generalite Mdp

Om0004 2010-mdp

Kuliah Biokimia Mdp

MDP 650 - static.highspeedbackbone.netstatic.highspeedbackbone.net/pdf/Monster DL MDP 650G Digital... · MDP 650 Instructions and Warranty Information. TM ... the PowerCenter, the