Programação dinâmica em tempo real para Processos de Decisão Markovianos com Probabilidades...

Programação dinâmica em tempo real

para Processos de Decisão Markovianos

com Probabilidades Imprecisas

28 de novembro de 2014 - IME/USP

Daniel Baptista Dias

Orientadora: Karina Valdivia Delgado

1

Agenda

Introdução

Introdução

Motivação / Objetivos

Stochastic Shortest Path MDP (SSP MDP)

Definições formais

Soluções para SSP MDP

Stochastic Shortest Path MDP-IP (SSP MDP-IP)


Soluções síncronas para SSP MDP-IP

Algoritmos assíncronos para SSP MDP-IPs

Experimentos e Resultados

Conclusões

2

Introdução

Os Processos de Decisão Markovianos (MDPs) tem sido

usados como um arcabouço padrão para problemas de

planejamento probabilístico.

Eles modelam a interação de um agente em um ambiente,

que executam ações com efeitos probabilísticos que

podem levar o agente a diferentes estados.

3

Introdução

Exemplo: Navegação de robôs

𝟎, 𝟗

𝟎, 𝟏

4

Introdução

Entretanto, pode ser difícil obter as medidas precisas das

probabilidades de transição

𝒑𝟏

𝒑𝟐 Em que: 𝟎, 𝟕 ≤ 𝒑𝟏 ≤ 𝟎, 𝟗

𝟎, 𝟏 ≤ 𝒑𝟐 ≤ 𝟎, 𝟑 5

Introdução

Processos de Decisão Markovianos com Probabilidades Imprecisas (MDP-IPs) As probabilidades imprecisas são dadas através de parâmetros nas

transições de estados restritas por um conjunto de inequações

Geralmente modelados de duas maneiras: MDP-IP enumerativo: estados com informações autocontidas

MDP-IP fatorado: estados representados por variáveis de estado

Solução para MDP-IPs fatorados: SPUDD-IP Algoritmo de programação dinâmica síncrona fatorada

Supera o algoritmo clássico enumerativo Iteração de Valor em duas ordens de magnitude

6

Introdução

Stochastic Shortest Path MDPs (SSP MDPs)

Apresentados por Bertsekas e Tsitsiklis (1991)

Considera um estado inicial e um conjunto de estados meta

Soluções comuns para SSP MDPs

Algoritmos de programação dinâmica assíncrona

Exploram a informação de um estado inicial do problema

Obtêm uma política ótima parcial

Algoritmos conhecidos: RTDP e SSiPP

Short Sighted SSP MDPs (Trevizan, 2013)

São problemas menores criados a partir de SSP MDP

7

Introdução

estados

iniciais

estados

meta

Estados estados alcançáveis

Exemplo de atualizações assíncronas no espaço de estados

8

Motivação

Nunca foram propostos algoritmos de programação dinâmica

assíncrona para SSP MDP-IPs com restrições gerais

Deve-se adaptar algumas características do (L)RTDP e (L)SSiPP

para se criar estes algoritmos para SSP MDP-IPs

As principais são:

Como garantir a convergência de soluções de programação dinâmica

assíncrona para SSP MDP-IPs?

Como amostrar o próximo estado no trial dadas as probabilidades

imprecisas?

Como criar os Short-Sighted SSP MDP-IPs a partir de SSP MDP-IPs?

9

Objetivos

O objetivo deste trabalho de mestrado é:

Propor novos algoritmos assíncronos para resolver SSP MDP-IPs

enumerativos e fatorados, estendendo os algoritmos (L)RTDP e

(L)SSiPP para lidar com um conjunto de probabilidades no lugar

de probabilidades precisas.

10

Agenda

Introdução

Introdução










Conclusões

11

SSP MDPs – Definição formal

Um SSP MDP (Bertsekas e Tsitsiklis, 1991), é uma tupla S, 𝐴, 𝐶, 𝑃, 𝐺, 𝑠0 em que:

𝑆 é um conjunto finito de estados

𝐴 é um conjunto finito de ações

𝐶 ∶ 𝑆 × 𝐴 → ℛ+ é uma função de custo

𝑃(𝑠′|𝑠, 𝑎) define a probabilidade de transição de se alcançar um estado 𝑠′ ∈ 𝑆 a partir de um estado 𝑠 ∈ 𝑆, executando a ação 𝑎 ∈ 𝐴

𝐺 ⊆ 𝑆 é um conjunto de estados meta, definidos como estados de absorção. Para cada 𝑠 ∈ 𝐺, 𝑃(𝑠|𝑠, 𝑎) = 1 e 𝐶(𝑠, 𝑎) = 0 para todo 𝑎 ∈ 𝐴

𝑠0 ∈ 𝑆 é o estado inicial

12

SSP MDPs – Definição formal

Este modelo assume dois pressupostos (Bertsekas e

Tsitsiklis, 1991):

Política apropriada: Cada 𝑠 ∈ 𝑆 deve ter ao menos uma

política apropriada, i.e., uma política que garante que um estado

meta é alcançado com probabilidade 1.

Política imprópria: Cada política imprópria deve ter custo

∞ em todos os estados que não podem alcançar a meta com

probabilidade 1.

13

Short-Sighted SSP MDPs – Definição formal

Short-Sighted SSP MDP: um subproblema originado de um SSP

MDP com estados alcançados por 𝑡 ações aplicadas a partir de

𝑠.

Medida de distância entre os estados é:

𝛿 𝑠, 𝑠′ = 0 , 𝑠𝑒 𝑠 = 𝑠′

1 + min𝑎∈𝐴

min𝑠 :𝑃 𝑠 𝑠,𝑎 >0

𝛿 𝑠 , 𝑠′ , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

14


Short-Sighted SSP MDP: um subproblema originado de um SSP

MDP com estados alcançados por 𝑡 ações aplicadas a partir de

𝑠.

Medida de distância entre os estados é:

𝛿 𝑠, 𝑠′ = 0 , 𝑠𝑒 𝑠 = 𝑠′

1 + min𝑎∈𝐴

min𝑠 :𝑃 𝑠 𝑠,𝑎 >0

𝛿 𝑠 , 𝑠′ , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

Exemplo de um Short-Sighted SSP MDP enraizado em 𝑠0 com 𝑡 = 2

15


Um Short-Sighted SSP MDP enraizado em 𝑠 ∈ 𝑆 e com

profundidade 𝑡 ∈ 𝒩+é uma tupla 𝑆𝑠,𝑡 , 𝐴, 𝐶𝑠,𝑡 , 𝑃, 𝐺𝑠,𝑡 , 𝑠 , onde:

𝐴 e 𝑃 são definidos como em SSP MDPs;

𝑆𝑠,𝑡 = {𝑠′ ∈ 𝑆|𝛿 𝑠, 𝑠′ ≤ 𝑡}

𝐺𝑠,𝑡 = 𝑠′ ∈ 𝑆 𝛿 𝑠, 𝑠′ = 𝑡 ∪ 𝐺 ∩ 𝑆𝑠,𝑡

𝐶𝑠,𝑡 𝑠′, 𝑎, 𝑠′′ = 𝐶 𝑠′, 𝑎, 𝑠′′ +𝐻(𝑠′′)

𝐶 𝑠′, 𝑎, 𝑠′′𝑠𝑒 𝑠′′∈𝐺𝑠,𝑡\G

𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

Onde 𝐻(𝑠) é uma heurística definida para o estado 𝑠

Neste trabalho o custo será considerado dependente apenas

de 𝑠 e 𝑎, i.e., 𝐶(𝑠′, 𝑎) e 𝐻 𝑠′′ = 0

16

SSP MDPs – IV

Para resolver um SSP MDP é usado equação de Bellman:

𝑉∗(𝑠) = 𝑚𝑖𝑛𝑎∈𝐴 𝐶 𝑠, 𝑎 + 𝑃 𝑠′ 𝑠, 𝑎 𝑉∗(𝑠′)

𝑠′∈𝑆

Iteração de Valor: algoritmo de programação dinâmica

síncrona

𝑉𝑡+1 𝑠 = 𝐵𝑉𝑡 𝑠 = min𝑎∈𝐴

𝑄𝑡+1(𝑠, 𝑎)

𝑄𝑡+1(𝑠, 𝑎) = 𝐶(𝑠, 𝑎) + 𝑃 𝑠′ 𝑠, 𝑎 𝑉𝑡(𝑠′)

𝑠′∈ 𝑆

17

SSP MDPs – RTDP

Programação dinâmica em tempo real, proposto por

Barto et al (1995)

Solução de programação dinâmica assíncrona:

Simula uma política gulosa a partir do estado inicial (trial)

A cada visita de estado, seu valor é atualizado usando a

equação de Bellman e uma simulação da execução da melhor

ação é feita a fim de visitar outro estado

18

SSP MDPs – RTDP

O trial é interrompido quando o algoritmo encontra um

determinado estado meta

A convergência do algoritmo pode demorar

Estados visitados com menos frequência sofrem poucas atualizações

19

SSP MDPs – LRTDP

Extensão do RTDP, proposta por Bonet e Geffner (2003)

Melhora a convergência através da rotulação dos estados que convergiram

Características:

Os trials são interrompidos quando um estado rotulado é encontrado

Ao final de um trial, os estados visitados são atualizados se necessário e a convergência dos mesmos é verificada (através do procedimento CheckSolved)

20

SSP MDPs – SSiPP

SSiPP (Short-Sighted Probabilistic Planner)

Realiza a atualizações assíncronas a partir do estado inicial de

um Short-Sighted SSP MDPs.

21

Agenda

Introdução

Introdução










Conclusões

22

SSP MDP-IPs – Definição formal

Definido por uma tupla 𝑆, 𝐴, 𝐶,𝒦, 𝐺, 𝑠0 onde:

𝑆, 𝐴, 𝐶, 𝐺 e 𝑠0 são definidos como qualquer SSP MDP; e

𝒦 é um conjunto de conjuntos credais de transição, onde um

conjunto credal de transição 𝐾 é definido para cada par de

estado-ação, i.e., 𝒦 ≤ 𝒦 𝑚𝑎𝑥= S × A .

São assumidos os pressupostos de políticas apropriadas e

impróprias.

23

SSP MDP-IPs – Definição formal

24

SSP MDP-IPs – Conjunto credal

25

SSP MDP-IPs – Critérios de escolha

Abordagem baseada em jogos

Utilizada para definir o valor de uma política

Assume-se que existe outro agente no sistema, a Natureza

Ela escolherá uma distribuição de probabilidades em um

conjunto credal assumindo algum critério

Critério minimax

O agente seleciona as ações que minimizam o custo futuro

A Natureza escolhe a probabilidade que maximiza o custo

esperado do agente (i.e., a Natureza é adversária)

26

SSP MDP-IPs – Critérios de escolha

Assim, a equação de Bellman para SSP MDP-IPs é:

𝑉∗ 𝑠 = min 𝑎∈ 𝐴

max𝑃∈ 𝐾

𝐶(𝑠, 𝑎) + 𝑃 𝑠′ 𝑠, 𝑎 𝑉∗(𝑠′)

𝑠′∈ 𝑆

Existe de valor de equilíbrio para um SSP game alternado

(Patek e Bertsekas, 1999)

Este valor pode ser calculado para SSP MDP-IPs com a

equação de Bellman

27

SSP MDP-IPs – Iteração de Valor

Iteração de Valor para SSP MDP-IPs:

𝑉𝑡+1(𝑠) = (𝑇𝑉𝑡)(𝑠) = 𝑚𝑖𝑛𝑎∈𝐴 𝑄𝑡+1(𝑠, 𝑎)

𝑄𝑡+1 𝑠, 𝑎 = 𝐶 𝑠, 𝑎 + max𝑃∈ 𝐾

𝑃(𝑠′|𝑠, 𝑎)

𝑠′∈ S

𝑉𝑡(𝑠′)

28

Short-Sighted SSP MDP-IPs

Um Short-Sighted SSP MDP-IP tem as mesmas definições

que os Short-Sighted SSP MDP, com uma tupla

𝑆𝑠,𝑡 , 𝐴, 𝐶𝑠,𝑡 , 𝑃, 𝐺𝑠,𝑡 , 𝑠 .

Porém 𝑆𝑠,𝑡 e 𝐺𝑠,𝑡 ao invés de ser definido por 𝛿 𝑠, 𝑠′ ,

será definido pela função 𝛿𝐼𝑃 𝑠, 𝑠′ :

𝛿𝐼𝑃 𝑠, 𝑠′ = 0 , 𝑠𝑒 𝑠 = 𝑠′

1 + min𝑎∈𝐴

min𝑠 :𝑃 𝑠 𝑠,𝑎 >0∀𝑃∈𝐾(⋅|𝑠,𝑎)

𝛿𝐼𝑃 𝑠 , 𝑠′ , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜

29

SSP MDP-IPs fatorado – definição formal

Um SSP MDP-IP fatorado é um SSP MDP-IP em que:

Os estados 𝑥 são especificados como uma atribuição conjunta

para um vetor 𝑋 de 𝑛 variáveis de estado (𝑋1, … , 𝑋𝑛)

As redes credais dinâmicas (Cozman, 2000, 2005 , Delgado et al,

2011) são utilizadas para representar a função de transição

Os PADDs (Delgado et al, 2011) podem ser usados para

representar a função de transição

30

SSP MDP-IPs fatorado – SPUDD-IP

O SPUDD-IP (Delgado et al, 2011) atualiza os estados

com as seguintes equações:

𝑉𝐷𝐷𝑡+1 𝑋 = 𝑚𝑖𝑛𝑎∈𝐴 𝑄𝐷𝐷

𝑡+1(𝑋 , 𝑎)

𝑄𝐷𝐷𝑡+1 𝑋 , 𝑎 = 𝐶𝐷𝐷 𝑋 , 𝑎 ⊕

max𝑝 ∈𝐾𝑎

⊗𝑖=1𝑛 (𝑃𝐷𝐷(𝑋𝑖

′|𝑝𝑎𝑎 𝑋1′ , 𝑎) ⊗ 𝑉𝐷𝐷

𝑡 (𝑋 ′)

𝑥1′ ,⋅,𝑥𝑛

′

31

Conversão de SSP MDP-IP fatorados

Um SSP MDP-IP enumerativo pode ser criado através de

um fatorado pelo cálculo da probabilidades de transição

conjunta:

𝑃 𝑥 ′ 𝑥 , 𝑎 = 𝑃(𝑥𝑖′|𝑝𝑎𝑎 𝑋𝑖

′ , 𝑎)

𝑛

𝑖=1

As probabilidades de transição deste novo SSP MDP-IP

enumerativo não serão mais lineares, pois podem

envolver multiplicação de parâmetros

32

Agenda

Introdução

Introdução










Conclusões

33


Neste trabalho foram desenvolvidos os seguintes

algoritmos para SSP MDP-IPs:

RTDP-IP

factRTDP-IP

SSiPP-IP

LRTDP-IP

factLRTDP-IP

LSSiPP-IP

34

RTDP-IP

Utiliza as mesmas estratégias do algoritmo RTDP, com as

seguintes alterações:

O Bellman backup para o estado atual visitado é

executado considerando o critério minimax

A escolha do próximo estado é feita considerando as

probabilidades imprecisas, isto é, dado uma ação gulosa,

primeiro os valores para cada 𝑝𝑖 são escolhidos, sujeitos ao

conjunto de restrições 𝜑, para depois realizar a escolha real

35

RTDP-IP – Bellman Backup

36

RTDP-IP

Utiliza as mesmas estratégias do algoritmo para SSP

MDPs, com as seguintes alterações:

O Bellman backup para o estado atual visitado é executado

considerando o critério minimax

A escolha do próximo estado é feita considerando as

probabilidades imprecisas, isto é, dado uma ação

gulosa, primeiro os valores para cada 𝒑𝒊 são escolhidos,

sujeitos ao conjunto de restrições 𝝋 , para depois

realizar a escolha real

37

RTDP-IP – Escolha do próximo estado

38


A escolha do valor das probabilidades imprecisas pode

ser feita de três formas:

Utilizando o mesmo valor computado pelo Bellman update

(método minimax_parameter_choice)

Calculando um valor aleatório válido a cada visita de um

estado durante o trial (método rand_parameter_choice)

Calculando um valor válido pré determinado apenas uma vez

no início do algoritmo (método predefined_parameter_choice)

39


Para os métodos:

rand_parameter_choice

predefined_parameter_choice

Procedimento:

Os vértices 𝑢𝑗 do conjunto credal 𝐾(⋅ |𝑠, 𝑎) são enumerados através do

software LRS;

Um ponto aleatório é amostrado como uma combinação linear de 𝑢𝑗 (Devroye, 1986) como:

𝑝 = 𝑤𝑗 × 𝑢𝑗

𝑙

𝑗=0

40

RTDP-IP – Prova de convergência

Considera a prova de Buffet e Aberdeen (2005)

Que por sua vez estende a prova de Barto et al. (1999)

Os seguintes pontos são provados para garantir a convergência do RTDP-IP:

O operador 𝑇 (Bellman Backup) é uma contração (Patek e Bertsekas, 1999)

A admissibilidade da função valor é mantida durante a execução do algoritmo

Ao realizar repetidos trials nos estados relevantes utilizando qualquer método de amostragem do próximo estado, o RTDP-IP converge.

41

LRTDP-IP

Semelhante ao RTDP-IP, com as seguintes diferenças:

O critério de parada do algoritmo e parada do trial são

idênticos ao LRTDP

No fim de cada trial é verificado se o estado pode ser rotulado

como resolvido através do método CheckSolved-IP

Ao se buscar os estados sucessores no CheckSolved-IP,

considera-se todas as transições parametrizadas diferentes de

0 (zero)

42

factRTDP-IP e factLRTDP-IP

Baseado no algoritmo factRTDP (Holguin, 2013), que atualiza um estado por vez

Implementa o Bellman Update e a seleção do próximo estado de forma fatorada

𝑉𝐷𝐷𝑡+1 𝑥 = 𝑚𝑖𝑛𝑎∈𝐴 𝑄𝐷𝐷

𝑡+1(𝑥 , 𝑎)

𝑄𝐷𝐷𝑡+1 𝑥 , 𝑎 = 𝐸𝑣𝑎𝑙𝑃𝐴𝐷𝐷(𝐶𝐷𝐷 𝑋, 𝑎 , 𝑥 ) ⊕

max𝑝 ∈𝐾𝑎

⊗𝑖=1𝑛 (𝑝𝐸𝑣𝑎𝑙𝑃𝐴𝐷𝐷(𝑃𝐷𝐷(𝑋𝑖

′|𝑝𝑎𝑎 𝑋1′ , 𝑎), 𝑥 ) ⊗ 𝑉𝐷𝐷

𝑡 (𝑋′)

𝑥1′ ,⋅,𝑥𝑛

′

O factLRTDP-IP também realiza as operações de forma fatorada, porém com chamadas ao método factCheckSolved-IP

43

SSiPP-IP e LSSiPP-IP

Modifica o SSiPP nos seguintes pontos:

Ao segmentar um SSP MDP-IP ele gera um Short-Sighted SSP

MDP-IP e chama um solver para SSP MDP-IPs para resolvê-lo

Ao simular a política devolvida pelo solver, ele leva em

consideração os métodos de amostragem de próximo estado

apresentados no RTDP-IP

O LSSiPP-IP considera os mesmos pontos e também

utiliza o método CheckSolved-IP para rotular os estados

resolvidos, considerando as probabilidades imprecisas.

44

Agenda

Introdução

Introdução










Conclusões

45

Experimentos realizados

Dois experimentos foram realizados:

Um comparando os algoritmos assíncronos RTDP-IP, LRTDP-IP, factRTDP-IP e factLRTDP-IP com o algoritmo síncrono estado-da-arte SPUDD-IP

Outro comparando os algoritmos assíncronos LRTDP-IP e LSSiPP-IP

Todos os algoritmos foram comparados em relação a:

Tempo de Convergência

Taxa de Convergência

Chamadas ao Solver

46


O primeiro experimento foi realizado considerando os domínios:

Navigation (IPPC-2011)

Relaxed Triangle Tireworld (IPPC-2005)

SysAdmin, topologia Uniring (Guestrin et al, 2003)

Todos os domínios foram adaptados para SSP MDP-IPs, a partir do RDDL e do PPDDL.

Em domínios com deadends, todos os algoritmos tem tratamento para detectá-los.

47

Experimento 1 – Tempo de convergência

48


49


50

Experimento 1 – Taxa de convergência

51

Experimento 1 – Taxa de convergência

52

Experimento 1 – Chamadas ao Solver

53


O segundo experimento foi realizado considerando os

domínios:

Navigation (IPPC-2011)

Relaxed Triangle Tireworld (IPPC-2005)

NoRelaxed Triangle Tireworld (IPPC-2005)

A execução do LSSiPP-IP é feita com 𝑡 = 1, 3, 5 .

Os algoritmos utilizam o minimax_parameter_choice.

A detecção de deadends é realizada da mesma forma que

no experimento anterior.

54


55

Experimento 2 – Convergência x Solver

56

Agenda

Introdução

Introdução










Conclusões

57

Contribuições

Algoritmos de programação dinâmica assíncrona

enumerativos e fatorados para SSP MDP-IPs

Criação de métodos de amostragem para o próximo

estado

Algoritmos de programação dinâmica assíncrona para

Short-Sighted SSP MDP-IP

58

Conclusões

O (L)RTDP-IP e o fact(L)RTDP-IP se mostraram melhor que o SPUDD-IP em até três ordens, resolvendo problemas com até 120 variáveis

Esta melhoria não se aplica em domínios densos

Os diferentes métodos de amostragem não interferem no tempo de execução dos algoritmos

O LSSiPP-IP não consegue ser melhor que o LRTDP-IP, não reproduzindo o comportamento observado em SSP MDPs

59

Trabalhos futuros

Adaptação dos algoritmos para considerar deadends genéricos (Kolobov et al, 2010)

Propor novas funções valor admissíveis para Short-Sighted SSP MDP-IPs

Adaptar outros algoritmos assíncronos de SSP MDPs para os SSP MDP-IPs

Investigar abordagens Bayesianas para SSP MDP-IPs

60

Bibliografia Barto et al.(1995) Andrew G. Barto, Steven J. Bradtke e Satinder P.

Singh. Learning to act using real-time dynamic programming. Artificial Intelligence, 72:81 - 138. ISSN 0004-3702.

Bertsekas e Tsitsiklis(1991) Dimitri P. Bertsekas e John N. Tsitsiklis. An analysis of stochastic shortest path problems. Math. Oper. Res., 16(3):580 - 595. ISSN 0364-765X.

Bonet e Geffner(2003) B. Bonet e H. Geffner. Labeled RTDP: Improving the convergence of real-time dynamic programming. Proceedings of 2003 International Conference on Automated Planning and Scheduling, páginas 12-21.

Buffet e Aberdeen(2005) Olivier Buffet e Douglas Aberdeen. Robust planning with LRTDP. Em Proceedings of 2005 International Joint Conference on Artificial Intelligence, páginas 1214-1219.

61

Bibliografia

Cozman(2000) F. G. Cozman. Credal networks. Artificial Intelligence, 120:199-233.

Cozman(2005) F. G. Cozman. Graphical models for imprecise probabilities. International Journal of Approximate Reasoning, 39(2-3):167-184.

Delgado et al.(2011) Karina Valdivia Delgado, Scott Sanner e Leliane Nunes de Barros. Efficient solutions to factored MDPs with imprecise transition probabilities. Artificial Intelligence, 175:1498 - 1527. ISSN 0004-3702

Devroye(1986) Luc Devroye. Non-Uniform Random Variate Generation. Springer-Verlag.

62

Bibliografia

Guestrin et al.(2003) Carlos Guestrin, Daphne Koller, Ronald Parr e Shobha Venkataraman. Efficient solution algorithms for factored MDPs. Journal of Artificial Intelligence Research, 19:399-468.

Holguin(2013) Mijail Gamarra Holguin. Planejamento probabilístico usando programação dinâmica assíncrona e fatorada. Dissertação de Mestrado, IME-USP.

Patek e Bertsekas(1999) Stephen D Patek e Dimitri P Bertsekas. Stochastic shortest path games. SIAM Journal on Control and Optimization, 37(3):804-824.

Trevizan(2013) Felipe W Trevizan. Short-sighted Probabilistic Planning. Tese de Doutorado, Carnegie Melon.

63

Obrigado !

64

Programação dinâmica em tempo real para Processos de Decisão Markovianos com Probabilidades...

Science

Transcript of Programação dinâmica em tempo real para Processos de Decisão Markovianos com Probabilidades...