Apresentação por reforço

Universidade Estadual do Maranho UEMA Programa de Ps-Graduao em Engenharia da Computao e Sistemas - PECS

UNIVERSIDADE ESTADUAL DO MARANHO UEMA
PROGRAMA DE PS-GRADUAO EM ENGENHARIA DA COMPUTAO E SISTEMAS PECS
DISCIPLINA: Aprendizagem de Mquina

Q-learning: Aprendizagem por reforo AR

Lanylldo Araujo

Prof. Ms. Josenildo Silva

So Luis MA, 02/01/2014

ROTEIRO

Introduo : o problema

Contexto: Aprendizagem por reforo

Algoritmo: Q-learning

Aplicao do algoritmo

Consideraes Finais

Introduo

Aprendizagem por Reforo

Introduo


Processo de deciso de Markov

Introduo



Algoritmo Q-learning

Introduo




Introduo




Introduo: o problema

Como desenvolver um agente que deve ter a capacidade de aprender qual rota(a) um rob pode percorrer para sair do ponto A e chegar a um ponto B de uma cidade ?

Aprendizagem por reforo

Contexto: Aprendizagem por Reforo

Segundo Mitchell (1997, p.367) uma paradigma computacional de aprendizagem onde um agente autnomo percebe e age no seu ambiente para aprender a escolher melhores aes com o intuito de atingir seus objetivos.


Um exemplo de aprendizagem por reforo, a formao de um agente para jogar um jogo onde o agente pode oferecer uma recompensa positiva quando o jogo ganho, recompensa negativa quando se est perdendo e zero recompensa em todos os outros estados Mitchell (1999,p.367).


S0

r0

S1

a1

a0

r1

S2

Agent

Environment

state

reward

action

Fonte: (MITCHELL,1997, p.365)


Agent


Agent

Environment


Agent

Environment

action


Agent

Environment

reward

action


Agent

Environment

state

reward

action


S0

Agent

Environment

state

reward

action


S0

r0

a0

Agent

Environment

state

reward

action


S0

r0

S

a1

a0

r1

Agent

Environment

state

reward

action

S1


S0

r0

S

a1

a0

r1

S2

Agent

Environment

state

reward

action

S1

aX

rX


... O aprendizado baseia-se no agente interagir com o ambiente para realizar o aprendizado, este ambiente representado por um conjunto finito de estados S = { s, s...s } , cujos elementos s representam os estados do ambiente... Sutton (1998,p.234).

Contexto: Markov

... O So ditos de Markov (ou Markovianos) porque os processos modelados obedecem a propriedade de Markov: o efeito de uma ao em um estado depende apenas da ao e do estado atual do sistema ...(PELLEGRINI, 2007, p.134).

Contexto: Processo de deciso de Markov (MDP)

uma tupla (S, A, T, R) onde: S um conjunto de estados;

A um conjunto de aes;

T probabilidade de o sistema passar para outro estado s S, dado uma ao a A (denotada T (S |S, A));

R : S A uma funo que d recompensa por tomar uma deciso.


PROBLEMAESTADOAESRECOMPENSA

Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -

Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +

Sangue perdido -

Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +

Esbarrar em objeto -





Sangue perdido -







Sangue perdido -



O algoritmo: Q-learning

... Q-learning, segundo Mitchell (1999,p.386) uma forma de reforo de aprendizagem em que o agente aprende uma funo de avaliao sobre os estados e aes. Essa funo de avaliao definida por Q ( s , a) ...

//Algoritmo Q-learning

1 Para cada s,a inicializar a entrada da tabela Q(s, a) para zero. 2 Observe o estado atual s 3 Faa sempre: 4 Selecione uma ao a utilizado a poltica e executa 5 Receba recompensa imediata r 6 Observe o novo estado s' 7 Atualizar a entrada da tabela de Q (s, a), de acordo com:

8 Q ( s , a ) r + ymax(s',a') a'9 s s'


Aplicao do Algoritmo

.

Cdigo de um algoritmo Q-learning, onde o agente tem a capacidade de aprender um caminho entre a sua posio inicial e a posio do outro rob.

Referncias

.

Mitchell, T. Machine Learning. McGraw-Hill, New York, 1997.

LIMA, F.C.J. Algoritmo Q-learning como estrategia de explorao e/ou explotao para as mataheursticas GRASP e algoritmos genticos. Disponvel em:. Acessado em: 25 de abril de 2014.

PELLEGRINI, J; WAINER.J. Processo de deciso de Markov: um tutorial. So Paulo, 2007.

Obrigado...

Contatos: [email protected]...

OBRIGADO!

So Luis MA,

So Luis MA,

Apresentação por reforço

Engineering

Transcript of Apresentação por reforço