Post on 16-Apr-2017
Universidade Estadual do Maranho UEMA Programa de Ps-Graduao em Engenharia da Computao e Sistemas - PECS
UNIVERSIDADE ESTADUAL DO MARANHO UEMA
PROGRAMA DE PS-GRADUAO EM ENGENHARIA DA COMPUTAO E SISTEMAS
PECS
DISCIPLINA: Aprendizagem de Mquina
Q-learning: Aprendizagem por reforo AR
Lanylldo Araujo
Prof. Ms. Josenildo Silva
So Luis MA, 02/01/2014
ROTEIRO
Introduo : o problema
Contexto: Aprendizagem por reforo
Algoritmo: Q-learning
Aplicao do algoritmo
Consideraes Finais
Introduo
Aprendizagem por Reforo
Introduo
Aprendizagem por Reforo
Processo de deciso de Markov
Introduo
Aprendizagem por Reforo
Processo de deciso de Markov
Algoritmo Q-learning
Introduo
Aprendizagem por Reforo
Processo de deciso de Markov
Algoritmo Q-learning
Introduo
Aprendizagem por Reforo
Processo de deciso de Markov
Algoritmo Q-learning
Introduo: o problema
Como desenvolver um agente que deve ter a capacidade de aprender qual rota(a) um rob pode percorrer para sair do ponto A e chegar a um ponto B de uma cidade ?
Aprendizagem por reforo
Contexto: Aprendizagem por Reforo
Segundo Mitchell (1997, p.367) uma paradigma computacional de aprendizagem onde um agente autnomo percebe e age no seu ambiente para aprender a escolher melhores aes com o intuito de atingir seus objetivos.
Contexto: Aprendizagem por Reforo
Um exemplo de aprendizagem por reforo, a formao de um agente para jogar um jogo onde o agente pode oferecer uma recompensa positiva quando o jogo ganho, recompensa negativa quando se est perdendo e zero recompensa em todos os outros estados Mitchell (1999,p.367).
Contexto: Aprendizagem por Reforo
S0
r0
S1
a1
a0
r1
S2
Agent
Environment
state
reward
action
Fonte: (MITCHELL,1997, p.365)
Contexto: Aprendizagem por Reforo
Agent
Contexto: Aprendizagem por Reforo
Agent
Environment
Contexto: Aprendizagem por Reforo
Agent
Environment
action
Contexto: Aprendizagem por Reforo
Agent
Environment
reward
action
Contexto: Aprendizagem por Reforo
Agent
Environment
state
reward
action
Contexto: Aprendizagem por Reforo
S0
Agent
Environment
state
reward
action
Contexto: Aprendizagem por Reforo
S0
r0
a0
Agent
Environment
state
reward
action
Contexto: Aprendizagem por Reforo
S0
r0
S
a1
a0
r1
Agent
Environment
state
reward
action
S1
Contexto: Aprendizagem por Reforo
S0
r0
S
a1
a0
r1
S2
Agent
Environment
state
reward
action
S1
aX
rX
Contexto: Aprendizagem por Reforo
... O aprendizado baseia-se no agente interagir com o ambiente para realizar o aprendizado, este ambiente representado por um conjunto finito de estados S = { s, s...s } , cujos elementos s representam os estados do ambiente... Sutton (1998,p.234).
Contexto: Markov
... O So ditos de Markov (ou Markovianos) porque os processos modelados obedecem a propriedade de Markov: o efeito de uma ao em um estado depende apenas da ao e do estado atual do sistema ...(PELLEGRINI, 2007, p.134).
Contexto: Processo de deciso de Markov (MDP)
uma tupla (S, A, T, R) onde: S um conjunto de estados;
A um conjunto de aes;
T probabilidade de o sistema passar para outro estado s S, dado uma ao a A (denotada T (S |S, A));
R : S A uma funo que d recompensa por tomar uma deciso.
Contexto: Processo de deciso de Markov (MDP)
PROBLEMAESTADOAESRECOMPENSA
Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -
Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +
Sangue perdido -
Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +
Esbarrar em objeto -
Contexto: Processo de deciso de Markov (MDP)
PROBLEMAESTADOAESRECOMPENSA
Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -
Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +
Sangue perdido -
Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +
Esbarrar em objeto -
Contexto: Processo de deciso de Markov (MDP)
PROBLEMAESTADOAESRECOMPENSA
Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -
Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +
Sangue perdido -
Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +
Esbarrar em objeto -
O algoritmo: Q-learning
... Q-learning, segundo Mitchell (1999,p.386) uma forma de reforo de aprendizagem em que o agente aprende uma funo de avaliao sobre os estados e aes. Essa funo de avaliao definida por Q ( s , a) ...
//Algoritmo Q-learning
1 Para cada s,a inicializar a entrada da tabela Q(s, a) para zero. 2 Observe o estado atual s 3 Faa sempre: 4 Selecione uma ao a utilizado a poltica e executa 5 Receba recompensa imediata r 6 Observe o novo estado s' 7 Atualizar a entrada da tabela de Q (s, a), de acordo com:
8 Q ( s , a ) r + ymax(s',a') a'9 s s'
Algoritmo Q-learning
Aplicao do Algoritmo
.
Cdigo de um algoritmo Q-learning, onde o agente tem a capacidade de aprender um caminho entre a sua posio inicial e a posio do outro rob.
Referncias
.
Mitchell, T. Machine Learning. McGraw-Hill, New York, 1997.
LIMA, F.C.J. Algoritmo Q-learning como estrategia de explorao e/ou explotao para as mataheursticas GRASP e algoritmos genticos. Disponvel em:. Acessado em: 25 de abril de 2014.
PELLEGRINI, J; WAINER.J. Processo de deciso de Markov: um tutorial. So Paulo, 2007.
Obrigado...
Contatos: lanylldo@gmail.com...
OBRIGADO!
So Luis MA,
So Luis MA,