Apresentação por reforço

download Apresentação por reforço

If you can't read please download the document

Transcript of Apresentação por reforço

Universidade Estadual do Maranho UEMA Programa de Ps-Graduao em Engenharia da Computao e Sistemas - PECS

UNIVERSIDADE ESTADUAL DO MARANHO UEMA
PROGRAMA DE PS-GRADUAO EM ENGENHARIA DA COMPUTAO E SISTEMAS PECS
DISCIPLINA: Aprendizagem de Mquina

Q-learning: Aprendizagem por reforo AR

Lanylldo Araujo

Prof. Ms. Josenildo Silva

So Luis MA, 02/01/2014

ROTEIRO

Introduo : o problema

Contexto: Aprendizagem por reforo

Algoritmo: Q-learning

Aplicao do algoritmo

Consideraes Finais

Introduo

Aprendizagem por Reforo

Introduo

Aprendizagem por Reforo

Processo de deciso de Markov

Introduo

Aprendizagem por Reforo

Processo de deciso de Markov

Algoritmo Q-learning

Introduo

Aprendizagem por Reforo

Processo de deciso de Markov

Algoritmo Q-learning

Introduo

Aprendizagem por Reforo

Processo de deciso de Markov

Algoritmo Q-learning

Introduo: o problema

Como desenvolver um agente que deve ter a capacidade de aprender qual rota(a) um rob pode percorrer para sair do ponto A e chegar a um ponto B de uma cidade ?

Aprendizagem por reforo

Contexto: Aprendizagem por Reforo

Segundo Mitchell (1997, p.367) uma paradigma computacional de aprendizagem onde um agente autnomo percebe e age no seu ambiente para aprender a escolher melhores aes com o intuito de atingir seus objetivos.

Contexto: Aprendizagem por Reforo

Um exemplo de aprendizagem por reforo, a formao de um agente para jogar um jogo onde o agente pode oferecer uma recompensa positiva quando o jogo ganho, recompensa negativa quando se est perdendo e zero recompensa em todos os outros estados Mitchell (1999,p.367).

Contexto: Aprendizagem por Reforo

S0

r0

S1

a1

a0

r1

S2

Agent

Environment

state

reward

action

Fonte: (MITCHELL,1997, p.365)

Contexto: Aprendizagem por Reforo

Agent

Contexto: Aprendizagem por Reforo

Agent

Environment

Contexto: Aprendizagem por Reforo

Agent

Environment

action

Contexto: Aprendizagem por Reforo

Agent

Environment

reward

action

Contexto: Aprendizagem por Reforo

Agent

Environment

state

reward

action

Contexto: Aprendizagem por Reforo

S0

Agent

Environment

state

reward

action

Contexto: Aprendizagem por Reforo

S0

r0

a0

Agent

Environment

state

reward

action

Contexto: Aprendizagem por Reforo

S0

r0

S

a1

a0

r1

Agent

Environment

state

reward

action

S1

Contexto: Aprendizagem por Reforo

S0

r0

S

a1

a0

r1

S2

Agent

Environment

state

reward

action

S1

aX

rX

Contexto: Aprendizagem por Reforo

... O aprendizado baseia-se no agente interagir com o ambiente para realizar o aprendizado, este ambiente representado por um conjunto finito de estados S = { s, s...s } , cujos elementos s representam os estados do ambiente... Sutton (1998,p.234).

Contexto: Markov

... O So ditos de Markov (ou Markovianos) porque os processos modelados obedecem a propriedade de Markov: o efeito de uma ao em um estado depende apenas da ao e do estado atual do sistema ...(PELLEGRINI, 2007, p.134).

Contexto: Processo de deciso de Markov (MDP)

uma tupla (S, A, T, R) onde: S um conjunto de estados;

A um conjunto de aes;

T probabilidade de o sistema passar para outro estado s S, dado uma ao a A (denotada T (S |S, A));

R : S A uma funo que d recompensa por tomar uma deciso.

Contexto: Processo de deciso de Markov (MDP)

PROBLEMAESTADOAESRECOMPENSA

Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -

Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +

Sangue perdido -

Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +

Esbarrar em objeto -

Contexto: Processo de deciso de Markov (MDP)

PROBLEMAESTADOAESRECOMPENSA

Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -

Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +

Sangue perdido -

Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +

Esbarrar em objeto -

Contexto: Processo de deciso de Markov (MDP)

PROBLEMAESTADOAESRECOMPENSA

Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -

Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +

Sangue perdido -

Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +

Esbarrar em objeto -

O algoritmo: Q-learning

... Q-learning, segundo Mitchell (1999,p.386) uma forma de reforo de aprendizagem em que o agente aprende uma funo de avaliao sobre os estados e aes. Essa funo de avaliao definida por Q ( s , a) ...

//Algoritmo Q-learning

1 Para cada s,a inicializar a entrada da tabela Q(s, a) para zero. 2 Observe o estado atual s 3 Faa sempre: 4 Selecione uma ao a utilizado a poltica e executa 5 Receba recompensa imediata r 6 Observe o novo estado s' 7 Atualizar a entrada da tabela de Q (s, a), de acordo com:

8 Q ( s , a ) r + ymax(s',a') a'9 s s'

Algoritmo Q-learning

Aplicao do Algoritmo

.

Cdigo de um algoritmo Q-learning, onde o agente tem a capacidade de aprender um caminho entre a sua posio inicial e a posio do outro rob.

Referncias

.

Mitchell, T. Machine Learning. McGraw-Hill, New York, 1997.

LIMA, F.C.J. Algoritmo Q-learning como estrategia de explorao e/ou explotao para as mataheursticas GRASP e algoritmos genticos. Disponvel em:. Acessado em: 25 de abril de 2014.

PELLEGRINI, J; WAINER.J. Processo de deciso de Markov: um tutorial. So Paulo, 2007.

Obrigado...

Contatos: [email protected]...

OBRIGADO!

So Luis MA,

So Luis MA,