Apresentação por reforço

Universidade Estadual do Maranho UEMA Programa de Ps-Graduao em Engenharia da Computao e Sistemas - PECS

UNIVERSIDADE ESTADUAL DO MARANHO UEMA
PROGRAMA DE PS-GRADUAO EM ENGENHARIA DA COMPUTAO E SISTEMAS PECS
DISCIPLINA: Aprendizagem de Mquina

Q-learning: Aprendizagem por reforo AR

Lanylldo Araujo

Prof. Ms. Josenildo Silva

So Luis MA, 02/01/2014

ROTEIRO

Introduo : o problema

Contexto: Aprendizagem por reforo

Algoritmo: Q-learning

Aplicao do algoritmo

Consideraes Finais

Introduo

Aprendizagem por Reforo

Introduo

Processo de deciso de Markov

Introduo

Algoritmo Q-learning

Introduo

Introduo: o problema

Como desenvolver um agente que deve ter a capacidade de aprender qual rota(a) um rob pode percorrer para sair do ponto A e chegar a um ponto B de uma cidade ?

Aprendizagem por reforo

Contexto: Aprendizagem por Reforo

Segundo Mitchell (1997, p.367) uma paradigma computacional de aprendizagem onde um agente autnomo percebe e age no seu ambiente para aprender a escolher melhores aes com o intuito de atingir seus objetivos.

Um exemplo de aprendizagem por reforo, a formao de um agente para jogar um jogo onde o agente pode oferecer uma recompensa positiva quando o jogo ganho, recompensa negativa quando se est perdendo e zero recompensa em todos os outros estados Mitchell (1999,p.367).

Environment

reward

action

Fonte: (MITCHELL,1997, p.365)

Environment

action

Environment

reward

action

Environment

reward

action

Environment

reward

action

Environment

reward

action

Environment

reward

action

Environment

reward

action

... O aprendizado baseia-se no agente interagir com o ambiente para realizar o aprendizado, este ambiente representado por um conjunto finito de estados S = { s, s...s } , cujos elementos s representam os estados do ambiente... Sutton (1998,p.234).

Contexto: Markov

... O So ditos de Markov (ou Markovianos) porque os processos modelados obedecem a propriedade de Markov: o efeito de uma ao em um estado depende apenas da ao e do estado atual do sistema ...(PELLEGRINI, 2007, p.134).

Contexto: Processo de deciso de Markov (MDP)

uma tupla (S, A, T, R) onde: S um conjunto de estados;

A um conjunto de aes;

T probabilidade de o sistema passar para outro estado s S, dado uma ao a A (denotada T (S |S, A));

R : S A uma funo que d recompensa por tomar uma deciso.

PROBLEMAESTADOAESRECOMPENSA

Agente Jogador de damasConfiguraes do tabuleiroMover uma determinada pea capturas + perdas -

Agente em jogo de lutaPosies/energia dos lutadores, tempo, se est sendo atacado ou no, etc...Mover em uma determinada direo, lanar magia, dar porrada, etc...Sangue tirado +

Sangue perdido -

Rob Aspirador de Pinteragir com o ambiente e a reconhecer os obstculosIr para norte ou sul, e ir para a esquerda ou direita Aspirar p sem esbarrar em objeto +

Esbarrar em objeto -

Sangue perdido -

O algoritmo: Q-learning

... Q-learning, segundo Mitchell (1999,p.386) uma forma de reforo de aprendizagem em que o agente aprende uma funo de avaliao sobre os estados e aes. Essa funo de avaliao definida por Q ( s , a) ...

//Algoritmo Q-learning

1 Para cada s,a inicializar a entrada da tabela Q(s, a) para zero. 2 Observe o estado atual s 3 Faa sempre: 4 Selecione uma ao a utilizado a poltica e executa 5 Receba recompensa imediata r 6 Observe o novo estado s' 7 Atualizar a entrada da tabela de Q (s, a), de acordo com:

8 Q ( s , a ) r + ymax(s',a') a'9 s s'

Aplicao do Algoritmo

Cdigo de um algoritmo Q-learning, onde o agente tem a capacidade de aprender um caminho entre a sua posio inicial e a posio do outro rob.

Referncias

Mitchell, T. Machine Learning. McGraw-Hill, New York, 1997.

LIMA, F.C.J. Algoritmo Q-learning como estrategia de explorao e/ou explotao para as mataheursticas GRASP e algoritmos genticos. Disponvel em:. Acessado em: 25 de abril de 2014.

PELLEGRINI, J; WAINER.J. Processo de deciso de Markov: um tutorial. So Paulo, 2007.

Obrigado...

Contatos: lanylldo@gmail.com...

OBRIGADO!

So Luis MA,

Apresentação por reforço

Engineering

Transcript of Apresentação por reforço

AGENTE TOPOLÓGICO DE APRENDIZADO POR REFORÇO · Lista de Figuras FIGURA 2.1 - Estrutura genérica do aprendizado por reforço (Sutton e Barto, 1998).....7 FIGURA 2.2 – Diagrama

REFORÇO DE VIGAS DE CONCRETO À FLEXÃO POR ......RESUMO Esse trabalho apresenta uma análise teórico experimental de reforço de vigas de concreto armado à flexão por meio de

Aprendizagem por Reforço Alexandre Luiz G. Damasceno.

REFORÇO ESCOLAR - educacao.guaira.pr.gov.breducacao.guaira.pr.gov.br/arquivos/reforco_3_ano.pdf · APRESENTAÇÃO Atualmente, tanto nas escolas públicas como nas privadas, é comum

Apresentação de Resultados – 1º Semestre 2010 · Apresentação de Resultados – 1º Semestre 2010 Plano de Liquidez Reduzir o gap comercial Reforço do relacionamento com os

Reforço Sísmico por Dissipação Passiva de Viadutos de Betão Armado

Reforço sísmico de pilares de betão armado por ... · Sismo Capacity Design Reforço Regulamento Keywords ... Tabela 4.12 – Resumo das armaduras do reforço e momentos resistentes

APRENDIZAGEM POR REFORÇO COMO TÉCNICA DE CONTROLE …

INF 1771 – Inteligência Artificial Edirlei Soares de Lima Aula 19 – Aprendizado Por Reforço.

Reforço de Pilares de Betão por Encamisamento Híbrido ...€¦ · elevado módulo de elasticidade, fibras de aramida e fibras de vidro. Foram utilizados dois tipos de reforço,

reforço de vigas de concreto armado por meio de cabos externos ...

Uma Abordagem Utilizando Aprendizagem por Reforço ... · Uma Abordagem Utilizando Aprendizagem por Reforço Hierárquica e Computação Paralela para o Problema dos K-Servos. ...

REFORÇO DE PILARES DE CONCRETO ARMADO POR MEIO DE ...

Reforço de Estruturas de Betão Armado por Encamisamento das ...

REFORÇO DE VIGAS DE CONCRETO ARMADO POR ......Reforço de vigas de concreto armado por meio de barras de aço adicionais ou chapas de aço e argamassa de alto desempenho I Andréa

CONVITE PARA APRESENTAÇÃO DE CANDIDATURA...Convite para apresentação de Candidaturas ESCOLA DIGITAL - REFORÇO DA REDE DE EQUIPAMENTOS AVISO Nº NORTE-D4-2020-80 7 3.2 Critérios

Aprendizagem por Reforço (RL) Relacional e RL Multi-Agente

ESTUDO DO COMPORTAMENTO MECÂNICO DO … · Compósitos reforçados por fibras contínuas Compósitos reforçados por fibras descontínuas Reforço Unidirecional Reforço Bidirecional

CONCURSO PARA APRESENTAÇÃO DE CANDIDATURAS · 2020. 9. 25. · Concurso para apresentação de Candidaturas ESCOLA DIGITAL - REFORÇO DA REDE DE EQUIPAMENTOS - Refinanciamento AVISO

REFORÇO DA COOPERAÇÃO INTERNACIONAL Trabalho realizado por: Alexandra Silva Daniel Silva.