Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle...

24
Apprentissage par renforcement Apprentissage par renforcement dans les SMA situés réactifs dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) (extension du modèle satisfaction-altruisme) Olivier Simonin Olivier Simonin LIRMM Université Montpellier II - LIRMM Université Montpellier II - CNRS CNRS 2 ème ème journées PDM et IA, LORIA, 28 juin journées PDM et IA, LORIA, 28 juin 2002 2002

Transcript of Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle...

Page 1: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

Apprentissage par renforcementApprentissage par renforcementdans les SMA situés réactifs dans les SMA situés réactifs

(extension du modèle satisfaction-altruisme)(extension du modèle satisfaction-altruisme)

Olivier SimoninOlivier Simonin

LIRMM Université Montpellier II - CNRS LIRMM Université Montpellier II - CNRS

22èmeème journées PDM et IA, LORIA, 28 juin 2002 journées PDM et IA, LORIA, 28 juin 2002

Page 2: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

Environnement

Acquisition

ActionsAgent

Des agents situés réactifs …Des agents situés réactifs …

Interactions

Agent - EnvironnementAgent - Environnement

Agent - Agent Résolution collectiveRésolution collectivede problèmesde problèmes

((comm. indirectes ou sanscomm. indirectes ou sans))

IAD réactive [Steels&Deneubourg 89]swarm intelligence [Kube 92]

éco-résolution [Ferber 89] [Drogoul 93]robotique cellulaires [Beni&Wang 89]

Architecture Architecture réactive, à baseréactive, à base

de comportementsde comportements

[Brooks 89],[Mataric 94], [Drogoul 93], [Arkin 92]

...

Réactions directes auxperceptions

Environnement

Action

Perception

pas de carte del’environnement

Page 3: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

3

ProblématiqueProblématique

agents

homogènes/hétérogènes

buts differents

Environnements dynamiques / mals connus coordinationcoordination

coopérationcoopérationapprentissageapprentissage

intégrerintégrer à l’approcheà l’approche intelligence collective / architecture réactiveintelligence collective / architecture réactive

des comportementsdes comportements coopératifs intentionnelscoopératifs intentionnels

pourpour

diminuer le nombre d’agentsdiminuer le nombre d’agents nécessaire aux résolutions, assurer la nécessaire aux résolutions, assurer la

« survie » de chaque agent« survie » de chaque agent et et accélerer les processus de accélerer les processus de

coopérationcoopération

Objectif Objectif initialinitial

Page 4: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

4

I. Le modèle satisfaction-altruismeI. Le modèle satisfaction-altruisme

II. Extension : apprentissage par renforcementII. Extension : apprentissage par renforcement

III. Quelques questions et perspectivesIII. Quelques questions et perspectives

Modèle deModèle decomportementcomportement

SimulationsExpérimentations

réelles

PlanPlan

Page 5: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

5

Vision interne

Architecture à base de comportements (ou fonctions)

Éval. Sat Isignaux

test d’altruisme

Combi. vect.

Processus temps réel

Vision interaction

L’Architecture satisfaction-altruismeL’Architecture satisfaction-altruisme

Page 6: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

6

Principe: évaluer continuellement un niveau de satisfaction P(t) fonction Principe: évaluer continuellement un niveau de satisfaction P(t) fonction de la de la progression de la tâcheprogression de la tâche courante de l’agent courante de l’agent

P(t) = P(t-t) + v v |v| s

t 0 |P(t)| Pmax Pmax +

Satisfaction personnelleSatisfaction personnelle

Evaluation de Evaluation de vv : extension des progress estimators de M.J. Mataric[94] : extension des progress estimators de M.J. Mataric[94]

m si progression vers le but n si éloignement du but f si agent immobilisé

v =

avec -s < f < n 0 m < s

persistance

Page 7: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

7

Principe: Principe: évaluer les interactionsévaluer les interactions perception gêne, aide (potentielle), indifférence perception gêne, aide (potentielle), indifférence

émettre des signaux localement émettre des signaux localement coopération des agents voisins coopération des agents voisins

Emission de signaux de satisfaction interactive I à valeurs dans [-Pmax, Pmax]

Intensité variable, fonction des satisfactions

I > 0 attraction, I < 0 répulsion

Réaction altruiste(approche champs de potentiels)

)(/// .)()).((.)( nBABAAB

AB

BAtItISignktV

Satisfaction interactive (tâche-voisins) But / Besoin de l’agent • partage de ressources, besoin d’aide attirer le voisinage• conflit/piège potentiel, gênes repousser le voisinage

Satisfaction interactive, signaux et réaction altruisteSatisfaction interactive, signaux et réaction altruiste

Page 8: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

8

Test d’altruisme : Si Test d’altruisme : Si .|I.|Iee(t)| > (1- (t)| > (1- ).P(t) ).P(t) V Vgoalgoal = réaction altruiste = réaction altruiste

(coop. ou non)(coop. ou non)

Combinaison vectorielle : Combinaison vectorielle : V = gV = g11.V.Vgoalgoal + g + g22.F.Fslisli + g + g33.. k kj j FFaltaltjj (déplacement de l’agent)(déplacement de l’agent)

Zeghal [94]

cohérence

Coordination et coopération spatialeCoordination et coopération spatiale

Propagation des signaux

max(signaux)

Page 9: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

9

SimulationsSimulationsdes robots fourrageursdes robots fourrageurs

Le système combine auto-organisation et coopération intentionnelle

« Surface des signaux de satisfactions »

(in)satisfactions des agents

émission de signaux de satisfaction interactive

=

Affichage de -I et de son évolution

influences dynamiques combinées aux perceptions

des agents

Page 10: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

10

Problème: agents situés réactifs situations de blocages, actions incompatibles

Traitement des conflits spatiauxTraitement des conflits spatiaux

propagation des signaux d’insatisfactionspropagation des signaux d’insatisfactions (répulsions) des agents les plus (répulsions) des agents les plus contraints (insatisfaits) vers les plus libres spatialement.contraints (insatisfaits) vers les plus libres spatialement.

Principe de résolution :Principe de résolution :

Pénalisation d’un blocage: v = N1. + N2.’ ’ < < 0

agents obstacles perçus

Page 11: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

11

- Preuve de résolution pour ce type d’environnement ( manipuler temps, espace et états de satisfactions)

- Simulations

Résolution d’un cas extrême: l’impasseRésolution d’un cas extrême: l’impasse

Page 12: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

12

Problème de l’impasse - 2 robots - extrémités fermées

les robots doivent se repousser à tour de rôle : oscillation

Expérimentation réelleExpérimentation réelle

Page 13: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

13

II. Extension : Apprentissage par renforcementII. Extension : Apprentissage par renforcement

Approche M.J. Mataric [94] - agents situés / robots autonomes -Approche M.J. Mataric [94] - agents situés / robots autonomes -

Conditions sur les systèmes situés :Conditions sur les systèmes situés :

• évolution en environnement évolution en environnement continucontinu et et partiellement observablepartiellement observable, ,

• l’agent n’a pas de modèle l’agent n’a pas de modèle a prioria priori du monde, du monde,

( + non connaissance des intentions/états des autres agents )( + non connaissance des intentions/états des autres agents )

Conséquences :Conséquences :

• le monde n’est pas décomponsable en un ensemble fini d’états,le monde n’est pas décomponsable en un ensemble fini d’états,

(le problème du partitionnement en états discrets est très difficile [Kosecka92]) (le problème du partitionnement en états discrets est très difficile [Kosecka92])

• la limitation des perceptions ne garantie pas la distinction entre deux étatsla limitation des perceptions ne garantie pas la distinction entre deux états

differents du monde differents du monde POMDPPOMDP [Cassandra et al. 94][Cassandra et al. 94]

• RL classique est exponentiel dans la taille des entréesRL classique est exponentiel dans la taille des entrées

• problème du calcul de la récompense…problème du calcul de la récompense…

Page 14: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

14

Condition Behavior

près géneur ? objet saisi ? à la base ? lumière ?

0 0 0 0 Recherche

0 0 0 1 Retour base

0 0 1 0 Recherche

A(c,b) = A(c,b) = t=1t=1T T R(c,t)R(c,t)

Résultat pour la politique optimale :Résultat pour la politique optimale :

Apprentissage : ajuster les valeurs de la matrice conditions/comportements:Apprentissage : ajuster les valeurs de la matrice conditions/comportements:

ens. de cond. binaires ens. de cond. binaires matrice 2 matrice 2nn conditions * B comportements conditions * B comportements

Condition Behavior

Recherche Retour base Dispersion Recharger bat.

0000 100 45 40 35

0001 45 100 35 45

0010 100 40 45 30

R(c) R(c) fonctions de renforcement hétérogènes, fonctions de renforcement hétérogènes, progress estimatorsprogress estimators … …

Limiter l’espace des états en considérant les comportementsLimiter l’espace des états en considérant les comportements

Page 15: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

15

Renforcer suivant lesRenforcer suivant lessatisfactions du voisinagesatisfactions du voisinage

Un Un étatétat de l’agent (condition) est de l’agent (condition) est

défini par :défini par :

• des perceptions sur les états des perceptions sur les états des agents voisins des agents voisins

• des perceptions sur les objets à traiterdes perceptions sur les objets à traiter

signaux de satisfaction (sat. P) (leur signe signaux de satisfaction (sat. P) (leur signe représentation compactereprésentation compacte))

Calcul de la Calcul de la récompenserécompense ( ( Mataric[97], comm. récompense du voisinage): Mataric[97], comm. récompense du voisinage):

L’agent calcule une moyenne ML’agent calcule une moyenne MSatSat des signaux perçus localement durant la tâche des signaux perçus localement durant la tâche

à chaque itération l’agent considère le signal soit le plus négatifà chaque itération l’agent considère le signal soit le plus négatif

sinon le plus positifsinon le plus positif

ne renforcer que les situations positives pour l’ensemble des voisins.ne renforcer que les situations positives pour l’ensemble des voisins.

est l’écart entre la moyenne Mest l’écart entre la moyenne MSatSat et la valeur initiale et la valeur initiale

r = |r = ||.|. + (1- + (1-||||). ). MMSatSat / P / Pmax max W Wii = b.W = b.Wi i + (1-b).r+ (1-b).r

Page 16: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

16

Système hétérogène de robots pousseurs et découpeurs de plaques

27 Etats action-interactions :

Des robots netoyeurs Des robots netoyeurs

Code I1 : signal Découp. I2 : signal Pous. S3 : percep. plaque

0 pas de signal pas de signal pas de plaque

1 + + plaque détectée

2 - - plaque saisie

robot découpeur

Page 17: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

17

Diminution des situations insatisfaisantes (gênes, actions incompatibles)

Apparition ou renforcement des situations-actions collectivement satisfaisantes

Résultats - Simulations Résultats - Simulations

Agent n1 en sit. 022 avant après

marche aléatoire 0.1 0.11 +10%

pousser plaque 0 0.13 Nouv.

couper plaque 0.5 0.09 -82%

stabiliser plaque 0.5 0.15 -70%

réaction altruiste 0.6 0.1 -83%

Ex. situation 022 (rob. découp. tenant une plaque et percevant un pousseur insat.)

(après 25 essais en 022)

www.lirmm.fr/~chapelle/works/

évaluation en cours…

Page 18: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

18

L’approche par comportements (Mataric) permetL’approche par comportements (Mataric) permet

• de mettre en œuvre un RL efficace pour un SMA réel (bruité)de mettre en œuvre un RL efficace pour un SMA réel (bruité)

• d’utiliser des fn. progress estimators pour évaluer dynamiquement lad’utiliser des fn. progress estimators pour évaluer dynamiquement la

récompense d’une tâche. récompense d’une tâche.

Nous introduisons la communication des états de satisfactions pourNous introduisons la communication des états de satisfactions pour

• prendre en compte les états des agents voisins dans l’évaluation de laprendre en compte les états des agents voisins dans l’évaluation de la

situation courante de l’agent (pb. états cachés) situation courante de l’agent (pb. états cachés)

• introduire un apprentissage « collectif » (non centré sur la tâcheintroduire un apprentissage « collectif » (non centré sur la tâche

individuelle courante de l’agent) individuelle courante de l’agent)

• conserver les atouts du modèle satisfaction-altruisme.conserver les atouts du modèle satisfaction-altruisme.

Questions et PerspectivesQuestions et Perspectives

Page 19: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

19

Le formalisme POMDP peut-il donner un cadre formel à ces travaux ?Le formalisme POMDP peut-il donner un cadre formel à ces travaux ?

• ens. fini d’états (conditions), ens. d’actions (comportements), politiqueens. fini d’états (conditions), ens. d’actions (comportements), politique optimale à découvrir… type MMDP [Boutilier 99] optimale à découvrir… type MMDP [Boutilier 99]

• au contraire, notre approche est-elle une alternative à l’approche MDP ?au contraire, notre approche est-elle une alternative à l’approche MDP ?

L’approche AMM de [Mataric 00] (Augmented Markov Models) est-elle une L’approche AMM de [Mataric 00] (Augmented Markov Models) est-elle une solution ? (semi-Markov chains)solution ? (semi-Markov chains)

• construction et communication de graphes !construction et communication de graphes !

Perspectives :Perspectives :

• répondre à ces questions !répondre à ces questions !

• appliquer/évaluer notre modèle sur de véritable robots,appliquer/évaluer notre modèle sur de véritable robots,

• étendre le modèle : communications, def. des états, etc.étendre le modèle : communications, def. des états, etc.

Questions et PerspectivesQuestions et Perspectives

Page 20: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

20

à court et moyen terme:à court et moyen terme:

• Expérimentations avec Expérimentations avec plus de robotsplus de robots (en cours), hétérogénéité, (en cours), hétérogénéité,

• Appliquer la méthode de résolution des conflits à desAppliquer la méthode de résolution des conflits à des problèmes réels problèmes réels,,

• Etendre le modèle apprenant Etendre le modèle apprenant (enrichir les communications)(enrichir les communications)

à plus long terme:à plus long terme:

• Exploiter ces mesures/Exploiter ces mesures/modèles de satisfactions pour analyser/concevoirmodèles de satisfactions pour analyser/concevoir

divers types de SMAs divers types de SMAs

• Etudier les Etudier les signaux d’attractions dans l’éco-résolutionsignaux d’attractions dans l’éco-résolution (et les éco-robots), (et les éco-robots),

• Etudier les états particuliers des processus de résolutions par les outilsEtudier les états particuliers des processus de résolutions par les outils

de la théorie des systèmes dynamiques. de la théorie des systèmes dynamiques.

PerspectivesPerspectives

Page 21: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

21

PublicationsPublications

• Modèle de comportement - résolution de problèmes :Modèle de comportement - résolution de problèmes :

JFIADSMA'2001 JFIADSMA'2001 9eme journées Francophones d'Intelligence Artificielle Distribuée et Systèmes Multi-Agents9eme journées Francophones d'Intelligence Artificielle Distribuée et Systèmes Multi-Agents"Modélisation des satisfactions personnelle et interactive d'agents situés coopératifs""Modélisation des satisfactions personnelle et interactive d'agents situés coopératifs" Olivier Simonin et Jacques Ferber nov. 2001 Montreal (Best paper)Olivier Simonin et Jacques Ferber nov. 2001 Montreal (Best paper)

SAB'2000SAB'2000The Sixth International Conference on the Simulation of Adaptative BehaviorThe Sixth International Conference on the Simulation of Adaptative BehaviorFROM ANIMALS TO ANIMATS 6 (Paris, France)FROM ANIMALS TO ANIMATS 6 (Paris, France)"Modeling Self Satisfaction and Altruism to handle Action Selection and Reactive Cooperation""Modeling Self Satisfaction and Altruism to handle Action Selection and Reactive Cooperation" Olivier Simonin and Jacques Ferber Olivier Simonin and Jacques Ferber

DARS'2000DARS'20005th International Symposium on Distributed Autonomous Robotic Systems Knoxville, TN, USA5th International Symposium on Distributed Autonomous Robotic Systems Knoxville, TN, USA"An Architecture for Reactive Cooperation of Mobile Distributed Robots""An Architecture for Reactive Cooperation of Mobile Distributed Robots"    Olivier Simonin, Alain Liégeois and Philippe Rongier Olivier Simonin, Alain Liégeois and Philippe Rongier

ECAI'2002ECAI'20021515thth European Conf. on Artificial Intelligence European Conf. on Artificial Intelligence«How situated agents can learn to cooperate by monitoring their neighbors’ satisfaction"«How situated agents can learn to cooperate by monitoring their neighbors’ satisfaction" Jérôme Chapelle, Olivier Simonin and Jacques Ferber (à paraître) Jérôme Chapelle, Olivier Simonin and Jacques Ferber (à paraître) 

• Implémentation et validation en robotique : Implémentation et validation en robotique :

ICRA'2002ICRA'2002IEEE Int. Conf. on Robotics and AutomationIEEE Int. Conf. on Robotics and Automation"Implementation and Evaluation of a Satisfaction/Altruism Based Architecture for Multi-Robot "Implementation and Evaluation of a Satisfaction/Altruism Based Architecture for Multi-Robot Systems"Systems" (à paraître)  (à paraître) Philippe Lucidarme, Olivier Simonin and Alain Liégeois Philippe Lucidarme, Olivier Simonin and Alain Liégeois

La thèse : www.lirmm.fr/~simonin/these/ La thèse : www.lirmm.fr/~simonin/these/

Page 22: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

22

Page 23: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

23

Page 24: Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

24

Introduction aux agents situés réactifsIntroduction aux agents situés réactifs

Agent

Environnement

?Traiter des tâches

Coopérer

Comportementcohérent et autonome

Interactions

Agent - EnvironnementAgent - Environnement

Agent - Agent

la notion d’Embodiment R. Brooks [91]

(robotique)

Traitements des tâches par processus collectifs

(éthologie) Steels et Deneubourg [89]

(informatique)

Acquisition

Actions

communications