Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle...
-
Upload
horace-villard -
Category
Documents
-
view
107 -
download
0
Transcript of Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle...
Apprentissage par renforcementApprentissage par renforcementdans les SMA situés réactifs dans les SMA situés réactifs
(extension du modèle satisfaction-altruisme)(extension du modèle satisfaction-altruisme)
Olivier SimoninOlivier Simonin
LIRMM Université Montpellier II - CNRS LIRMM Université Montpellier II - CNRS
22èmeème journées PDM et IA, LORIA, 28 juin 2002 journées PDM et IA, LORIA, 28 juin 2002
Environnement
Acquisition
ActionsAgent
Des agents situés réactifs …Des agents situés réactifs …
Interactions
Agent - EnvironnementAgent - Environnement
Agent - Agent Résolution collectiveRésolution collectivede problèmesde problèmes
((comm. indirectes ou sanscomm. indirectes ou sans))
IAD réactive [Steels&Deneubourg 89]swarm intelligence [Kube 92]
éco-résolution [Ferber 89] [Drogoul 93]robotique cellulaires [Beni&Wang 89]
Architecture Architecture réactive, à baseréactive, à base
de comportementsde comportements
[Brooks 89],[Mataric 94], [Drogoul 93], [Arkin 92]
...
Réactions directes auxperceptions
Environnement
Action
Perception
pas de carte del’environnement
3
ProblématiqueProblématique
agents
homogènes/hétérogènes
buts differents
Environnements dynamiques / mals connus coordinationcoordination
coopérationcoopérationapprentissageapprentissage
intégrerintégrer à l’approcheà l’approche intelligence collective / architecture réactiveintelligence collective / architecture réactive
des comportementsdes comportements coopératifs intentionnelscoopératifs intentionnels
pourpour
diminuer le nombre d’agentsdiminuer le nombre d’agents nécessaire aux résolutions, assurer la nécessaire aux résolutions, assurer la
« survie » de chaque agent« survie » de chaque agent et et accélerer les processus de accélerer les processus de
coopérationcoopération
Objectif Objectif initialinitial
4
I. Le modèle satisfaction-altruismeI. Le modèle satisfaction-altruisme
II. Extension : apprentissage par renforcementII. Extension : apprentissage par renforcement
III. Quelques questions et perspectivesIII. Quelques questions et perspectives
Modèle deModèle decomportementcomportement
SimulationsExpérimentations
réelles
PlanPlan
5
Vision interne
Architecture à base de comportements (ou fonctions)
Éval. Sat Isignaux
test d’altruisme
Combi. vect.
Processus temps réel
Vision interaction
L’Architecture satisfaction-altruismeL’Architecture satisfaction-altruisme
6
Principe: évaluer continuellement un niveau de satisfaction P(t) fonction Principe: évaluer continuellement un niveau de satisfaction P(t) fonction de la de la progression de la tâcheprogression de la tâche courante de l’agent courante de l’agent
P(t) = P(t-t) + v v |v| s
t 0 |P(t)| Pmax Pmax +
Satisfaction personnelleSatisfaction personnelle
Evaluation de Evaluation de vv : extension des progress estimators de M.J. Mataric[94] : extension des progress estimators de M.J. Mataric[94]
m si progression vers le but n si éloignement du but f si agent immobilisé
v =
avec -s < f < n 0 m < s
persistance
7
Principe: Principe: évaluer les interactionsévaluer les interactions perception gêne, aide (potentielle), indifférence perception gêne, aide (potentielle), indifférence
émettre des signaux localement émettre des signaux localement coopération des agents voisins coopération des agents voisins
Emission de signaux de satisfaction interactive I à valeurs dans [-Pmax, Pmax]
Intensité variable, fonction des satisfactions
I > 0 attraction, I < 0 répulsion
Réaction altruiste(approche champs de potentiels)
)(/// .)()).((.)( nBABAAB
AB
BAtItISignktV
Satisfaction interactive (tâche-voisins) But / Besoin de l’agent • partage de ressources, besoin d’aide attirer le voisinage• conflit/piège potentiel, gênes repousser le voisinage
Satisfaction interactive, signaux et réaction altruisteSatisfaction interactive, signaux et réaction altruiste
8
Test d’altruisme : Si Test d’altruisme : Si .|I.|Iee(t)| > (1- (t)| > (1- ).P(t) ).P(t) V Vgoalgoal = réaction altruiste = réaction altruiste
(coop. ou non)(coop. ou non)
Combinaison vectorielle : Combinaison vectorielle : V = gV = g11.V.Vgoalgoal + g + g22.F.Fslisli + g + g33.. k kj j FFaltaltjj (déplacement de l’agent)(déplacement de l’agent)
Zeghal [94]
cohérence
Coordination et coopération spatialeCoordination et coopération spatiale
Propagation des signaux
max(signaux)
9
SimulationsSimulationsdes robots fourrageursdes robots fourrageurs
Le système combine auto-organisation et coopération intentionnelle
« Surface des signaux de satisfactions »
(in)satisfactions des agents
émission de signaux de satisfaction interactive
=
Affichage de -I et de son évolution
influences dynamiques combinées aux perceptions
des agents
10
Problème: agents situés réactifs situations de blocages, actions incompatibles
Traitement des conflits spatiauxTraitement des conflits spatiaux
propagation des signaux d’insatisfactionspropagation des signaux d’insatisfactions (répulsions) des agents les plus (répulsions) des agents les plus contraints (insatisfaits) vers les plus libres spatialement.contraints (insatisfaits) vers les plus libres spatialement.
Principe de résolution :Principe de résolution :
Pénalisation d’un blocage: v = N1. + N2.’ ’ < < 0
agents obstacles perçus
11
- Preuve de résolution pour ce type d’environnement ( manipuler temps, espace et états de satisfactions)
- Simulations
Résolution d’un cas extrême: l’impasseRésolution d’un cas extrême: l’impasse
12
Problème de l’impasse - 2 robots - extrémités fermées
les robots doivent se repousser à tour de rôle : oscillation
Expérimentation réelleExpérimentation réelle
13
II. Extension : Apprentissage par renforcementII. Extension : Apprentissage par renforcement
Approche M.J. Mataric [94] - agents situés / robots autonomes -Approche M.J. Mataric [94] - agents situés / robots autonomes -
Conditions sur les systèmes situés :Conditions sur les systèmes situés :
• évolution en environnement évolution en environnement continucontinu et et partiellement observablepartiellement observable, ,
• l’agent n’a pas de modèle l’agent n’a pas de modèle a prioria priori du monde, du monde,
( + non connaissance des intentions/états des autres agents )( + non connaissance des intentions/états des autres agents )
Conséquences :Conséquences :
• le monde n’est pas décomponsable en un ensemble fini d’états,le monde n’est pas décomponsable en un ensemble fini d’états,
(le problème du partitionnement en états discrets est très difficile [Kosecka92]) (le problème du partitionnement en états discrets est très difficile [Kosecka92])
• la limitation des perceptions ne garantie pas la distinction entre deux étatsla limitation des perceptions ne garantie pas la distinction entre deux états
differents du monde differents du monde POMDPPOMDP [Cassandra et al. 94][Cassandra et al. 94]
• RL classique est exponentiel dans la taille des entréesRL classique est exponentiel dans la taille des entrées
• problème du calcul de la récompense…problème du calcul de la récompense…
14
Condition Behavior
près géneur ? objet saisi ? à la base ? lumière ?
0 0 0 0 Recherche
0 0 0 1 Retour base
0 0 1 0 Recherche
A(c,b) = A(c,b) = t=1t=1T T R(c,t)R(c,t)
Résultat pour la politique optimale :Résultat pour la politique optimale :
Apprentissage : ajuster les valeurs de la matrice conditions/comportements:Apprentissage : ajuster les valeurs de la matrice conditions/comportements:
ens. de cond. binaires ens. de cond. binaires matrice 2 matrice 2nn conditions * B comportements conditions * B comportements
Condition Behavior
Recherche Retour base Dispersion Recharger bat.
0000 100 45 40 35
0001 45 100 35 45
0010 100 40 45 30
R(c) R(c) fonctions de renforcement hétérogènes, fonctions de renforcement hétérogènes, progress estimatorsprogress estimators … …
Limiter l’espace des états en considérant les comportementsLimiter l’espace des états en considérant les comportements
15
Renforcer suivant lesRenforcer suivant lessatisfactions du voisinagesatisfactions du voisinage
Un Un étatétat de l’agent (condition) est de l’agent (condition) est
défini par :défini par :
• des perceptions sur les états des perceptions sur les états des agents voisins des agents voisins
• des perceptions sur les objets à traiterdes perceptions sur les objets à traiter
signaux de satisfaction (sat. P) (leur signe signaux de satisfaction (sat. P) (leur signe représentation compactereprésentation compacte))
Calcul de la Calcul de la récompenserécompense ( ( Mataric[97], comm. récompense du voisinage): Mataric[97], comm. récompense du voisinage):
L’agent calcule une moyenne ML’agent calcule une moyenne MSatSat des signaux perçus localement durant la tâche des signaux perçus localement durant la tâche
à chaque itération l’agent considère le signal soit le plus négatifà chaque itération l’agent considère le signal soit le plus négatif
sinon le plus positifsinon le plus positif
ne renforcer que les situations positives pour l’ensemble des voisins.ne renforcer que les situations positives pour l’ensemble des voisins.
est l’écart entre la moyenne Mest l’écart entre la moyenne MSatSat et la valeur initiale et la valeur initiale
r = |r = ||.|. + (1- + (1-||||). ). MMSatSat / P / Pmax max W Wii = b.W = b.Wi i + (1-b).r+ (1-b).r
16
Système hétérogène de robots pousseurs et découpeurs de plaques
27 Etats action-interactions :
Des robots netoyeurs Des robots netoyeurs
Code I1 : signal Découp. I2 : signal Pous. S3 : percep. plaque
0 pas de signal pas de signal pas de plaque
1 + + plaque détectée
2 - - plaque saisie
robot découpeur
17
Diminution des situations insatisfaisantes (gênes, actions incompatibles)
Apparition ou renforcement des situations-actions collectivement satisfaisantes
Résultats - Simulations Résultats - Simulations
Agent n1 en sit. 022 avant après
marche aléatoire 0.1 0.11 +10%
pousser plaque 0 0.13 Nouv.
couper plaque 0.5 0.09 -82%
stabiliser plaque 0.5 0.15 -70%
réaction altruiste 0.6 0.1 -83%
Ex. situation 022 (rob. découp. tenant une plaque et percevant un pousseur insat.)
(après 25 essais en 022)
www.lirmm.fr/~chapelle/works/
évaluation en cours…
18
L’approche par comportements (Mataric) permetL’approche par comportements (Mataric) permet
• de mettre en œuvre un RL efficace pour un SMA réel (bruité)de mettre en œuvre un RL efficace pour un SMA réel (bruité)
• d’utiliser des fn. progress estimators pour évaluer dynamiquement lad’utiliser des fn. progress estimators pour évaluer dynamiquement la
récompense d’une tâche. récompense d’une tâche.
Nous introduisons la communication des états de satisfactions pourNous introduisons la communication des états de satisfactions pour
• prendre en compte les états des agents voisins dans l’évaluation de laprendre en compte les états des agents voisins dans l’évaluation de la
situation courante de l’agent (pb. états cachés) situation courante de l’agent (pb. états cachés)
• introduire un apprentissage « collectif » (non centré sur la tâcheintroduire un apprentissage « collectif » (non centré sur la tâche
individuelle courante de l’agent) individuelle courante de l’agent)
• conserver les atouts du modèle satisfaction-altruisme.conserver les atouts du modèle satisfaction-altruisme.
Questions et PerspectivesQuestions et Perspectives
19
Le formalisme POMDP peut-il donner un cadre formel à ces travaux ?Le formalisme POMDP peut-il donner un cadre formel à ces travaux ?
• ens. fini d’états (conditions), ens. d’actions (comportements), politiqueens. fini d’états (conditions), ens. d’actions (comportements), politique optimale à découvrir… type MMDP [Boutilier 99] optimale à découvrir… type MMDP [Boutilier 99]
• au contraire, notre approche est-elle une alternative à l’approche MDP ?au contraire, notre approche est-elle une alternative à l’approche MDP ?
L’approche AMM de [Mataric 00] (Augmented Markov Models) est-elle une L’approche AMM de [Mataric 00] (Augmented Markov Models) est-elle une solution ? (semi-Markov chains)solution ? (semi-Markov chains)
• construction et communication de graphes !construction et communication de graphes !
Perspectives :Perspectives :
• répondre à ces questions !répondre à ces questions !
• appliquer/évaluer notre modèle sur de véritable robots,appliquer/évaluer notre modèle sur de véritable robots,
• étendre le modèle : communications, def. des états, etc.étendre le modèle : communications, def. des états, etc.
Questions et PerspectivesQuestions et Perspectives
20
à court et moyen terme:à court et moyen terme:
• Expérimentations avec Expérimentations avec plus de robotsplus de robots (en cours), hétérogénéité, (en cours), hétérogénéité,
• Appliquer la méthode de résolution des conflits à desAppliquer la méthode de résolution des conflits à des problèmes réels problèmes réels,,
• Etendre le modèle apprenant Etendre le modèle apprenant (enrichir les communications)(enrichir les communications)
à plus long terme:à plus long terme:
• Exploiter ces mesures/Exploiter ces mesures/modèles de satisfactions pour analyser/concevoirmodèles de satisfactions pour analyser/concevoir
divers types de SMAs divers types de SMAs
• Etudier les Etudier les signaux d’attractions dans l’éco-résolutionsignaux d’attractions dans l’éco-résolution (et les éco-robots), (et les éco-robots),
• Etudier les états particuliers des processus de résolutions par les outilsEtudier les états particuliers des processus de résolutions par les outils
de la théorie des systèmes dynamiques. de la théorie des systèmes dynamiques.
PerspectivesPerspectives
21
PublicationsPublications
• Modèle de comportement - résolution de problèmes :Modèle de comportement - résolution de problèmes :
JFIADSMA'2001 JFIADSMA'2001 9eme journées Francophones d'Intelligence Artificielle Distribuée et Systèmes Multi-Agents9eme journées Francophones d'Intelligence Artificielle Distribuée et Systèmes Multi-Agents"Modélisation des satisfactions personnelle et interactive d'agents situés coopératifs""Modélisation des satisfactions personnelle et interactive d'agents situés coopératifs" Olivier Simonin et Jacques Ferber nov. 2001 Montreal (Best paper)Olivier Simonin et Jacques Ferber nov. 2001 Montreal (Best paper)
SAB'2000SAB'2000The Sixth International Conference on the Simulation of Adaptative BehaviorThe Sixth International Conference on the Simulation of Adaptative BehaviorFROM ANIMALS TO ANIMATS 6 (Paris, France)FROM ANIMALS TO ANIMATS 6 (Paris, France)"Modeling Self Satisfaction and Altruism to handle Action Selection and Reactive Cooperation""Modeling Self Satisfaction and Altruism to handle Action Selection and Reactive Cooperation" Olivier Simonin and Jacques Ferber Olivier Simonin and Jacques Ferber
DARS'2000DARS'20005th International Symposium on Distributed Autonomous Robotic Systems Knoxville, TN, USA5th International Symposium on Distributed Autonomous Robotic Systems Knoxville, TN, USA"An Architecture for Reactive Cooperation of Mobile Distributed Robots""An Architecture for Reactive Cooperation of Mobile Distributed Robots" Olivier Simonin, Alain Liégeois and Philippe Rongier Olivier Simonin, Alain Liégeois and Philippe Rongier
ECAI'2002ECAI'20021515thth European Conf. on Artificial Intelligence European Conf. on Artificial Intelligence«How situated agents can learn to cooperate by monitoring their neighbors’ satisfaction"«How situated agents can learn to cooperate by monitoring their neighbors’ satisfaction" Jérôme Chapelle, Olivier Simonin and Jacques Ferber (à paraître) Jérôme Chapelle, Olivier Simonin and Jacques Ferber (à paraître)
• Implémentation et validation en robotique : Implémentation et validation en robotique :
ICRA'2002ICRA'2002IEEE Int. Conf. on Robotics and AutomationIEEE Int. Conf. on Robotics and Automation"Implementation and Evaluation of a Satisfaction/Altruism Based Architecture for Multi-Robot "Implementation and Evaluation of a Satisfaction/Altruism Based Architecture for Multi-Robot Systems"Systems" (à paraître) (à paraître) Philippe Lucidarme, Olivier Simonin and Alain Liégeois Philippe Lucidarme, Olivier Simonin and Alain Liégeois
La thèse : www.lirmm.fr/~simonin/these/ La thèse : www.lirmm.fr/~simonin/these/
22
23
24
Introduction aux agents situés réactifsIntroduction aux agents situés réactifs
Agent
Environnement
?Traiter des tâches
Coopérer
Comportementcohérent et autonome
Interactions
Agent - EnvironnementAgent - Environnement
Agent - Agent
la notion d’Embodiment R. Brooks [91]
(robotique)
Traitements des tâches par processus collectifs
(éthologie) Steels et Deneubourg [89]
(informatique)
Acquisition
Actions
communications