Négociation dans les Systèmes Multi-Agents
Maxime MORGE
MASTER WEB Intelligence
MASTER WEB Intelligence – p.1/31
Les Systèmes Multi-Agents
E
A
A
AA
AA
II I
I
I
IIO O
SMA=A+E+I+O
les SMA =un paradigme de programmation ;un sous domaine de l’IA ;un outil de simulation.
MASTER WEB Intelligence – p.2/31
Motivations : résolution de conflits
Par nature les Systèmes Multi-Agents sont distribués, décentralisés,co-opératifs (coopératifs ou concurrents) : autant de sources deconflits :
omnipotence ? : actions, plans, buts, tâche/sous-tâches...omniscience ? : information incomplète incohérente, incertaine,
indisponible...ressouces limitées et partagées : fichiers, tps CPU, espace
disque, batterie...
Techniques de résolution de conflits :médiation : un arbitre, un agent centralisateur qui tranche ;normalisation a priori : poids, autorité, force ;négociation : échange de compromis pour parvenir à un accord.
MASTER WEB Intelligence – p.3/31
Négociation : interprétation géométrique
Ai
AjAk
PiPi
Pi
PiCi
Pj
Pj
Pj
Cj
Pk
Pk
Pk
Ck
Aire d’acceptabilité précédente
Aire d’acceptabilité courante
Offre précédente de l’agent i
Offre courante de l’agent i
Pi
Ci
Recherche distribuée dans l’espace des accords potentiels
MASTER WEB Intelligence – p.4/31
Grille d’analyse de la négociation automatique
NEGOCIATION
Decision
Language
Processus
Procédure Comporteme
nt
Stratégie
de l
’obj
et
Stru
ctur
e
Préférences S
émantique
Correspondance
Utilit
é Protocole
Primitives
Les briques de construction d’un système de négociation automatique
MASTER WEB Intelligence – p.5/31
Grille d’analyse : le langage
LA NÉGOCIATION = UN ÉCHANGE DE PROPOSTIONS :la structure de l’objet de la négociation :
valeurs : discrètes/continues, propositions/prédicats, binaires/multivaluées ;issues simples/multiples : prix, prix/quantité ;opérateur : ?, conjonction, disjonction, relation d’ordre ;dynamique/statique : dissociation des notions ;simple ou complexe : ressource/plan.
les primitives du langage : plus que des simples messages mais des actes delanguage (pragmatique : signe/signification/usage) ;
la sémantique du langage : pré-conditions et post-conditions pour spécifier lesconditions d’illocution (génération) et leur effet percolutoire (interprétation).
le protocole : la séquence des actions possibles ;
MASTER WEB Intelligence – p.6/31
Grille d’analyse : la décision
LA NÉGOCIATION = UNE PRISE DE DÉCISION DISTRIBUÉE :
la fonction d’utilité : elle permet d’évaluer et de comparer
les propositions. Le but de l’agent est d’optimiser cette
fonction ;
la fonction de mise en correspondance : l’objet doit être
au préalable traduit pour que l’agent puisse évaluer son
intérêt ;
les préférences : les poids relatifs des différents
aspects/alternatives.
la stratégie : elle concerne la tactique, le comportement
général de l’agent pour la résolution des conflits.
MASTER WEB Intelligence – p.7/31
Grille d’analyse : le processus
LA NÉGOCIATION = UN PROCESSUS :le modèle procédural : un cycle de négociation se décompose en
phase :le règlement de l’agenda : construction conjointe de l’objet de
négociation ;l’exploration du champ : limites des critères, fixer le niveau
d’acceptabilité, choisir la stratégie, estimer les réticences ;la découverte des différents : la recherche des désaccords, des
limites, des ambitions, des objectifs ; le déploiement desstratégies, leur modification ; l’évaluation et réalisation desconcessions ; la mesure des divergences entre participants.
le comportement du système : l’analyse qualitative etquantitative du processus en terme d’efficacité, d’équité.
MASTER WEB Intelligence – p.8/31
Objet de négociation
ex : Négociation Multi-Attribut (ADEPT/SLA)Slot Name Instantiated Values
SERVICE_NAME: cost_&_design_customer_network
SLA_ID: a1001
SERVER_AGENT: DD
CLIENT_AGENT: CSD
SLA_DELIVERY_TYPE: on-demand
DURATION: (minutes) 320
START_TIME: 9:00
END_TIME: 18:00
VOLUME: 35
PRICE: (per costing) 35
PENALTY: 30
CLIENT_INFO: cr_profile
REPORTING_POLICY: customer_quote
MASTER WEB Intelligence – p.9/31
Objet de négociation (cont.)
ex : Négociation Multi-Attribut/Multi-Partenaire
MASTER WEB Intelligence – p.10/31
Les actes de langages
les unité du discours :appel à propositionproposition/contre-propositionoffre complète/partielleacceptation/refusrécompences/menaces/appels (rewards/threats/appeals)
ex : FIPA Agent Communication Language
Appel à proposition
(cfp
:sender (agent-identifier :name i)
:receiver (set (agent-identifier :name j))
:content "((action (agent-identifier :name j)
(sell plum 50))
(any ?x (and (= (price plum) ?x) (< ?x 10))))"
:ontology fruit-market :language fipa-sl)
MASTER WEB Intelligence – p.11/31
Les actes de langages (cont.)
Proposition
(propose
:sender (agent-identifier :name j)
:receiver (set (agent-identifier :name i))
:content "((action j (sell plum 50))
(= (any ?x (and (= (price plum) ?x) (< ?x 10))) 5)"
:ontology fruit-market
:in-reply-to proposal2
:language fipa-sl)
Refus
(reject-proposal
:sender (agent-identifier :name j)
:receiver (set (agent-identifier :name i))
:content "((action (agent-identifier :name j)
(sell plum 50)) (cost 200) (price-too-high 50))"
:in-reply-to proposal13)
MASTER WEB Intelligence – p.12/31
Le protocole
les rôles : Initiateur, Participants...l’arité du protocole :
one-to-one : un acheteur - un vendeur ;many-to-one : plusieurs vendeurs - un acheteur ;many-to-many : plusieurs vendeurs - plusieurs acheteurs.
ex : FIPA Contract Net Interaction Protocol
MASTER WEB Intelligence – p.13/31
Négociation non-coopérative
MASTER WEB Intelligence – p.14/31
Négociation non-coopérative
motivation : la standardisation des infrastructures de communication (TCP/IP,WWW, KQML, FIPA, Java), autorise la conception d’agents interagissant dans unenvironnement ouvert, en temps réel et pouvant mettre en œuvre des transactionspour le commerce électronique (bande passante, biens, informations...) ;
négociation non-coopérative = cadre institutionnel où les agents arrêtent seulsleur choix, sans consulter les autres agents, pour satisfaire leur propre but ;
les agents self-interested maximisent une fonction d’utilité ;objectif : développer des mécanismes d’interactions (enchère, vote, marchandage,
marché, contrat, formation de coalition) pour garantir la robustesse du système ;Par opposition, la résolution coopérative de problème distribuée a pour objet la
conception de système, notamment le protocole et les stratégies des agents qui sontélaborées dans le but de maximiser la satisfaction globale du système.
MASTER WEB Intelligence – p.15/31
Robustesse du système
Les critères d’évaluation du système :coût computationnel : calculabilité de la fonction d’utilité, calculabilité de la
fonction de meilleure réponse, l’espace nécessaire à la représentation de la meilleurestratégie, coût des communications, distributivité de la recherche.
qualité de solution : comparaison des solutions obtenues à l’issue des différentsmécanismes en mesurant par exemple le crédit global des agents.
rationalisme individuel : participer à une négociation est pour un agentindividuellement rationnel ssi ses gains sont plus importants que s’il n’y avait pasparticipé, unn processus est individuellement raisonnable ssi l’ensemble des agentsen tire bénéfice ;
stabilité : un agent peut-il acroître son gain en changeant de stratégie ?symétrie : existe-il un agent "dictateur" ?
MASTER WEB Intelligence – p.16/31
La théorie des jeux
Définition 1 (Jeu non-coopératif) On appelle jeu non-coopératif un triplet< I,S,ΠI > défini par :
un ensemble de N joueurs : I = {1,2, ...,N} ;pour chaque joueur i ∈ I, un ensemble de stratégies Si, qui contient toutes les
stratégies possibles de ce joueur. si ∈ SI est une stratégie particulière du joueur i. Parconséquent, Si = {si
1,si2, ...,s
iki} si ki stratégies sont possibles pour le joueur i. Si
chaque joueur i choisit une stratégie i nous pouvons représenter le résultat (i.e. profilde stratégies) du jeu par le vecteur S = (s1,s2, ...,sN)
pour chaque joueur i, une fonction d’utilité π i,qui donne la valeur pour le joueur i
de chaque résultat du jeux : π i(S) défini tel que :
π i : S = Xi∈ISi → R
S ≡ (s1,s2
, ...,sN) 7→ π i(S)
Nous pouvons représenter l’ensemble des utilités par un vecteur qui contient toutesces fonctions ΠI = (π1,π2, ...,πN)
MASTER WEB Intelligence – p.17/31
Jeu non-coopératif : 2 exemples
Le dilemme des prisonniers :
Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
La bataille des sexes :
Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
MASTER WEB Intelligence – p.18/31
Stabilité
le profil de stratégie S−i est défini tel que :
S−i = {s1, ...,si−1
,si+1, ...,sN} défini tel que S−i ∈ Xi6= jS
j. On a donc S ≡ (Si,S−i) (1)
Définition 2 (Stratégie dominante) Une stratégie particulière (si ∈ Si) d’un joueurest une stratégie dominante du joueur i ssi , quelles que soient les stratégieschoisies par les autres joueurs, elle maximise le gain de i :∀si ∈ Si , ∀s−i ∈ S−i π i(si,s−i) ≥ π i(si,s−i)
Un équilibre en stratégie dominante est un résultat de jeu où tous les agentsjouent une stratégie dominante (n’existe que pour un nombre très restreint de jeux).
Définition 3 (Équilibre de Nash) Un résultat de jeu S = (s1, ..., sN) avec ∀si ∈ Si
est un équilibre de Nash ssi aucun joueur n’a intérêt à dévier unilatéralement de sastratégie si quand les joueurs continuent à jouer s−1. On a donc :∀si ∈ Si π i(si, s−i) ≥ π i(si, s−i)
Un équilibre de Nash décrit l’issue d’un jeu non coopératif dans lequel aucunjoueur n’a intérêt à modifier sa stratégie, compte tenu des stratégies des autresjoueurs.
MASTER WEB Intelligence – p.19/31
Stabilité : 2 exemples
LE DILEMME DES PRISONNIERS :Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
avouer est une stratégie dominante,(avouer,avouer) est un équilibre en stratégie dominantemais également un équilibre de Nash
LA BATAILLE DES SEXES :Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
pas de stratégie dominante
(O,O) et (F,F) sont des équilibres de Nash
MASTER WEB Intelligence – p.20/31
Stabilité : 2 exemples
LE DILEMME DES PRISONNIERS :Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
avouer est une stratégie dominante,(avouer,avouer) est un équilibre en stratégie dominante
mais également un équilibre de Nash
LA BATAILLE DES SEXES :Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
pas de stratégie dominante
(O,O) et (F,F) sont des équilibres de Nash
MASTER WEB Intelligence – p.20/31
Stabilité : 2 exemples
LE DILEMME DES PRISONNIERS :Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
avouer est une stratégie dominante,(avouer,avouer) est un équilibre en stratégie dominantemais également un équilibre de NashLA BATAILLE DES SEXES :
Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
pas de stratégie dominante
(O,O) et (F,F) sont des équilibres de Nash
MASTER WEB Intelligence – p.20/31
Satisfiabilité
Définition 3 (Bien-être social) Le bien-être social mesure le crédit global desagents, la somme des gains des agents étant donné une solution.
Cette mesure est arbitraire puisqu’elle nécessite de comparer les fonctions d’utilitéet donc présuppose que cette comparabilité est possible. C’est une hypothèse forteet très restrictive.
Définition 3 (Optimum de Pareto) Une solution est un optimum de Pareto (i.e.efficace au sens de Pareto) ssi il n’en existe pas d’autre qui permette d’accroître leniveau de satisfaction d’un ou plusieurs agents sans faire diminuer celle d’au moinsun autre agent.
On s’interdit de comparer le gain en satisfaction des uns avec les pertes des autres.
MASTER WEB Intelligence – p.21/31
Satisfiabilité : 2 exemples
LE DILEMME DES PRISONNIERS :Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
(nier,nier) maximise le bien-être social(nier,nier) pareto-domine (avouer,avouer)
LA BATAILLE DES SEXES :Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
(O,O) et (F,F) maximisent le bien-être social
(O,O) et (F,F) sont des optimum de Pareto
MASTER WEB Intelligence – p.22/31
Satisfiabilité : 2 exemples
LE DILEMME DES PRISONNIERS :Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
(nier,nier) maximise le bien-être social
(nier,nier) pareto-domine (avouer,avouer)
LA BATAILLE DES SEXES :Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
(O,O) et (F,F) maximisent le bien-être social
(O,O) et (F,F) sont des optimum de Pareto
MASTER WEB Intelligence – p.22/31
Satisfiabilité : 2 exemples
LE DILEMME DES PRISONNIERS :Clyde
nier avouer
Bonnie nier (−1,−1) (−10,0)
avouer (0,−10) (−8,−8)
(nier,nier) maximise le bien-être social(nier,nier) pareto-domine (avouer,avouer)LA BATAILLE DES SEXES :
Clyde
O F
Bonnie O (2,1) (0,0)
F (0,0) (1,2)
(O,O) et (F,F) maximisent le bien-être social
(O,O) et (F,F) sont des optimum de Pareto
MASTER WEB Intelligence – p.22/31
Agentification : raisonnement économique
On parle d’agent à rationalité économique :agent = joueur ;action = choix réalisé par un agent à un instant du jeu ;résultat = réponse du système (environnement/ autres agents) ;stratégie = choisir une action étant donnée un historique de résultats ;utilité = représentation mathématique des préférences individuelles ;espérence d’utilité = utilité de résultats incertains (prudence/audace).
maxstratégie
∑résultat
p(résultat|stratégie)ui(résultat)
Par opposition au raisonnement logique.La rationalité des agents est limitée.
MASTER WEB Intelligence – p.23/31
Le vote = un processus de décision
MASTER WEB Intelligence – p.24/31
Théorie du choix social
Définition 3 (Fonction de choix social) Soient A : un ensemble d’agents, O : unensemble de choix sociaux, (�i,O)i∈A : les préférences individuelles (transitiveasymétrique strict). On appel fonction de choix social �∗ la préférence collective. Elledoit satisfaire les propriétés suivantes :
�∗ existe quelque soit les préférences individuelles ;(�∗,O) est asymétrique et transitive ;la règle d’unanimité (efficacité parétienne) :
si ∀i ∈ A o �i o′ alors o �∗ o′
la règle d’indépendance vis à vis des alternatives non-pertientes :
si ∀o,o′ ∈ O o �i o′ ⇔ o �′i o′ alors �
′∗⇔�∗
la règle de non-dictature :
6 ∃i ∈ A o �i o′ ⇒ o �∗ o′
MASTER WEB Intelligence – p.25/31
Théorème d’Arrow
Théoreme 0 Théorème d’Arrow Si ‖O‖ ≥ 3 Il n’existe pas de fonction de choixsocial qui vérifie les six conditions.
ex : Protocole binaire : alternative non pertinente, dépendance vis à vis del’agenda, choix paréto-dominé.
MASTER WEB Intelligence – p.26/31
Les différentes enchères (-500 JC, Babylone)
MASTER WEB Intelligence – p.27/31
Enchère orale
Enchère anglaise : les participants surenchèrent jusqu’à ce que l’un deuxl’emporte :
prix minimum ascendant ;offre publique des particpants ;transaction avec le plus offrant ;prix effectif : la meilleure offre.
Enchère hollandaise : l’initiateur annonce un prix qui va décroitre jusqu’à ce quel’un des participants l’accepte :
prix maximum décroissant ;offre publique de l’initiateur ;transaction avec le premier à crier "Mine" ;prix effectif : celui indiqué par l’horloge hollandaise.
MASTER WEB Intelligence – p.28/31
Enchère écrite
Enchère FPSB First-Price Seal-Bid : les offres sontfaîtes simultanément :
offres secrètes des participants (Seal-Bid) ;transaction avec le plus offrant ;prix effectif : la meilleure offre (First-Price).
Enchère Vickrey : identique à l’exception du prixeffectif :
offres secrètes des participants ;transaction avec le plus offrant ;prix effectif : la seconde meilleure offre.
MASTER WEB Intelligence – p.29/31
Architecture d’agent négociant
Évaluation des propositions
Stratégie de négociation
Marchandage Manipulation de l’objetde négociation
Concession
heuristiques
Agent aAgent b propose x
Accepter x
Refuser x
Contre−proposer y
U(x) ?
Ub(y)=Ub(x)Ua(y)>Ua(x)
y=x+f(z)U(y)=f(t),f(b),....
y?y?y?
MASTER WEB Intelligence – p.30/31
Conclusions
Système Multi-Agents : un paradigme de programmation ;Négociation : résolution décentralisée de conflit ;Système de négociation : langage, décision, processusnégociation non-coopérative : cadre où les agents arrêtent
seuls leur choix, sans consulter les autres agents, pour satisfaireleur propre but ;
résolution coopérative de problème distribuée a pour objet laconception de système, notamment le protocole et les stratégiesdes agents qui sont élaborées dans le but de maximiser lasatisfaction globale du système ;
objectif de la négociation non-coopérative : développer desmécanismes d’interactions (enchère, vote, marchandage, marché,contrat, formation de coalition) pour garantir la robustesse dusystème.
MASTER WEB Intelligence – p.31/31
Top Related