DokuWiki

This is an old revision of the document!

Learning multi-agent state space representations

Quelques informations

Markov game -> Système multi-agent avec plusieurs sets d'actions, la proba de transition dépend de s, a et s', récompense unique à chaque agent et une transition.

Une variante consiste à donner une récompense commune aux agents.

Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo :

Kok & Vlassis, Utile coordination : Learning indepedenies among cooperative agents.
Spaan & Melo IDMG

Détails sur l'IDMG :

Interaction Driven Markov Game
Les agents peuvent connaitre la position des autres par la communication ou en les détectant avec les capteurs
Plus de détails sur l'article de Spaan & Melo...

Learning Coordination States :

Identification des états dans lequel un agent devrait prendre en compte les autres agents quand il choisi une action et qu'il y a besoin de coordination sur celle-ci avec un autre agent.

CQ-Learning

En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.

Les agents ont deux ensembles d'états, un classique qui répertorie tous les états (hors joint) et un “joint” qui répertorie les états qui sont en collisions avec d'autres agents. C'est à dire accessibles par deux agents ou plus.

L'algorithme utilise alors test de Student pour détecter des changements dans la valeur d'une récompense sur un <état, action> ciblé. Deux situations peuvent arriver :

L'algorithme détecte un changement, s'en suivent alors les étapes suivantes :
1. Marquage de l'état
2. Recherche de la cause du changement
3. Paire <état, action> marquée comme “dangereuse”
4. Ajout de l'état à l'ensemble d'états “joint” de l'agent
5. Les <états, action> qui n'ont pas provoqués la collision sont marqué comme “safe”
L'algorithme ne détecte aucun changement, aucune instruction n'a lieu

DokuWiki

Site Tools

Table of Contents

Learning multi-agent state space representations

Quelques informations

CQ-Learning

Page Tools