Markov game -> Système multi-agent avec plusieurs sets d'actions, la proba de transition dépend de s, a et s', récompense unique à chaque agent et une transition.
Une variante consiste à donner une récompense commune aux agents.
Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo :
Détails sur l'IDMG :
Learning Coordination States :
En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.
Les agents ont deux ensembles d'états, un classique qui répertorie tous les états (hors joint) et un "joint" qui répertorie les états qui sont en collisions avec d'autres agents. C'est à dire accessibles par deux agents ou plus.
L'algorithme utilise alors test de Student pour détecter des changements dans la valeur d'une récompense sur un <état, action> ciblé. Deux situations peuvent arriver :