Differences

This shows you the differences between two versions of the page.

--- memento-learning-multi-agent-state-space-representations [2025/02/24 17:29]
47.128.43.225 old revision restored (2025/01/19 17:43)
+++ memento-learning-multi-agent-state-space-representations [2025/04/02 17:11] (current)
47.128.96.210 old revision restored (2025/02/12 17:36)
@@ Line 1: / Line 1: @@
-memento-Learning-multi-agent-state-space-representations
+=====Learning multi-agent state space representations=====
+==== Définitions ====
+Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle.
+CQ-Learning : Coordination QLearning
+==== Quelques informations ====
+Markov game -> Système multi-agent avec plusieurs sets d'actions, la proba de transition dépend de s, a et s', récompense unique à chaque agent et une transition.
+Une variante consiste à donner une récompense commune aux agents.
+Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo :
+   * Kok & Vlassis, Utile coordination : Learning indepedenies among cooperative agents.
+   * Spaan & Melo IDMG
+Détails sur l'IDMG :
+   * Interaction Driven Markov Game
+   * Les agents peuvent connaitre la position des autres par la communication ou en les détectant avec les capteurs
+   * Plus de détails sur l'article de Spaan & Melo...
+Learning Coordination States :
+   * Identification des états dans lequel un agent devrait prendre en compte les autres agents quand il choisi une action et qu'il y a besoin de coordination sur celle-ci avec un autre agent.
+==== CQ-Learning ====
+En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.
+Les agents ont deux ensembles d'états, un classique qui répertorie tous les états (hors joint) et un "joint" qui répertorie les états qui sont en collisions avec d'autres agents. C'est à dire accessibles par deux agents ou plus.
+L'algorithme utilise alors test de Student pour détecter des changements dans la valeur d'une récompense sur un <état, action> ciblé. Deux situations peuvent arriver :
+   * L'algorithme détecte un changement, s'en suivent alors les étapes suivantes :
+      - Marquage de l'état
+      - Recherche de la cause du changement
+      - Paire <état, action> marquée comme "dangereuse"
+      - Ajout de l'état à l'ensemble d'états "joint" de l'agent
+      - Les <états, action> qui n'ont pas provoqués la collision sont marqué comme "safe"
+   *  L'algorithme ne détecte aucun changement, aucune instruction n'a lieu
+A chaque fois qu'un état est marqué, l'algorithme regarde si c'est un état joint dans lequel il faut prendre en considération les autres agents.
+Si c'est le cas l'actualsisation de QjValeur de l'état sera effectué avec la formule :
+{{:capture.png?400|}}
+Sinon pas d'actualisation.

DokuWiki

Site Tools

Differences

Page Tools