Site Tools


New release available: 2025-05-14 "Librarian". upgrade now! [56] (what's this?)
Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-learning-multi-agent-state-space-representations

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
memento-learning-multi-agent-state-space-representations [2025/04/18 19:03]
52.15.120.29 old revision restored (2025/02/27 17:48)
memento-learning-multi-agent-state-space-representations [2025/05/20 23:50] (current)
166.108.193.186 old revision restored (2025/05/14 04:24)
Line 1: Line 1:
 =====Learning multi-agent state space representations===== =====Learning multi-agent state space representations=====
  
-==== Définitions ==== 
- 
-   * Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. 
-   * CQ-Learning : Coordination QLearning 
 ==== Quelques informations ==== ==== Quelques informations ====
  
Line 26: Line 22:
 ==== CQ-Learning ==== ==== CQ-Learning ====
  
-En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. 
- 
-Les agents ont deux ensembles d'états, un classique qui répertorie tous les états (hors joint) et un "joint" qui répertorie les états qui sont en collisions avec d'autres agents. C'est à dire accessibles par deux agents ou plus. 
- 
-L'algorithme utilise alors test de Student pour détecter des changements dans la valeur d'une récompense sur un <état, action> ciblé. Deux situations peuvent arriver : 
-   * L'algorithme détecte un changement, s'en suivent alors les étapes suivantes :  
-      - Marquage de l'état 
-      - Recherche de la cause du changement 
-      - Paire <état, action> marquée comme "dangereuse" 
-      - Ajout de l'état à l'ensemble d'états "joint" de l'agent 
-      - Les <états, action> qui n'ont pas provoqués la collision sont marqué comme "safe" 
-    L'algorithme ne détecte aucun changement, aucune instruction n'a lieu 
- 
-A chaque fois qu'un état est marqué, l'algorithme regarde si c'est un état joint dans lequel il faut prendre en considération les autres agents. 
-Si c'est le cas l'actualsisation de QjValeur de l'état sera effectué avec la formule : 
- 
-{{:capture.png?400|}} 
- 
-Sinon pas d'actualisation. 
  
  
  
  
memento-learning-multi-agent-state-space-representations.1744995833.txt.gz · Last modified: 2025/04/18 19:03 by 52.15.120.29