Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-learning-multi-agent-state-space-representations

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
memento-learning-multi-agent-state-space-representations [2025/03/05 17:22]
47.128.50.18 old revision restored (2025/02/10 19:47)
memento-learning-multi-agent-state-space-representations [2025/04/02 17:11] (current)
47.128.96.210 old revision restored (2025/02/12 17:36)
Line 3: Line 3:
 ==== Définitions ==== ==== Définitions ====
  
-   Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. +Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. 
-   * CQ-Learning : Coordination QLearning+CQ-Learning : Coordination QLearning
 ==== Quelques informations ==== ==== Quelques informations ====
  
Line 25: Line 25:
  
 ==== CQ-Learning ==== ==== CQ-Learning ====
- 
-=== Gérer la coordination === 
  
 En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.
Line 47: Line 45:
  
 Sinon pas d'actualisation. Sinon pas d'actualisation.
- 
-"Generalising over coordination state" -> les joint states et joint actions sont toujours observés -> trop d'états a observer. 
- 
-Il faut alors réduire l'ensemble des états en apprenant une généralisation plus haute que les états. 
- 
- 
-=== Gérer les collisions === 
- 
-Comment gérer les collisions ? 
-   * Utiliser les connaissances rassemblées durant l'exécution 
-   * Adapter l'ensemble des états vers une représentation "factorisée centrée sur les agents" (traduction approximative pour agent-centric factored) 
- 
-   * Centrée sur agent -> car la représentation est relative à l'agent et son contexte (exemple : bouge au nord) 
-   * Factored -> indique que les états sont représentés par l'utilisation de set de variables aléatoire (valeurs prises dans un domaine borné). 
- 
-Question : 
-   * Je ne vois pas à quoi sert le coté factored et de cette histoire de valeurs aléatoires. A quoi s'en sert-on ? 
- 
-Utilisation d'un réseau de neurones. 
- 
--> Entrainement en utilisant les actions préférées a1 et a2 des états s1 et s2. 
--> La localisation absolue est "refactore" en une distance relative entre les agents. 
- 
-L'entrainement du réseau est donc fait avec les actions préférées a1 et a2, et Δ(x) et Δ(y). 
- 
-Chaque agent utilise un réseau de neurone pour généraliser ses états "safe" et "dangerous". 
- 
-Pour chaque échantillon, Δ(x) et Δ(y) sont déterminés et stockés avec une variable booléenne qui indique s'il y a eu collision ou non. 
-En pratique le réseau peut servir à l'agent pour savoir s'il doit regarder un certain endroit en fonction de l'action choisie. 
- 
- 
  
  
  
  
memento-learning-multi-agent-state-space-representations.1741191779.txt.gz · Last modified: 2025/03/05 17:22 by 47.128.50.18