Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
realisation_env_grille_cqlearning_cmu_tr_ttg

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/02/23 17:41]
47.128.46.94 old revision restored (2025/01/18 19:38)
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/04/04 20:25] (current)
3.22.130.44 old revision restored (2025/04/02 22:12)
Line 3: Line 3:
 Article utilisé : http://www.aamas-conference.org/Proceedings/aamas2010/pdf/01%20Full%20Papers/15_02_FP_0421.pdf Article utilisé : http://www.aamas-conference.org/Proceedings/aamas2010/pdf/01%20Full%20Papers/15_02_FP_0421.pdf
  
-==== Présentation ==== +Synthèse : https://drive.google.com/open?id=0B7dh6En0bP-KRWdBM0VMc1ZvYjA
- +
-Le CQ-Learning permet la coordination d'agentsSon implémentation fait office de surcouche au QLearning qui rend les agents sensibles aux collisions. +
- +
-Les agents suivent leur politique optimale jusqu'à rentrer en collision, c'est alors qu'ils créent un état joint qui leur permettra de se coordonner. La politique optimale n'est jamais mise à jour, les états joints le sont à chaque fois qu'ils sont utilisés. +
- +
-Etant donné que certaines parties de l'article cité plus haut ne sont pas claires, l'algorithme implémenté ici est peut être légèrement différent sur certains points, cependant le principe reste le même. +
- +
-==== Expérience ==== +
- +
-L'algorithme est testé sur trois environnements différents, un Tunnel to Goal (ttg) un cmu (quoi que cela puisse vouloir dire), et un Two Robots Game (tr). +
- +
- +
-CMU +
-{{:cmu_exemple.png?500|}} +
- +
-Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif). +
- +
-Seul les résultats pour le CMU seront montrés. +
-==== Resultats ==== +
- +
-=== CMU === +
- +
-A la 4 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement.  +
- +
-Moyenne des sommes des récompenses :\\ +
- +
-Moyenne du nombre de collisions :\\ +
- +
-Moyenne du nombre d'états joints :\\ +
- +
-Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisés depuis trop longtemps, ceux-ci sont supprimés. Ils le sont aussi lorsqu'ils indiquent la même action que l'état individuelle. +
- +
-Voici les stats obtenues en lançant l'expérience 5 fois : +
-  +
-En moyenne, les agents ont besoin de  13.6  etapes\\ +
-Avec un ecart-type de   6.23217458035 +
- +
-En moyenne, les agents ont  0.0  collisions \\ +
-Avec un ecart-type de   0.0 +
- +
-En moyenne, les agents ont  1.7  etats joints \\ +
-Avec un ecart-type de   1.41774468788 +
- +
realisation_env_grille_cqlearning_cmu_tr_ttg.1740328897.txt.gz · Last modified: 2025/02/23 17:41 by 47.128.46.94