Differences

This shows you the differences between two versions of the page.

--- realisation_env_grille_cqlearning_cmu_tr_ttg [2025/07/03 20:10]
216.73.216.192 old revision restored (2025/07/01 03:21)
+++ realisation_env_grille_cqlearning_cmu_tr_ttg [2025/07/06 22:08] (current)
216.73.216.208 old revision restored (2025/07/03 21:47)
@@ Line 3: / Line 3: @@
 Article utilisé : http://www.aamas-conference.org/Proceedings/aamas2010/pdf/01%20Full%20Papers/15_02_FP_0421.pdf
-==== Présentation ====
+Synthèse : https://drive.google.com/open?id=0B7dh6En0bP-KRWdBM0VMc1ZvYjA
-Le CQ-Learning permet la coordination d'agents. Son implémentation fait office de surcouche au QLearning qui rend les agents sensibles aux collisions.
-Les agents suivent leur politique optimale jusqu'à rentrer en collision, c'est alors qu'ils créent un état joint qui leur permettra de se coordonner. La politique optimale n'est jamais mise à jour, les états joints le sont à chaque fois qu'ils sont utilisés.
-Etant donné que certaines parties de l'article cité plus haut ne sont pas claires, l'algorithme implémenté ici est peut être légèrement différent sur certains points, cependant le principe reste le même.
-==== Expérience ====
-L'algorithme est testé sur trois environnements différents, un Tunnel to Goal (ttg) un cmu (quoi que cela puisse vouloir dire), et un Two Robots Game (tr).
-CMU
-{{:cmu_exemple.png?500|}}
-TR
-{{:tr_exemple.png?300|}}
-TTG
-{{:ttg_exemple.png?300|}}
-Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif).
-==== Resultats ====
-Les moyennes sont effectuées sur 125 itérations.
-=== CMU ===
-Moyenne des sommes des récompenses :\\
-{{:cmu_rewards.png?500|}}
-Moyenne du nombre de collisions :\\
-{{:cmu_collisions.png?500|}}
-Nombre d'états joints (contrairement à la légende) :\\
-{{:cmu_nbjs_opti.png?500|}}
-Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisé depuis trop longtemps, ceux-ci sont supprimés.
-Environ 45 JS sont crées si on ne les supprime pas. Ceci peut s'expliquer par le caractère aléatoire des actions des agents (epsilon = 0.05) qui provoque des collisions.

DokuWiki

Site Tools

Differences

Page Tools