This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/02/15 19:46] 47.128.110.106 old revision restored (2025/01/11 18:00) |
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/04/04 20:25] (current) 3.22.130.44 old revision restored (2025/04/02 22:12) |
||
---|---|---|---|
Line 3: | Line 3: | ||
Article utilisé : http:// | Article utilisé : http:// | ||
- | ==== Présentation ==== | + | Synthèse |
- | + | ||
- | Le CQ-Learning permet la coordination d' | + | |
- | + | ||
- | Les agents suivent leur politique optimale jusqu' | + | |
- | + | ||
- | Etant donné que certaines parties de l' | + | |
- | + | ||
- | ==== Expérience ==== | + | |
- | + | ||
- | L' | + | |
- | + | ||
- | + | ||
- | CMU | + | |
- | {{:cmu_exemple.png? | + | |
- | + | ||
- | Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif). | + | |
- | + | ||
- | Seul les résultats pour le CMU seront montrés. | + | |
- | ==== Resultats ==== | + | |
- | + | ||
- | Voici les stats obtenues en lançant l' | + | |
- | + | ||
- | === CMU === | + | |
- | + | ||
- | A la 3 000eme itération, la politique devient déterministe, | + | |
- | + | ||
- | Moyenne des sommes des récompenses :\\ | + | |
- | {{: | + | |
- | + | ||
- | Moyenne du nombre de collisions :\\ | + | |
- | {{: | + | |
- | + | ||
- | Moyenne du nombre d' | + | |
- | {{: | + | |
- | + | ||
- | Petite optimisation sur les états joints, lorsqu' | + | |
- | + | ||
- | + | ||
- | Stats : | + | |
- | + | ||
- | En moyenne, les agents ont besoin de -10.9 etapes \\ | + | |
- | Avec un ecart-type de | + | |
- | + | ||
- | En moyenne, les agents ont 0.0 collisions \\ | + | |
- | Avec un ecart-type de 0.0 | + | |
- | + | ||
- | En moyenne, les agents ont 1.9 etats joints \\ | + | |
- | Avec un ecart-type de | + | |
- | + | ||
- | + |