This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/12/18 17:39] 47.128.35.19 old revision restored (2025/04/18 13:33) |
realisation_env_grille_cqlearning_cmu_tr_ttg [2026/01/04 01:30] (current) 45.181.121.31 old revision restored (2025/11/20 23:29) |
||
|---|---|---|---|
| Line 3: | Line 3: | ||
| Article utilisé : http:// | Article utilisé : http:// | ||
| - | ==== Présentation ==== | + | Synthèse : https:// |
| - | + | ||
| - | Le CQ-Learning permet la coordination d' | + | |
| - | + | ||
| - | Les agents suivent leur politique optimale jusqu' | + | |
| - | + | ||
| - | Etant donné que certaines parties de l' | + | |
| - | + | ||
| - | ==== Expérience ==== | + | |
| - | + | ||
| - | L' | + | |
| - | + | ||
| - | + | ||
| - | CMU | + | |
| - | {{: | + | |
| - | + | ||
| - | Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif). | + | |
| - | + | ||
| - | Seul les résultats pour le CMU seront montrés. | + | |
| - | ==== Resultats ==== | + | |
| - | + | ||
| - | === CMU === | + | |
| - | + | ||
| - | A la 4 000eme itération, la politique devient déterministe, | + | |
| - | + | ||
| - | Moyenne des sommes des récompenses :\\ | + | |
| - | + | ||
| - | Moyenne du nombre de collisions :\\ | + | |
| - | + | ||
| - | Moyenne du nombre d' | + | |
| - | + | ||
| - | Petite optimisation sur les états joints, lorsqu' | + | |
| - | + | ||
| - | Voici les stats obtenues en lançant l' | + | |
| - | + | ||
| - | En moyenne, les agents ont besoin de 13.6 etapes\\ | + | |
| - | Avec un ecart-type de | + | |
| - | + | ||
| - | En moyenne, les agents ont 0.0 collisions \\ | + | |
| - | Avec un ecart-type de 0.0 | + | |
| - | + | ||
| - | En moyenne, les agents ont 1.7 etats joints \\ | + | |
| - | Avec un ecart-type de | + | |
| - | + | ||