This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/03/03 17:46] 47.128.23.255 old revision restored (2025/01/24 17:42) |
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/04/04 20:25] (current) 3.22.130.44 old revision restored (2025/04/02 22:12) |
||
---|---|---|---|
Line 3: | Line 3: | ||
Article utilisé : http:// | Article utilisé : http:// | ||
- | ==== Présentation ==== | + | Synthèse |
- | + | ||
- | Le CQ-Learning permet la coordination d' | + | |
- | + | ||
- | Les agents suivent leur politique optimale jusqu' | + | |
- | + | ||
- | Etant donné que certaines parties de l' | + | |
- | + | ||
- | ==== Expérience ==== | + | |
- | + | ||
- | L' | + | |
- | + | ||
- | + | ||
- | CMU | + | |
- | {{:cmu_exemple.png? | + | |
- | + | ||
- | Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif). | + | |
- | + | ||
- | Seul les résultats pour le CMU seront montrés. | + | |
- | ==== Resultats ==== | + | |
- | Les moyennes sont effectuées sur 125 itérations. | + | |
- | + | ||
- | === CMU === | + | |
- | + | ||
- | A la 4 000eme itération, la politique devient déterministe, | + | |
- | + | ||
- | Moyenne des sommes des récompenses | + | |
- | {{: | + | |
- | + | ||
- | Moyenne du nombre de collisions :\\ | + | |
- | {{: | + | |
- | + | ||
- | Moyenne du nombre d' | + | |
- | {{: | + | |
- | + | ||
- | Petite optimisation sur les états joints, lorsqu' | + |