Site Tools


New release available: 2025-05-14 "Librarian". upgrade now! [56] (what's this?)
Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
realisation_env_grille_cqlearning_cmu_tr_ttg

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/04/19 07:23]
3.17.156.160 old revision restored (2025/03/07 19:26)
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/05/21 23:36] (current)
3.147.104.221 old revision restored (2025/05/14 07:28)
Line 23: Line 23:
 Seul les résultats pour le CMU seront montrés. Seul les résultats pour le CMU seront montrés.
 ==== Resultats ==== ==== Resultats ====
-Les moyennes sont effectuées sur 125 itérations.+ 
 +Voici les stats obtenues en lançant l'expérience 5 fois consécutives :
  
 === CMU === === CMU ===
 +
 +A la 3 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement. 
  
 Moyenne des sommes des récompenses :\\ Moyenne des sommes des récompenses :\\
-{{:cmu_rewards.png?500|}}+{{:cmu3_rewards.png?500|}}
  
 Moyenne du nombre de collisions :\\ Moyenne du nombre de collisions :\\
-{{:cmu_collisions.png?500|}}+{{:cmu3_collisions.png?500|}} 
 + 
 +Moyenne du nombre d'états joints :\\ 
 +{{:cmu3_nbjs.png?500|}} 
 + 
 +Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisés depuis trop longtemps, ceux-ci sont supprimés. Ils le sont aussi lorsqu'ils indiquent la même action que l'état individuel. 
 + 
 + 
 +Stats : 
 +  
 +En moyenne, les agents ont besoin de  -10.9  etapes \\ 
 +Avec un ecart-type de   0.943398113206 
 + 
 +En moyenne, les agents ont  0.0  collisions \\ 
 +Avec un ecart-type de   0.0 
 + 
 +En moyenne, les agents ont  1.9  etats joints \\ 
 +Avec un ecart-type de   1.13578166916 
  
-Moyenne du nombre d'états joints (contrairement à la légende) :\\ 
-{{:cmu2_nbjs_opti.png?500|}} \\ 
  
-Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisé depuis trop longtemps, ceux-ci sont supprimés. 
  
-A la 4 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement. Il n'y a plus de collisions surprise et donc seul les états joints utiles sont gardés. 
realisation_env_grille_cqlearning_cmu_tr_ttg.1745040215.txt.gz · Last modified: 2025/04/19 07:23 by 3.17.156.160