Differences

This shows you the differences between two versions of the page.

--- realisation_env_grille_cqlearning_cmu_tr_ttg [2025/11/11 23:23]
89.37.188.152 old revision restored (2025/07/07 04:06)
+++ realisation_env_grille_cqlearning_cmu_tr_ttg [2025/11/12 00:50] (current)
192.161.168.91 old revision restored (2025/10/13 01:53)
@@ Line 26: / Line 26: @@
 === CMU ===
-A la 3 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement.
+A la 4 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement.
 Moyenne des sommes des récompenses :\\
-{{:cmu3_rewards.png?500|}}
+{{:cmu2_rewards.png?500|}}
 Moyenne du nombre de collisions :\\
-{{:cmu3_collisions.png?500|}}
+{{:cmu2_collisions.png?500|}}
 Moyenne du nombre d'états joints :\\
-{{:cmu3_nbjs.png?500|}}
+{{:cmu2_nbjs.png?500|}}
 Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisés depuis trop longtemps, ceux-ci sont supprimés. Ils le sont aussi lorsqu'ils indiquent la même action que l'état individuelle.
@@ Line 41: / Line 41: @@
 Voici les stats obtenues en lançant l'expérience 5 fois :
-En moyenne, les agents ont besoin de  -10.9  etapes \\
+En moyenne, les agents ont besoin de  13.6  etapes\\
-Avec un ecart-type de   0.943398113206
+Avec un ecart-type de   6.23217458035
 En moyenne, les agents ont  0.0  collisions \\
 Avec un ecart-type de   0.0
-En moyenne, les agents ont  1.9  etats joints \\
+En moyenne, les agents ont  1.7  etats joints \\
-Avec un ecart-type de   1.13578166916
+Avec un ecart-type de   1.41774468788

DokuWiki

Site Tools

Differences

Page Tools