Differences

This shows you the differences between two versions of the page.

--- realisation_env_grille_cqlearning_cmu_tr_ttg [2025/04/19 07:23]
3.17.156.160 old revision restored (2025/03/07 19:26)
+++ realisation_env_grille_cqlearning_cmu_tr_ttg [2025/05/21 23:36] (current)
3.147.104.221 old revision restored (2025/05/14 07:28)
@@ Line 23: / Line 23: @@
 Seul les résultats pour le CMU seront montrés.
 ==== Resultats ====
-Les moyennes sont effectuées sur 125 itérations.
+Voici les stats obtenues en lançant l'expérience 5 fois consécutives :
 === CMU ===
+A la 3 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement.
 Moyenne des sommes des récompenses :\\
-{{:cmu_rewards.png?500|}}
+{{:cmu3_rewards.png?500|}}
 Moyenne du nombre de collisions :\\
-{{:cmu_collisions.png?500|}}
+{{:cmu3_collisions.png?500|}}
+Moyenne du nombre d'états joints :\\
+{{:cmu3_nbjs.png?500|}}
+Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisés depuis trop longtemps, ceux-ci sont supprimés. Ils le sont aussi lorsqu'ils indiquent la même action que l'état individuel.
+Stats :
+En moyenne, les agents ont besoin de  -10.9  etapes \\
+Avec un ecart-type de   0.943398113206
+En moyenne, les agents ont  0.0  collisions \\
+Avec un ecart-type de   0.0
+En moyenne, les agents ont  1.9  etats joints \\
+Avec un ecart-type de   1.13578166916
-Moyenne du nombre d'états joints (contrairement à la légende) :\\
-{{:cmu2_nbjs_opti.png?500|}} \\
-Petite optimisation sur les états joints, lorsqu'ils n'ont pas été utilisé depuis trop longtemps, ceux-ci sont supprimés.
-A la 4 000eme itération, la politique devient déterministe, l'agent ne peut plus choisir d'actions aléatoirement. Il n'y a plus de collisions surprise et donc seul les états joints utiles sont gardés.

DokuWiki

Site Tools

Differences

Page Tools