Differences

This shows you the differences between two versions of the page.

--- realisation_env_grille_qlearning_sma [2025/09/06 18:19]
66.249.68.35 old revision restored (2025/08/11 11:13)
+++ realisation_env_grille_qlearning_sma [2025/09/24 02:42] (current)
156.235.69.42 old revision restored (2025/09/15 10:04)
@@ Line 30: / Line 30: @@
 {{:grille_sma.png|}}
-==== Experience ====
+==== Experience Tunnel To Goal ====
 Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus). Les deux agents essaient d'apprendre une politique optimale, mais se court-circuitent en arrivant devant le tunnel.
-{{:reward_grille_sma_ils.png|}}
+{{:reward_grille_sma_ils.png|}}\\
 (Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
 La récompense de -10 sur la collision à l'entrée du tunnel les empêche d'apprendre la politique optimale
+==== Experience Sans collisions ====
+Même test en prenant une grille dans laquelle il n'y a pas de collisions.
+{{:sans_collisions_sma_grille.png|}}
+On peut voir que la somme des récompenses tend vers un minimum et que les agents ne se perturbent pas.
+{{:sans_collision_sma_grille_ils.png|}}
+(Somme des récompenses des deux agents - l'un en violet, l'autre en marron)

DokuWiki